1. HOME
  2. 特集
  3. もう語学はいらない?AI翻訳
  4. AI翻訳「前後の編集で、誤訳はぐっと減らせる」 飛躍的進化のひみつは脳の神経回路

AI翻訳「前後の編集で、誤訳はぐっと減らせる」 飛躍的進化のひみつは脳の神経回路

Learning 更新日: 公開日:
立教大・山田優教授(本人提供)

冷戦時代 米国のロシア語解読から始まった翻訳システム開発 

ーーAI翻訳の精度が、ここ7、8年で飛躍的に向上しています。なぜですか?

背景には、翻訳技術の仕組みの進化があります。現在にいたるまでの翻訳システムの変化を整理すると、第1世代から第3世代まで大きく三つに分類できます。

第1世代は、「ルールベース機械翻訳」(RBMT)と呼ばれるものです。これは1970年代よりも前に開発・確立された手法です。主語の後に動詞がくるといったような言語的ルールに基づいてコンピューターが原文を解析し訳文を作ります。

一言一句訳すので「訳抜け」が起きないといったメリットがある半面、できあがった文章は直訳調で自然さに欠けるという欠点がありました。

ーーそもそもどうして、翻訳システムの技術開発が行われるようになったのでしょうか?

冷戦時代、米国がロシア語を解読する必要に迫られ、国家予算でロシア語の翻訳者を育成するのと、翻訳システムをつくるのでどちらがコスパが良いかを検討し、AI翻訳の開発が選ばれました。

米国の国家プロジェクトとして進められたのですが、結局、思うような結果が得られず、10年ぐらいで頓挫します。上述したRBMTが当時の成果です。

その後、1980年代にこの分野の大家であった京都大学の長尾真教授が人間の翻訳者がどのように翻訳をするかを観察し、文法はそれほど重視せず、単語やフレーズをそのまま置き換えていることに着目しました。

AI翻訳においてもその手法を採り入れようと考えたわけです。これが「用例ベース機械翻訳」という仕組みです。ただ、実用化のためには大量の対訳データベースが必要でした。

この流れを受けてインターネットの発展とともに1990~2000年代には、第2世代の「統計的機械翻訳」(SMT)が実現します。ネットなどで収集した膨大な対訳データ(原文と訳文のペア)をコンピューターで統計計算をして訳文を作り出します。

データがたまるほど翻訳の質が向上し、RBMTよりも品質は高くなりました。欧州言語の組み合わせでは、高品質な翻訳を生成できるようになりましたが、英語と日本語の組み合わせでは同じレベルは達成できませんでした。

また単語やフレーズごとに翻訳していくので、ぎこちない訳文になることが少なくありませんでした。

膨大なデータを学習 人間の脳を模したネットワークで飛躍

ーー私が初めてAI翻訳を使ったのもこの時期でした。ただ正直、「まだ仕事には使えないな」という印象でした。

それを劇的に変えたのが、2010年代に登場した、第3世代の「ニューラル機械翻訳」(NMT)です。Google翻訳が2016年、この技術を使って英語と日本語の翻訳精度を飛躍的に上げて関係者に衝撃が走りました。

ーー第2世代とどう違うのですか?

NMTは、人工知能(AI)の一種であるニューラル学習を活用した翻訳システムです。人間の脳の神経回路を模したニューラルネットワーク学習技術を使って、膨大なデータを学習し、翻訳精度を向上させます。

この手法では、原文をいちどベクトル数値に変換し、近い数字の単語やフレーズを計算して選び出し、それをふたたび訳文に変換します。また文全体や複数の文をひとつの翻訳単位としてとらえることもしています。

アルファベットをかざす子どものイメージ写真
写真はイメージです=gettyimages

ーーベクトル数値化ですか……うーん、素人にはなかなか理解が難しいですね。

人間の頭の中で起きていることを考えると、日本語で「猫」を英語にする場合、脳内では「猫」というイメージがあって、それを「cat」という単語に置き換えています。AI翻訳では、このイメージにあたる部分を数値に置き換えます。

たとえば、「飼う」という単語と「吸引する」という単語を考えてみましょう。多くのデータベースを収集して解析したら、「飼う」の近くには「犬」「猫」という単語が多く集まっているのがわかりました。これらの単語は近くで共起しているのです。

一方で、「吸引する」の周りには「犬」「猫」はほとんど現れず、逆に「掃除機」のような語が頻出していました。これらを単語埋め込みという方法で数値化すると、「犬」と「猫」は近い数字で表され、「掃除機」は遠い数字で表現されます。

これが、意味の距離のようなものに近く、我々の脳内でイメージするようなものに対応します。

ーーなるほど、頭の中で連想しやすい単語を結びつけて覚えているようなものですね。

そうですね。ただ単語という記号を置き換えるのではなく、単語と単語の並びから連想されるものに置き換える感じですね。そして、流暢(りゅうちょう)な単語の並びの文章を生成してくれるので、NMTはネイティブのようななめらかな翻訳をしてくれます。

これを飛躍的に向上させたのが、Googleの開発した「トランスフォーマー」というシステムです。

翻訳の品質の判断基準は、「何を伝えたいか」「どのように伝えたいか」

ーー第3世代のAI翻訳はどの程度の実力だと考えればいいのでしょうか?

日本語から英語への翻訳ライティングにおいては、TOEIC960点レベルを超えており、流暢さにおいても人間と比較して遜色が少ないと言われています。

私はAI翻訳の品質を判断するための説明をするとき、「何を伝えたいか(命題)」と「どのように伝えたいか(モダリティー)」の二つの構成要素で説明します。

たとえば、「山田さんが大学に来たかもしれないね」という文章では、命題は「大学に来た」という要素になります。命題は文で伝えるべき内容のメッセージ「何を言いたいのか」に対応します。

一方、モダリティーは、そのメッセージを「どう」伝えたいのかに関わります。流暢さやネイティブらしさなどの要素です。この場合は「かもしれないね」の部分になります。

これが、たとえば「来たぜ」「来たんだ」に変わっても、命題には関係せず、モダリティーが変わるだけです。

AI翻訳はこのモダリティーが向上したので、とても自然なネイティブらしい文章に翻訳されているように見えます。でも、命題に関しては、いまだに少しミスをすることがある。

だから、とても流暢に訳されている分、間違いを見逃しやすくなっています。意図しない「訳抜け」や勝手な省略、数字や固有名詞を的確に訳せないといった欠点もまだあります。

機械(AI)翻訳のコツ

ーーこうした誤訳を防ぐにはどうしたらいいのでしょうか?

AI翻訳をうまく使いこなすカギは、翻訳をする「前」にあります。翻訳したい文章をそのままAI翻訳にかけるのでなく、AIが翻訳しやすいように、入れる前に文章を編集しておくことが必要です。

これをプリエディティング(前編集)といいます。たとえば、「かわいいハンバーガーを食べる少女に決めました」という日本語の文章を英語に翻訳するためにAI翻訳にかけると、「I decided on a girl eating a cute hamberger」と訳されてしまいます。

これを「ハンバーガーを食べるかわいい少女に決めました」と語順を変えるだけで、「I decided on a cute girl eating a hamberger」と訳文の質が上がります。

また、主語を省略せず、長い文章は区切って1文を短くシンプルにするだけでも訳文の質がグンと上がります。

慣用句も注意が必要です。「私は猫舌なので、先に食べて下さい」という日本語の文章を入れると、そのまま「I have a cat tongue,so please eat first」と直訳してしまいます。

そこで、「私は熱い食べ物が苦手なので、先に食べて下さい」と書きかえると、正しく訳してくれます。

また、異文化コミュニケーションの問題ですが、日本語特有のあいまいさを残した表現もAI翻訳は苦手です。

「その提案は少し難しいかもしれません」という日本語をAI翻訳にかけると、「That suggestion may be a little difficult」と訳されてしまい、事実上は提案を断っていることが伝わりません。こうした場合は、より明示的な表現に書きかえる必要があります。

他にも数字をアラビア数字に統一したり、漢字にできる単語は漢字表記にしたりといった工夫をするだけでもだいぶ誤訳を防ぐことができます。

さらにAI翻訳をした「後」も重要です。翻訳システムが出した英文の命題が間違っていないかをチェックしていきます。これをポストエディット(後編集)と言います。

とくに数字や固有名詞を気をつけて見ていくことが重要です。たとえば、AI翻訳の場合、「2018年」を「18年」と入力すると、AIが「平成」の年号と判断して「2006年」と誤って訳してしまうことがあります。

さらに、「逆翻訳」してみることも有効です。英文に訳された文章を日本語に再度翻訳し、誤訳が生じていないかチェックするのです。こうすると、最終的な英文の品質を上げる手助けになります。
(後編に続く)