車は声で操作する時代へ　音声認識の市場を握る米企業、そのノウハウは

くるま新世紀更新日：2019.10.25 公開日：2019.10.21

中央高速を走行中、メルセデス・ベンツに「ラーメンが食べたい」とお願い。ナビの画面に近くでラーメンが食べられる飲食店のリストが並んだ。選択すると目的地に設定される＝中川仁樹撮影

短期集中連載「くるま新世紀　デジタル時代の開発最前線」＃３　音声認識「ハイ、メルセデス」のCMが話題になったメルセデス・ベンツのAクラス。AIスピーカーのようにドライバーと車が「会話」する姿に未来を感じた人も多いだろう。自動運転の時代が訪れ、ハンドルやペダル、スイッチが絶対に必要なものでなくなったとき、車との「意思疎通」の有力な手段と考えられているのが音声だ。ただ複雑な人間の言葉をシステムが正確に理解するのは、まだ簡単ではない。、AI（人工知能）による学習技術の力を借りて、いつか車が「話のわかる相棒」になる日が来るだろうか。（中川仁樹）

■「ラーメン食べたい」で、店を表示

メルセデス・ベンツAクラスに搭載された音声認識の機能は、MBUX（メルセデス・ベンツ・ユーザー・エクスペリエンス）と呼ばれる情報システムに組み込まれている。メルセデスの車種で、最も小型のAクラスに最新鋭のシステムを搭載したことでも業界を驚かせた。

Aクラスに乗り込み、MBUXを体験してみた。早速、「ハイ、メルセデス」と運転姿勢で話すと、女性の声で「どうぞ、お話しください」と答えた。音声認識システムがオンになった合図だ。1980年代に大ヒットした米テレビドラマ「ナイトライダー」に出てくるロボットカー「キット」のようで楽しい気分になる。

最初はちょっと恥ずかしいが、主に反応するのは「メルセデス」という単語なので、「ハイ」という陽気な呼びかけなしでも答えてくれる。日本でよく使われる「ベンツ」という言葉には反応しない点は要注意だ。メルセデス・ベンツは、グローバルでは「メルセデス」と呼ばれることが多く、親しみを持ってもらうために、こういう設定になったという。

続いて、「温度を26度に設定して」と指示すると、「26度にします」と声がして、エアコンの設定が変わった。細かな指示も可能で、「助手席は21度に」というと、助手席側の温度が変わる。「暑い」「寒い」という言葉にも反応し、そのまま1度ずつ温度を上げ下げしてくれる。この程度の指示なら、普通に話しても大丈夫だし、車の声も、スマホのAIと比べても自然な響きに聞こえる。

メルセデス・ベンツの音声認識システムでは、室内灯の色や明るさ、エアコンの温度設定、スライディングルーフの開閉などが操作できる。車の走行や安全に関わる機能は指示できない＝2019年9月7日、中央高速、中川仁樹撮影

次に中央自動車道を走り、ナビの操作に挑戦。「目的地を相模湖に」と言うと、「項目をお選びください」と答え、相模湖周辺のコンビニやガソリンスタンドの名前がモニターに並んだ。その中から選んで目的地を設定できる。「ラーメンが食べたい」と言ったら、近くの店を並べてくれた。

ただ「トイレを探して」や「おいしいとんかつを食べたい」は理解されず、「もう一度、お話しください」と聞き返されてしまった。「キャンセル」と言えば、システムは解除される。

ほかにも室内のライトの色や明るさの変更、スライディングルーフの開閉など様々な操作が声でできる。走る、止まる、曲がる、窓を開けるといった車の安全に直接関わる操作はできないが、言葉を理解しないこともたびたびあったので、逆に安心できると感じた。

■「トヨタは好き？」にメルセデスの答えは

少し意地悪な質問もしてみた。

「冗談を言って」とお願いすると、「すいません。道路を見るのに忙しいのです」。繰り返して頼むと、「すいません。私をつくったエンジニアはドイツ人なのです」とジョークで返された。「トヨタは好き？」には「真夜中のドライブと同じぐらい好きですよ」、「俺のこと好き？」には「愛こそはすべて」。なかなか冗談のわかるAIだ。メルセデス・ベンツ日本によると、ドライバーらが楽しめるよう、ちょっとしたジョークを盛り込んだ「イースターエッグ（隠しコマンド）」がシステムに仕込まれているのだという。

指示を正しく理解してもらうコツは、「温度を上げて」など、名詞と動詞を明確に話すことだ。はっきり話せば、関西弁でもかなり理解してくれた。マイクはサンバイザーの近くにあるため、そこに向けて話すのも効果的。車内の騒音が邪魔にならないよう、ノイズキャンセリングもかけている。また、一般的なマイクの指向性を考えれば、男性の低い声の方が女性の声より聞き取りやすい可能性もある。

ちょっと面倒だったのが、会話の中に「メルセデス」という言葉が出ると、すぐにシステムが反応してしまうこと。それが煩わしい場合はシステムをオフにするか、「ベンツ」など別の言葉を使う必要がある。

ただ、慣れない車に乗ったときでも、すぐに操作できるのは大きな魅力だ。特に運転中にスイッチを探したり、操作したりするのは危険を伴う。現代の車は機能が高度化し、操作も複雑になる一方だ。覚えきれない機能もたくさんある。自動運転の時代になれば、その傾向はさらに強まるだろう。そう考えると、今後は音声認識システムの重要性が高まっていくのではないだろうか。

メルセデス・ベンツが、最も小型のAクラスに最新の音声認識システムを搭載したことは、自動車業界を驚かせた＝2019年9月6日、神奈川県、中川仁樹撮影

■世界の新車の半数に載っている、米セレンスのAI音声認識システム

自動運転の時代を見据え、自動車各社がアイデアを競っている分野の一つが、HMI（ヒューマン・マシン・インターフェース）技術。つまりドライバーと車がどのように情報をやりとりするかだ。最近はテスラのように大型のモニターを搭載し、情報の表示や操作ができる車種が増えてきた。スマートフォンのアプリが利用できるシステムも広がっている。

中でも音声認識は、劇的に車の操作を簡単にすると期待されている。BMWも昨年末ごろ、ほぼすべての新しいモデルへの採用を始めた。こちらは「OK、BMW（オーケー、ビー・エム・ダブリュー）」で作動するのが基本設定だが、「たなか」のように好きな言葉に変更することもできる。

実は、メルセデス・ベンツとBMWのシステムは、ともに音声認識の技術で世界をリードする米IT企業ニュアンス・コミュニケーションズの車載部門が開発したもの。ニュアンスは自動車以外でも、テレビ向けの音声インターフェース「ドラゴンTV」を開発しており、2017年に米テレビ界で最高の栄誉とされるエミー賞の技術・工学部門を受賞した。

車載部門は10月1日、セレンス・インクとして独立した。「音」のスペシャリストであるセレンスの技術は、カーオーディオなどでも使われており、なんと世界の主要な自動車メーカーや部品メーカーすべてと取引がある。17年の世界の新車販売のうち、ほぼ半分にあたる4650万台に同社の技術が載っていた。

米IT企業のニュアンスの音声認識システムは車への組み込み型とクラウド型を併用。様々な機能に活用されている＝ニュアンス（現セレンス）の資料から

セレンス・ジャパンのシニア・プリンシパル・テクニカル・エクスパートである石川泰は「メルセデスやBMWの音声認識システムは好評。これからの車には不可欠の装備になる」と自信を示す。

セレンスの強みは他を圧倒する言語データの蓄積だ。世界の60言語以上に対応し、英語の場合、アイルランドや南アフリカ、インドなどのアクセントにも対応する。中国語も北京語など5言語に対応。それぞれの言語には、音声合成で男女複数の声も用意している。日本だけでも地名は42万、施設なら数百万あり、これに対応可能な技術を一からつくるのは莫大な労力と資金が必要になる。「関西弁は？」と石川に尋ねると、「方言のデータも収集して対応しているが、決して別の言語ではない」と笑った。

ニュアンスの音声認識システムは60言語以上に対応する。英語や中国語などは、国や地域で違うアクセントにも対応している＝ニュアンス（現セレンス）の資料から

AIの学習方法にも独特のノウハウがあるという。データの蓄積があっても、正確にAIに「理解させる」のは簡単ではない。同じ言語でも個人によって語順やアクセントなどに微妙な違いがあり、特に日本語はアクセントがわかりにくい。AIは、例えば「雨」と「飴」をアクセントで区別しないので、意味や前後の関係から、認識するしかないという。

そこでポイントとなるのが、文章を解析し、音が分かれるポイントを見極めて、意味を抽出する技術だ。「渋滞のため遅れます」という文を分解すると、「渋滞」は「重大」や「10」「代」と間違える可能性がある。「渋滞の」と広げると、「中」「体毛」や「中華」「芋」という間違いの可能性も出てくる。そのためAIは、それぞれの言葉が連続して現れる可能性などを計算し、意味を特定していく。また、国道246号沿いにある「マクドナルド246座間店」なら「246のマクドナルド」のように、単語の順番が前後してもわかるようにしているという。

「渋滞のため遅れます」と話した場合、AIシステムは以下のような可能性を検討し、出現確率などを考慮して、適切な意味を判断するという＝ニュアンス（現セレンス）の資料から

逆にAIが話す場合も、似たような言語の処理技術が重要になる。

母国語以外の固有名詞の扱いも難しい。特に英語の歌手名や地名は世界中で使われているので、どの言語でも認識できるようにする必要がある。例えば「ニューヨーク」や「ポール・マッカートニー」といった単語を、それぞれの言語の発音でも認識できるようにするわけだ。同様に、欧州で販売する車は国境を越えて走ることも多いので、ドイツ語のシステム設定でも、フランス語やイタリア語の地名に反応するようになっている。

セレンスのシステムは、組み込み型とクラウド型を併用して動作している。AIの進歩はめざましく、今後は使えば使うほどシステムがユーザーのことを学習し、適切なアシストをしてくれるようになるという。石川は「同じ質問に対する反応が、技術の進歩により1年後にはまったく違うこともある」と話した。（つづく）