■「ラーメン食べたい」で、店を表示
メルセデス・ベンツAクラスに搭載された音声認識の機能は、MBUX(メルセデス・ベンツ・ユーザー・エクスペリエンス)と呼ばれる情報システムに組み込まれている。メルセデスの車種で、最も小型のAクラスに最新鋭のシステムを搭載したことでも業界を驚かせた。
Aクラスに乗り込み、MBUXを体験してみた。早速、「ハイ、メルセデス」と運転姿勢で話すと、女性の声で「どうぞ、お話しください」と答えた。音声認識システムがオンになった合図だ。1980年代に大ヒットした米テレビドラマ「ナイトライダー」に出てくるロボットカー「キット」のようで楽しい気分になる。
最初はちょっと恥ずかしいが、主に反応するのは「メルセデス」という単語なので、「ハイ」という陽気な呼びかけなしでも答えてくれる。日本でよく使われる「ベンツ」という言葉には反応しない点は要注意だ。メルセデス・ベンツは、グローバルでは「メルセデス」と呼ばれることが多く、親しみを持ってもらうために、こういう設定になったという。
続いて、「温度を26度に設定して」と指示すると、「26度にします」と声がして、エアコンの設定が変わった。細かな指示も可能で、「助手席は21度に」というと、助手席側の温度が変わる。「暑い」「寒い」という言葉にも反応し、そのまま1度ずつ温度を上げ下げしてくれる。この程度の指示なら、普通に話しても大丈夫だし、車の声も、スマホのAIと比べても自然な響きに聞こえる。
次に中央自動車道を走り、ナビの操作に挑戦。「目的地を相模湖に」と言うと、「項目をお選びください」と答え、相模湖周辺のコンビニやガソリンスタンドの名前がモニターに並んだ。その中から選んで目的地を設定できる。「ラーメンが食べたい」と言ったら、近くの店を並べてくれた。
ただ「トイレを探して」や「おいしいとんかつを食べたい」は理解されず、「もう一度、お話しください」と聞き返されてしまった。「キャンセル」と言えば、システムは解除される。
ほかにも室内のライトの色や明るさの変更、スライディングルーフの開閉など様々な操作が声でできる。走る、止まる、曲がる、窓を開けるといった車の安全に直接関わる操作はできないが、言葉を理解しないこともたびたびあったので、逆に安心できると感じた。
■「トヨタは好き?」にメルセデスの答えは
少し意地悪な質問もしてみた。
「冗談を言って」とお願いすると、「すいません。道路を見るのに忙しいのです」。繰り返して頼むと、「すいません。私をつくったエンジニアはドイツ人なのです」とジョークで返された。「トヨタは好き?」には「真夜中のドライブと同じぐらい好きですよ」、「俺のこと好き?」には「愛こそはすべて」。なかなか冗談のわかるAIだ。メルセデス・ベンツ日本によると、ドライバーらが楽しめるよう、ちょっとしたジョークを盛り込んだ「イースターエッグ(隠しコマンド)」がシステムに仕込まれているのだという。
指示を正しく理解してもらうコツは、「温度を上げて」など、名詞と動詞を明確に話すことだ。はっきり話せば、関西弁でもかなり理解してくれた。マイクはサンバイザーの近くにあるため、そこに向けて話すのも効果的。車内の騒音が邪魔にならないよう、ノイズキャンセリングもかけている。また、一般的なマイクの指向性を考えれば、男性の低い声の方が女性の声より聞き取りやすい可能性もある。
ちょっと面倒だったのが、会話の中に「メルセデス」という言葉が出ると、すぐにシステムが反応してしまうこと。それが煩わしい場合はシステムをオフにするか、「ベンツ」など別の言葉を使う必要がある。
ただ、慣れない車に乗ったときでも、すぐに操作できるのは大きな魅力だ。特に運転中にスイッチを探したり、操作したりするのは危険を伴う。現代の車は機能が高度化し、操作も複雑になる一方だ。覚えきれない機能もたくさんある。自動運転の時代になれば、その傾向はさらに強まるだろう。そう考えると、今後は音声認識システムの重要性が高まっていくのではないだろうか。
■世界の新車の半数に載っている、米セレンスのAI音声認識システム
自動運転の時代を見据え、自動車各社がアイデアを競っている分野の一つが、HMI(ヒューマン・マシン・インターフェース)技術。つまりドライバーと車がどのように情報をやりとりするかだ。最近はテスラのように大型のモニターを搭載し、情報の表示や操作ができる車種が増えてきた。スマートフォンのアプリが利用できるシステムも広がっている。
中でも音声認識は、劇的に車の操作を簡単にすると期待されている。BMWも昨年末ごろ、ほぼすべての新しいモデルへの採用を始めた。こちらは「OK、BMW(オーケー、ビー・エム・ダブリュー)」で作動するのが基本設定だが、「たなか」のように好きな言葉に変更することもできる。
実は、メルセデス・ベンツとBMWのシステムは、ともに音声認識の技術で世界をリードする米IT企業ニュアンス・コミュニケーションズの車載部門が開発したもの。ニュアンスは自動車以外でも、テレビ向けの音声インターフェース「ドラゴンTV」を開発しており、2017年に米テレビ界で最高の栄誉とされるエミー賞の技術・工学部門を受賞した。
車載部門は10月1日、セレンス・インクとして独立した。「音」のスペシャリストであるセレンスの技術は、カーオーディオなどでも使われており、なんと世界の主要な自動車メーカーや部品メーカーすべてと取引がある。17年の世界の新車販売のうち、ほぼ半分にあたる4650万台に同社の技術が載っていた。
セレンス・ジャパンのシニア・プリンシパル・テクニカル・エクスパートである石川泰は「メルセデスやBMWの音声認識システムは好評。これからの車には不可欠の装備になる」と自信を示す。
セレンスの強みは他を圧倒する言語データの蓄積だ。世界の60言語以上に対応し、英語の場合、アイルランドや南アフリカ、インドなどのアクセントにも対応する。中国語も北京語など5言語に対応。それぞれの言語には、音声合成で男女複数の声も用意している。日本だけでも地名は42万、施設なら数百万あり、これに対応可能な技術を一からつくるのは莫大な労力と資金が必要になる。「関西弁は?」と石川に尋ねると、「方言のデータも収集して対応しているが、決して別の言語ではない」と笑った。
AIの学習方法にも独特のノウハウがあるという。データの蓄積があっても、正確にAIに「理解させる」のは簡単ではない。同じ言語でも個人によって語順やアクセントなどに微妙な違いがあり、特に日本語はアクセントがわかりにくい。AIは、例えば「雨」と「飴」をアクセントで区別しないので、意味や前後の関係から、認識するしかないという。
そこでポイントとなるのが、文章を解析し、音が分かれるポイントを見極めて、意味を抽出する技術だ。「渋滞のため遅れます」という文を分解すると、「渋滞」は「重大」や「10」「代」と間違える可能性がある。「渋滞の」と広げると、「中」「体毛」や「中華」「芋」という間違いの可能性も出てくる。そのためAIは、それぞれの言葉が連続して現れる可能性などを計算し、意味を特定していく。また、国道246号沿いにある「マクドナルド246座間店」なら「246のマクドナルド」のように、単語の順番が前後してもわかるようにしているという。
逆にAIが話す場合も、似たような言語の処理技術が重要になる。
母国語以外の固有名詞の扱いも難しい。特に英語の歌手名や地名は世界中で使われているので、どの言語でも認識できるようにする必要がある。例えば「ニューヨーク」や「ポール・マッカートニー」といった単語を、それぞれの言語の発音でも認識できるようにするわけだ。同様に、欧州で販売する車は国境を越えて走ることも多いので、ドイツ語のシステム設定でも、フランス語やイタリア語の地名に反応するようになっている。
セレンスのシステムは、組み込み型とクラウド型を併用して動作している。AIの進歩はめざましく、今後は使えば使うほどシステムがユーザーのことを学習し、適切なアシストをしてくれるようになるという。石川は「同じ質問に対する反応が、技術の進歩により1年後にはまったく違うこともある」と話した。(つづく)
連載「くるま新世紀 デジタル時代の開発最前線」
- 自動運転の計算力(10月19日)
- 地球6000周分の道路を学ぶ学習力(10月20日)
- ジョークも話せるクルマの語学力(10月21日)
- 物流業界が熱い視線を送る輸送力(10月22日)
- 6億台の力でナビマップ作成、その地図力(10月23日)
- 楽しさの演出もカギになる(10月24日)
- 自動運転、日本が世界で戦うために必要なこと(10月25日)