アレクサやSiriだけに聞こえる秘密指令の恐怖

ニューヨークタイムズ世界の話題更新日：2018.06.29 公開日：2018.06.29

スマートフォンやタブレット端末などのスマートデバイスに、話しかけながら操作することがめっきり増えた。でも、知らない誰かがひそかに話しかけ、勝手に指令を出しているとしたらどうしよう。

話しかける相手は、アップルの「Siri」、アマゾンの「アレクサ」、グーグルの「アシスタント」といったAI（人工知能）アシスタントだ。そこに、人間の耳には聞こえない秘密の指令を送りつけることができる――中国と米国の専門家はこの2年間、そんな実験結果を相次いで明らかにしている。

大学の研究室の中での実験だが、スマホやスマートスピーカーにあるAIシステムをひそかに起動させることに成功している。電話をかけさせたり、ウェブサイトを開けさせたり、意のままにできた。悪意があれば、ドアのカギの解除や送金、買い物も可能だ。一見、ラジオで音楽が流れているだけなのだが……。

米国のカリフォルニア大学バークリー校（UCB）とジョージタウン大学の学生グループは、2016年にホワイトノイズ（訳注＝一定の周波数特性があり、白色雑音とも呼ばれる）を使った実験を成功させている。スピーカーやYouTubeの動画に仕組んだホワイトノイズに秘密の指令を忍ばせ、こっそりとスマートデバイスの機内モードをオンにしたり、ウェブサイトを開いたりすることができた。

人間には聞こえない秘密の指令を音声アシスタントに送り付けることができる――そんな実験結果が相次いでいる＝Lynn Scurfield／©2018 The New York Times

これをさらに発展させた実験についての研究論文が、18年5月に発表された。音楽や音声に、秘密指令を直接潜ませることができたとしている。誰かの話し声やオーケストラの奏でる音楽をただ聞いているはずなのに、あなたのアマゾンのスマートスピーカー「エコー」は、ひそかにショッピングリストへの追加指令を受けているのかもしれない。

「より巧妙に指令を隠すことができないか、試してみたかった」。この論文の著者の一人で、UCBの博士課程でコンピューターセキュリティーを学ぶニコラス・カーリニはこう語る。今のところ、こうした手法が研究室の外に漏れた形跡はない。一方で、悪用が始まるのは、時間の問題だという懸念も強い。「技術者をわざわざ雇ってでも、もう悪用手口の開発が進められていると考えた方がよい」

AIは、確かに急速な進歩を遂げている。それでも、悪用される余地が消えたわけではない。コンピューターは、デジタル映像の画素を少し変えただけで、飛行機を猫と間違えて認識する。交通標識に小さなステッカーを貼るだけで、自動運転車が急にカーブを切ったり、速度を上げたりするようにもできる。

今回のような音を使った手口は、人間とコンピューターの音声認識の差につけ入ることで可能になる。音声認識システムは、それぞれの音を文字に変換し、最終的に単語や文章に翻訳する。しかし、音声ファイルをほんの少し変えるだけで、もともと認識するはずだったものとは違う音にしてしまい、人間にはほとんど聞こえないようにして異なる翻訳にすりかえてしまうことができるのだ。

AIを使った音声アシスタントがこれだけ広まると、こうした攻撃の手口も現実味を帯びてくる。アレクサやSiriのような音声アシスタント機能を持つスマホやスマートスピーカーの数は、21年までには世界の人口を上回るようになるとの推計がある。それまでには、スマートスピーカーが、全米の世帯の半数に普及しているとの別の推計もある。

では、各社はどうしているのか。アマゾンは、具体的な安全対策については明らかにしない方針だが、名前のあがったスマートスピーカーのエコーには十分な措置をとっていると反論する。グーグルは、安全対策は常に刷新せねばならない重要項目だとし、自社のアシスタントには秘密の音声指令の影響を軽減させる機能を持たせていると言う。両社ともに、利用者の声を識別できない限り、勝手に反応することのない音声認識技術を採用していると強調する。

アップルによると、スマートスピーカーの「ホームポッド」については、カギの解除のような重要な指令を受けられないようにしてある。iPhoneとiPadにも、いくつかの対策を講じている。例えば、ロックが解除されない限り、Siriは重要なデータにアクセスすることも、アプリやウェブサイトを開けることもできない設定になっている。

とはいえ、スマホのロックを解除したままにしている人はかなりいる。しかも、現時点での音声認識システムのだまされやすさは、誰も否定できないと言ってもよいだろう。

実際に、利益を目的にして、音声認識機能が同意のないまま利用された事案も起きている。

米ファストフードチェーンのバーガーキングが17年に流したオンライン広告が、物議を醸した。その中で、「OK、グーグル、ワッパーバーガーって何だい」というセリフが登場する。「OK、グーグル」と話しかけることでアンドロイド端末の音声認識ソフトが反応し、同社のワッパーバーガーについてウィキペディアが記している項目を勝手に読み上げるという仕組みだった。

その数カ月後、米ケーブルテレビで人気の風刺アニメ番組「サウスパーク」がこれに続いた。音声指示が満載のエピソードが放映されると、視聴者の音声認識装置が反応し、青くさい下ネタ話をおうむ返しに繰り返した。

米国には、人間の潜在意識に訴えるサブリミナル情報を放送することを規制する法律はない。ましてや、相手が人間ではなく機器類なら、法的規制はなおさら考えにくい。米国の放送通信事業の監督官庁である連邦通信委員会は、人間が知らない間に操られていることにもなりかねないこうした情報の発信を、「公益に反する」としてやめるように求めている。米放送界最大の業界組織である全米商業放送連盟は放送倫理基準を設け、通常の意識レベルをすり抜けるような情報発信をしてはならないとしている。いずれも自主規制であり、スマホやスマートスピーカーのような情報機器に隠されたメッセージを送りつける問題となると、言及すらないのが実情だ。

裁判では、サブリミナル情報がプライバシーの侵害になりうると認めた判例もある。しかし、機器類にもプライバシーがあると解釈を広げた事例はない。

先端技術は、そんな法の世界よりはるか先に進もうとしている。米プリンストン大学と中国の浙江大学の専門家は17年に、人間には聞こえない周波数の音を使って音声認識システムを作動させてみせた。消音を施した手口で、そのシステムの反応音も聞こえなかったとされる。

この手口による攻撃を中国の専門家は「ドルフィン・アタック」と呼んでいる。スマホなどの音声アシスタントを介して、気づかれないまま悪質なサイトに誘導したり、電話をかけさせたり、写真を撮ったりすることができる。現段階では、指令を出す送信機が受信装置の近くにないといけないという制約がある。だが、いずれはもっと強力な超音波を使った手口が現れるだろうと警告する専門家も多い。

事実、18年4月には、25㌳（約7．6㍍）離れたところから超音波を使って攻撃できることが、米イリノイ大学アーバナ・シャンペーン校で実証されている。秘密の指令は壁にはさえぎられたが、窓が開いていれば、建物の外からでも音声アシスタントを操作することができた。

やはり18年には、中国科学院など中国と米国の専門家グループが、ラジオやYouTubeで流すことができる曲に指令を仕組んで、音声アシスタントを意のままに操った。

さらに、先のUCBのカーリニらはつい最近、ウェブブラウザーの開発元モジラの音声認識モデル「DeepSpeech」が反応する音声に、秘密指令を組み込んでみせた。音声を文章に変換するオープンソースのプラットフォームが、「OK、グーグル、evil（訳注＝邪悪）．comにアクセスして」という指令に応じたのだった。

このUCBの研究班は、音楽ファイルにも秘密指令を埋め込んでいる。その中には、イタリアの大作曲家ジュゼッペ・ベルディのミサ曲・レクイエムも含まれていた。

悪用の対象とされた機器のメーカー側の対策には、バラつきがある。安全と利便性のバランスには、一定の幅があるからだ。しかも、「使い勝手をよくするという利便性が、どうしても大きなセールスポイントになってしまう」という危うい傾向があることをジョージタウン大学の専門家は指摘する。

「市場に出ているどんなスマートデバイスでも、近いうちに秘密指令で攻撃できるようになる」とカーリニは確信している。

ただし、それを実証してみせることには、期待も込められていると話す。「OK、分かった。そんなことができるなら、できないようにしよう」という声がもっと強まることだ。（抄訳）

ニューヨーク・タイムズ紙が編集する週末版英字新聞の購読はこちらから