声から出身地がわかる　スマートスピーカーがプロファイリングする世界

あなたの知らないAIの世界更新日：2019.10.01 公開日：2019.05.11

AI（人工知能）という言葉を聞かない日はない。生活の隅々に浸透し、私たちはその便利さを享受している。しかし私たちは「AIとは」をどれほど正しく理解しているだろうか。万能の利器に見えるこの技術が社会につくった「落とし穴」の正体を探り、AI社会で生きるための知恵を考える。第6回は、スマートスピーカーなど音声認識の世界にある「格差」を取り上げる。<第6回目／全7回>

【この連載の前の記事】

音声誤認識で数千人ビザ取り消しか

英国で3万人近い留学生がビザの発給を取り消され、5000人近くが国外退去処分になるという事件があった。しかも、その中には7000人規模の「冤罪」が生じている可能性があるという。原因となったのが、音声認識の精度だった。

フィナンシャル・タイムズやガーディアンの報道によると、発端は2014年2月に明らかにされたBBCの調査報道だった。外国人留学生へのビザ発給の条件となる英語能力検定試験「TOEIC」で、組織的な替え玉受験が行われている、と告発するものだった。

この疑惑を受け、TOEICを運営する米国の「エデュケーショナル・テスティング・サービス（ETS）」が内部検証を実施する。

検証の対象となったのが、受験生たちのスピーキングの音声ファイルだ。音声認識機能を使って、複数の音声ファイルが同一人物によるものだと認定されれば、替え玉受験の可能性が高い、との見立てだった。

その結果、約3万4000件の受験を替え玉と認定。加えて2万2000件以上を替え玉の疑いがあるとした。

この調査結果に基づいて、英内務省は2万8000件を超すビザの発給拒否や取り消しを行い、4600人以上が国外退去処分となった。その7割がインド人。そして当時の内務相が2016年から首相を務めるテリーザ・メイ氏だった。

このビザ取り消し処分は訴訟となる。

その中で、ETSが使った音声認識の精度は80％程度にすぎなかった、との指摘が出されているという。つまり、無効とされた3万4000件のうち、7000件程度は誤認定の疑いがあることになる、とフィナンシャル・タイムズは指摘している。

ただ、ETSは十分な情報開示をしていないため、音声認識の精度を見極めることはできない、との専門家の証言もあるという。

この問題の調査を求める声は、英議会でも上がっている。

スマートスピーカーの聞き取り格差

AIを使ったスマートスピーカーに話しかけてもきちんと認識されず、「わかりません」を繰り返したり、全く関係ない反応をしたりする。そこにAIのバイアスはあるのか─ワシントン・ポストは2018年7月19日、独自の実験結果を公開した。

ポストの実験でカギになっているのは、英語の発音のアクセント（なまり）に対する、聞き取り精度の差だ。

米国のネイティブと、中国やインドなどの出身の非ネイティブを比較すると、その聞き取り精度には明らかな違いが出た。

ワシントン・ポストが実験に使ったのは、市場を席巻するアマゾン・エコーとグーグル・ホームの2機種。ポストのオーナーが、アマゾンCEOのジェフ・ベゾス氏であるという情報開示もしている。

二つの専門機関の協力で、米国とカナダの合わせて約20都市、100人以上を対象に全部で数千件にのぼる音声コマンドを試してもらった。

専門機関の一つ、テクノロジー製品のローカライズを手がける「グローバルミー」が、まず70の音声コマンドについて検証している。

その結果、グーグル・ホームの音声認識の精度が83％だったのに対し、アマゾン・エコーの精度は86％。

さらに、米国のネイティブは地域によって「西部」「中西部」「東部」「南部」、移民は第一言語によって「インド」「中国」「ヒスパニック」の7分類で比較した。

ネイティブに対する音声認識でも、グーグルとアマゾンでは違いが出ている。

グーグルでは「西部」「中西部」「東部」「南部」の順で精度が下がっていくが、アマゾンでは「南部」「東部」「西部」「中西部」の順。

非ネイティブでは、両社とも「インド」「中国」「ヒスパニック」の順で精度が落ちていた。

グーグルでは、最も精度の高かった「西部」（86％）と、同じ米国内で最も精度の低かった「南部」（83・1％）でも約3ポイントの開き。さらに最も精度の低かった「ヒスパニック」（79・8％）と比べると6ポイントを超す開きがあった。

同様にアマゾンでも、最も高かった「南部」（89・1％）と、米国内で最も低かった「中西部」（87％）で約2ポイントの開き。最も低かった「ヒスパニック」（81・8％）とは7ポイントを超す開きがあった。

「次の曲をかけて」「ソウルをかけて」「全部の曲をかけて」「最近かけたプレイリストをかけて」「もう一度かけて」といった、コンテンツ操作に限ると、発音による認識精度の違いはさらに広がった。

グーグルでは、最も高かった「東部」（91・8％）と最も低かった「ヒスパニック」（79・9％）で11・9ポイントの開き。

アマゾンでも、最も高かった「南部」（91・0％）と最も低かった「中国」（81・5％）で9・5ポイント差となった。

もう一つの専門機関、音声テストのベンチャー「パルスラボ」が行ったのは、3本のニュースの見出しを対象者に読み上げてもらい、それをアマゾン・エコーで使われているAI「アレクサ」の認識結果と比較する、という実験だ。

スマートスピーカーでは、まずユーザーが話しかけた言葉を音声認識で文字化し、その文字化された文章から自然言語処理でコマンドとして認識し、指示を出す、という処理をしている。

実験では、元のニュース見出しと、音声認識で文字化したものが、どれぐらい違っているかを数値化（「レーベンシュタイン距離」）し、ネイティブと非ネイティブで比較している。

「レーベンシュタイン距離」では、元の文字列と出力（音声認識）された文字列の違いを、その修正回数（挿入・削除・置換）でカウントするため、数値が高い方が認識精度は低いことになる。

それによると、ネイティブと非ネイティブの比較では、非ネイティブの方が30％も数値が高かった、という。

AIサービスへの「アクセシビリティ」という点では、格差は確かに存在しているようだ。

なまりから出身地を判定

アマゾンの音声認識テクノロジーは、あなたがどこの出身かを政府に通知することができる─調査報道メディア「インターセプト」は2018年11月15日、そんなタイトルの記事を掲載した。

それによるとアマゾンが同年10月9日付で、ユーザーの声の認識によって様々な属性を判定し、それに見合ったコンテンツや広告を配信する仕組みに関する特許を取得した、という。

その具体例として、アマゾンの特許にはこう記されている。

「ユーザーの話し方や声の入力の一部に基づいて、音声の特徴を判定する。例えば音声の特徴には、ユーザーの性別や年齢もしくは年齢層、民族的な出自もしくは言葉のなまり、気分、ユーザーがいる場所の背景の雑音なども含まれる。その結果、端末に提供されるコンテンツは、デバイスの所有者ではなく、その時のユーザーに特化したものになる」

提供コンテンツには、広告も含まれる、としている。

これは、音声認識によるプロファイリングのテクノロジーということになる。そこには様々なバイアスが入り込む可能性がある。

インターセプトが注目するのは、「民族的な出自もしくは言葉のなまり」の部分だ。

「アラブなまりの英語を話すユーザー」「スペイン語なまりのユーザー」のグループのデータについて、連邦捜査局（FBI）や米移民税関捜査局（ICE）などが、テロ対策、不法移民対策の理由で提出要求する、といったシナリオについての専門家の指摘を紹介する。

ただ、インターセプトの取材に対し、アマゾンは、これがあくまで予備的な特許取得である、と述べる。

「当社は将来的な展望に立ち、新たなテクノロジーの最大限の可能性を見通した、多くの特許申請をしています。特許は承認に数年を要し、必ずしも現在のプロダクトやサービスの開発を反映したものではありません」

顔認識と同じような音声認識による監視も、現実味を帯びてくるのかもしれない。

※次回は5月18日（土）に掲載予定です

本書は『悪のAI論　あなたはここまで支配されている』（平和博〔著〕、朝日新聞出版）の第2章「差別される―就職試験もローン審査もAI次第？」の転載である。