――そもそも統計的な予測というのは、どんなものなのでしょうか。
椿)将来予測は、統計の専門家がずっと研究してきたテーマのひとつです。たとえば心臓移植が試みられるようになって50年以上たちますが、その裏では、移植するとどれぐらい長く生きられるかを予測する手法が発展してきました。これらの手法はその後、製造業での故障の予測などにも応用されていっています。
統計的な予測というのは、過去のデータをもとに、入力変数と、予測したいできごととの関係を近似する数学的なモデルをつくることです。たとえば出生率を予測するなら、婚姻率や晩婚化が入力変数になり、その婚姻率や晩婚化といった変数は、さらに分解して経済状況などから予測します。そうやって関係式を組み合わせ、いわば巨大な連立方程式のようなものをつくっていくんです。
自然科学的な現象や社会、経済などのある種のダイナミズムで動いているものは、こうした関係式の組み合わせによって予測できます。
――いまでは「予測マシン」としての人工知能(AI)も注目されています。
椿)センサー類が安くなって多くのデータが集められるようになり、コンピューターの計算能力も上がったことで、予測の精度がかなり高まりました。
「人工知能」という言葉はあいまいですが、機械学習と最適化計算の複合技術と言えるかもしれません。内部的な統計データにもとづいて学習して、最適な予測モデルを近似しているのです。その意味では、人間の統計学者がやってきたことと同じです。
ただし、精度が高いとして注目されている深層学習などの場合、分かるのは結果だけです。大量の入力データを多段階にわたって変換したり、結合したりすることで、入力データと出力データとの関係の潜在的な構造を表しているため、どんなモデルを近似しているかは人間には解釈できない問題があります。こうした潜在構造を見るモデルは、本質的に解釈不能なんです。「ブラックボックスアプローチ」と呼ばれるゆえんです。
――中身が分からなくても予測の精度が高ければいい、という考え方もあると思いますが、ブラックボックスだと困ることがあるんでしょうか。
椿)予測の使い方によるのですが、たとえばものづくりなどで故障を予測しようとすると、予測できるだけじゃなくて、なぜそうなるのかの解釈が重要です。
いま製造業の開発現場で何が行われているかというと、深層学習などで予測モデルができたら、それをベンチマークにして、これまでの知見を生かした関係式の組み合わせによるモデルで、それに近づかないか、と考え直しているのです。人間の組み立てたモデルなら解釈可能ですから、そこから原因と故障との因果関係が分かれば、ほかの分野にも応用できる。一般化できるんです。
一方で、ブラックボックスでも構わない分野もあります。
――どんなものでしょうか。
たとえば文字認識です。これは、過去のデータを機械学習し、ある文字を見せられたときに、それがどんな文字にあたるのかを予測する技術です。予測というより認識と言うほうがいいかもしれませんが、ロジックは予測と同じです。
これは文字を分解したデータから予測していくのですが、文字の断片が文字になるメカニズムはありません。文字はメカニズムで生まれるのでなく、人間が単にこうだと決めているだけだからです。画像認識もそうですが、こうしたものにはブラックボックスアプローチは非常に有効だと思います。
――いま世の中にさまざまな「予測」があふれていますが、予測できないものというのはあるんでしょうか?
椿)人間は、難しいですよね。人間の行動のメカニズムは、よく分かっていないんです。人間の行動を予測しようというモデルもありますが、なかなか精度が上がらない。保険のように「大数の法則」(※)がきくマクロの場合は別ですが、誰がどうするといったミクロの行動の予測というのは、難しいかもしれません。
――経済予測も当たらない印象があります。
川崎)マクロ経済の予測モデルでは、貨幣需要の方程式とか、投資を決める方程式とかを組み合わせて予測していきます。でもひとつひとつは妥当なように見えても、組み合わせたときになかなかうまくいかない難しさがあります。
さらに、いま扱えるのはかなりざっくりした集計データなんです。それをもとに成長率の前年比のブレといった細かいことを当てようとしても、もともとがそういった予測が可能な精度を持ち合わせたデータ群なのか、という悩ましさがあるんです。マクロ経済を基礎づけるミクロ経済についての議論は精緻(せいち)になりましたが、ではそのミクロな統計を取れるかというと、なかなか取れないんです。
また、経済についても人の行動の計量は難しいです。たとえば技術革新というのは、本質的に予見ができないものです。技術革新が予測できない以上、長期的な予測はどうしても難しくなってしまいます。
――株価はどうでしょうか。
川崎)こちらもなかなか芳しくないですね。平時においては、ランダムな確率を取り込むことで全体をうまく説明できていることがあるんです。ところが有事においては、確率分布がひどくゆがんでしまう。たとえば、サイコロをふる前提でモデル化していたものが、ある日突然、1しか出ないサイコロになってしまった、みたいなことが起きるんです。
――逆に、統計的な予測で、ここが有望だという分野はあるんでしょうか。
川崎)直接、予測と言えるかどうかは分かりませんが、マテリアルインフォマティクスと呼ばれる分野は非常に盛り上がっています。ある効能を持っている薬物などの物質で、まだ見つかっていないものを探索していくのに統計学、機械学習の技術を使っていきます。研究所にも、民間企業からの申し込みがたくさんきています。あとひとつは、天文ですかね。
椿)天文学に機械学習や統計学を応用していくアストロインフォマティクスという分野は、国際的にはものすごく盛り上がっています。ブラックホールの写真が撮影できたというニュースがありましたが、この写真の解析にも、ノイズを排除して本来の信号を浮かび上がらせるためにスパースモデリングという統計技術が使われています。この解析は、当研究所も支援しています。
――本当にさまざまな分野に統計が使われているんですね。
椿)一番重要なことは、どう使うかということです。統計にしても、機械学習にしても、ひとつの社会技術です。技術そのものはニュートラルですが、探索だったり、検証だったり、意思決定だったり、目的は全部存在するんです。そして目的にあった技術を使っていかなくてはいけません。技術には適用範囲があるのです。
――予測についても、どんな技術を何にどう使うかは、人間が考えなくてはいけない、ということですね。
椿)とにかく予測できればいいということではなく、なにをつかって予測して、予測のうえで意思決定できるかということを考えなくてはいけないんです。
たとえば自治体が出生率を予測するとき、労働人口、婚姻率、出生件数とかは動かすことのできない変数です。一方で税収をどう配分するとか、学校の数とか、動かせる変数もあります。そういう政策変数がどう効いているかを知りたいのに、なんでもかんでも入れると、予測の精度は上がるかもしれませんが、すべて見えなくなってしまいます。
また、人工知能を機械学習と最適化の複合技術だとすると、なにを「最適」とするかが問われます。なにに価値があるかを決めて、それにかかわる変数の関係を考えるのは、人間のやることです。それを、データサイエンティストがマネジメントできないといけないんです。
――そのデータサイエンティストの需要が高まっていると言われています。
川崎)統計数理研究所でも公開講座を開いていますが、社会人の方が7割ほど。多くが情報通信企業の方々です。各企業が、データサイエンティストを自社で育てるというところまではいっていないのが現状ではないでしょうか。企業内でこうした能力を持っている人が評価されるような土壌がないと、いいキャリアパスになっていきません。
椿)海外を見ていると、すべての分野で統計の人がいるんです。歴史学、博物学、みんな統計です。米国ではいま、統計専門職が3万6000人いると言われています。それが2026年までに34%増加ということで、4万5000人ぐらいまでになってしまう。
米国の場合は、数学職の統計専門家と、インフォメーション・アンド・コンピューターサイエンティストというふたつの専門職があって、このふたつの真ん中がデータサイエンティストです。米国は専門職の文化ですから、役割分担が割とはっきりしています。
日本でも、学校の授業で統計を教える時間は長くなってきていますが、海外に比べるとまだ薄い。米国などでは、1990年代以降、数学教育が、数学をどう活用するかを重視する方向になっています。日本ももう少し、数学をどう使っていくかということを教える時間が必要なのかもしれません。
◆椿広計(つばき・ひろえ) 1956年生まれ。専門は応用統計学。筑波大学教授、総合研究大学院大学教授などを経て、2019年4月から統計数理研究所長。
◆川崎能典(かわさき・よしのり) 1965年生まれ。専門は計量経済学及び時系列解析。統計数理研究所准教授を経て、2015年に教授。同年から人材育成などを担う同所統計思考院の院長を兼務。
■10月特集「『予測』という名の欲望」連続インタビューを連日配信します。