■日本が出遅れた理由
――なぜここまでデータサイエンスが世界的に注目されているのでしょうか。
まず、計測の技術が進歩していることが理由の一つです。スマートフォンのセンサーも含めて、位置情報がとれるとか、ウェブサイトを見るとそれが記録されるとか、データがどんどん取れる時代で、そこで、それをどう使うかがビジネス的に大事になってきているんですね。
ここ10年ぐらいで、スマホ、Suicaなどのカード、ポイントカード、QRコードなど、個人の属性がひもづいたデータがたくさん取れるようになりました。それまでは人間の行動はなかなか測りにくくて、交通量も、人があちこちに座ってカチカチやっていましたよね。いまなら、携帯の情報を使えば、どこに何人ぐらいいるか分かる。データが取れる領域が広がってきたのが大きくて、それを利用している企業が強くなっている。
――そんな大量のデータの分析を手がけるのがデータサイエンスということになると思いますが、なぜ日本は出遅れたんでしょうか。
統計専門家が、アメリカに比べるともともと少ないんです。統計の勉強は研究室単位でやっていて、統計専門の学部や学科がありませんでした。だから、そもそも人材の量が少ない。それがかなりネックになっていると思います。
米国では、ウォールストリートで「クオンツ」(数学や統計学を駆使して市場を分析し、資産を運用する手法)とかをやっていて、いろんな手法を知っているひとが突然、医療系のデータサイエンティストになるようなことがある。そうやっていろいろな分野を渡り歩いて、最終的にコンサルタントとして独立するみたいなこともある。その点、日本は学問も縦割りでした。
――たしかに米国では宇宙物理学者から、マーケティングアナリストになるとかいう話も聞きます。
そうです。日本でも、物理系の博士とかでも、統計分析していた経験をもとにデータサイエンティストとして成功しているひとは多いんです。米国ではすでにそうなっている。さらに、ふつうの事業会社でもデータサイエンティストがいる。日本はそこに遅れてしまったんですね。
■「日本の数学教育が、数学嫌いをつくっている」
――体系的に学ぶ場がなかったということなんでしょうか。
個人では、勉強しているひとは多いでしょう。でも米国では、統計学の修士が年間4000人ぐらい出ている。日本はまだゼロです。(今年4月に開設された滋賀大学大学院のデータサイエンス研究科が、統計学を体系的に学ぶ初の大学院になる)
――中学とか、高校の教育にも課題はありそうです。
日本の高校の数学はレベルは高いんですが、社会的に応用できるものが少ない。能力をはかっているという意味ではいいけれど、役に立つ数学ということよりも、受験用になっているんです。
これは中学からそうですが、文字の計算など、答えがきれいに出るものが試験に出ます。問題をつくるほうも、きれいにとけるものをつくる。ところが現実はそうでもない。そこら辺が日本の数学教育のよくないところで、数学嫌いをつくっちゃってるんです。社会的な関心があって、数量的な話が必要な分野はあるんですが、そこを生かすことができていない。理学系、工学系に行く人は別ですが、残念ながら一般的には受験が終わったら数学はもういいや、みたいなことになっちゃう。それは国力にも影響しているんじゃないかと思っています。
――最近では、高校でも文系で統計を教える方向になってきました。
自分としては期待しています。それは、そういう課題が分かって文部科学省もカリキュラムに入れてるんだと思います。でも、問題は残っていて、統計の話は入試にはちょっと出しづらいんです。データの解釈の問題が残っちゃうんですよね、統計って。だから、どれが正しいっていうのが言いにくい学問なんです。日本の入試は、やたら正解がきちんと決まるところを重視しているし、採点の公平性とかも気にするので、統計の話は出しにくいんです。特に数学の問題としては。でも世の中に出たら、常に正しい答えなんかないんだから、もっと教える機会があっていいと思います。
■AIにできること、できないこと
――データサイエンティストというのは、なにを学んだ人、ということになんるんですか。
そこそこ統計の理論も勉強して、プログラミングもできる人たちです。数式は分かるけど、プログラミングできないというのでは、仕事にならない。もちろん昔の計算機科学のように、CPUの構造とか、計算機の本質をどうこうというのではなく、データ分析についてはパッケージ化されたソフトを使うこともあります。ただ、アルゴリズムをプログラムに落とし込むこともできないといけない。パッケージソフトって、使うものによって結果が違ったりするんです。そうしたときに、自分でも簡単なプログラミングができないと、なにかを信用することができない。確認できないですから。
――ソフトの後ろで何が起きているかは、理解しなくてはいけないんですね。
ソフトを使えるだけでいいじゃないかと思うかもしれませんが、プログラムを書いて、簡単な挙動は確認するとか、そういうことは必要です。
さらにその背後で動いている数学も一定、理解しないといけません。いまAI、AIと言われますけど、実際のところメーカーなどからデータ分析の相談を受けると、最新のディープラーニング(深層学習)とかでやるのはそんなに多くないんです。画像を使うとなるとディープラーニングも使えますけど、そういう例はそんなに多くなくて、ほとんど昔の統計的手法ですむ。
まず最初は可視化すること、記述統計をとるとか、グラフにするとか、そんなことが必要です。データが増えているから、どう見せるかは昔とは違う面もありますけど、データがあったら、どうグラフにするかとかを考えるのも結構大きい。AI、AIとは言っても、実態はそんなものです。だから統計もちゃんと知らないとダメだよって言っています。自分が統計出身だからかもしれませんが。
――ただ、一方で伝統的な統計を学ぶだけではダメだということもありますね。
データの取り方が変わってきているんです。たとえば経済だと、昔はマクロデータだけですよね。逆にマーケティングなんかだと、個人の消費行動とかを調べていた。ビッグデータ、たとえばコンビニの持っているようなデータなどを組み合わせて経済状況を把握するのに使っていくとか、そういうところは遅れています。
■統計調査とビッグデータの違い
――従来の統計調査のデータとビッグデータ、扱い方が違うということですか。
違います。ただし、国の統計調査みたいなものは、ちゃんとやらなくちゃいけない。それは強調しておかなくてはいけません。ビッグデータがあればいいみたいなことを言う人もいますが、それも間違っていて、ビッグデータは結構、取られ方によってバイアスが入っている。それをどうやって直すかというと、ふつうの統計調査をやらないと分からないんです。だから両方必要なんです。それを組み合わせて使える人材が求められているんです。
――これはそもそもの話ですが、データサイエンスというのは、科学なんだろうかと思うこともあるんですが。
これはうまい造語ですが、学問的なサイエンスというイメージとはちょっと違うでしょうね。データ分析は、ビジネス、あるいは政府が使うことが増えてきている。しかし、科学研究自体についても、データが増えてきているので研究のあり方が変わってきている。昔だったらまず理論的なことを考えて、データをそれを実証させるために使う感じですが、最近はデータのほうがたくさんある。そういう意味で、サイエンスのあり方が変わってきていることは言えると思います。
――するとデータサイエンスは、学究的なものというよりは、もうけが出せるとか、政策がつくれるとか、そういう実用的な側面が強いということですか。
現状はそうですね。やっぱり経済的な競争力の源になっていて、破壊的なビジネスが出てきて、人々の暮らしを変えているところがあって、そこの影響力が大きいと思います。
――そうしたデータ分析は、よりいっそう広まっていくということですか。
そうですよね。データが増えている事実、背景があるので。特に産業競争力の意味では必要です。もちろんデジタルプライバシーとか、考えなくちゃいけないこともありますけれど、まずは世界的な競争の中で、やっぱりやっていかないと。特に日本としてはIoTとか製造現場でのデータ活用とかは、これから重要になります。逆に言うとネット通販などではアメリカに負けちゃっているので、もう少しがんばらないといけないとも思いますが。
■熟練の技、継承にも一役
――ものづくりのところも、データをうまく活用できないと負ける可能性があるということですね。
そうすると、ちょっとピンチになっちゃいますよね。強みがあるところを残していかないと。日本にはデータを使った品質管理の伝統とか文化がありますが、まだまだやる余地があります。
データを利用して不良品をふるい落とすとか、故障を予測するとか、世界中でやっているけれども、日本もやっていかなくてはいけない。さらに、熟練の技術をどう継承するか。人づてに伝えてきた熟練の技術みたいなものをデータにもとづいて明示化、可視化、モデル化して機械に置き換えていくことというようなこともできるでしょう。
それは別に人間がいらないということじゃありません。でも、今でも下積みをして技術を覚えろというのは厳しくなってきている。そういう教育的な面でも、データサイエンスは役に立つと思います。機械と人間が協力するイメージですね。
――そこでデータサイエンティストが活躍するわけですね。
「熟練のひとだったら、どういうことをしているか」を確認してデータ化して、データだけで説明できないかを考える感じです。
――それはAIではできないのですか。
両面あります。データがたくさんあれば、機械的にまねできるものもあるでしょう。画像判別とかは、そういうものかなとも思うんです。でも、もう少し踏み込んで、その熟練のひとの行動を理解したいとか、熟練のひとのどういう行動が効果的かを考えたいとかいうのであれば、データサイエンティスト自身が熟練のひとのどういう特徴を見るべきかを考えることもあります。
――そうすると、データサイエンティストの中には、現場を知らなくてはいけないひともいるんですね。
それは大事ですね。現場から離れてデータ分析に特化しているという人もいることはいます。いろんな事例を知ったうえで、こうすればうまくいくんじゃないかとか、ちょっと抽象的なところをやるひとたちです。一方で、それぞれの分野の人の、それぞれの領域の知識に基づいたデータ分析も有効です。だから完全に外側にいるコンサルみたいなひとと、もっと現場に近いところにいて、最近のデータ分析の手法だとこういうことができそうだと分かっている人と、両方必要なんですよね。専門家としてのデータサイエンティストと、現場に近いところの人と。
――いまの日本には、どちらの人材が必要なんでしょうか。
両方ですね。両方とも足りないのが現状なんです。
竹村彰通(たけむら・あきみち) 1952年、東京生まれ。ピアニストをめざして東京芸術大に進学した後、東京大経済学部に入り直して統計学を専攻。東京大教授などを経て、2015年に滋賀大学へ。データサイエンス学部の創設に力を尽くし、同学部が創設された17年から学部長。