【PR】「状況を読み、自律的に動くロボット」研究 60カ国からの学生が切磋琢磨【MBZUAIセミナー後編】
※前編はこちらからおよみいただけます
私は東大に約30年勤めて、2020年3月に定年退職した。その後、東大上席研究員を経て、24年3月からMBZUAIに呼ばれて仕事をしている。
ロボティクス学科のスタートは同年8月。AI関係8学科の一つで、AIのいろんな分野を研究している最先端の方々が本当に目と鼻の先、袖すり合うところにいるのがMBZUAIの特徴だ。ものすごく刺激が多い。
ロボティクス学科の教員は9人。計画では21人ぐらいの構成にしたい。これは、以前に務めていた東大の知能機械情報学専攻での人数で、そのぐらいいないと相乗効果が生まれづらいからだ。
電気・情報工学分野の学術研究団体IEEEの専門学会が主要な会議・雑誌などから算出した大学ランキングでは、MBZUAIはロボティクスの分野で世界27位。東大のロボティクスは11位。実態から言うと東大はもっと上のはずだが、英語圏の順位が高く出やすい。
実は、この27位にランクした時点で業績がカウントされた教員は9人のうち5人だけで、ほかの先生方もたくさん業績を上げていることを考えると、近いうちに、このランキングでMBZUAIはきっと東大を抜くと思う。
私の研究は、(人間の形をモデルにした)ヒューマノイドロボットがAIで身体を持つということがどういうことなのか。
東大にいる時から20年強、言葉・言語とロボットの関係を研究してきた。簡単にいえば、運動データから言語表現を作る。
運動データを細かく切り、統計的に分類して、その一連の動きと、説明に使われる単語の統計データを混ぜる。すると、動きから言葉が作られたり、言葉から動きが作られたりする。
「青空文庫」という著作権が切れた出版物の約1万冊のテキストデータを学生と全部読ませて、運動と運動を説明する文章の、テキスト情報を融合させるとどんな言語的な世界が広がるか、ということも試した。
たとえばロボットがホワイトボードに図形を何度か描くとき、ホワイトボードが動いたり角度が違っていたり、変化がある。こういう違う環境にデータを再利用することを「リターゲティング」という。
ヒューマノイドロボットを遠隔操作し、箱をつかんで移動させる。この学習データを使って、大きさや重さの違う箱をどう扱うか。
制御理論を使ってリターゲティングする。人の運動から獲得したデータをヒューマノイドロボットに使わせて、シミュレーションをしたり実験で合わせたり、これが今ヒューマノイドロボットのAIの使い方の中心になってきている。
ここでやりたいのは「自律型ヒューマノイドロボット」。何やれこれやれと言われなくともその場に応じて必要な仕事を見つけてきて、きちんとこなしていく。
そのとき大事なのは、「第1人称の視点」になる。つまり、ロボットに備え付けられたカメラで世界を見て、そのカメラに映る世界で自分がどういう環境にいて、周り人がどんな行動をして、自分に何をやってほしいという言動を示しているか。その人と近くにいる人の人間関係も計算しながら自律的に次の問題を考えて行動を決定するロボットだ。
これは、周囲の状況から大規模言語モデル(LLM)を使ってストーリーを作り、現状を解釈して、果たすべきタスクを見つけてきて行動を生成する。そのとき毎回やることが変わると困るので、ある程度そのロボット社会的に期待されているペルソナ(人格)も作り上げながら、一貫した答えを出していく。
たとえば、ロボットが図書館の職員の役割を担っていて、学生が本を探しているときにどう対応をするか。リクエストを身体の動きと言葉から理解して、ちゃんと仕事をする、といったことだ。
(生成AIの基盤でもある)LLMは、信じられないぐらい高解像度でいろんな文字、テキスト、文章を作ってくれる。なので、(動きを撮影した)ビデオデータを見せて、それを3つの違う観点から言葉にさせる。
まず「運動」の観点から、細かく分割した運動を意味は考えずに言葉にさせる。2番目はそれを「イベント(事象)」レベルで、イベントが起きたかを説明させる。
最後に、一連の内容を「ストーリー」としてどう解釈できるかを説明させる。要するに、これはビデオデータをテキストで解釈するとどういう解釈ができるかの辞書のようなものを作りたいということ。
そうすることで、一連の時系列的な動きから、「今日は何をしてここに来た」「あの人はどこからやってきて何をやりたいと思っているか」といった大規模なテキストデータにして、それを探索することで状況に応じたストーリーを作りたい。
最後に過去のデータから考えて、どの状況と似ているかとか、その役割の個性から出てくる情報を統合してロボットの動きを決める。これが「アクションモデル」と言われるものだ。こういう言語解釈をしながら、「やれ」と言われなくてもその場にあったやるべきことをやるロボットを今作ろうと取り組んでいる。
学生のロールモデルがどんなものか、私が若ければ考えるだろう内容も紹介したい。
入学選考では、TOEFLは要注意で、90点必要。教員と普通に会話して通じないと、最初の段階で落ちる。努力すれば取れると思うので、努力が必要ということ。奨学制度は副学長が言ったとおり、今のところ、医療保険とか授業料と別に、生活費として修士課程の学生は月に約62万円相当、博士課程は約70万円相当がもらえる。いつなくなるか、いつ下がるかもわからないが、私が学生なら「これはいいな」と思う最大の要因の一つになると思う。
ただし、100%の経済支援には、成績Bプラス以上を保たないといけない。下がると警告が出たり、イエローカードが出たり、レッドカードが出たりする。
まだそういう事態は聞いたことないが、教員も良い成績を取らせないといけないプレッシャーがある。
カリキュラムは間違いなくAIの最先端をそろえていて、世界からその最先端の先生方がどんどん来ている。約60カ国の学生と共同のプロジェクトを組んだり、切磋琢磨したりする。
みんな世界基準で業績を出すことしか考えていないので、世知辛いかもしれないが、さっきのランク付けに反映されるように教員も学生も研究している。私はもう少し落ち着いて深い研究もやるべきだということで、深い研究をやろうとしてるが、ともかく世界基準でちゃんと尺度に乗る研究をしていくことは大事になる。
学生にとっては、博士課程終了した後に世界のジョブマーケットに出ていくのが「デビュー」となる。
日本ではそんなことは考えずに、どっかの大学でポスドクして、助教をして、修行を積んでなど長尺で悠長なことを考えるが、世界基準の学生はドクター終わったらまず自分をデビューさせてジョブマーケットに出ていく、そういったマインドで来てほしい。
宮地: 自己紹介とアブダビの印象を。
丹羽: 東工大(現東京科学大)で博士号を取得後、日本企業で自然言語処理の研究開発をしたあと、2024年10月にMBZUAIに移り、乾教授のもとで研究をしている。
アブダビは、人口も経済規模も急激に増加していて、エネルギーがすごい。ついこの間まで更地だったところに大きな建物が建ち、スピード感を持って発展している都市だ。
井上: 副学長のもとで博士課程の学生をしている。もともと東京外大のアラビア語専攻で、アラビア語の新聞記事の翻訳などをしていた在学中に、クウェートに1年留学したり、3カ月のエジプト滞在でエジプト方言を勉強したりした。
翻訳を自動でできないか、という興味から自然言語処理を知り、奈良先端科学技術大学院大学、さらにニューヨーク大学(NYU)に移り、最近までNYUアブダビ校で助手をしていた。
アブダビは、夏に意外と汗をかかない街。外は気温40度以上になって湿度も高いけれど、外を長い時間歩かない。基本的に車に乗って、ドア・トゥ・ドアで、ほぼ室内にいる。日本にいたときの方が汗をかいていた。
和出: 24年10月からアブダビに住み、25年1月設立の朝日新聞ミドルイーストの登記手続き、車の契約などをゼロからやってきた。アブダビは、多国籍な国で、つっこみどころ満載。日本人の常識が通用しない分、面倒くさくもあり刺激的でもある。
宮地: ふだんの暮らしを教えてください。便利なところ、不便なところは。
井上: 食事は、タイ料理・ベトナム料理など日本人に合ったお店もあるけれど、外食すると日本より割高なので、夜に買い出しをして主に自炊をしている。
タコスをつくるトウモロコシの粉や、韓国系スーパーでの大葉など、いろいろな食材が手に入る。休日には鳥白湯スープも作って手打ち麺からラーメンを食べることもある。
便利なのは、エミレーツIDという身分証。身分証を取得すれば、政府系の申請類や不動産契約など多くがスマホひとつで処理できる。逆に不便なのは、電車がないことで、自分で車を運転しないとタクシーになるか、停留所が多くて時間のかかるバスになる。
家からMBZUAIには、シャトルバスとタクシーを乗り継いで向かう。シャトルバスのかわりに、無料で使える完全自動運転のロボットタクシーを使うこともある。
丹羽: 平日は、博士研究員として2人1部屋の研究室が割り当てられていて、ほかの部屋を訪ねてミーティングすることもあれば、学生と話すことも。ランチはキャンパス内のタイ料理屋が大人気。夜はピラティスをしたり散歩をしたり。
休日は、アブダビは猫が多いので、家の周りのルートのどこにどの猫がいるか、生きがいと言えるぐらいのレベルで「猫探し」を楽しんでいる。映画・コンサートが身近で文化的な生活でもある。意外に多いラーメン屋の開拓も続けている。
宮地: 女性の暮らしを心配する人もいるかと思います。
丹羽: よく聞かれるが、治安はとても良い。街には監視カメラが多くて、夜も怖くない。いま住んでいるマンション1階には受付があって、アマゾンなどの配達員も、必ず受付の人から私に連絡があって初めて建物に入れる。
管理会社によるのだろうが、夜中に天井の水漏れがあったときも、電話すると5分後にはもう修理がくるぐらいの24時間体制だ。
不便なのは、やはり車頼みの交通。交差点がラウンドアバウトという丸いカーブになっていて、たとえば暑い夏の日中にすごい速さで回られると酔いやすい。
和出: われわれのオフィスは、外資系企業が進出しやすい経済特区のビルに入居していて、メディアやマーケティング関連の企業が集まっている。各社主催で交流イベントが頻繁に開かれている。
冬は温暖で過ごしやすいが、夏はたしかに日本より厳しい。車移動ばかりでまったく歩かない日もあるので、休日はサッカーやジムなどで意識的に運動している。
アブダビは、新施設や大型イベントが多く、最近できたばかりのナショナル・ミュージアムに行ったり、ツアー中の米プロバスケNBAの試合観戦をしたりも楽しみ。もともとは砂漠のエリアだが、地盤が強固のこともあり、次々に珍しいデザインの施設が開発されている。