AIの推論システム、構築法は「犬の訓練と同じ」人間の知能に匹敵?専門家の意見割れる
人工知能(AI)の開発を手がける米企業OpenAIが2024年9月、ChatGPTの新バージョンを発表した。数学や科学、コンピューター・プログラミングが関わる処理を通じて推論する(訳注=大量のデータを学習済みのAIを活用し、新しいデータから予測や決定をする)ように設計されている。従来のバージョンのチャットボットとは違って、この新しいテクノロジーは回答する前に、複雑な問題について時間を費やし、「思考」を巡らすことができる。
発表からまもなく、OpenAIは、AIの進捗を評価する一連のテストで、自社の新しい推論テクノロジーが、業界をリードするシステムを上回ったと述べた。
現在、GoogleやAnthropic(アンソロピック)、中国のDeepSeek(ディープシーク)といった他企業も同様のテクノロジーを提供している。
だが、AIは実際に人間と同じように推論することができるのか? コンピューターが考えるとは、どういうことなのか? これらのシステムは本当に真の知性に近づいているのだろうか?
以下がその手引きだ。
推論は、単にチャットボットが問題に取り組む時間を増やすことを意味する。
「推論は、質問を投げかけられた後でシステムが追加の作業をすることだ」とダン・クラインは言う。米カリフォルニア大学バークリー校の教授(コンピューター・サイエンス)で、AIのスタートアップ企業「Scaled Cognition(スケールド・コグニション、訳注=拡大した認知)」の最高技術責任者(CTO)だ。
推論は、問題を個々の段階に分解したり、試行錯誤を繰り返して解決しようとしたりするものだ。
もともとのChatGPTは、質問に即答した。新しい推論システムは、回答する前に数秒、時には数分間かけて問題を検討することができる。
時には、推論システムはいったん選択した方法を繰り返しブラッシュアップし、問題への取り組み方を改善していく。また、一つの問題を解決する前に、いくつかの異なる方法を試すこともある。あるいは、数秒前の作業が正しかったかどうかを確認するためだけに、さかのぼって確認することもある。
基本的にこの推論システムは、ユーザーの質問に答えるために、できる限りのことをしようとするのだ。
これは、算数の問題を解くのに苦労する小学生が、いくつかの方法を紙に書き出すようなものだ。
どんな質問に対しても、AIは推論が可能だ。しかし、最も効果的に推論するのは、数学、科学、コンピューター・プログラミングが絡む質問に対してである。
以前のチャットボットには、特定の回答にたどり着いた過程を示せとか、回答を出すまでの作業を自己検証せよ、と命じることができた。もとのChatGPTは、人がどのようにして回答を得、その回答をどのように検証するのかをインターネット上の文章で学習したので、この種の自己検証も可能だった。
しかし、推論システムはさらに先を行く。こちらが求めなくても、この種のことができるのだ。加えて、より広範で複雑な方法で行えるのだ。
AI企業がそれを推論システムと称しているのは、まるで人間が難しい問題の解決方法を考えるように感じられるからである。
OpenAIのような企業は、これがチャットボットを改善する最良の方法だと考えているからだ。
何年もの間、こうした企業は単純な概念に依拠していた。チャットボットに注入するインターネット上のデータが多ければ多いほど、システムのパフォーマンスが向上するという考え方だった。
ところが2024年に、インターネット上のテキストをほぼ使い果たしてしまった。
つまり、チャットボットの改善には新しい方法が必要だったのだ。そこで、各社は推論システムの構築に着手したのである。
2024年、OpenAIなどの企業は強化学習と呼ばれる手法に大きく依存するようになった。
時に数カ月以上かかることもあるこの過程を経ることで、AIシステムは広範囲にわたる試行錯誤を繰り返して動作を学習できる。たとえば、何千もの数学の問題に取り組むことによって、どの方法が正解を導き、どのやり方が正解につながらないかを学習できるのだ。
研究者らは、システムが何か正しいことをした時と、間違いを犯した時に示す複雑な評価メカニズムを設計した。
「それはイヌの訓練にちょっと似ている」とOpenAIの研究者ジェリー・トゥーレックは言う。「システムがうまく機能したら、ごほうびのクッキーを与える。うまくいかなかったら、『悪いワンコだ』って言ってやるのだ」
(ニューヨーク・タイムズは2024年12月、AIシステムについて書かれた記事に関する著作権を侵害したとして、OpenAIとそのパートナーであるマイクロソフトを提訴した)
数学や科学、コンピューター・プログラミングといった特定の分野で、強化学習はかなりうまく機能する。それらは、AI企業が良い動作と悪い動作を明確に定義しやすい分野だ。数学の問題には確固とした答えがある。
強化学習は、クリエーティブ・ライティング(文芸的な創作や表現)、哲学、倫理学など善悪の区別が難しい分野ではうまく機能しない。研究者らによると、強化学習は数学や科学の範囲外の質問に答える場合でも、一般的にAIシステムの性能を向上させることができる。
「AIシステムはどの推論パターンが正しい回答に導き、どれがそうではないかを徐々に学習する」とAnthropicの最高科学責任者(CSO)ジャレド・カプランは言っている。
強化学習と推論システムは同じではない。強化学習はAI企業が推論システムを構築するために使う手法だ。それは、チャットボットが最終的に推論できるようにするための訓練段階を指す。
もちろん、推論システムも間違いを犯す。チャットボットが行うことは、すべて確率に基づいている。そのデータがインターネットから得たものであれ、強化学習で生成されたものであれ、既知のデータに最も近いものを選択する。時には、間違っていたり、意味をなさなかったりする選択肢を選ぶこともある。
推論システムが人間の知能に匹敵するのかどうか、専門家の見解が割れている。こうした手法はまだ比較的新しく、研究者たちはまだその限界を理解しようとしている段階だ。AI分野において、新しい手法は初期段階で非常に速く進展し、その後、減速することがよくある。(抄訳、敬称略)
(Cade Metz and Dylan Freedman)©2025 The New York Times
ニューヨーク・タイムズ紙が編集する週末版英字新聞の購読はこちらから