


ここ数カ月、人工知能業界は、アップルが発表した2つの影響力のある研究論文をきっかけに、激しい議論の渦中にあった。1つ目は GSM-シンボリック(2024年10月)、そして2つ目、 思考の幻想(2025年6月)は、大規模言語モデルの推論能力に疑問を投げかけ、業界全体に様々な反応を引き起こした。
前回の記事 「進歩の幻想:達成することなく一般的な人工知能をシミュレートする」。人工的な推論の問題は、我々が機械における知能をどう考えるかということの核心に触れるものである。
アップルの研究者たちは、大規模推論モデル(Large Reasoning Models:LRM)、つまり答えを出す前に詳細な推論トレースを生成するモデルについて体系的な分析を行った。その結果は驚くべきものであり、多くの人にとって憂慮すべきものであった。
この研究では、最先端のモデルを次のような古典的なアルゴリズムパズルにかけた:

その結果、問題の定式化を少し変えただけでも成績に大きなばらつきが生じることがわかり、推論のもろさが心配される。AppleInsiderの アップルインサイダーGSM-Symbolicベンチマーク問題の数値のみを変更した場合、すべてのモデルのパフォーマンスが低下する」。
AIコミュニティからの反論はすぐに届いた。オープン・フィランソロピーのアレックス・ローセンは、アンソロピックのクロード・オーパスと共同で、次のようなタイトルの詳細な反論を発表した。 考えるという幻想』。アップル社の研究の方法論と結論に異議を唱えている。
ローゼンが別の方法論(すべての手をリストアップするのではなく、モデルに再帰関数を生成させる)を用いてテストを繰り返したところ、結果は劇的に変化した。クロード、ジェミニ、GPTのようなモデルは、15のレコードを持つハノイの塔の問題を正しく解いた。
ゲイリー・マーカス長年にわたってLLMの推論能力を批判してきたマーカスは、今回のアップル社の調査結果を、自身の20年にわたる論文を裏付けるものとして受け止めた。マーカスによれば、LLMは「すでに解決された問題を解くのが得意」である一方で、「分布の変化」(訓練データを超えて一般化する能力)に苦戦し続けているという。
この議論は、次のような専門コミュニティにも広がっている。 RedditのLocalLlamaなどの専門コミュニティにも広がっており、開発者や研究者がオープンソースモデルやローカル実装の実際的な意味について議論している。
この議論は純粋に学術的なものではない。直接的な意味合いを持つ:
いくつかの 技術的洞察を組み合わせたハイブリッド・アプローチの必要性が高まっている:
些細な例だが、AIアシスタントが記帳をサポートする。言語モデルは、あなたが "今月は旅行にいくら使いましたか?"と尋ねると理解し、関連するパラメータ(カテゴリー:旅行、期間:今月)を抽出する。しかし、データベースに問い合わせ、合計を計算し、財政制約をチェックするSQLクエリは?それはニューラル・モデルではなく、決定論的コードによって行われます。
アップルの論文がWWDCの直前に発表され、戦略的な動機について疑問が投げかけられていることは、オブザーバーにとって見逃せない事実だった。9to5Macによる9to5Macによる分析WWDCの直前というAppleの論文のタイミングは、いくつかの眉をひそめた。これは研究のマイルストーンなのか、それとも広いAI展望の中でアップルを再配置する戦略的な動きなのか?"
アップルの論文に端を発した議論は、私たちがまだ人工知能を理解する初期段階にいることを思い起こさせる。前回の 前回の記事シミュレーションと本物の推論を区別することは、現代における最も複雑な課題のひとつである。
真の教訓は、LLMが人間的な意味での「理性」を発揮できるかどうかではなく、その限界を補いつつ長所を活かすシステムをいかに構築できるかということだ。AIがすでに全分野を変革しつつある世界では、もはやこれらのツールが「賢い」かどうかではなく、いかに効果的かつ責任ある使い方をするかが問われている。
エンタープライズAIの未来は、おそらく単一の画期的なアプローチにあるのではなく、いくつかの補完的なテクノロジーをインテリジェントにオーケストレーションすることにある。そして、このシナリオでは、ツールの能力を批判的かつ正直に評価する能力そのものが競争上の優位性となる。
お客様の組織のAI戦略に関する洞察や、堅牢なソリューションの導入については、当社の専門家チームがカスタマイズしたコンサルティングを提供します。