Newsletter

なぜ数学は難しいのか(たとえAIであっても)

言語モデルは、私たちが円周率を記憶するように、結果を掛け算で記憶する方法を知らない。問題は構造的なもので、アルゴリズム的な理解ではなく、統計的な類似性によって学習するのだ。o1のような新しい「推論モデル」ですら、些細なタスクでは失敗する。「いちご」の「r」は数秒の処理で正しく数えられるが、各文の2文字目が単語を構成する段落を書かなければならないときには失敗する。月額200ドルのプレミアム・バージョンでは、子供が即座に解ける問題を解くのに4分かかる。2025年のDeepSeekとMistralはまだ文字の数え間違いがある。新たな解決策は?ハイブリッド・アプローチ-最も賢いモデルは、自分自身で計算を試みるのではなく、本物の電卓を呼び出すタイミングを見極めている。パラダイムシフト:AIはすべてを行う方法を知っている必要はなく、適切なツールを編成する必要がある。最後のパラドックス:GPT-4は極限理論を見事に説明できるが、ポケット電卓が常に正しく解く掛け算を間違えてしまう。数学教育には最適で、無限の忍耐力をもって説明し、例題を適応させ、複雑な推論を分解する。正確な計算には?人工知能ではなく、電卓に頼りなさい。

多くの人が LLMに頼っている。このアプローチはうまくいかない。

この問題は実は単純で、大規模言語モデル(LLM)は掛け算の仕方を知らないのだ。私が円周率の値を暗記しているように、LLMは正しい結果を出すこともある。しかし、これは私が数学者であることを意味するものではないし、LLMが本当に数学のやり方を知っていることを意味するものでもない。

実例

例:49858 *59949 = 298896167242 この結果は常に同じで、中間はない。正しいか間違っているかのどちらかである。

膨大な数学的トレーニングを受けても、最高のモデルは操作の一部しか正しく解くことができない。一方、シンプルなポケット電卓は、常に100%正しい結果を出す。そして、数字が大きくなればなるほど、LLMの性能は悪くなる。

この問題を解決することは可能だろうか?

基本的な問題は、これらのモデルは理解によってではなく、類似性によって学習するということだ。これらのモデルは、訓練された問題と似たような問題で最もよく機能するが、彼らが言っていることの真の理解を深めることはない。

もっと詳しく知りたい方には、この記事をお勧めします。LLMの仕組み".

一方、電卓は、数学的演算を実行するためにプログラムされた正確なアルゴリズムを使用する。

これが、数学的計算をLLMに完全に頼るべきでない理由である。たとえ最良の条件下で、膨大な量の特定の訓練データがあったとしても、最も基本的な演算でさえ信頼性を保証することはできない。ハイブリッド・アプローチは有効かもしれないが、LLMだけでは十分ではない。おそらくこのアプローチは、いわゆる「ストロベリー問題」を解決するために踏襲されるだろう。

数学研究におけるLLMの応用

教育的な文脈では、LLMは生徒の理解度に合わせて説明を変えることができる、個人化された家庭教師として機能することができる。例えば、生徒が微分積分の問題に直面したとき、LLMは推論をより単純なステップに分解し、解答プロセスの各ステップについて詳細な説明を提供することができる。このアプローチにより、基本的な概念をしっかりと理解することができます。

特に興味深い点は、LLMが適切で多様な例を作り出す能力である。学生が極限の概念を理解しようとしている場合、LLMは様々な数学的シナリオを提示することができる。

一つの有望な応用例として、複雑な数学的概念をより利用しやすい自然言語に翻訳するためのLLMの利用がある。これによって、より多くの人々への数学の伝達が容易になり、この学問分野へのアクセスという従来の障壁を克服するのに役立つ。

LLMは教材の準備も支援し、様々な難易度の練習問題を作成し、生徒が提案した解答に対して詳細なフィードバックを提供することができる。これにより、教師は学生の学習進路をより適切にカスタマイズすることができる。

本当の利点

この場合、感情がないことが助けになる。この場合、感情がないことが助けになる。にもかかわらず、アイでさえも時には『忍耐を失う』のである。この .

アップデート2025:推論モデルとハイブリッド・アプローチ

2024年から2025年にかけて、OpenAI o1やdeepseekR1といったいわゆる「推論モデル」が登場し、大きな発展を遂げた。o1は国際数学オリンピックの問題の83%を正解したのに対し、GPT-4oは13%だった。しかし注意してほしいのは、これらのモデルは上述の根本的な問題を解いていないということだ。

イチゴの問題、つまり「イチゴ」の「r」を数える問題は、この永続的な制限を完璧に示している。o1は数秒の「推論」でこれを正しく解くが、各文章の2文字目が「CODE」という単語を構成する段落を書けと頼むと失敗する。月額200ドルのo1-proは、4分の処理でこれを解く...。DeepSeek R1や他の最近のモデルは、基本的なカウントをまだ間違えている。2025年2月、Mistralは'strawberry'には'r'が2つしかないと答え続けた。

49858に5994949を掛け合わせなければならないとき、より高度なモデルはもはや、トレーニング中に見た計算との類似性に基づいて結果を「推測」しようとはしない。その代わりに、電卓を呼び出したり、Pythonコードを実行したりする。まさに、自分の限界を知っている知的な人間がするように。

この「ツールの使用」はパラダイムシフトを意味する。人工知能はそれ自体ですべてをこなす必要はなく、適切なツールを組織化できなければならない。推論モデルは、問題を理解するための言語能力、解決策を計画するための段階的推論、正確な実行のための専門ツール(計算機、Pythonインタプリタ、データベース)への委譲を組み合わせている。

教訓?2025年のLLMが数学の分野で役に立つようになったのは、彼らが掛け算を「学んだ」からではない。基本的な問題はまだ残っている。アルゴリズム的な理解ではなく、統計的な類似性によって動いているのだ。正確な計算のためには、5ユーロの電卓の方が限りなく信頼できる。

ビジネス成長のためのリソース

2025年11月9日

AI意思決定支援システム:企業リーダーシップにおける「アドバイザー」の台頭

77%の企業がAIを使用しているが、「成熟した」導入はわずか1% - 問題は技術ではなくアプローチ:完全自動化とインテリジェント・コラボレーションの比較。ゴールドマン・サックスは、1万人の従業員にAIアドバイザーをつけることで、人間の判断を維持しながら、アウトリーチ効率を30%、クロスセルを12%向上させた。カイザー・パーマネンテは、12時間前に1時間あたり100の項目を分析することで、年間500人の死亡を防止しているが、診断は医師に任せている。アドバイザー・モデルは、透明性のある推論による説明可能なAI、較正された信頼度スコア、改善のための継続的なフィードバックという3つの柱を通じて、信頼ギャップを解決する(企業のAIを信頼するのはわずか44%)。数字:2030年までに223億ドルのインパクト、戦略的AI従業員は2026年までに4倍のROIを見込む。実践的な3ステップのロードマップ-アセスメントスキルとガバナンス、信頼度メトリクスによるパイロット、継続的なトレーニングによる段階的なスケーリング-金融(監視付きリスクアセスメント)、ヘルスケア(診断サポート)、製造(予知保全)に適用可能。未来はAIが人間に取って代わるのではなく、人間と機械のコラボレーションを効果的にオーケストレーションすることである。