多くの人が LLMに頼っている。このアプローチはうまくいかない。
この問題は実は単純で、大規模言語モデル(LLM)は掛け算の仕方を知らないのだ。私が円周率の値を暗記しているように、LLMは正しい結果を出すこともある。しかし、これは私が数学者であることを意味するものではないし、LLMが本当に数学のやり方を知っていることを意味するものでもない。
実例
例:49858 *59949 = 298896167242 この結果は常に同じで、中間はない。正しいか間違っているかのどちらかである。

膨大な数学的トレーニングを受けても、最高のモデルは操作の一部しか正しく解くことができない。一方、シンプルなポケット電卓は、常に100%正しい結果を出す。そして、数字が大きくなればなるほど、LLMの性能は悪くなる。

この問題を解決することは可能だろうか?
基本的な問題は、これらのモデルは理解によってではなく、類似性によって学習するということだ。これらのモデルは、訓練された問題と似たような問題で最もよく機能するが、彼らが言っていることの真の理解を深めることはない。
もっと詳しく知りたい方には、この記事をお勧めします。LLMの仕組み".
一方、電卓は、数学的演算を実行するためにプログラムされた正確なアルゴリズムを使用する。
これが、数学的計算をLLMに完全に頼るべきでない理由である。たとえ最良の条件下で、膨大な量の特定の訓練データがあったとしても、最も基本的な演算でさえ信頼性を保証することはできない。ハイブリッド・アプローチは有効かもしれないが、LLMだけでは十分ではない。おそらくこのアプローチは、いわゆる「ストロベリー問題」を解決するために踏襲されるだろう。
数学研究におけるLLMの応用
教育的な文脈では、LLMは生徒の理解度に合わせて説明を変えることができる、個人化された家庭教師として機能することができる。例えば、生徒が微分積分の問題に直面したとき、LLMは推論をより単純なステップに分解し、解答プロセスの各ステップについて詳細な説明を提供することができる。このアプローチにより、基本的な概念をしっかりと理解することができます。
特に興味深い点は、LLMが適切で多様な例を作り出す能力である。学生が極限の概念を理解しようとしている場合、LLMは様々な数学的シナリオを提示することができる。
一つの有望な応用例として、複雑な数学的概念をより利用しやすい自然言語に翻訳するためのLLMの利用がある。これによって、より多くの人々への数学の伝達が容易になり、この学問分野へのアクセスという従来の障壁を克服するのに役立つ。
LLMは教材の準備も支援し、様々な難易度の練習問題を作成し、生徒が提案した解答に対して詳細なフィードバックを提供することができる。これにより、教師は学生の学習進路をより適切にカスタマイズすることができる。
本当の利点
この場合、感情がないことが助けになる。この場合、感情がないことが助けになる。にもかかわらず、アイでさえも時には『忍耐を失う』のである。この 例.

アップデート2025:推論モデルとハイブリッド・アプローチ
2024年から2025年にかけて、OpenAI o1やdeepseekR1といったいわゆる「推論モデル」が登場し、大きな発展を遂げた。o1は国際数学オリンピックの問題の83%を正解したのに対し、GPT-4oは13%だった。しかし注意してほしいのは、これらのモデルは上述の根本的な問題を解いていないということだ。
イチゴの問題、つまり「イチゴ」の「r」を数える問題は、この永続的な制限を完璧に示している。o1は数秒の「推論」でこれを正しく解くが、各文章の2文字目が「CODE」という単語を構成する段落を書けと頼むと失敗する。月額200ドルのo1-proは、4分の処理でこれを解く...。DeepSeek R1や他の最近のモデルは、基本的なカウントをまだ間違えている。2025年2月、Mistralは'strawberry'には'r'が2つしかないと答え続けた。
49858に5994949を掛け合わせなければならないとき、より高度なモデルはもはや、トレーニング中に見た計算との類似性に基づいて結果を「推測」しようとはしない。その代わりに、電卓を呼び出したり、Pythonコードを実行したりする。まさに、自分の限界を知っている知的な人間がするように。
この「ツールの使用」はパラダイムシフトを意味する。人工知能はそれ自体ですべてをこなす必要はなく、適切なツールを組織化できなければならない。推論モデルは、問題を理解するための言語能力、解決策を計画するための段階的推論、正確な実行のための専門ツール(計算機、Pythonインタプリタ、データベース)への委譲を組み合わせている。
教訓?2025年のLLMが数学の分野で役に立つようになったのは、彼らが掛け算を「学んだ」からではない。基本的な問題はまだ残っている。アルゴリズム的な理解ではなく、統計的な類似性によって動いているのだ。正確な計算のためには、5ユーロの電卓の方が限りなく信頼できる。