Newsletter

なぜ数学は難しいのか(たとえAIであっても)

言語モデルは、私たちが円周率を記憶するように、結果を掛け算で記憶する方法を知らない。問題は構造的なもので、アルゴリズム的な理解ではなく、統計的な類似性によって学習するのだ。o1のような新しい「推論モデル」ですら、些細なタスクでは失敗する。「いちご」の「r」は数秒の処理で正しく数えられるが、各文の2文字目が単語を構成する段落を書かなければならないときには失敗する。月額200ドルのプレミアム・バージョンでは、子供が即座に解ける問題を解くのに4分かかる。2025年のDeepSeekとMistralはまだ文字の数え間違いがある。新たな解決策は?ハイブリッド・アプローチ-最も賢いモデルは、自分自身で計算を試みるのではなく、本物の電卓を呼び出すタイミングを見極めている。パラダイムシフト:AIはすべてを行う方法を知っている必要はなく、適切なツールを編成する必要がある。最後のパラドックス:GPT-4は極限理論を見事に説明できるが、ポケット電卓が常に正しく解く掛け算を間違えてしまう。数学教育には最適で、無限の忍耐力をもって説明し、例題を適応させ、複雑な推論を分解する。正確な計算には?人工知能ではなく、電卓に頼りなさい。

多くの人が LLMに頼っている。このアプローチはうまくいかない。

この問題は実は単純で、大規模言語モデル(LLM)は掛け算の仕方を知らないのだ。私が円周率の値を暗記しているように、LLMは正しい結果を出すこともある。しかし、これは私が数学者であることを意味するものではないし、LLMが本当に数学のやり方を知っていることを意味するものでもない。

実例

例:49858 *59949 = 298896167242 この結果は常に同じで、中間はない。正しいか間違っているかのどちらかである。

膨大な数学的トレーニングを受けても、最高のモデルは操作の一部しか正しく解くことができない。一方、シンプルなポケット電卓は、常に100%正しい結果を出す。そして、数字が大きくなればなるほど、LLMの性能は悪くなる。

この問題を解決することは可能だろうか?

基本的な問題は、これらのモデルは理解によってではなく、類似性によって学習するということだ。これらのモデルは、訓練された問題と似たような問題で最もよく機能するが、彼らが言っていることの真の理解を深めることはない。

もっと詳しく知りたい方には、この記事をお勧めします。LLMの仕組み".

一方、電卓は、数学的演算を実行するためにプログラムされた正確なアルゴリズムを使用する。

これが、数学的計算をLLMに完全に頼るべきでない理由である。たとえ最良の条件下で、膨大な量の特定の訓練データがあったとしても、最も基本的な演算でさえ信頼性を保証することはできない。ハイブリッド・アプローチは有効かもしれないが、LLMだけでは十分ではない。おそらくこのアプローチは、いわゆる「ストロベリー問題」を解決するために踏襲されるだろう。

数学研究におけるLLMの応用

教育的な文脈では、LLMは生徒の理解度に合わせて説明を変えることができる、個人化された家庭教師として機能することができる。例えば、生徒が微分積分の問題に直面したとき、LLMは推論をより単純なステップに分解し、解答プロセスの各ステップについて詳細な説明を提供することができる。このアプローチにより、基本的な概念をしっかりと理解することができます。

特に興味深い点は、LLMが適切で多様な例を作り出す能力である。学生が極限の概念を理解しようとしている場合、LLMは様々な数学的シナリオを提示することができる。

一つの有望な応用例として、複雑な数学的概念をより利用しやすい自然言語に翻訳するためのLLMの利用がある。これによって、より多くの人々への数学の伝達が容易になり、この学問分野へのアクセスという従来の障壁を克服するのに役立つ。

LLMは教材の準備も支援し、様々な難易度の練習問題を作成し、生徒が提案した解答に対して詳細なフィードバックを提供することができる。これにより、教師は学生の学習進路をより適切にカスタマイズすることができる。

本当の利点

この場合、感情がないことが助けになる。この場合、感情がないことが助けになる。にもかかわらず、アイでさえも時には『忍耐を失う』のである。この .

アップデート2025:推論モデルとハイブリッド・アプローチ

2024年から2025年にかけて、OpenAI o1やdeepseekR1といったいわゆる「推論モデル」が登場し、大きな発展を遂げた。o1は国際数学オリンピックの問題の83%を正解したのに対し、GPT-4oは13%だった。しかし注意してほしいのは、これらのモデルは上述の根本的な問題を解いていないということだ。

イチゴの問題、つまり「イチゴ」の「r」を数える問題は、この永続的な制限を完璧に示している。o1は数秒の「推論」でこれを正しく解くが、各文章の2文字目が「CODE」という単語を構成する段落を書けと頼むと失敗する。月額200ドルのo1-proは、4分の処理でこれを解く...。DeepSeek R1や他の最近のモデルは、基本的なカウントをまだ間違えている。2025年2月、Mistralは'strawberry'には'r'が2つしかないと答え続けた。

49858に5994949を掛け合わせなければならないとき、より高度なモデルはもはや、トレーニング中に見た計算との類似性に基づいて結果を「推測」しようとはしない。その代わりに、電卓を呼び出したり、Pythonコードを実行したりする。まさに、自分の限界を知っている知的な人間がするように。

この「ツールの使用」はパラダイムシフトを意味する。人工知能はそれ自体ですべてをこなす必要はなく、適切なツールを組織化できなければならない。推論モデルは、問題を理解するための言語能力、解決策を計画するための段階的推論、正確な実行のための専門ツール(計算機、Pythonインタプリタ、データベース)への委譲を組み合わせている。

教訓?2025年のLLMが数学の分野で役に立つようになったのは、彼らが掛け算を「学んだ」からではない。基本的な問題はまだ残っている。アルゴリズム的な理解ではなく、統計的な類似性によって動いているのだ。正確な計算のためには、5ユーロの電卓の方が限りなく信頼できる。

ビジネス成長のためのリソース

2025年11月9日

消費者向けAI規制:2025年の新規制にどう備えるか

2025年、AIの「ワイルドウエスト」時代が終焉を迎える:EUのAI法は2024年8月から運用開始、AIリテラシーは2025年2月2日から、ガバナンスとGPAIは8月2日から義務付けられる。カリフォルニア州は、SB243(14歳のSewell Setzerがチャットボットと感情的な関係を築き自殺した後に生まれた)で、強制的な報酬システムの禁止、自殺念慮の検出、3時間ごとの「私は人間ではありません」というリマインダー、独立した公的監査、1違反につき1,000ドルの罰則を課している。SB420は、「リスクの高い自動化された決定」に対する影響評価を義務付け、人間によるレビューの上訴権を与える。実際の執行:Noomは2022年、ボットを人間のコーチと偽り、5,600万ドルで和解。全米の傾向:アラバマ、ハワイ、イリノイ、メイン、マサチューセッツがAIチャットボットへの通知義務をUDAP違反に分類。3段階のリスク・クリティカル・システム・アプローチ(ヘルスケア/運輸/エネルギー)展開前認証、消費者向け透明情報開示、汎用登録+セキュリティ・テスト。連邦政府の先取りがない規制のパッチワーク:複数の州にまたがる企業は、さまざまな要件に対応しなければならない。2026年8月からのEU: 明らかでない限り、AIとの相互作用をユーザーに通知し、AIが生成したコンテンツは機械可読と表示する。
2025年11月9日

創造されないものを規制する:欧州は技術的に無関連であるリスクを冒すのか?

欧州の人工知能への投資額は世界全体の10分の1に過ぎないが、世界的なルールを決めると主張している。これは「ブリュッセル効果」であり、イノベーションを促進することなく、市場力によって惑星規模のルールを押し付けることである。AI法は2027年まで時差をおいて施行されるが、多国籍ハイテク企業は創造的な回避戦略で対応している。学習データの公開を避けるために企業秘密を持ち出したり、技術的には準拠しているが理解不能な要約を作成したり、自己評価を使ってシステムを「高リスク」から「最小リスク」に格下げしたり、規制の緩い加盟国を選んでフォーラムショッピングをしたり。域外著作権のパラドックス:EUはOpenAIに対し、ヨーロッパ域外でのトレーニングであってもヨーロッパの法律を遵守するよう要求している。二重モデル」の出現:限定的なヨーロッパ版と、同じAI製品の高度なグローバル版。現実のリスク:欧州はグローバルなイノベーションから隔離された「デジタル要塞」となり、欧州市民は劣ったテクノロジーにアクセスすることになる。信用スコアリング事件の司法裁判所はすでに「営業秘密」の抗弁を否定しているが、解釈上の不確実性は依然として大きい。誰も知らない。EUは米国の資本主義と中国の国家統制の間に倫理的な第三の道を作っているのか、それとも単に官僚主義を競合しない分野に輸出しているだけなのか?今のところ:AI規制の世界的リーダーであり、その開発においては周縁である。大規模なプログラム。
2025年11月9日

Outliers:データサイエンスとサクセスストーリーの出会い

データサイエンスはこれまでのパラダイムを覆した。外れ値はもはや「排除すべきエラー」ではなく、「理解すべき貴重な情報」なのだ。外れ値1つで線形回帰モデルを完全に歪めることができる(傾きが2から10に変わる)。しかしそれを排除することは、データセットの最も重要なシグナルを失うことを意味する。機械学習は洗練されたツールを導入している:Isolation Forestはランダムな決定木を構築することで外れ値を分離し、Local Outlier Factorは局所的な密度を分析し、Autoencoderは正常なデータを再構築し、再現できないものを報告する。グローバルな外れ値(熱帯地方での気温-10℃)、文脈上の外れ値(貧困地区での1,000ユーロの出費)、集団的な外れ値(攻撃を示すトラフィックネットワークの同期スパイク)などがある。ポール・マッカートニーは、「多くのバンドがハンブルグで1万時間やったが成功しなかった。アジアの数学的成功は遺伝的なものではなく、文化的なものである:中国の数的システムはより直感的であり、稲作には絶え間ない改良が必要であるのに対し、西洋の農業は領土の拡大が必要である。実際の応用例:英国の銀行はリアルタイムの異常検知によって18%の潜在的損失を取り戻し、製造業は人間の検査では見逃してしまうような微細な欠陥を検知し、ヘルスケアは85%以上の異常検知感度で臨床試験データを検証する。最終的な教訓:データサイエンスが異常値を排除することから、異常値を理解することに移行するにつれて、我々は型破りなキャリアを修正すべき異常値としてではなく、研究すべき貴重な軌跡として捉える必要がある。