Newsletter

イチゴ問題

イチゴの "r "はいくつ?- GPT-4oは「2」と答えるが、6歳児は「3」だと知っている。問題はトークン化である。モデルは文字ではなく[str][aw][berry]を見ている。OpenAIはo1ではこれを解決せず、モデルに「話す前に考える」ことを教えることで回避した。結果:数学オリンピックで83%対13%、しかし3秒ではなく30秒、コストは3倍だった。言語モデルは驚異的な確率論的ツールだが、それでも数を数えるには人間が必要なのだ。

ストロベリー問題からモデルo1へ:トークン化の限界を(部分的に)解決したOpenAIの方法

2024年の夏、インターネット上で流行したミームが世界最先端の言語モデルを困惑させた。"ストロベリー "という単語にはいくつの "r "が入っているか?正解は3つだが、GPT-4oは頑なに「2つ」と答えた。一見些細なミスだが、言語モデルの基本的な限界、つまり単語内の個々の文字を分析できないことが明らかになった。

2024年9月12日、OpenAIは、この種の制限を克服するために特別に設計された「推論モデル」の新シリーズの最初のモデルであるo1(内部的には「Strawberry」というコードネームで知られている)をリリースした。OpenAIの研究者が確認したように、o1はついに'strawberry'の'r'を正しく数えることに成功したのだ。

しかし、その解決策は元記事が想像していたようなものではない。OpenAIは、単語を一文字ずつ分析するようモデルに『教えた』のではない。その代わりに、まったく異なるアプローチを開発した。つまり、回答する前にモデルに『推論』を教えるのだ。

計数問題:モデルが間違える理由

この問題は、言語モデルがテキストを処理する基本的なプロセスであるトークン化に根ざしている。2025年5月にarXivで発表された技術論文('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models')で説明されているように、モデルは単語を文字の並びとしてではなく、意味の単位を数値に変換した「トークン」として見ている。

GPT-4が "strawberry "という単語を処理するとき、そのトークナイザーは[str][aw][berry]という3つの部分に分割し、それぞれは特定の数値ID(496, 675, 15717)を持つ。このモデルにとって、"strawberry "は10文字の列ではなく、3つの数値トークンの列である。それはあたかも、各単語がコードに置き換えられている本を読んでいるときに、誰かが彼に、書かれているのを見たこともないコードの文字を数えるように頼んでいるようなものである。

複合語の場合、問題はさらに複雑になる。"Timekeeper "は別々のトークンに分断されているため、明示的な推論プロセスなしに、モデルが文字の正確な位置を決定することは不可能である。断片化は文字のカウントだけでなく、単語の内部構造の理解にも影響する。

解決策 o1:反応する前に理由を述べる

技術的に難しく、モデルの効率性を損なうトークン化を修正する代わりに、「思考の連鎖推論」と呼ばれる技術を使って、システムに「話す前に考える」ことを教えたのだ。

いちご」にはいくつの「r」があるかとo1に尋ねると、モデルはすぐには答えない。数秒、複雑な質問の場合は数分かけて、ユーザーには見えない「推論の連鎖」を内部で処理する。この処理によって、次のことが可能になる:

  1. 需要には性格レベルでの分析が必要であることを認識すること
  2. 言葉を打ち破る戦略を練る
  3. さまざまなアプローチで反応をテスト
  4. 最終的な答えを出す前に、間違いを訂正する

オープンエイの研究者であるノーム・ブラウンは、Xへの一連の投稿で次のように説明している。このモデルは、最終的な正解だけでなく、推論プロセスの各ステップの正解に対して、トレーニング中に報酬を受け取ります。

結果は印象的だが、高くついた。国際数学オリンピックの予選試験で、o1は83%の問題を正確に解いたのに対し、GPT-4oは13%だった。科学分野の博士号レベルの問題では、GPT-4oの56%に対して78%の精度を達成した。o1は、GPT-4oが3秒で解く問題に答えるのに30秒以上かかり、100万トークンの入力あたり15ドルかかるのに対し、GPT-4oは5ドルだ。

思考の連鎖:その実際の仕組み

そのテクニックは魔法のようなものではなく、理路整然としている。プロンプトを受け取ると、o1は内部的に、ユーザーには表示されない長い一連の「思考」を生成する。ストロベリー」の「r」問題では、内部処理は次のようになる:

「まず、単語の構造を理解しなければならない。Strawberryは[str][aw][berry]とトークン化できる。r'を数えるには、文字レベルで完全な単語を再構築しなければならない。strはs-t-r(1 'r')を含む。Awには:a-w(0 'r')が含まれる。Berryには:b-e-r-y(2 'r')が含まれる。合計: 1+0+2 = 3 'r'.イチゴ=s-t-r-a-w-b-e-r-r-y。r'を数える:ポジション3、ポジション8、ポジション9。確認:3つの「r」。

この内部推論は設計上隠されています。OpenAIは、ユーザーがo1の思考回路を明らかにしようとすることを明確に禁止しており、プロンプトを監視し、このルールに違反したユーザーにはアクセス権を剥奪する可能性がある。同社はAIのセキュリティと競争上の優位性を理由に挙げているが、この決定は言語モデルを扱う開発者にとっては透明性を失うものとして批判されている。

永続的な限界:o1 完璧ではない

進歩とはいえ、o1は問題を完全に解決したわけではない。2025年1月に『Language Log』に掲載された研究では、「各文の2文字目が『CODE』という単語を構成する段落を書きなさい」という、より複雑な課題に対してさまざまなモデルをテストした。

o1スタンダード(月額20ドル)は、各頭文字の単語の最初の文字を誤って「2文字目」とカウントして失敗した。o1-pro(月額200ドル)は、4分10秒の「思考」の末に問題を解決した。2025年1月に市場を震撼させた中国製モデルのDeepSeek R1は、o1スタンダードと同じミスを犯した。

o1は推論によってこの制限を「回避」することを学んだが、解消したわけではない。ある研究者がLanguage Logで述べているように、「トークン化は言語モデルの本質の一部である。

学術研究:キャラクターレベルでの理解の出現

2025年5月にarXivで発表された重要な論文('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models')は、理論的観点からこの現象を分析している。研究者らは、制御された文脈における文字レベルの推論を分離する19の合成課題を作成し、これらの能力がトレーニングの後半にのみ突然出現することを実証した。

この研究では、文字作文の学習は常識的な知識の学習と根本的に異なるものではなく、モデルが例やつながりの臨界量に達したときに「概念浸透」のプロセスを通じて現れるものであると提案している。

研究者は、サブワードベースのモデルの帰納的な利点を維持しながら、文字レベルの推論を大幅に改善する軽量なアーキテクチャの修正を提案している。しかし、これらの修正は実験的なものであり、商用モデルには実装されていない。

実践的な意味合い:いつ信頼し、いつ信頼しないか

イチゴのケースは、言語モデルの信頼性について重要な教訓を与えている。それは、言語モデルは確率的な道具であり、決定論的な計算機ではないということだ。マーク・リバーマンがLanguage Logで述べているように、「数を数えるようなタスクにおいて、現在のAIシステムの反応を信頼するのは慎重であるべきだ」。

だからといって、模型が役に立たないというわけではない。あるコメンテーターは、「猫がキュウリに怯えるという愚かなミスを犯したからといって、ネズミを建物から追い出すというもっと難しい仕事を猫に任せるべきではないということにはならない」と指摘している。言語モデルは、文字を体系的にカウントしたい場合には適切なツールではないが、何千ものポッドキャストのトランスクリプトを自動的に処理し、ゲストやホストの名前を抽出するには優れている。

火星への宇宙船の着陸、医薬品の投与量の計算、法令遵守の検証など、絶対的な精度が要求されるタスクでは、現在の言語モデルは、人間の監督や外部からの検証がない限り、不十分なままである。その確率的な性質から、パターンマッチングや創造的な生成には威力を発揮するが、誤差が許されないタスクでは信頼性に欠ける。

未来:時間単位で推論するモデルへ

OpenAIは、推論能力をさらに高めるために「数時間、数日、あるいは数週間推論する」o1モデルを実験するつもりであると述べた。2024年12月、o3が発表され(o2という名称は携帯電話事業者O2との商標の衝突を避けるために省略された)、2025年3月、o1-proのAPIがリリースされた。o1-proはOpenAIのこれまでで最も高価なAIモデルで、価格は入力が100万トークンあたり150ドル、出力が100万トークンあたり600ドルであった。

方向性は明確だ。モデルをどんどん大きくする(スケーリング)代わりに、OpenAIはモデルをより長く「考えさせる」(テストタイム・コンピューティング)ことに投資している。このアプローチは、ますます巨大になるモデルをトレーニングするよりも、エネルギー的にも計算量的にも持続可能かもしれない。

しかし、未解決の疑問が残る。これらのモデルは本当に「推論」しているのだろうか、それとも単に、より洗練された統計的パターンによって推論をシミュレートしているだけなのだろうか?2024年10月に発表されたアップルの研究では、o1のようなモデルは自身の学習データから推論のステップを再現することができると報告されている。数学の問題で数字や名前を変えたり、単に同じ問題を再実行したりすることで、モデルのパフォーマンスは著しく悪化した。論理的には無関係だが余計な情報を追加することで、パフォーマンスが65%も急落するモデルもあった。

結論:基本的な限界のある強力なツール

ストロベリー問題とo1ソリューションは、現在の言語モデルの可能性と固有の限界の両方を明らかにしている。OpenAIは、的を絞った訓練と処理時間の追加によって、モデルがトークン化の構造的な限界を克服できることを示した。しかし、それは排除されたのではなく、回避されたのだ。

ユーザーや開発者にとって、実用的な教訓は明確である。これらのシステムがどのように機能するのか、つまり何がうまく機能し、どこで失敗するのかを理解することは、効果的に使用する上で極めて重要である。言語モデルは、確率的なタスク、パターンマッチング、創造的な生成、情報合成には最適なツールである。しかし、決定論的な正確さを必要とするタスク(計算、算出、特定の事実の検証)においては、外部からの監視や補完的なツールがなければ、信頼性に欠けるままである。

ストロベリー」という名前は、この基本的な限界を皮肉な形で思い起こさせるものとして残るだろう。世界で最も進んだAIシステムでさえ、6歳児が即座に解くような問題でつまずくことがあるのだ。世界最先端のAIシステムでさえ、6歳児なら即座に解けるような問題でつまずくことがあるのだ。AIが愚かだからではなく、私たちとは大きく異なる方法で「思考」しているからなのだ。

情報源

  • OpenAI - 「LLMで推論を学ぶ」(公式ブログ記事、2024年9月)
  • ウィキペディア「OpenAI o1」(項目更新2025年1月)
  • Cosma, Adrian et al. - 'The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models', arXiv:2505.14172 (May 2025)
  • リバーマン、マーク「AIシステムはまだ数を数えられない」『Language Log』(2025年1月号)
  • Yang, Yu - "Why Large Language Models Struggle When Counting Letters in the Word?", Medium (February 2025)
  • Orland, Kyle - "DeepSeek R1はOpenAIの最高の推論モデルに対して実際どうなのか?
  • ブラウン、ノーム(OpenAI) - X/Twitterでの一連の投稿(2024年9月)
  • TechCrunch - 「OpenAIがファクトチェックできるモデル、o1を発表」(2024年9月)
  • 16倍プロンプト「ChatGPTがイチゴのRの数を数えられない理由」(2025年6月更新)

ビジネス成長のためのリソース

2025年11月9日

消費者向けAI規制:2025年の新規制にどう備えるか

2025年、AIの「ワイルドウエスト」時代が終焉を迎える:EUのAI法は2024年8月から運用開始、AIリテラシーは2025年2月2日から、ガバナンスとGPAIは8月2日から義務付けられる。カリフォルニア州は、SB243(14歳のSewell Setzerがチャットボットと感情的な関係を築き自殺した後に生まれた)で、強制的な報酬システムの禁止、自殺念慮の検出、3時間ごとの「私は人間ではありません」というリマインダー、独立した公的監査、1違反につき1,000ドルの罰則を課している。SB420は、「リスクの高い自動化された決定」に対する影響評価を義務付け、人間によるレビューの上訴権を与える。実際の執行:Noomは2022年、ボットを人間のコーチと偽り、5,600万ドルで和解。全米の傾向:アラバマ、ハワイ、イリノイ、メイン、マサチューセッツがAIチャットボットへの通知義務をUDAP違反に分類。3段階のリスク・クリティカル・システム・アプローチ(ヘルスケア/運輸/エネルギー)展開前認証、消費者向け透明情報開示、汎用登録+セキュリティ・テスト。連邦政府の先取りがない規制のパッチワーク:複数の州にまたがる企業は、さまざまな要件に対応しなければならない。2026年8月からのEU: 明らかでない限り、AIとの相互作用をユーザーに通知し、AIが生成したコンテンツは機械可読と表示する。
2025年11月9日

創造されないものを規制する:欧州は技術的に無関連であるリスクを冒すのか?

欧州の人工知能への投資額は世界全体の10分の1に過ぎないが、世界的なルールを決めると主張している。これは「ブリュッセル効果」であり、イノベーションを促進することなく、市場力によって惑星規模のルールを押し付けることである。AI法は2027年まで時差をおいて施行されるが、多国籍ハイテク企業は創造的な回避戦略で対応している。学習データの公開を避けるために企業秘密を持ち出したり、技術的には準拠しているが理解不能な要約を作成したり、自己評価を使ってシステムを「高リスク」から「最小リスク」に格下げしたり、規制の緩い加盟国を選んでフォーラムショッピングをしたり。域外著作権のパラドックス:EUはOpenAIに対し、ヨーロッパ域外でのトレーニングであってもヨーロッパの法律を遵守するよう要求している。二重モデル」の出現:限定的なヨーロッパ版と、同じAI製品の高度なグローバル版。現実のリスク:欧州はグローバルなイノベーションから隔離された「デジタル要塞」となり、欧州市民は劣ったテクノロジーにアクセスすることになる。信用スコアリング事件の司法裁判所はすでに「営業秘密」の抗弁を否定しているが、解釈上の不確実性は依然として大きい。誰も知らない。EUは米国の資本主義と中国の国家統制の間に倫理的な第三の道を作っているのか、それとも単に官僚主義を競合しない分野に輸出しているだけなのか?今のところ:AI規制の世界的リーダーであり、その開発においては周縁である。大規模なプログラム。
2025年11月9日

Outliers:データサイエンスとサクセスストーリーの出会い

データサイエンスはこれまでのパラダイムを覆した。外れ値はもはや「排除すべきエラー」ではなく、「理解すべき貴重な情報」なのだ。外れ値1つで線形回帰モデルを完全に歪めることができる(傾きが2から10に変わる)。しかしそれを排除することは、データセットの最も重要なシグナルを失うことを意味する。機械学習は洗練されたツールを導入している:Isolation Forestはランダムな決定木を構築することで外れ値を分離し、Local Outlier Factorは局所的な密度を分析し、Autoencoderは正常なデータを再構築し、再現できないものを報告する。グローバルな外れ値(熱帯地方での気温-10℃)、文脈上の外れ値(貧困地区での1,000ユーロの出費)、集団的な外れ値(攻撃を示すトラフィックネットワークの同期スパイク)などがある。ポール・マッカートニーは、「多くのバンドがハンブルグで1万時間やったが成功しなかった。アジアの数学的成功は遺伝的なものではなく、文化的なものである:中国の数的システムはより直感的であり、稲作には絶え間ない改良が必要であるのに対し、西洋の農業は領土の拡大が必要である。実際の応用例:英国の銀行はリアルタイムの異常検知によって18%の潜在的損失を取り戻し、製造業は人間の検査では見逃してしまうような微細な欠陥を検知し、ヘルスケアは85%以上の異常検知感度で臨床試験データを検証する。最終的な教訓:データサイエンスが異常値を排除することから、異常値を理解することに移行するにつれて、我々は型破りなキャリアを修正すべき異常値としてではなく、研究すべき貴重な軌跡として捉える必要がある。