ストロベリー問題からモデルo1へ:トークン化の限界を(部分的に)解決したOpenAIの方法
2024年の夏、インターネット上で流行したミームが世界最先端の言語モデルを困惑させた。"ストロベリー "という単語にはいくつの "r "が入っているか?正解は3つだが、GPT-4oは頑なに「2つ」と答えた。一見些細なミスだが、言語モデルの基本的な限界、つまり単語内の個々の文字を分析できないことが明らかになった。
2024年9月12日、OpenAIは、この種の制限を克服するために特別に設計された「推論モデル」の新シリーズの最初のモデルであるo1(内部的には「Strawberry」というコードネームで知られている)をリリースした。OpenAIの研究者が確認したように、o1はついに'strawberry'の'r'を正しく数えることに成功したのだ。
しかし、その解決策は元記事が想像していたようなものではない。OpenAIは、単語を一文字ずつ分析するようモデルに『教えた』のではない。その代わりに、まったく異なるアプローチを開発した。つまり、回答する前にモデルに『推論』を教えるのだ。
この問題は、言語モデルがテキストを処理する基本的なプロセスであるトークン化に根ざしている。2025年5月にarXivで発表された技術論文('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models')で説明されているように、モデルは単語を文字の並びとしてではなく、意味の単位を数値に変換した「トークン」として見ている。
GPT-4が "strawberry "という単語を処理するとき、そのトークナイザーは[str][aw][berry]という3つの部分に分割し、それぞれは特定の数値ID(496, 675, 15717)を持つ。このモデルにとって、"strawberry "は10文字の列ではなく、3つの数値トークンの列である。それはあたかも、各単語がコードに置き換えられている本を読んでいるときに、誰かが彼に、書かれているのを見たこともないコードの文字を数えるように頼んでいるようなものである。
複合語の場合、問題はさらに複雑になる。"Timekeeper "は別々のトークンに分断されているため、明示的な推論プロセスなしに、モデルが文字の正確な位置を決定することは不可能である。断片化は文字のカウントだけでなく、単語の内部構造の理解にも影響する。
技術的に難しく、モデルの効率性を損なうトークン化を修正する代わりに、「思考の連鎖推論」と呼ばれる技術を使って、システムに「話す前に考える」ことを教えたのだ。
いちご」にはいくつの「r」があるかとo1に尋ねると、モデルはすぐには答えない。数秒、複雑な質問の場合は数分かけて、ユーザーには見えない「推論の連鎖」を内部で処理する。この処理によって、次のことが可能になる:
オープンエイの研究者であるノーム・ブラウンは、Xへの一連の投稿で次のように説明している。このモデルは、最終的な正解だけでなく、推論プロセスの各ステップの正解に対して、トレーニング中に報酬を受け取ります。
結果は印象的だが、高くついた。国際数学オリンピックの予選試験で、o1は83%の問題を正確に解いたのに対し、GPT-4oは13%だった。科学分野の博士号レベルの問題では、GPT-4oの56%に対して78%の精度を達成した。o1は、GPT-4oが3秒で解く問題に答えるのに30秒以上かかり、100万トークンの入力あたり15ドルかかるのに対し、GPT-4oは5ドルだ。
そのテクニックは魔法のようなものではなく、理路整然としている。プロンプトを受け取ると、o1は内部的に、ユーザーには表示されない長い一連の「思考」を生成する。ストロベリー」の「r」問題では、内部処理は次のようになる:
「まず、単語の構造を理解しなければならない。Strawberryは[str][aw][berry]とトークン化できる。r'を数えるには、文字レベルで完全な単語を再構築しなければならない。strはs-t-r(1 'r')を含む。Awには:a-w(0 'r')が含まれる。Berryには:b-e-r-y(2 'r')が含まれる。合計: 1+0+2 = 3 'r'.イチゴ=s-t-r-a-w-b-e-r-r-y。r'を数える:ポジション3、ポジション8、ポジション9。確認:3つの「r」。
この内部推論は設計上隠されています。OpenAIは、ユーザーがo1の思考回路を明らかにしようとすることを明確に禁止しており、プロンプトを監視し、このルールに違反したユーザーにはアクセス権を剥奪する可能性がある。同社はAIのセキュリティと競争上の優位性を理由に挙げているが、この決定は言語モデルを扱う開発者にとっては透明性を失うものとして批判されている。
進歩とはいえ、o1は問題を完全に解決したわけではない。2025年1月に『Language Log』に掲載された研究では、「各文の2文字目が『CODE』という単語を構成する段落を書きなさい」という、より複雑な課題に対してさまざまなモデルをテストした。
o1スタンダード(月額20ドル)は、各頭文字の単語の最初の文字を誤って「2文字目」とカウントして失敗した。o1-pro(月額200ドル)は、4分10秒の「思考」の末に問題を解決した。2025年1月に市場を震撼させた中国製モデルのDeepSeek R1は、o1スタンダードと同じミスを犯した。
o1は推論によってこの制限を「回避」することを学んだが、解消したわけではない。ある研究者がLanguage Logで述べているように、「トークン化は言語モデルの本質の一部である。
2025年5月にarXivで発表された重要な論文('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models')は、理論的観点からこの現象を分析している。研究者らは、制御された文脈における文字レベルの推論を分離する19の合成課題を作成し、これらの能力がトレーニングの後半にのみ突然出現することを実証した。
この研究では、文字作文の学習は常識的な知識の学習と根本的に異なるものではなく、モデルが例やつながりの臨界量に達したときに「概念浸透」のプロセスを通じて現れるものであると提案している。
研究者は、サブワードベースのモデルの帰納的な利点を維持しながら、文字レベルの推論を大幅に改善する軽量なアーキテクチャの修正を提案している。しかし、これらの修正は実験的なものであり、商用モデルには実装されていない。
イチゴのケースは、言語モデルの信頼性について重要な教訓を与えている。それは、言語モデルは確率的な道具であり、決定論的な計算機ではないということだ。マーク・リバーマンがLanguage Logで述べているように、「数を数えるようなタスクにおいて、現在のAIシステムの反応を信頼するのは慎重であるべきだ」。
だからといって、模型が役に立たないというわけではない。あるコメンテーターは、「猫がキュウリに怯えるという愚かなミスを犯したからといって、ネズミを建物から追い出すというもっと難しい仕事を猫に任せるべきではないということにはならない」と指摘している。言語モデルは、文字を体系的にカウントしたい場合には適切なツールではないが、何千ものポッドキャストのトランスクリプトを自動的に処理し、ゲストやホストの名前を抽出するには優れている。
火星への宇宙船の着陸、医薬品の投与量の計算、法令遵守の検証など、絶対的な精度が要求されるタスクでは、現在の言語モデルは、人間の監督や外部からの検証がない限り、不十分なままである。その確率的な性質から、パターンマッチングや創造的な生成には威力を発揮するが、誤差が許されないタスクでは信頼性に欠ける。
OpenAIは、推論能力をさらに高めるために「数時間、数日、あるいは数週間推論する」o1モデルを実験するつもりであると述べた。2024年12月、o3が発表され(o2という名称は携帯電話事業者O2との商標の衝突を避けるために省略された)、2025年3月、o1-proのAPIがリリースされた。o1-proはOpenAIのこれまでで最も高価なAIモデルで、価格は入力が100万トークンあたり150ドル、出力が100万トークンあたり600ドルであった。
方向性は明確だ。モデルをどんどん大きくする(スケーリング)代わりに、OpenAIはモデルをより長く「考えさせる」(テストタイム・コンピューティング)ことに投資している。このアプローチは、ますます巨大になるモデルをトレーニングするよりも、エネルギー的にも計算量的にも持続可能かもしれない。
しかし、未解決の疑問が残る。これらのモデルは本当に「推論」しているのだろうか、それとも単に、より洗練された統計的パターンによって推論をシミュレートしているだけなのだろうか?2024年10月に発表されたアップルの研究では、o1のようなモデルは自身の学習データから推論のステップを再現することができると報告されている。数学の問題で数字や名前を変えたり、単に同じ問題を再実行したりすることで、モデルのパフォーマンスは著しく悪化した。論理的には無関係だが余計な情報を追加することで、パフォーマンスが65%も急落するモデルもあった。
ストロベリー問題とo1ソリューションは、現在の言語モデルの可能性と固有の限界の両方を明らかにしている。OpenAIは、的を絞った訓練と処理時間の追加によって、モデルがトークン化の構造的な限界を克服できることを示した。しかし、それは排除されたのではなく、回避されたのだ。
ユーザーや開発者にとって、実用的な教訓は明確である。これらのシステムがどのように機能するのか、つまり何がうまく機能し、どこで失敗するのかを理解することは、効果的に使用する上で極めて重要である。言語モデルは、確率的なタスク、パターンマッチング、創造的な生成、情報合成には最適なツールである。しかし、決定論的な正確さを必要とするタスク(計算、算出、特定の事実の検証)においては、外部からの監視や補完的なツールがなければ、信頼性に欠けるままである。
ストロベリー」という名前は、この基本的な限界を皮肉な形で思い起こさせるものとして残るだろう。世界で最も進んだAIシステムでさえ、6歳児が即座に解くような問題でつまずくことがあるのだ。世界最先端のAIシステムでさえ、6歳児なら即座に解けるような問題でつまずくことがあるのだ。AIが愚かだからではなく、私たちとは大きく異なる方法で「思考」しているからなのだ。
情報源