arXiv:2602.21061 · cs.AI · February 2026
February 25, 2026
LLM(大規模言語モデル)は、推論だけで超知能を実現できるのか?それとも、ツールが必要なのか?
Diligent Learnerフレームワークは、LLM(大規模言語モデル)が、段階的な成功確率γが十分に正の値である場合に、テスト時の探索を通じて超知能を実現できると提唱しています。本論文では、論理的な分布外推論におけるγを直接的に測定するためのベンチマークを提案します。
このベンチマークは、GF(2)回路の再構成というタスク群を基盤としており、これらのタスクは、推論のステップが進むにつれて難易度が上がり、情報理論的にショートカットすることが不可能なものです。モデルは、推論の各ステップにおいて、蓄積された履歴と新たに観測された証拠を同時に統合する必要があります。パターンマッチングや記憶された履歴のみに依存する戦略は、構造的に失敗します。
分析によると、小規模なLLM(大規模言語モデル)では、γ(おそらく何らかの指標)が深さとともに超線形的に減少する傾向にありますが、最先端モデルは、ツール呼び出しを使用した場合にのみ、ある程度の堅牢性を示します。大規模な推論の成功は、正確なツール使用に依存しており、これはLLMがDiligent Learnerフレームワークを通じて汎用的な超知能を達成するために、ツール設計が重要な能力であることを示唆しています。
Diligent Learnerフレームワークにおける、GF(2)ブール回路の再構成問題。この問題では、正しい次のステップが常に一つに決まっており、情報理論的にショート(不正な近道)が完全に遮断されています。この問題は、γをテストするために用いられます。
ベイズ最適推定量、小規模LLM(Qwen3-2507ファミリー)、そして最先端のモデル(ChatGPT、Claude Opus、Gemini 3 Pro)における評価。
γ g崩壊の傾向の特定と、複雑性が増すにつれて特定のモデルがなぜ致命的な失敗を引き起こすのか、そして、道具を使用するモデルが著しく優れた性能を発揮する理由の説明。
GitHubで公開されているすべてのコードはこちらです: github.com/Poggio-Lab/Tool-Building-as-a-Path-to-Superintelligence。
Diligent Learnerは、推論を、候補となるステップのツリーを深さ優先探索することとして形式化します。 この探索は、各ステップが論理的に一貫性があるかどうかを検証するバリデータによって制御されます。 ルートからリーフまでのパスは、思考の連鎖に対応し、リーフは、完了した解 (DONE) または、誤ったパスであり捨てるべきもの (BACKTRACK) のいずれかです。
重要なパラメータは γ (ガンマ) であり、これは各深さ g において、モデルが「良い」次のステップを提案し、解が正しい方向に進む確率を表します。 より具体的には:
もしγが深さに関わらずゼロにならない場合、計算量は多項式的な増加に抑えられ、探索は成功します。
しかし、γが深さが増すにつれて崩壊する場合、探索に必要な計算資源が指数関数的に増加し、このフレームワークが提供する保証が失われてしまいます。本論文で取り上げる主要な問題は、γが常に正の値であるか、あるいは、それが致命的なまでに低下する可能性があるか、ということです。
このベンチマークテストは、LLM(大規模言語モデル)が、GF(2)と呼ばれる数学的フィールド(ここで加算はXOR演算)上のブール関数を再構成できるかどうかを評価します。ターゲットとなる回路は、モノミアルの和として表現されます:f(a,v) = t₁ ⊕ t₂ ⊕ … ⊕ tₙ。各ステップgにおいて、モデルは2つの入力を受け取ります。
モデルは、次の単項式 `t g+1` を出力する必要があります。成功するためには、モデルは両方の入力(履歴のみ、またはデータのみ)を統合する必要があります。どちらか一方だけでは、理論的に不十分であることが証明されています。オラクルは、ソルバーが完全な接頭辞を持っていない限り、答えを統計的に隠蔽するため、ショートカット戦略は設計上失敗します。
ANF(Algebraic Normal Form)は、任意のブール関数を、変数の積(AND)の和(XOR)として表現する方法です。例えば:f(x₁,x₂,x₃) = x₁ ⊕ (x₂ AND x₃)。各積の項は「モノミアル」と呼ばれます。ベンチマークタスクは基本的に、回路の最初のg個のモノミアルと、いくつかのラベル付けされた例が与えられたとき、(g+1)-番目のモノミアルを予測することです。これは、多項式を補完するのに似ていますが、バイナリXOR演算に基づいています。
直前のステップのシーケンスを知っていても、新しい情報(エビデンス)を考慮しない場合、次のステップを予測する力は全くありません。
ラベルの割合が均等(約50%の0/1)であるため、統計的な頻度だけでは答えを推測できません。モデルは、単なる推測ではなく、真に論理的な推論なしに答えを導き出すことはできません。
プレフィックスがない新しいデータは、ほとんど意味のある情報を提供しません。ベイズ法の利点は、アクティブなプレフィックスビットの数とともに指数関数的に減少します。
ソルバーは、情報へのアクセスによって区別されます。このベンチマークは、以下の条件を満たすように設計されています。 min g γ A ≥ Q (ただし、γ B , γ C , γ D ≈ 1⁄𝐶 d−1 (深さが大きい場合は、ほぼランダム)。
Prefix PとEvidence Sの両方への完全なアクセス権が与えられています。利用可能なすべての情報を統合できる、理想的なエージェントです。
証拠Sが存在するが、プレフィックスPは存在しない。蓄積された推論履歴を使用できない。
接頭辞Pは付与されているが、証拠Sは存在しない。新しい、ステップ固有のデータは使用できない。
PとSの両方へのアクセスが可能ですが、深くなるほど性能が低下し、BとAの中間程度の性能です。
過去のデータと現在の状況を組み合わせることで、信頼性の高い次のステップの予測が可能になります。
我々は、深さ g ∈ {1, 3, 7, 15, 31, 63, 127} の4つのベイズ推定手法について、2,000個の生成された回路(敵対的サンプリング、p=12, d=4)を用いて評価を行った。その結果は明確であり:
推論の深さ *g* と問題の規模 *p* が共に増加すると、部分情報に基づいた推定値はゼロに収束します。これは、ベンチマークの理論的な設計を裏付けています。
小規模なLLM(大規模言語モデル)も、部分的な情報しか利用できない推定器と同様に、性能が低下します。
Qwen3-2507ファミリーの4つのモデルを、深さgが{1, 3, 7, 15, 31}の3,000のデータセットで評価しました。評価に使用したモデルは、4B-Instruct、4B-Thinking、30B-A3B-Thinking、30B-A3B-Instructです。敵対的サンプリング(p=12, d=4)を使用しました。
すべてのモデルにおいて、深さが増すにつれてγの値が系統的に低下する傾向が見られます。これは、定理B.1で証明されているように、各段階で多項式時間で解けるデコーダーが存在することにもかかわらずです。「思考」機能を搭載したモデルは、浅い深さではより優れた性能を発揮しますが、それでもg=15付近で急激に性能が低下します。
この論文では、補遺B(定理B.1)において、多項式時間で動作するデコーダが常に存在することを証明しています。つまり、原理的には、アルゴリズムは常に効率的に正しい次の項を見つけることができるはずです。しかし、パラメータ数が300億にもなるモデルでも、深さを増すと機能不全を起こします。この矛盾は、重要な示唆を与えます。適切なアルゴリズムが存在するだけでは不十分なのです。LLMは、その注意機構(attention weights)と順伝播(forward pass)を通じて、そのアルゴリズムを実装する必要がありますが、アクティブなプレフィックスビットの数が増加すると、それがうまくいかなくなるようです。これは、ある定理の証明が存在することを知っていても、合理的な時間内にそれを発見できない状況に似ています。情報は存在しますが、アクセス機構が機能しないのです。
効果的なプレフィックス分析:各モデルの精度曲線を、効果的なプレフィックスモデルに当てはめることで、Qwen3-30B-A3B-Thinking が、明らかになったプレフィックスの約47%を使用していることがわかります(比例スケーリング、ΔAIC=228)。一方、30B-A3B-Instruct は、約15%しか使用していません。深さが深くなるにつれて、オラクルマスクが広がり、限られたプレフィックスの利用は、モデルを部分情報領域へと押しやめます。
表1:LLMの精度を、尤度に基づく手法で、有効なプレフィックスモデルと比較した結果。
| Model | u (prop. scale) | v (capacity) | ΔAIC | Better fit |
|---|---|---|---|---|
| Qwen3-30B-A3B-Instruct-2507 | 0.15 | 0.00 | 2.21 | u (marginal) |
| Qwen3-30B-A3B-Thinking-2507 | 0.47 | 0.00 | 228.08 | u (strong) |
| Qwen3-4B-Instruct-2507 | 0.08 | 0.00 | 2.32 | u (marginal) |
| Qwen3-4B-Thinking-2507 | 0.05 | 0.00 | 0.00 | — |
u = プレフィックスが有効に利用されている割合(値が大きいほど、プレフィックスの統合が良好)。 ΔAIC > 2 の場合、定数容量よりも比例スケーリングが有利。 Thinking-30B だけが、そのコンテキストウィンドウを大幅に活用している(u=0.47)。
研究者らは、各LLM(大規模言語モデル)の精度曲線に対して、以下の2つのモデルを当てはめています。(1) 比例スケーリング:k=ug(モデルは、明らかにされたプレフィックスの一部であるuを使用する)、(2) 定数容量:k=v(モデルは、明らかにされた数に関わらず、最大でv個のトークンを使用する)。ΔAIC(赤池情報量規準の差)は、どちらのモデルがより適合するかを測定します。ΔAIC > 2の場合、比例モデルの方が有意に優れていることを意味します。Qwen3-30B-Thinking(u=0.47、ΔAIC=228)の場合、これは、モデルが深さとともにプレフィックスの使用量をスケーリングしていることを強く示唆していますが、コンテキスト全体ではなく、約47%のみを使用していることを意味します。対照的に、30B-Instruct(u=0.15、ΔAIC=2.21)は、ほとんどスケーリングしていません。
Frontier LLMは、劇的に性能が向上しており、その鍵はツールです。
ChatGPT (拡張された推論機能)、Claude Opus 4.5 (最大推論能力)、および Gemini 3 Pro (2026年1月) を、各モデルにつき60個の質問に対して、g ∈ {31, 63, 127}、p=12、d=4 の条件で評価しました。プロンプトの半分はツール使用を許可せず (N.T.)、もう半分は許可しました (T.)。
あらゆる小規模LLMがランダムに失敗してしまう、極めて厳しい条件下では:
ツールが役立つ理由:ツールを使用することで、計算処理を外部化できます。モデルは、内部の重みを使って制約条件を同時に発見し、それに対応する計算を実行する代わりに、制約条件のみを指定し、実行を外部プログラムに委譲します。この分離により、Transformerモデルの重みにかかる負担が大幅に軽減され、堅牢な汎化能力を実現し、長期的な安定性をγ(おそらく何らかのパラメータ)に与えることができます。
LLMに以下のような計算をさせることを想像してみてください。「接頭辞[x₁, x₁ AND x₃, x₂ AND x₄]と、32個のラベル付きサンプルが与えられたとき、次の単項式を見つけよ。」ツールなしで、モデルは同時に(1)接頭辞を解析し、(2)自身の注意機構においてXORキャンセルマスクを適用し、(3)ペイロード変数の中から検索し、(4)候補を検証する必要があります。これらはすべて、1回の順伝播で完了しなければなりません。一方、ツールを使用する場合、モデルはコードを記述できます。具体的には、`compute_residuals(prefix, examples)`というコードを実行し、キャンセル結果を受け取り、その後、はるかに単純な推論ステップでペイロード変数の中から検索することができます。これにより、Transformerの重みにかかる計算負荷が大幅に低下するため、ツールを使用するモデルは、g=127であっても高いγを維持できます。
本研究では、一般的なショートカット戦略に対して対抗的なGF(2)回路再構成ベンチマークを導入することで、Diligent Learner仮説に対する厳密な実証的検証を提供します。このタスクは、モデルが状態を維持し、浅いパターンマッチングに頼るのではなく、各ステップで蓄積された過去の文脈と新たに観測された証拠を繰り返し統合することを要求します。
比較的小規模な言語モデルは、問題の深さが増すにつれて、γの値が線形よりも急激に減少します。これは、それらが部分的な情報に基づいて推定を行っていることを意味します。これらのモデルは、継続的な進歩のために必要な、プレフィックス条件付きのキャンセル機能を維持することができません。これは、そのアーキテクチャの根本的な限界です。
ツール呼び出しを活用する最先端のモデルは、外部のメカニズムに状態の追跡と検証を委譲することで、長いシーケンスにおいても高いγを維持します。 これは、いわゆる「超知能」の実現には、テスト時の計算リソースの拡張よりも、ツールを構築し活用できるアーキテクチャの開発がより重要であることを示唆しています。