ツール構築が「超知能」への道となる：Koplow, Galanti, Poggio (2026)

Abstract

概要

Diligent Learnerフレームワークは、LLM（大規模言語モデル）が、段階的な成功確率γが十分に正の値である場合に、テスト時の探索を通じて超知能を実現できると提唱しています。本論文では、論理的な分布外推論におけるγを直接的に測定するためのベンチマークを提案します。

このベンチマークは、GF(2)回路の再構成というタスク群を基盤としており、これらのタスクは、推論のステップが進むにつれて難易度が上がり、情報理論的にショートカットすることが不可能なものです。モデルは、推論の各ステップにおいて、蓄積された履歴と新たに観測された証拠を同時に統合する必要があります。パターンマッチングや記憶された履歴のみに依存する戦略は、構造的に失敗します。

分析によると、小規模なLLM（大規模言語モデル）では、γ（おそらく何らかの指標）が深さとともに超線形的に減少する傾向にありますが、最先端モデルは、ツール呼び出しを使用した場合にのみ、ある程度の堅牢性を示します。大規模な推論の成功は、正確なツール使用に依存しており、これはLLMがDiligent Learnerフレームワークを通じて汎用的な超知能を達成するために、ツール設計が重要な能力であることを示唆しています。

ツールを活用した最先端LLMは、深さ127においてもγがほぼ1を維持します。ツールなしでは、問題サイズが増大するにつれてパフォーマンスが大幅に低下します。

Contributions

この論文で提供する内容

1

段階的推論ベンチマーク

Diligent Learnerフレームワークにおける、GF(2)ブール回路の再構成問題。この問題では、正しい次のステップが常に一つに決まっており、情報理論的にショート（不正な近道）が完全に遮断されています。この問題は、γをテストするために用いられます。

2

マルチクラス評価

ベイズ最適推定量、小規模LLM（Qwen3-2507ファミリー）、そして最先端のモデル（ChatGPT、Claude Opus、Gemini 3 Pro）における評価。

3

γ分解分析

γ g崩壊の傾向の特定と、複雑性が増すにつれて特定のモデルがなぜ致命的な失敗を引き起こすのか、そして、道具を使用するモデルが著しく優れた性能を発揮する理由の説明。

4

オープンソースコード.

GitHubで公開されているすべてのコードはこちらです: github.com/Poggio-Lab/Tool-Building-as-a-Path-to-Superintelligence。

Background

「Diligent Learner Framework」

Diligent Learnerは、推論を、候補となるステップのツリーを深さ優先探索することとして形式化します。この探索は、各ステップが論理的に一貫性があるかどうかを検証するバリデータによって制御されます。ルートからリーフまでのパスは、思考の連鎖に対応し、リーフは、完了した解 (DONE) または、誤ったパスであり捨てるべきもの (BACKTRACK) のいずれかです。

重要なパラメータは γ (ガンマ) であり、これは各深さ g において、モデルが「良い」次のステップを提案し、解が正しい方向に進む確率を表します。より具体的には：

Pr[a ∈ {∀aᵢ. S(h,aᵢ)=1}] ≥ γ

この数式が実際に意味していることは以下の通りです。ポリシー π (LLMによる提案分布) は、「良い」行動、つまり解の経路を完了させ続けられる行動に、確率質量 ≥ γ を割り当てます。これは、チェスのプレイヤーが、各手において、少なくとも γ の確率で、行き詰まりに繋がらない手を指さなければならない、という状況に似ています。もし γ が 0.9 であれば、多くの手を通してでも、プレイヤーは依然として有利な状況を保てます。一方、γ が 0.1 であれば、解に到達する累積確率は、深さとともに指数関数的に低下します。

もしγが深さに関わらずゼロにならない場合、計算量は多項式的な増加に抑えられ、探索は成功します。

O(T_max · log(T_max/δ) / γ)

しかし、γが深さが増すにつれて崩壊する場合、探索に必要な計算資源が指数関数的に増加し、このフレームワークが提供する保証が失われてしまいます。本論文で取り上げる主要な問題は、γが常に正の値であるか、あるいは、それが致命的なまでに低下する可能性があるか、ということです。

γ = ステップ成功確率バリデータによる深さ優先探索（DFS）のガイドバックトラック機構

Diligent Learnerのプルーフツリー可視化機能は、分岐する推論ステップと、BACKTRACKノードを表示します。 — **図1：** Diligent Learnerフレームワークからの推論ツリー。各ノードは推論の状態を表し、バリデータによって承認された分岐（確率 ≥ γ）は拡張されます。誤ったパスはBACKTRACK（後退）をトリガーします

検証者によるガイダンスの下で作成された、DFS（深さ優先探索）フロー図。 — **図2：** 熱心な学習者としての、バリデータによるガイド付き深さ優先探索（DFS）。良好な拡張は、確率がγ以上の場合に発生します。失敗した場合、ポリシーは最も深い正しい接頭辞β(h)に戻り、探索を続けます

Methodology

ベンチマーク：GF(2)回路再構成

タスク：ブール回路を段階的に再構成する

このベンチマークテストは、LLM（大規模言語モデル）が、GF(2)と呼ばれる数学的フィールド（ここで加算はXOR演算）上のブール関数を再構成できるかどうかを評価します。ターゲットとなる回路は、モノミアルの和として表現されます：f(a,v) = t₁ ⊕ t₂ ⊕ … ⊕ tₙ。各ステップgにおいて、モデルは2つの入力を受け取ります。

GF(2)を簡単に説明すると：GF(2)は最も単純な数学的な体であり、要素は0と1の2つのみで、加算にはXOR (⊕) が使用されます。例えば、1 ⊕ 1 = 0、0 ⊕ 1 = 1 です。乗算は通常のAND演算です。これは、二進数システムや暗号で使用される算術と全く同じです。この論文ではGF(2)を使用しているのは、XOR演算が、どのような情報が隠蔽できるか、またはできないかを厳密に証明できる、優れた数学的特性を持っているからです。

接頭辞 (Pₒ): これまでに発見された g 多項式群は、回路再構成の「履歴」そのものです。
証拠 (Sₒ): ステップごとの敵対的オラクルによって生成された、32個の新しいラベル付きサンプル。

モデルは、次の単項式 `t g+1` を出力する必要があります。成功するためには、モデルは両方の入力（履歴のみ、またはデータのみ）を統合する必要があります。どちらか一方だけでは、理論的に不十分であることが証明されています。オラクルは、ソルバーが完全な接頭辞を持っていない限り、答えを統計的に隠蔽するため、ショートカット戦略は設計上失敗します。

ANF (代数的正規形) の理解

ANF（Algebraic Normal Form）は、任意のブール関数を、変数の積（AND）の和（XOR）として表現する方法です。例えば：f(x₁,x₂,x₃) = x₁ ⊕ (x₂ AND x₃)。各積の項は「モノミアル」と呼ばれます。ベンチマークタスクは基本的に、回路の最初のg個のモノミアルと、いくつかのラベル付けされた例が与えられたとき、(g+1)-番目のモノミアルを予測することです。これは、多項式を補完するのに似ていますが、バイナリXOR演算に基づいています。

3つの理論的な保証

1

No History-Only Shortcuts

直前のステップのシーケンスを知っていても、新しい情報（エビデンス）を考慮しない場合、次のステップを予測する力は全くありません。

2

No Statistical Leakage

ラベルの割合が均等（約50%の0/1）であるため、統計的な頻度だけでは答えを推測できません。モデルは、単なる推測ではなく、真に論理的な推論なしに答えを導き出すことはできません。

3

No Data-Only Shortcuts

プレフィックスがない新しいデータは、ほとんど意味のある情報を提供しません。ベイズ法の利点は、アクティブなプレフィックスビットの数とともに指数関数的に減少します。

「情報理論的に不可能である」という言葉の意味とは？情報理論は、データから推測できることについて絶対的な限界を設けます。プレフィックスと次のステップの間の相互情報量がゼロである場合、どれほど巧妙な方法を用いても、過去のデータだけからは答えを導き出すことはできません。完璧なベイズ計算機でさえもです。これは、現在のモデルの現実的な制限ではなく、数学的な不可能性です。このベンチマークは、敵対的なオラクルを使用してラベルをプレフィックスで隠すことで、このような不可能性が常に満たされるように設計されています。

4つの評価クラス

ソルバーは、情報へのアクセスによって区別されます。このベンチマークは、以下の条件を満たすように設計されています。 min g γ A ≥ Q (ただし、γ B , γ C , γ D ≈ 1⁄𝐶 d−1 (深さが大きい場合は、ほぼランダム)。

𝒜

Diligent Estimator

Prefix PとEvidence Sの両方への完全なアクセス権が与えられています。利用可能なすべての情報を統合できる、理想的なエージェントです。

γ ≈ 1.0 (sustained)

ℬ

Data-Only Estimator

証拠Sが存在するが、プレフィックスPは存在しない。蓄積された推論履歴を使用できない。

γ → random (collapses)

𝒞

History-Only Estimator

接頭辞Pは付与されているが、証拠Sは存在しない。新しい、ステップ固有のデータは使用できない。

γ ≈ random (always)

𝒟

Partial Estimator

PとSの両方へのアクセスが可能ですが、深くなるほど性能が低下し、BとAの中間程度の性能です。

γ → random (degrades)

Results — Section 6.1

ベイズ推定シミュレーション

過去のデータと現在の状況を組み合わせることで、信頼性の高い次のステップの予測が可能になります。

我々は、深さ g ∈ {1, 3, 7, 15, 31, 63, 127} の4つのベイズ推定手法について、2,000個の生成された回路（敵対的サンプリング、p=12, d=4）を用いて評価を行った。その結果は明確であり：

Estimator A (勤勉): すべての深さにおいて、γ ≈ 1.0 を維持し、ほぼ完璧な性能を発揮します。
Estimator B (データのみを使用): モデルの深さを増すにつれて、急速にランダムな推測レベルに近づきます。
Estimator C (履歴データのみ): 開始直後から、ランダムな結果しか出力せず、有効な情報を提供しません。
Estimator D (一部): 深くなるにつれて性能が低下し、Bよりもわずかに優れていますが、依然として性能が低下します。

推論の深さ *g* と問題の規模 *p* が共に増加すると、部分情報に基づいた推定値はゼロに収束します。これは、ベンチマークの理論的な設計を裏付けています。

ステップ成功確率（gamma）と推論の深さの関係を、4つの推定器クラスについて線グラフで示した図。 — **図3：** 各推定器クラスにおける、ステップ成功確率 γg と推論深度 g の関係 (p=12, d=4, 2000 回の計算、敵対的サンプリング)。推定器 A (Diligent, history+data) は、すべての深度において γ ≈ 1 を維持する。推定器 B (data-only) と D (partial) は、ゼロに近づく。推定器 C (history-only) は、確率的な偶然のレベルにとどまる

ヒートマップ：問題のサイズ *p* と深さ *g* に対して、4つの推定器クラスにおけるガンマの値。 — **図4：** 各推定器クラス（敵対的データ、設定ごとに200個の回路）について、問題のサイズ *p*（y軸）と深さ *g*（x軸）に対する γ *g* のヒートマップ。推定器 A は、全体を通して明るい状態（高い γ）を維持しています。他のすべての推定器は、*g* と *p* が増加するにつれて暗くなります。これは、収束が問題の複雑さとともにスケールすることを確認するものです

Results — Section 6.2

小型LLMにおいて、深さ依存の崩壊が確認された

小規模なLLM（大規模言語モデル）も、部分的な情報しか利用できない推定器と同様に、性能が低下します。

Qwen3-2507ファミリーの4つのモデルを、深さgが{1, 3, 7, 15, 31}の3,000のデータセットで評価しました。評価に使用したモデルは、4B-Instruct、4B-Thinking、30B-A3B-Thinking、30B-A3B-Instructです。敵対的サンプリング（p=12, d=4）を使用しました。

すべてのモデルにおいて、深さが増すにつれてγの値が系統的に低下する傾向が見られます。これは、定理B.1で証明されているように、各段階で多項式時間で解けるデコーダーが存在することにもかかわらずです。「思考」機能を搭載したモデルは、浅い深さではより優れた性能を発揮しますが、それでもg=15付近で急激に性能が低下します。

この結果が直感に反する理由は何ですか？

この論文では、補遺B（定理B.1）において、多項式時間で動作するデコーダが常に存在することを証明しています。つまり、原理的には、アルゴリズムは常に効率的に正しい次の項を見つけることができるはずです。しかし、パラメータ数が300億にもなるモデルでも、深さを増すと機能不全を起こします。この矛盾は、重要な示唆を与えます。適切なアルゴリズムが存在するだけでは不十分なのです。LLMは、その注意機構（attention weights）と順伝播（forward pass）を通じて、そのアルゴリズムを実装する必要がありますが、アクティブなプレフィックスビットの数が増加すると、それがうまくいかなくなるようです。これは、ある定理の証明が存在することを知っていても、合理的な時間内にそれを発見できない状況に似ています。情報は存在しますが、アクセス機構が機能しないのです。

効果的なプレフィックス分析：各モデルの精度曲線を、効果的なプレフィックスモデルに当てはめることで、Qwen3-30B-A3B-Thinking が、明らかになったプレフィックスの約47%を使用していることがわかります（比例スケーリング、ΔAIC=228）。一方、30B-A3B-Instruct は、約15%しか使用していません。深さが深くなるにつれて、オラクルマスクが広がり、限られたプレフィックスの利用は、モデルを部分情報領域へと押しやめます。

ラインチャート：Qwen3-2507という小型LLMにおける、深さ（depth）とγの関係。深さによって引き起こされる崩壊（collapse）を示している。 — **図5：** 小規模LLMでは、深さによる影響（depth-induced collapse）が見られる。Qwen3-2507モデルにおける、ステップ成功確率 γg と回路の深さ g の関係（敵対的サンプリング、p=12, d=4, 3000インスタンス）。すべてのモデルにおいて、各ステップで多項式時間で動作するデコーダが存在するにもかかわらず、深さが増すと性能が低下する。より大規模な「Thinking」バリアントは、浅い深さでは有効だが、最終的には基本的な性能レベル γtriv に近づく

表1：LLMの精度を、尤度に基づく手法で、有効なプレフィックスモデルと比較した結果。

Model	u (prop. scale)	ΔAIC	Better fit
Qwen3-30B-A3B-Instruct-2507	0.15	2.21	u (marginal)
Qwen3-30B-A3B-Thinking-2507	0.47	228.08	u (strong)
Qwen3-4B-Instruct-2507	0.08	2.32	u (marginal)
Qwen3-4B-Thinking-2507	0.05	0.00	—

u = プレフィックスが有効に利用されている割合（値が大きいほど、プレフィックスの統合が良好）。 ΔAIC > 2 の場合、定数容量よりも比例スケーリングが有利。 Thinking-30B だけが、そのコンテキストウィンドウを大幅に活用している（u=0.47）。

効果的なプレフィックスモデルとΔAICの理解

研究者らは、各LLM（大規模言語モデル）の精度曲線に対して、以下の2つのモデルを当てはめています。(1) 比例スケーリング：k=ug（モデルは、明らかにされたプレフィックスの一部であるuを使用する）、(2) 定数容量：k=v（モデルは、明らかにされた数に関わらず、最大でv個のトークンを使用する）。ΔAIC（赤池情報量規準の差）は、どちらのモデルがより適合するかを測定します。ΔAIC > 2の場合、比例モデルの方が有意に優れていることを意味します。Qwen3-30B-Thinking（u=0.47、ΔAIC=228）の場合、これは、モデルが深さとともにプレフィックスの使用量をスケーリングしていることを強く示唆していますが、コンテキスト全体ではなく、約47%のみを使用していることを意味します。対照的に、30B-Instruct（u=0.15、ΔAIC=2.21）は、ほとんどスケーリングしていません。

Results — Section 6.3

Frontier LLMs – ツールが安定化

Frontier LLMは、劇的に性能が向上しており、その鍵はツールです。

ChatGPT (拡張された推論機能)、Claude Opus 4.5 (最大推論能力)、および Gemini 3 Pro (2026年1月) を、各モデルにつき60個の質問に対して、g ∈ {31, 63, 127}、p=12、d=4 の条件で評価しました。プロンプトの半分はツール使用を許可せず (N.T.)、もう半分は許可しました (T.)。

あらゆる小規模LLMがランダムに失敗してしまう、極めて厳しい条件下では：

ツールを搭載した大規模言語モデルでは、深さが127に達しても、γの値は約1.0を維持します。
ツールなしでは、問題のサイズが大きくなるにつれて、γの値が大幅に低下します。

ツールが役立つ理由：ツールを使用することで、計算処理を外部化できます。モデルは、内部の重みを使って制約条件を同時に発見し、それに対応する計算を実行する代わりに、制約条件のみを指定し、実行を外部プログラムに委譲します。この分離により、Transformerモデルの重みにかかる負担が大幅に軽減され、堅牢な汎化能力を実現し、長期的な安定性をγ（おそらく何らかのパラメータ）に与えることができます。

「外部化された計算」が何を意味するかの具体的な例

LLMに以下のような計算をさせることを想像してみてください。「接頭辞[x₁, x₁ AND x₃, x₂ AND x₄]と、32個のラベル付きサンプルが与えられたとき、次の単項式を見つけよ。」ツールなしで、モデルは同時に(1)接頭辞を解析し、(2)自身の注意機構においてXORキャンセルマスクを適用し、(3)ペイロード変数の中から検索し、(4)候補を検証する必要があります。これらはすべて、1回の順伝播で完了しなければなりません。一方、ツールを使用する場合、モデルはコードを記述できます。具体的には、`compute_residuals(prefix, examples)`というコードを実行し、キャンセル結果を受け取り、その後、はるかに単純な推論ステップでペイロード変数の中から検索することができます。これにより、Transformerの重みにかかる計算負荷が大幅に低下するため、ツールを使用するモデルは、g=127であっても高いγを維持できます。

g = 127 のとき、γ ≈ 1.0 となりました（使用ツール：ChatGPT）。

g=31における、ツールありとなしで比較した最先端LLMの性能を示す棒グラフ。 — **図6：** Frontier LLMは、g=31の場合、小型モデルよりもはるかに高いγgの値を示します。小型のQwen3モデルは、ランダムな推測の基準値と同等またはそれ以下です。ツール呼び出し機能（T.）を持つFrontierモデルは、ほぼ1に近いγgを達成します。ツール機能がない（N.T.）モデルでは、性能が大幅に低下します

図7におけるベイズ信頼区間：エラーバーは、γに対する一様事前分布を用いたベイズ信用区間を表しています。各モデルに対してわずか60件のクエリしか使用している（小規模LLMの場合は3000件に対して）ため、通常の頻度主義的な区間は信頼できない可能性があります。ベイズアプローチは、小規模なサンプルサイズにおいて、より正確な不確実性の評価を提供します。バーが広ければ広いほど、不確実性が高いことを示します。

深さ63と127における、ツールありとなしで比較した最先端LLMの性能を示す棒グラフ。 — **図7：** ツールを使用する最先端モデルは、深さ63および127においても高いγgを維持している。ツールを使用しない場合（N.T.）、γgは大幅に低下する。ツールを使用するChatGPTは、g=127においてもほぼ1に近い値を示す。 Opusは、指示されていなくても頻繁にツールを使用し、その結果、ツールを使用しない場合のスコアが過大評価されている

Discussion

結論と示唆

本研究では、一般的なショートカット戦略に対して対抗的なGF(2)回路再構成ベンチマークを導入することで、Diligent Learner仮説に対する厳密な実証的検証を提供します。このタスクは、モデルが状態を維持し、浅いパターンマッチングに頼るのではなく、各ステップで蓄積された過去の文脈と新たに観測された証拠を繰り返し統合することを要求します。

小型LLM：構造的な問題

比較的小規模な言語モデルは、問題の深さが増すにつれて、γの値が線形よりも急激に減少します。これは、それらが部分的な情報に基づいて推定を行っていることを意味します。これらのモデルは、継続的な進歩のために必要な、プレフィックス条件付きのキャンセル機能を維持することができません。これは、そのアーキテクチャの根本的な限界です。

ツールを搭載した最先端のLLM：新たな可能性

ツール呼び出しを活用する最先端のモデルは、外部のメカニズムに状態の追跡と検証を委譲することで、長いシーケンスにおいても高いγを維持します。これは、いわゆる「超知能」の実現には、テスト時の計算リソースの拡張よりも、ツールを構築し活用できるアーキテクチャの開発がより重要であることを示唆しています。

Diligent Learnerフレームワークにおける汎用超知能への道は、パラメータのスケーリングではなく、ツールの設計と活用にあります。

参考文献（30件以上）。

Karl Cobbeら、"Training verifiers to solve math word problems," 2021. arXiv:2110.14168.
Simon Friederら、"Data for mathematical copilots: Better ways of presenting proofs for machine learning, 2025." arXiv:2412.15184.
Yao Fuらによる論文「Specializing smaller language models towards multi-step reasoning」。ICML 2023にて発表。
John Garrettら、garrettj403/scienceplots: 2.1.1, 2023.
Shibo Haoらによる論文「ToolkenGPT: ツール埋め込みを通じて、大規模なツールを用いて既存の言語モデルを拡張する」。NeurIPS 2023。
Dan Hendrycksらによる論文「Measuring massive multitask language understanding」。ICLR 2021にて発表。
Carlos Jimenezらによる論文「SWE-bench: 言語モデルは現実世界のGitHubの問題を解決できるか？」。ICLR 2024にて発表。
Nirmit Joshiら、"学習に関する理論：自己回帰的な思考連鎖モデル"。2025年。arXiv:2503.07932。
Takeshi Kojimaらによる論文「大規模言語モデルはゼロショット推論を行う」。NeurIPS 2022。
Woosuk Kwonらによる論文「Pagedattentionを用いた大規模言語モデルの効率的なメモリ管理」。SOSP 2023。
Xiao Liuら、AgentBench: LLMをエージェントとして評価する、2025年。arXiv:2308.03688.
Eran Malach. 自己回帰的な次のトークン予測モデルは、汎用的な学習器である。ICML 2024.
Maxwell Nyeらによる論文「Scratchpads for intermediate computation with language models」（2021年）。
Long Ouyangらによる論文「人間のフィードバックを用いた指示に従う言語モデルの訓練」。NeurIPS 2022.
Aaron Parisiら、"TALM: Tool augmented language models," 2022. arXiv:2205.12255.
Yujia Qinらによる論文「ToolLLM: 大規模言語モデルが16,000以上の実世界APIを使いこなせるように支援する」。ICLR 2024。
Timo Schickらによる論文「Toolformer: Language models can teach themselves to use tools. NeurIPS 2023.」。
Shai Shalev-Shwartz と Amnon Shashua. 推論から超知性へ：探索理論に基づく視点。arXiv:2507.15865, 2025a.
Shai Shalev-Shwartz と Amnon Shashua. 推論から超知性へ：探索理論に基づく視点。arXiv:2507.15865, 2025b.
Zhihong Shaoら、DeepSeekMath: オープン言語モデルにおける数学的推論の限界を押し広げる試み、2024年。
Zhengliang Shiらによる論文「自然環境におけるツール学習：言語モデルを自動ツールエージェントとして活用する」。WWW 2025。
Noah Shinnらによる論文「Reflexion: 言語エージェントと音声による強化学習」。arXiv:2303.11366、2023年。
Mohit Shridharらによる、ALFWorld: テキストと実世界環境を連携させたインタラクティブな学習のための研究。ICLR 2021。
Shivam Singhalら、LLM-ERM: 文脈学習とテキスト生成のための確率的フレームワーク、2025年。
Mirac Suzgunらによる論文「大規模ベンチマークタスクへの挑戦：チェイン・オブ・ソートがそれらを解決できるか？」、2022年。
Qwenチーム。Qwen3技術レポート、2025年。arXiv:2505.09388。
Xuezhi Wangら、"Self-consistency improves chain of thought reasoning in language models," 2022年。
Jason Weiら、"Chain-of-thought prompting: 大規模言語モデルにおける推論の促進"。2022年。
Chenxiao Yangらによる論文「Chain-of-thought provably enables learning the (otherwise) unlearnable」。ICLR 2025a。
John Yangらによる論文「SWE-bench multimodal: AIシステムは視覚的なソフトウェア分野で汎化されるか？」。ICLR 2025b。
Shunyu Yaoら、"Tree of thoughts: 大規模言語モデルを用いた意図的な問題解決"、2023年。
Shuyan Zhouら、WebArena: 自律エージェント構築のための現実的なウェブ環境、2024年。

「超知能」への道としてのツール構築

概要