AutoHarness: コードハーネスを自動合成してLLMエージェントを改善する手法

概要

言語モデル（LLM）は、プログラミングや数学において驚くほど優れた能力を発揮しますが、ゲームエージェントとして機能する場合、しばしば不正な手を犯します。最近のKaggleのチェスコンペティションでは、Gemini 2.5 Flashの敗北の78%は、戦略の悪さではなく、ルール違反が原因でした。通常、人々は「ハーネス」と呼ばれる、手を検証するラッパーコードを手作業で記述します。AutoHarnessは、Gemini 2.5 Flashが、わずかな回数の反復的なコード改善ラウンドを使用して、自身のハーネスを自動的に記述できることを示しています。こうして得られたハーネスは、145のTextArenaゲームにおいてすべての不正な手を防ぎ、より小型のFlashモデルが、より大型のGemini 2.5 Proよりも優れたパフォーマンスを発揮しつつ、よりコスト効率の高い動作を実現します。

145

対応ゲーム

AutoHarnessは、全145のTextArenaゲーム（1人用・2人用の両方）において、合法手率100%を達成しました。各ゲームにつき1,000回のテストロールアウトで検証済みです。

56.3%

小型モデルが勝利

Gemini 2.5 Flash + Harness が、はるかに大型の Gemini 2.5 Pro に対して、16試合中9勝（2人対戦ゲーム）（全体勝率 56.3% vs. Pro の 38.2%）。

0.870

ほぼゼロの推論コスト

Harness-as-Policyは、テスト時にLLMを使用せず、純粋なPythonポリシーを生成します。16種類の1人用ゲームで平均報酬0.870を達成し、ほぼゼロの計算コストでGPT-5.2-High（0.844）を上回っています。

背景と動機

LLMは、プログラミングや数学の問題解決において目覚ましい能力を示しています。しかし、エージェントとしての計画立案や推論の性能は脆弱な場合があります。最近のKaggle GameArenaチェス競技において、Gemini 2.5 Flashの敗北の78%は悪い戦略によるものではなく、単純な不正な手—チェスのルールで厳しく禁止されている手—によるものでした。

従来の解決策としては、無効な手をフィルタリングするための「ハーネス」コードを手書きする方法や、ゲームの軌跡でモデルをファインチューニングする方法などがあります。しかし、手動作成のハーネスは脆弱で手間がかかります。新しいゲームごとに新たな作業が必要になるからです。また、大規模モデルのファインチューニングは費用がかかり、他のタスクの性能を低下させる可能性があります。AutoHarnessは異なるアプローチを採用します：LLM自身のコード生成能力を活用して、ハーネスを自動的に作成・改善します。

Code as Harness - 基本アイデア

エージェントは、LLMと、モデルとタスクの間の「接着剤」として機能するハーネスの組み合わせです。AutoHarnessでは、LLMが自身のハーネスをコーディングすることでエージェントを完成させます。 ハーネスには2つの主要な機能があります。propose_action(obs)は候補となる手を生成し、is_legal_action(obs, action)はその手の合法性を検証します。これにより、モデルはリジェクションサンプラーとして機能し、合法な手が見つかるまで候補を提案し続けます。

def propose_action(obs):

    # Returns the agent's next move

    ...



def is_legal_action(obs, action):

    # Returns True if the action is legal

    ...

リジェクションサンプリングとハーネス
「モデルをリジェクションサンプラーに変換する」という表現は、古典的な確率的技術を指します。標準的なリジェクションサンプリングでは、提案分布から候補を抽出し、制約を満たすものだけを受け入れ、それ以外は破棄して再度候補を抽出します。

propose_action(obs)は提案分布として機能し、候補となる手を生成します。is_legal_action(obs, action)は受け入れ基準として機能し、手がゲームのルールを満たしているかどうかを確認します。手が拒否された場合、LLMに再プロンプトを送り、合法な手が見つかるまで候補を提案させます。

なぜこれが重要なのか：この設計により、実際に実行されるすべての手が合法であることが保証されます。基盤となるモデルがどれだけ誤りを犯すかに関わらずこれは成立します。ハーネスが正しさを強制し、LLMが戦略的な品質を担います。

AutoHarnessは、ハーネス生成を、Thompsonサンプリングによって制御されるプログラム空間上の探索問題として定式化します。LLMは、環境実行からのフィードバックに基づいてコードの改良を提案する変異演算子として機能します。ツリー探索は、探索（異なるロジック構造を試す）と活用（部分的に動作するハーネスを改良する）のバランスをとります。

プログラム空間におけるThompsonサンプリング
Thompsonサンプリングは、元々多腕バンディット問題を対象としたベイズ的探索戦略です。各選択肢の価値について確率分布を維持し、各選択肢から1つの値をサンプリングして最も高い値を持つ選択肢を採用します。これにより、探索（不確実な選択肢を試すこと）と活用（実績ある優れた選択肢に集中すること）のバランスが自然に取れます。

コード合成への適用：探索ツリーの各ノードは候補となるハーネスのバージョン（プログラム）を表します。ノードの「価値」はそのヒューリスティックスコア、すなわちロールアウトでコードが達成する合法手の割合です。Thompsonサンプリングは次にどのノードを改良するかを選択します。不確実性の高いノードは平均スコアが低くても時々選択され（探索）、常に高スコアのノードはより頻繁に選択されます（活用）。

なぜ単純な貪欲探索ではないのか？純粋な貪欲探索は常に現在最高スコアのコードを改良するため、最初はスコアが低くても優れた解に収束する可能性のある、質的に異なるプログラム構造を見逃してしまいます。Thompsonサンプリングはこの局所最適解の罠を回避します。

AutoHarnessの仕組み

AutoHarnessは、複数のコード仮説をツリー構造で保持し、Thompson samplingを用いて、次にどのノードを改善するかを選択します。各ノードのヒューリスティック値は、そのコードバージョンが達成した平均的な合法的な移動の精度です。コードにバグがある場合（is_legal_action()がTrueを返すにもかかわらず、実際にはその移動が合法でない場合）、propose_action()とis_legal_action()の両方が改善されます。一方、is_legal_action()がFalseを返す場合（合法でない移動を正しく検出した場合）、propose_action()のみが修正されます。

二つの機能の分離：なぜ propose と is_legal を分離するのか？

propose_action(obs) — 生成： 候補となる手を生成します。これは、合法的な盤面をすべて列挙するような単純なものから、ヒューリスティックなポリシーのような複雑なものまで様々です。
is_legal_action(obs, action) — 検証： 手がゲームのルールで許可されている場合にのみ True を返します。

対象を絞った修正ロジック：
• is_legal_action が実際には不正な手に対して True を返す場合（誤検知）、チェッカーはルールを知らないため、両方の関数が間違っている可能性が高いため、両方を修正します。
• is_legal_action が正しく False を返す場合、不正な手を生成したのはプロポージャーのみであるため、propose_action のみを修正します。

この非対称な修正により、すでに正しいコードを「修正」することを避け、後続の反復での不要な変更を減らすことができます。

AutoHarness code-as-harness learning process diagram — 図1：コードをハーネスとして用いる学習プロセス。左：ヒューリスティック値を持つThompson sampling探索木。右：反復的な改善ループ（古いコード → Refiner ← Critic ← Evaluator ← Rollout → 新しいコード → 新しいH）。

AutoHarnessは、軽量なアクションフィルタリングから完全なコードのみのポリシーまで、3つの動作モードをサポートしています。

3つのモード：「安全網」から「完全自律」までのスペクトル
AutoHarnessの3つの動作モードは、学習されたハーネスのテスト時において、LLMがどの程度関与するかという点で異なります。

モード	テスト時にLLMを使用？	ハーネスの役割
アクションフィルター	はい — 許可されたセットから選択	許可された動作のみを列挙
アクションバリファイア	はい — 提案し、再試行	提案された各動作を検証
ポリシー	いいえ	直接、アクションを出力

重要な違いは推論コストです。アクションバリファイアは、1ターンあたりにLLMを複数回呼び出す可能性がありますが、ハーネスをポリシーとして使用する場合、ゲーム中にLLMを呼び出すことはありません。「ほぼゼロの推論コスト」という見出しは、ポリシーモードにのみ当てはまります。

Harness-as-Action-Filter

propose_action()は、合法な手のセットを生成します。LLMはその後、連鎖思考推論を用いて最適な手をランク付けして選択します。

Harness-as-Action-Verifier (メインメソッド)

LLMが手を提案します。is_legal_action()がその手の合法性を検証します。無効な場合、LLMは「不正な手」という警告メッセージとともに再プロンプトされます。これが本論文で評価する主要なアプローチです。

Harness-as-Policy

最も極端なケースでは、コードが直接的に次のアクションを選択します。テスト時にLLMへの呼び出しは不要です。純粋なPythonで、推論コストがほぼゼロで、最も高い平均パフォーマンスを実現します。

学習：145ゲームで検証済み

学習では、1イテレーションあたり10個の並列環境を使用し、最大1,000ステップ実行します。不正な手が発生した場合またはコード実行が失敗した場合、ロールアウトを終了します。Criticは最大5回分の失敗ステップをまとめてRefinerに渡し、改善されたコードを生成します。Thompsonサンプリングにおけるヒューリスティックの重みは1.0に設定されています。学習は、合法手の成功率が1.0に達するか、タイムアウトした場合に終了します。すべての学習にGemini-2.5-Flashを使用しています。

CriticとRefiner：内部フィードバックループ
この学習手順では3つの異なる役割を使用します。

Evaluator（評価者） — 現在のコードを10個の並列ゲーム環境で各最大1,000ステップ実行します。失敗トレース（不正な手、例外）を収集します。
Critic（批評家） — 最大5つの失敗ステップを読み取り、構造化された診断を作成します。どのルールが違反されているか、どの関数が問題を引き起こしているか、期待される動作は何か。
Refiner（改善者） — Criticの診断と現在のコードを読み取り、新しい候補バージョンを生成します。

なぜRefinerに渡す前に失敗を集約するのか？ Criticは複数の失敗にわたる根本原因のパターンを特定し、生のロールアウトノイズをそのまま転送する代わりに信号を圧縮します。並列環境： 10個のゲームを同時実行することで、1イテレーションで多様な種類の失敗を収集します。

14.5 平均反復回数

145 対象ゲーム

100% 合法手率

19/32 収束 < 10イテレーション

Learning convergence curves for 6 games — 図2：選択された6つのゲームにおける、合法的な操作の割合とコード合成の反復回数との関係。ほとんどのゲームは急速に収束しますが、チェスやオセロのような複雑なゲームでは、より多くの反復回数が必要です。

平均して、学習は14.5回のツリー探索イテレーションで終了します。32ゲームのうち19ゲームは10回未満のイテレーションで終了します。最も多くのLLM呼び出しを必要とするゲームは、GermanWhist-v0（43ステップ）、Cryptarithm-v0（45ステップ）、Chess-v0（64ステップ）、Othello-v0（62ステップ）です。AutoHarnessは全145ゲームで合法手成功率100%を達成しており、付録の表1に示されています。

なぜ、一部のゲームはより多くの反復回数を必要とするのか？
LLMの呼び出し回数は、ゲームによって大きく異なる（単純なゲームでは1回、チェスでは64回）。難易度に影響する要因は3つ。

ルールの複雑さ： チェスには、約30種類の移動があり、それぞれに状態依存性がある（キャスリング、アンパサン、チェックの検出など）。GermanWhistでは、対戦相手の手札に関する部分的な情報を追跡する必要がある。
隠された状態： 非公開の手札を持つゲームでは、システムが観察されない状態について推論する必要があり、これはPythonだけでエンコードするのが難しい。
直感に反するケース： `Breakthrough-v0-small`（簡略化されたバリアント）は、136ステップを必要とした。これは、フルバージョンのチェスよりも多い。 "Small"は、ルールが単純であることを意味するわけではない。このバリアントの変更されたキャプチャーメカニズムによって、予期せぬ特殊なケースが発生した。

指標に関する注意： "# Learning Steps"（「学習ステップ数」）は、ツリー探索の反復回数に等しく、LLMのリファインメント呼び出し回数に等しい。各ステップは、1回のクリティック呼び出しと1回のリファイナー呼び出しで構成される。

評価：小型モデルが大型モデルを凌駕する

評価は、TextArenaの16種類の1人プレイ（1P）ゲームと16種類の2人プレイ（2P）ゲームに焦点を当てています。比較対象となるエージェントは、Gemini-2.5-Flash、Gemini-2.5-Pro、およびGemini-2.5-Flash+Harness（我々の手法）です。すべての実験で、同じ最適化されたプロンプトが使用されます。1Pゲームについては、20試合を実行し、平均報酬を評価指標として使用します。2Pゲームについては、40試合を実行し（各プレイヤーの試合数を均等に）、勝率/引き分け率/敗北率を評価指標として使用します。

評価プロトコル：「勝率」と「平均報酬」が実際に意味すること
2人プレイ（2P）ゲーム — 勝率/引き分け/敗北率：
各ゲームで40試合実施（先手として20試合 + 後手として20試合）し、先手優位を制御しています。「勝率」はFlash+HarnessがGemini-2.5-Proに対して勝利した試合の割合です。「9/16 games」という見出しは、16ゲームタイトルのうち9タイトルでFlash+Harnessがプラスの勝率を達成したことを意味します。

1人プレイ（1P）ゲーム — 平均報酬：
各ゲームで20試合実施。報酬 r ∈ [0, 1] はTextArena環境からの正規化スコアです。r = 1.0 は完全達成（例：パズルを解いた）、r = 0.0 は失敗を意味します。全エージェントが1.0を獲得するゲーム（GuessTheNumber、FrozenLakeなど）は飽和したベンチマークであり、エージェントの品質を区別できません。

2人対戦ゲーム

Win/lose/draw rate vs Gemini-2.5-Pro for 16 2P games — 図3：16種類の2人対戦ゲームにおける、AutoHarness (Gemini-2.5-Flash+Harness) と Gemini-2.5-Pro の勝率/敗北率/引き分け率。緑 = 勝利、灰色 = 引き分け、赤 = 敗北。

AutoHarnessにより、小型のGemini-2.5-Flashがより大型のGemini-2.5-Proに対して16試合中9勝（全体勝率56.3% vs. Proの38.2%）を達成できるようになりました。ハーネスなしのGemini-2.5-Flashに対しては、勝率が64.8%（16試合中12勝）に上昇します。

1人プレイゲーム

Average reward vs Gemini-2.5-Pro for 16 1P games — 図4：16種類の1人プレイゲームそれぞれにおいて、AutoHarness（オレンジ色）とGemini-2.5-Pro（青色）の平均報酬の比較。AutoHarnessは、16種類のゲームのうち8種類でProを上回り、5種類で同率となっています。

本手法は16ゲーム中8ゲームでGemini-2.5-Proを上回り、5ゲームで同値でした。平均報酬はAutoHarness 0.745、Gemini-2.5-Pro 0.707、Gemini-2.5-Flash 0.673でした。特にCryptarithm-v0、RushHour-v0、PegJump-v0、FifteenPuzzle-v0で顕著な改善が見られました。

Harness-as-Policy：ほぼゼロの推論コストで最高のパフォーマンス

極端なケースとして、AutoHarnessはポリシー全体をコードとして学習することができます。これにより、テスト時にLLMを全く使用する必要がなくなります。ポリシーのコードは、基本的なPython関数と標準ライブラリ（例：numpy）を使用しており、ゲームプレイ中にLLMを呼び出す必要はありません。これは、16種類のシングルプレイヤーゲームで評価されます（2人プレイのゲームには、戦略的な対戦相手のモデリングが必要であり、これを純粋なコードとして表現するのは非常に困難です）。

学習においては、ヒューリスティック値にタスク報酬を組み込んでいます。不正な手が実行された場合は $H = 0$ とし、それ以外の場合は $H = 0.5 + 0.5r$ とします。ここで $r \in [0, 1]$ は、軌跡の終端で得られる環境報酬です。学習にはGemini-2.5-Flashを使用し、最大256イテレーション実行します。平均して89.4イテレーションで学習が完了し、ヒューリスティック値は0.939に達します。

Harness-as-Policyにおけるヒューリスティック値の設計
ヒューリスティック H は2つの目的を組み合わせます：

H = 0 不正な手が実行された場合
H = 0.5 + 0.5r それ以外の場合（r ∈ [0, 1] は環境からの報酬）

なぜこの数式なのか？

不正な手に対するハードゼロ：不正な手は絶対的な失敗です。H = 0 により、これらのノードがThompsonサンプリングによって活用対象として選択されることはありません。
合法だが報酬が低い場合の0.5下限：報酬 r = 0 のポリシーでも H = 0.5 となりゼロより大きくなります。Thompsonサンプリングはこのノードから時々探索を行います。コードの構造がまだ正しい方向にある可能性があるためです。
線形スケーリング：H は0.5（合法、ゼロ報酬）から1.0（合法、完全報酬）の範囲にあり、探索は合法性とタスク性能を同時に最適化します。

Action Verifier学習との違い：そちらではHは単に合法手の精度でした。ここでrを含めるのは、ポリシーコード自体が戦略であり、LLMが戦略的な部分を別途担うわけではないからです。

Average reward of different agents across 16 TextArena 1P games — 図5：16個のTextArena 1Pゲームにおける各エージェントの平均報酬。提案手法2つ（太字ラベル）が最も高い性能を達成。

図5の読み方：比較からわかること
図5は、6つのエージェントにおける16種類の1人用ゲームでの平均報酬を比較しています。主な観察事項：

Harness-as-Policy (0.870) > GPT-5.2-High (0.844)：テスト時にLLMを呼び出さない純粋なPythonスクリプトが、利用可能な最大規模のモデルの一つを上回るという直感に反する結果です。
Flash+Harness (0.745) > Gemini-2.5-Pro (0.707)：Action Verifierもより大規模なモデルを上回っていますが、LLMが依然として戦略を担うためその差は小さくなっています。
GPT-5.2 (0.635) < Gemini-2.5-Flash (0.673)：ハーネスなしのGPT-5.2はベースラインのFlashより性能が劣っており、複雑なゲームでの不正手の割合が高いことが原因と考えられます。
コスト：GPT-5.2-Highの評価実行には約640ドルかかります。Harness-as-Policyはテスト時に約0ドルで動作します（学習コストはゲームごとに一度だけ償却されます）。

パフォーマンスとコストの比較

Agent	Avg. Reward	Test Cost
Gemini-2.5-Flash	0.673	—
Gemini-2.5-Pro	0.707	—
Gemini-2.5-Flash+Harness (Ours)	0.745	~$0
GPT-5.2	0.635	~$640
GPT-5.2-High	0.844	~$640
Harness-as-Policy (Ours)	0.870	~$0

付録：完全な結果

TextArena 全145ゲーム — 学習ステップ数と合法手率 ▾

表1：全145のTextArenaゲーム。ハーネスの学習に必要なLLM呼び出し回数と、結果として得られた合法手精度を示しています。*印のゲームはエンドツーエンドのエージェント評価に使用されます。

Index	Game	# Players	# Learning Steps	Legal Action Rate
0	2048-v0 *	1	27	1.0
1	2048-v0-easy	1	4	1.0
2	2048-v0-extreme	1	44	1.0
3	2048-v0-hard	1	47	1.0
4	2048-v0-mega-easy	1	31	1.0
5	2048-v0-super-easy	1	6	1.0
6	2048-v0-ultra-easy	1	2	1.0
7	2048-v0-very-easy	1	57	1.0
8	2048-v0-very-hard	1	7	1.0
9	Alquerque-v0 *	2	4	1.0
10	Bandit-v0 *	1	2	1.0
11	Bandit-v0-hard	1	1	1.0
12	Battleship-v0	2	4	1.0
13	Battleship-v0-extreme	2	32	1.0
14	Battleship-v0-large	2	9	1.0
15	Battleship-v0-standard	2	6	1.0
16	Blackjack-v0 *	1	2	1.0
17	Blackjack-v0-long	1	1	1.0
18	Breakthrough-v0 *	2	2	1.0
19	Breakthrough-v0-blind	2	20	1.0
20	Breakthrough-v0-large	2	9	1.0
21	Breakthrough-v0-long	2	7	1.0
22	Breakthrough-v0-small	2	136	1.0
23	Breakthrough-v0-tiny	2	5	1.0
24	Briscola-v0	2	2	1.0
25	Checkers-v0 *	2	7	1.0
26	Checkers-v0-long	2	3	1.0
27	Chess-v0 *	2	64	1.0
28	Chess-v0-blind	2	19	1.0
29	Chess-v0-long	2	16	1.0
30	Chopsticks-v0 *	2	15	1.0
31	Chopsticks-v0-long	2	7	1.0
32	Chopsticks-v0-medium	2	15	1.0
33	ColonelBlotto-v0	2	1	1.0
34	ColonelBlotto-v0-extreme	2	1	1.0
35	ColonelBlotto-v0-large	2	1	1.0
36	ColonelBlotto-v0-small	2	1	1.0
37	ConnectFour-v0	2	10	1.0
38	ConnectFour-v0-blind	2	2	1.0
39	ConnectFour-v0-large	2	1	1.0
40	Crusade-v0 *	2	4	1.0
41	Cryptarithm-v0 *	1	45	1.0
42	FifteenPuzzle-v0 *	1	3	1.0
43	FrozenLake-v0 *	1	19	1.0
44	FrozenLake-v0-hardcore	1	4	1.0
45	FrozenLake-v0-random	1	22	1.0
46	GameOfPureStrategy-v0	2	3	1.0
47	GermanWhist-v0 *	2	43	1.0
48	Golf-v0 *	2	8	1.0
49	Golf-v0-medium	2	9	1.0
50	GuessTheNumber-v0 *	1	2	1.0
51	GuessTheNumber-v0-hardcore	1	2	1.0
52	HighSociety-v0	2	3	1.0
53	IndianPoker-v0	2	11	1.0
54	IndianPoker-v0-extreme	2	2	1.0
55	IndianPoker-v0-long	2	26	1.0
56	IndianPoker-v0-medium	2	7	1.0
57	IndianPoker-v0-short	2	2	1.0
58	IteratedMatchingPennies-v0	2	1	1.0
59	IteratedRockPaperScissors-v0	2	1	1.0
60	IteratedTwoThirdsAverage-v0	2	1	1.0
61	KuhnPoker-v0	2	5	1.0
62	KuhnPoker-v0-extreme	2	3	1.0
63	KuhnPoker-v0-long	2	2	1.0
64	KuhnPoker-v0-medium	2	2	1.0
65	KuhnPoker-v0-short	2	3	1.0
66	LiarsDice-v0 *	2	4	1.0
67	LiarsDice-v0-large	2	6	1.0
68	LiarsDice-v0-small	2	5	1.0
69	LightsOut-v0 *	1	1	1.0
70	LinesOfAction-v0 *	2	23	1.0
71	Mastermind-v0 *	1	2	1.0
72	Mastermind-v0-extreme	1	1	1.0
73	Mastermind-v0-hard	1	2	1.0
74	MemoryGame-v0	2	3	1.0
75	MemoryGame-v0-hard	2	2	1.0
76	MemoryGame-v0-medium	2	2	1.0
77	Minesweeper-v0 *	1	11	1.0
78	Minesweeper-v0-hard	1	6	1.0
79	Minesweeper-v0-medium	1	10	1.0
80	Minesweeper-v0-small	1	2	1.0
81	NewRecruit-v0 *	2	2	1.0
82	Nim-v0	2	1	1.0
83	Nim-v0-large	2	2	1.0
84	Nim-v0-medium	2	2	1.0
85	Othello-v0 *	2	62	1.0
86	Othello-v0-big	2	2	1.0
87	Othello-v0-hard	2	30	1.0
88	Othello-v0-huge	2	12	1.0
89	Othello-v0-small	2	5	1.0
90	Othello-v0-tiny	2	13	1.0
91	PegJump-v0 *	1	1	1.0
92	PigDice-v0	2	1	1.0
93	PigDice-v0-100	2	1	1.0
94	PigDice-v0-150	2	1	1.0
95	PigDice-v0-200	2	1	1.0
96	PigDice-v0-250	2	1	1.0
97	PigDice-v0-300	2	1	1.0
98	PigDice-v0-350	2	1	1.0
99	PigDice-v0-400	2	1	1.0
100	PigDice-v0-450	2	1	1.0
101	PigDice-v0-50	2	1	1.0
102	PigDice-v0-500	2	1	1.0
103	PigDice-v0-long	2	1	1.0
104	PigDice-v0-short	2	1	1.0
105	Poker-v0	2	17	1.0
106	Poker-v0-extreme	2	7	1.0
107	Poker-v0-long	2	5	1.0
108	Poker-v0-small	2	29	1.0
109	QuantumTicTacToe-v0	2	12	1.0
110	ReverseTicTacToe-v0	2	3	1.0
111	RushHour-v0 *	1	3	1.0
112	SantoriniBaseFixed-v0	2	30	1.0
113	Secretary-v0 *	1	1	1.0
114	Secretary-v0-long	1	1	1.0
115	SimpleTak-v0	2	4	1.0
116	SimpleTak-v0-extreme	2	8	1.0
117	SimpleTak-v0-large	2	12	1.0
118	SimpleTak-v0-medium	2	5	1.0
119	Snake-v0	2	1	1.0
120	Snake-v0-large	2	1	1.0
121	Snake-v0-standard	2	1	1.0
122	Sokoban-v0 *	1	5	1.0
123	Sokoban-v0-medium	1	1	1.0
124	SpiteAndMalice-v0 *	2	33	1.0
125	Stratego-v0 *	2	23	1.0
126	Sudoku-v0 *	1	5	1.0
127	Sudoku-v0-easy	1	5	1.0
128	Sudoku-v0-hard	1	9	1.0
129	Sudoku-v0-medium	1	4	1.0
130	Sudoku-v0-very-easy	1	4	1.0
131	Surround-v0	2	1	1.0
132	Surround-v0-large	2	1	1.0
133	Surround-v0-standard	2	1	1.0
134	Tak-v0 *	2	21	1.0
135	Tak-v0-hard	2	53	1.0
136	Tak-v0-medium	2	6	1.0
137	TicTacToe-v0	2	4	1.0
138	TowerOfHanoi-v0 *	1	7	1.0
139	TowerOfHanoi-v0-extreme	1	44	1.0
140	TowerOfHanoi-v0-hard	1	7	1.0
141	TowerOfHanoi-v0-hardcore	1	2	1.0
142	TowerOfHanoi-v0-medium	1	7	1.0
143	UltimateTicTacToe-v0 *	2	13	1.0
144	WildTicTacToe-v0	2	10	1.0

* エンドツーエンド評価に使用されたゲームです。全145ゲームで合法手率（Legal Action Rate）= 1.0を達成しました。

1Pゲームのゲームごとの平均報酬

Game	Gemini-2.5-Flash	Gemini-2.5-Pro	Flash+Harness (Ours)	GPT-5.2	GPT-5.2-High	Harness-as-Policy (Ours)
2048-v0	0.215	0.378	0.308	0.212	0.745	0.912
Bandit-v0	0.398	0.201	0.208	0.350	1.000	0.459
Blackjack-v0	0.410	0.330	0.480	0.460	0.480	0.410
Cryptarithm-v0	1.000	0.950	1.000	0.600	1.000	1.000
FifteenPuzzle-v0	0.107	0.103	0.162	0.035	0.183	0.597
FrozenLake-v0	1.000	1.000	1.000	1.000	1.000	1.000
GuessTheNumber-v0	1.000	1.000	1.000	1.000	1.000	1.000
LightsOut-v0	0.730	0.802	0.840	0.691	1.000	1.000
Mastermind-v0	1.000	1.000	1.000	1.000	1.000	1.000
Minesweeper-v0	0.637	0.586	0.686	0.593	1.000	0.940
PegJump-v0	0.325	0.682	0.782	0.221	0.429	1.000
RushHour-v0	0.688	0.887	1.000	1.000	1.000	1.000
Secretary-v0	0.550	0.700	0.650	0.600	0.800	0.750
Sokoban-v0	0.700	0.700	0.800	0.600	0.867	0.850
Sudoku-v0	1.000	1.000	1.000	1.000	1.000	1.000
TowerOfHanoi-v0	1.000	1.000	1.000	0.800	1.000	1.000

1Pゲームのゲームごとの合法手率

Game	Gemini-2.5-Flash	Gemini-2.5-Pro	Flash+Harness (Ours)	GPT-5.2	GPT-5.2-High	Harness-as-Policy (Ours)
2048-v0	96.57%	98.36%	99.86%	96.05%	99.94%	100.00%
Bandit-v0	99.76%	96.39%	99.77%	100.00%	100.00%	100.00%
Blackjack-v0	99.38%	100.00%	100.00%	100.00%	100.00%	100.00%
Cryptarithm-v0	96.97%	98.70%	100.00%	88.44%	100.00%	100.00%
FifteenPuzzle-v0	84.70%	88.14%	96.59%	87.18%	100.00%	100.00%
FrozenLake-v0	100.00%	100.00%	100.00%	100.00%	100.00%	100.00%
GuessTheNumber-v0	100.00%	100.00%	100.00%	100.00%	100.00%	100.00%
LightsOut-v0	100.00%	100.00%	99.76%	100.00%	100.00%	100.00%
Mastermind-v0	100.00%	100.00%	100.00%	98.57%	100.00%	100.00%
Minesweeper-v0	88.69%	81.20%	100.00%	81.10%	100.00%	100.00%
PegJump-v0	67.97%	83.10%	98.25%	60.17%	77.78%	100.00%
RushHour-v0	82.17%	95.36%	97.24%	94.51%	100.00%	100.00%
Secretary-v0	100.00%	100.00%	100.00%	100.00%	100.00%	100.00%
Sokoban-v0	91.89%	97.11%	98.48%	95.88%	100.00%	100.00%
Sudoku-v0	96.77%	100.00%	100.00%	100.00%	100.00%	100.00%
TowerOfHanoi-v0	100.00%	100.00%	100.00%	100.00%	100.00%	100.00%

結論と今後の展望

私たちは、コードハーネスを自動合成するという新しいアプローチでLLMエージェントの性能向上を実現しました。Thompsonサンプリングと環境フィードバックによって制御された少数の反復改善ラウンドを用いることで、Gemini-2.5-Flashはどのゲーム環境に対しても、手動の調整なしに堅牢なハーネスを生成できます。

用語集：本文中で使用される主要な用語

コードハーネス（Code harness） — LLMエージェントを囲むラッパーコードで、提案された手をフィルタリングまたは検証することでゲームのルールを強制します。
Thompson sampling — 次にどのコード候補を改善するかを選択するために使用するベイズ的探索・活用戦略（§Methodで紹介）。
リジェクションサンプラー（Rejection sampler） — LLMが手を提案し、ハーネスが不正なものを却下し、合法な手が見つかるまで繰り返すアーキテクチャパターン。
Harness-as-Policy — 合成されたPythonコードがテスト時にLLM全体を置き換えるバリアント。
TextArena — 全実験で使用するオープンソースのマルチゲームテキストベース環境（Guertler et al., 2025）。

✅

全145種類のTextArenaゲームで合法手率100%を達成

✅

小型のFlashモデルが大型のProモデルを凌駕—2P対戦ゲームで勝率56.3%

✅

Harness-as-Policyは報酬0.870を達成し、ほぼゼロの推論コストでGPT-5.2-Highを上回る

今後の展望

専門的な知識を持つエージェントから得られた情報を、基盤となるLLMに統合し、システム全体を再帰的に自己改善させる。
関連するゲーム環境間で共有できる、再利用可能なハーネスのライブラリを構築する。
より複雑なマルチモーダルゲーム、例えばCraftaxやTerra Novaに対して、この手法を適用する。

参考文献 (19) ▾

Chervonyi et al. (2025). オリンピック幾何の問題を *alphageometry2* を用いて解答する際の金メダリストレベルのパフォーマンス. JMLR, 26(241):1–39.
Duan et al. (2024). GTBench: ゲーム理論を用いた評価により、LLM（大規模言語モデル）の戦略的推論の限界を明らかにする。 arXiv [cs.CL].
Guertler et al. (2025). Textarena. arXiv:2504.11442.
Huang & Yang (2025). モデルに依存しない検証・改良パイプラインを用いた、IMO 2025での金メダル獲得。 arXiv:2507.15855.
Kaggle (2025). Kaggle game arena: AIモデルのベンチマークプラットフォーム。 kaggle.com/game-arena.
Kokel et al. (2025). ACPBench hard: 行動、変化、および計画に関する制約のない推論. AAAI 2025 Workshop LM4Plan.
Lehrach et al. (2025). コード世界モデルを用いた汎用ゲームプレイ. arXiv:2510.04542.
Li et al. (2022). AlphaCodeを用いた競技プログラミングレベルのコード生成。Science, 378(6624):1092–1097.
Liang et al. (2023). コードをポリシーとして：具現化された制御のための言語モデルプログラム。In ICRA, pp. 9493–9500.
Ma et al. (2024). Eureka: コーディングされた大規模言語モデルによる人間レベルの報酬設計. In ICLR 2024.
Novikov et al. (2025). AlphaEvolve: 科学およびアルゴリズムの発見のためのコーディングエージェント。 arXiv:2506.13131.
Petrov et al. (2025). 真実か、それとも偽りか？ 2025年アメリカ数学オリンピックにおけるLLMの評価。 arXiv:2503.21934.
Ruoss et al. (2024). LMAct: 長いマルチモーダルなデモンストレーションを用いた、コンテキスト内模倣学習のためのベンチマーク。 arxiv.org/abs/2412.01441.
Shinn et al. (2023). Reflexion: 言語エージェントと音声による強化学習。 NeurIPS, 36:8634–8652.
Tang et al. (2024). LLMを用いたコード修正における探索と利用のトレードオフに関する研究。 NeurIPS, 37:117954–117996.
Valmeekamら (2023a). 大規模言語モデルの計画能力に関する考察 — 批判的調査. In NeurIPS.
Valmeekam et al. (2023b). 大規模言語モデルの計画能力に関する考察：批判的調査. NeurIPS, 36:75993–76005.
Wang et al. (2023). Voyager: 大規模言語モデルを用いた、自由度の高い具現化エージェント. arXiv preprint arXiv:2305.16291.
Wei et al. (2022). Chain-of-thought prompting は、大規模言語モデルにおける推論を引き出す. NeurIPS, 35:24824–24837.