---
arxiv_id: 2603.03329
title: "AutoHarness: コードハーネスを自動合成してLLMエージェントを改善する手法"
authors:
  - Xinghua Lou
  - Miguel Lázaro-Gredilla
  - Antoine Dedieu
  - Carter Wendelken
  - Wolfgang Lehrach
  - Kevin P. Murphy
difficulty: Intermediate
tags:
  - Agent
  - LLM
  - Reasoning
  - Benchmark
published_at: 2026-02-10
flecto_url: https://flecto.zer0ai.dev/ja/papers/2603.03329/
lang: ja
---

> AutoHarness: コードハーネスを自動合成してLLMエージェントを改善する

**著者**: 小型モデルは、独自のルールを定めることで、大型モデルに勝つことができるのでしょうか？

## Abstract

言語モデル（LLM）は、プログラミングや数学において驚くほど優れた能力を発揮しますが、ゲームエージェントとして機能する場合、しばしば 不正な手 を犯します。最近のKaggleのチェスコンペティションでは、 Gemini 2.5 Flashの敗北の78% は、戦略の悪さではなく、ルール違反が原因でした。通常、人々は「ハーネス」と呼ばれる、手を検証するラッパーコードを手作業で記述します。AutoHarnessは、 Gemini 2.5 Flashが、わずかな回数の反復的なコード改善ラウンドを使用して、自身のハーネスを自動的に記述できる ことを示しています。こうして得られたハーネスは、 145のTextArenaゲーム においてすべての不正な手を防ぎ、より小型のFlashモデルが、より大型のGemini 2.5 Proよりも 優れたパフォーマンス を発揮しつつ、よりコスト効率の高い動作を実現します。

## Introduction

### 背景と動機

## Conclusion

### 結論と今後の展望

## References

### 参考文献 (19) ▾

## Head

### AutoHarness: コードハーネスを自動合成してLLMエージェントを改善する手法

## Abstract, Card=1

### 対応ゲーム

### AutoHarnessは、全145のTextArenaゲーム（1人用・2人用の両方）において、 合法手率100% を達成しました。各ゲームにつき1,000回のテストロールアウトで検証済みです。

## Abstract, Card=2

### 小型モデルが勝利

Gemini 2.5 Flash + Harness が、はるかに大型の Gemini 2.5 Pro に対して、 16試合中9勝（2人対戦ゲーム） （全体勝率 56.3% vs. Pro の 38.2%）。

## Abstract, Card=3

### ほぼゼロの推論コスト

Harness-as-Policy は、テスト時にLLMを使用せず、純粋なPythonポリシーを生成します。16種類の1人用ゲームで平均報酬0.870を達成し、ほぼゼロの計算コストでGPT-5.2-High（0.844）を上回っています。

## Introduction, Para=1

LLMは、プログラミングや数学の問題解決において目覚ましい能力を示しています。しかし、エージェントとしての計画立案や推論の性能は脆弱な場合があります。最近のKaggle GameArenaチェス競技において、Gemini 2.5 Flashの敗北の78%は悪い戦略によるものではなく、 単純な不正な手 —チェスのルールで厳しく禁止されている手—によるものでした。

## Introduction, Para=2

従来の解決策としては、無効な手をフィルタリングするための「ハーネス」コードを手書きする方法や、ゲームの軌跡でモデルをファインチューニングする方法などがあります。しかし、手動作成のハーネスは脆弱で手間がかかります。新しいゲームごとに新たな作業が必要になるからです。また、大規模モデルのファインチューニングは費用がかかり、他のタスクの性能を低下させる可能性があります。 AutoHarnessは異なるアプローチを採用します： LLM自身のコード生成能力を活用して、ハーネスを自動的に作成・改善します。

## Introduction, Callout=Insight

### Code as Harness - 基本アイデア

エージェントは、LLMと、モデルとタスクの間の「接着剤」として機能するハーネスの組み合わせです。AutoHarnessでは、LLMが 自身のハーネスをコーディングすることでエージェントを完成させます。 ハーネスには2つの主要な機能があります。 propose_action(obs) は候補となる手を生成し、 is_legal_action(obs, action) はその手の合法性を検証します。これにより、モデルはリジェクションサンプラーとして機能し、合法な手が見つかるまで候補を提案し続けます。

## Introduction, Para=3

AutoHarnessは、ハーネス生成を、Thompsonサンプリングによって制御されるプログラム空間上の 探索問題 として定式化します。LLMは、環境実行からのフィードバックに基づいてコードの改良を提案する変異演算子として機能します。ツリー探索は、 探索 （異なるロジック構造を試す）と 活用 （部分的に動作するハーネスを改良する）のバランスをとります。

## Method

### AutoHarnessの仕組み

## Method, Para=1

AutoHarnessは、複数のコード仮説をツリー構造で保持し、 Thompson sampling を用いて、次にどのノードを改善するかを選択します。各ノードのヒューリスティック値は、そのコードバージョンが達成した平均的な合法的な移動の精度です。コードにバグがある場合（ is_legal_action() が True を返すにもかかわらず、実際にはその移動が合法でない場合）、 propose_action() と is_legal_action() の両方が改善されます。一方、 is_legal_action() が False を返す場合（合法でない移動を正しく検出した場合）、 propose_action() のみが修正されます。

## Method, Figure=1

図1：コードをハーネスとして用いる学習プロセス。左：ヒューリスティック値を持つThompson sampling探索木。右：反復的な改善ループ（古いコード → Refiner ← Critic ← Evaluator ← Rollout → 新しいコード → 新しいH）。

## Method, Para=2

### AutoHarnessは、軽量なアクションフィルタリングから完全なコードのみのポリシーまで、3つの動作モードをサポートしています。

## Method, Card=Filter

### Harness-as-Action-Filter

### propose_action() は、合法な手の セット を生成します。LLMはその後、連鎖思考推論を用いて最適な手をランク付けして選択します。

## Method, Card=Verifier

### Harness-as-Action-Verifier (メインメソッド)

LLMが手を提案します。 is_legal_action() がその手の合法性を検証します。無効な場合、LLMは「不正な手」という警告メッセージとともに再プロンプトされます。これが本論文で評価する主要なアプローチです。

## Method, Card=Policy

### Harness-as-Policy

### 最も極端なケースでは、コードが 直接的に 次のアクションを選択します。テスト時にLLMへの呼び出しは不要です。純粋なPythonで、推論コストがほぼゼロで、最も高い平均パフォーマンスを実現します。

## Training

### 学習：145ゲームで検証済み

## Training, Para=1

学習では、1イテレーションあたり10個の並列環境を使用し、最大1,000ステップ実行します。不正な手が発生した場合またはコード実行が失敗した場合、ロールアウトを終了します。 Critic は最大5回分の失敗ステップをまとめて Refiner に渡し、改善されたコードを生成します。Thompsonサンプリングにおけるヒューリスティックの重みは1.0に設定されています。学習は、合法手の成功率が1.0に達するか、タイムアウトした場合に終了します。すべての学習にGemini-2.5-Flashを使用しています。

## Training, Metric=Avg_Iter

### 平均反復回数

## Training, Metric=Games

### 対象ゲーム

## Training, Metric=Legal_Rate

### 合法手率

## Training, Metric=Fast_Conv

### 収束 < 10イテレーション

## Training, Figure=2

### 図2：選択された6つのゲームにおける、合法的な操作の割合とコード合成の反復回数との関係。ほとんどのゲームは急速に収束しますが、チェスやオセロのような複雑なゲームでは、より多くの反復回数が必要です。

## Training, Para=2

平均して、学習は 14.5回のツリー探索イテレーション で終了します。32ゲームのうち19ゲームは10回未満のイテレーションで終了します。最も多くのLLM呼び出しを必要とするゲームは、GermanWhist-v0（43ステップ）、Cryptarithm-v0（45ステップ）、Chess-v0（64ステップ）、Othello-v0（62ステップ）です。AutoHarnessは全145ゲームで 合法手成功率100% を達成しており、付録の表1に示されています。

## Evaluation

### 評価：小型モデルが大型モデルを凌駕する

## Evaluation, Para=1

評価は、TextArenaの16種類の1人プレイ（1P）ゲームと16種類の2人プレイ（2P）ゲームに焦点を当てています。比較対象となるエージェントは、Gemini-2.5-Flash、Gemini-2.5-Pro、およびGemini-2.5-Flash+Harness（我々の手法）です。すべての実験で、同じ最適化されたプロンプトが使用されます。1Pゲームについては、20試合を実行し、平均報酬を評価指標として使用します。2Pゲームについては、40試合を実行し（各プレイヤーの試合数を均等に）、勝率/引き分け率/敗北率を評価指標として使用します。

## Evaluation, Sub=2P

### 2人対戦ゲーム

## Evaluation, Figure=3

図3：16種類の2人対戦ゲームにおける、AutoHarness (Gemini-2.5-Flash+Harness) と Gemini-2.5-Pro の勝率/敗北率/引き分け率。緑 = 勝利、灰色 = 引き分け、赤 = 敗北。

## Evaluation, Note=2P

AutoHarnessにより、 小型のGemini-2.5-Flashがより大型のGemini-2.5-Proに対して16試合中9勝 （全体勝率 56.3% vs. Proの38.2%）を達成できるようになりました。ハーネスなしのGemini-2.5-Flashに対しては、勝率が 64.8% （16試合中12勝）に上昇します。

## Evaluation, Sub=1P

### 1人プレイゲーム

## Evaluation, Figure=4

図4：16種類の1人プレイゲームそれぞれにおいて、AutoHarness（オレンジ色）とGemini-2.5-Pro（青色）の平均報酬の比較。AutoHarnessは、16種類のゲームのうち8種類でProを上回り、5種類で同率となっています。

## Evaluation, Note=1P

本手法は 16ゲーム中8ゲームでGemini-2.5-Proを上回り、5ゲームで同値 でした。平均報酬は AutoHarness 0.745、Gemini-2.5-Pro 0.707、Gemini-2.5-Flash 0.673 でした。特にCryptarithm-v0、RushHour-v0、PegJump-v0、FifteenPuzzle-v0で顕著な改善が見られました。

## Policy

### Harness-as-Policy：ほぼゼロの推論コストで最高のパフォーマンス

## Policy, Para=1

極端なケースとして、AutoHarnessは ポリシー全体をコードとして学習 することができます。これにより、テスト時にLLMを全く使用する必要がなくなります。ポリシーのコードは、基本的なPython関数と標準ライブラリ（例：numpy）を使用しており、ゲームプレイ中にLLMを呼び出す必要はありません。これは、16種類のシングルプレイヤーゲームで評価されます（2人プレイのゲームには、戦略的な対戦相手のモデリングが必要であり、これを純粋なコードとして表現するのは非常に困難です）。

## Policy, Para=2

学習においては、ヒューリスティック値にタスク報酬を組み込んでいます。不正な手が実行された場合は \(H = 0\) とし、それ以外の場合は \(H = 0.5 + 0.5r\) とします。ここで \(r \in [0, 1]\) は、軌跡の終端で得られる環境報酬です。学習にはGemini-2.5-Flashを使用し、最大256イテレーション実行します。平均して89.4イテレーションで学習が完了し、ヒューリスティック値は0.939に達します。

## Policy, Figure=5

### 図5：16個のTextArena 1Pゲームにおける各エージェントの平均報酬。提案手法2つ（太字ラベル）が最も高い性能を達成。

## Policy, Panel=Cost

### パフォーマンスとコストの比較

## Appendix

### 付録：完全な結果

## Appendix, Accordion=Games

### TextArena 全145ゲーム — 学習ステップ数と合法手率 ▾

## Appendix, Table=Games, Intro

### 表1：全145のTextArenaゲーム。ハーネスの学習に必要なLLM呼び出し回数と、結果として得られた合法手精度を示しています。*印のゲームはエンドツーエンドのエージェント評価に使用されます。

## Appendix, Table=Games

### * エンドツーエンド評価に使用されたゲームです。全145ゲームで合法手率（Legal Action Rate）= 1.0を達成しました。

## Appendix, Sub=Reward

### 1Pゲームのゲームごとの平均報酬

## Appendix, Sub=Legal

### 1Pゲームのゲームごとの合法手率

## Conclusion, Para=1

私たちは、 コードハーネスを自動合成する という新しいアプローチでLLMエージェントの性能向上を実現しました。Thompsonサンプリングと環境フィードバックによって制御された少数の反復改善ラウンドを用いることで、Gemini-2.5-Flashはどのゲーム環境に対しても、手動の調整なしに堅牢なハーネスを生成できます。

## Conclusion, Point=1

### 全145種類のTextArenaゲームで 合法手率100% を達成

## Conclusion, Point=2

### 小型のFlashモデルが大型のProモデルを凌駕 —2P対戦ゲームで勝率56.3%

## Conclusion, Point=3

### Harness-as-Policyは報酬0.870を達成し、ほぼゼロの推論コストでGPT-5.2-Highを上回る

## Conclusion, Future=1

### 今後の展望

## Conclusion, Future=Item1

### 専門的な知識を持つエージェントから得られた情報を、基盤となるLLMに統合し、システム全体を再帰的に自己改善させる。

## Conclusion, Future=Item2

### 関連するゲーム環境間で共有できる、再利用可能なハーネスのライブラリを構築する。

## Conclusion, Future=Item3

### より複雑なマルチモーダルゲーム、例えばCraftaxやTerra Novaに対して、この手法を適用する。

## References, Ref=1

Chervonyi et al. (2025). オリンピック幾何の問題を *alphageometry2* を用いて解答する際の金メダリストレベルのパフォーマンス. JMLR , 26(241):1–39.

## References, Ref=2

### Duan et al. (2024). GTBench: ゲーム理論を用いた評価により、LLM（大規模言語モデル）の戦略的推論の限界を明らかにする。 arXiv [cs.CL] .

## References, Ref=3

### Guertler et al. (2025). Textarena. arXiv:2504.11442 .

## References, Ref=4

### Huang & Yang (2025). モデルに依存しない検証・改良パイプラインを用いた、IMO 2025での金メダル獲得。 arXiv:2507.15855 .

## References, Ref=5

### Kaggle (2025). Kaggle game arena: AIモデルのベンチマークプラットフォーム。 kaggle.com/game-arena .

## References, Ref=6

### Kokel et al. (2025). ACPBench hard: 行動、変化、および計画に関する制約のない推論. AAAI 2025 Workshop LM4Plan .

## References, Ref=7

### Lehrach et al. (2025). コード世界モデルを用いた汎用ゲームプレイ. arXiv:2510.04542 .

## References, Ref=8

### Li et al. (2022). AlphaCodeを用いた競技プログラミングレベルのコード生成。 Science , 378(6624):1092–1097.

## References, Ref=9

### Liang et al. (2023). コードをポリシーとして：具現化された制御のための言語モデルプログラム。In ICRA , pp. 9493–9500.

## References, Ref=10

### Ma et al. (2024). Eureka: コーディングされた大規模言語モデルによる人間レベルの報酬設計. In ICLR 2024 .

## References, Ref=11

### Novikov et al. (2025). AlphaEvolve: 科学およびアルゴリズムの発見のためのコーディングエージェント。 arXiv:2506.13131 .

## References, Ref=12

### Petrov et al. (2025). 真実か、それとも偽りか？ 2025年アメリカ数学オリンピックにおけるLLMの評価。 arXiv:2503.21934 .

## References, Ref=13

Ruoss et al. (2024). LMAct: 長いマルチモーダルなデモンストレーションを用いた、コンテキスト内模倣学習のためのベンチマーク。 arxiv.org/abs/2412.01441 .

## References, Ref=14

### Shinn et al. (2023). Reflexion: 言語エージェントと音声による強化学習。 NeurIPS , 36:8634–8652.

## References, Ref=15

### Tang et al. (2024). LLMを用いたコード修正における探索と利用のトレードオフに関する研究。 NeurIPS , 37:117954–117996.

## References, Ref=16

### Valmeekamら (2023a). 大規模言語モデルの計画能力に関する考察 — 批判的調査. In NeurIPS .

## References, Ref=17

### Valmeekam et al. (2023b). 大規模言語モデルの計画能力に関する考察：批判的調査. NeurIPS , 36:75993–76005.

## References, Ref=18

### Wang et al. (2023). Voyager: 大規模言語モデルを用いた、自由度の高い具現化エージェント. arXiv preprint arXiv:2305.16291 .

## References, Ref=19

### Wei et al. (2022). Chain-of-thought prompting は、大規模言語モデルにおける推論を引き出す. NeurIPS , 35:24824–24837.
