---
arxiv_id: 2510.04618
title: "エージェント型コンテキストエンジニアリング: 自己改善型言語モデルのための進化するコンテキスト"
authors:
  - Ahanaf Tazwar Shamim
  - Farhan Sadik
  - Taiyeong Lee
difficulty: Intermediate
tags:
  - Agent
  - LLM
  - Reasoning
published_at: 2025-10-06
flecto_url: https://flecto.zer0ai.dev/ja/papers/2510.04618/
lang: ja
---

## 概要

大規模言語モデル（LLM）のアプリケーション、例えばエージェントや特定の分野における推論システムは、ますます「コンテキスト適応」に依存しています。これは、入力に指示、戦略、または証拠を追加するものであり、モデルの重みを更新するものではありません。従来の技術は使いやすさを向上させますが、多くの場合、「簡潔性バイアス」に悩まされ、それが分野固有の知識を簡潔な要約に置き換えてしまうことがあります。また、「コンテキストの崩壊」も問題で、反復的な書き換えによって詳細が時間とともに失われてしまいます。

本稿では、 ACE (Agentic Context Engineering) というフレームワークを提案します。これは、コンテキストを、戦略を蓄積、洗練、整理する進化するプレイブックとして捉え、モジュール化された生成、反省、キュレーションのプロセスを通じて実現します。ACEは、構造化された段階的な更新によってコンテキストの崩壊を防ぎ、詳細な知識を保持し、長文コンテキストモデルに対応できるように設計されています。エージェントおよび分野固有のベンチマークにおいて、ACEはオフライン（システムプロンプト）とオンライン（エージェントのメモリ）の両方でコンテキストを最適化し、強力なベースラインを常に上回る結果を示しました。 エージェントにおいて+10.6% 、 金融分野において+8.6% の改善が見られました。

## 1. 概要 — 全体的なパフォーマンス

現代のAIアプリケーションは、ますますコンテキスト適応に依存しています。モデルの重みを変更する代わりに、コンテキスト適応は、トレーニング後に、明確な指示、構造化された推論ステップ、またはドメイン固有の知識をモデルの入力に直接組み込むことで、パフォーマンスを向上させます。

- ACEは、強力なベースラインを常に上回り、 エージェント において平均+10.6%、ドメイン固有のベンチマークにおいて+8.6%の改善が見られます。

- ACEは、ラベル付きの教師なし学習を使用せずに、効果的なコンテキストを構築し、実行フィードバックと環境からの信号を活用します。

- AppWorldにおいて、ACEは、最上位の商用レベルエージェントであるIBM-CUGA (GPT-4.1)と同等のパフォーマンスを発揮し、さらに小さいオープンソースモデルであるDeepSeek-V3.1を使用しています。

- ACEは、既存の方法よりも大幅に少ない回数の試行回数で済み、より低い適応遅延を実現します。

## 2. 背景と動機

### 2.1 コンテキスト適応

コンテキスト適応とは、LLMの重みを変更するのではなく、入力を作成または修正することで、モデルの動作を改善する手法を指します。代表的な手法としては、Reflexion、TextGrad、GEPA、Dynamic Cheatsheetなどがあり、これらはすべて、反復的なコンテキスト改善のために、自然言語によるフィードバックを活用しています。

### 2.2 限界：簡潔性バイアスとコンテキストの崩壊

## 3. エージェント型コンテキストエンジニアリング (ACE)

ACEは、Dynamic Cheatsheetのエージェント設計に触発され、3つの専門的なLLMコンポーネントに分けて、構造化された役割分担を導入します。

### 3.1 段階的なデルタ更新

ACEは、コンテキスト全体を再生成するのではなく、コンパクトな デルタコンテキスト を段階的に生成します。これは、リフレクターによって抽出された少数の候補項目であり、キュレーターによって統合されます。これにより、過去の知識が維持され、完全な書き換えにかかる計算コストを回避できます。

段階的な成長に加えて、ACEは、コンテキストがコンパクトな状態を維持するように、定期的なまたは遅延された
      改善を行います。重複排除のステップにより、意味的な埋め込みを使用して項目を比較し、冗長性を排除することで、包括的でありながらも冗長性のないプレイブックを維持します。

## 4. 結果

### 4.3 エージェントベンチマーク: AppWorld (DeepSeek-V3.1-671B)

表1: AppWorldの結果。ACEは、ベースラインと比較して平均で +10.6% 向上し、正解ラベルがなくても効果的です。

### 4.4 ドメイン特化ベンチマーク: 金融 (DeepSeek-V3.1)

表2: 金融分析の結果。ACEは、オフライン適応において、正解ラベルを使用した場合、平均 +12.8% の改善を達成しています。

## 主な発見
