エージェントの軌跡から検索を学ぶ

人間の検索からエージェント検索への転換

数十年にわたり、情報検索（IR）システムは、人間のユーザー向けに設計・トレーニングされてきました。主流のランキング学習手法は、大規模な人間のインタラクションログ（クリック、閲覧時間、スクロールパターンなど）に基づいて、検索結果が関連性を持つ理由を理解しようとします。この人間中心のパラダイム（human-centric paradigm）は、ウェブ検索エンジンからレコメンデーションシステムまで、あらゆるものに影響を与えてきました。

しかし、根本的な変化が起きています。急速に台頭しているLLM（大規模言語モデル）を活用した検索エージェントにより、検索結果の利用は、人間ではなくAIエージェントによって行われることがますます多くなっています。これらのエージェントは、クエリを発行し、ドキュメントを閲覧し、コンテンツについて推論し、多段階のループで意思決定を行います。彼らは人間のようにクリックしませんし、人間のようにざっと目を通しませんし、また、人間の持つ先入観に左右されることもありません。しかし、彼らが依存する検索モデルは、依然として人間の行動に基づいて学習されています—これは、根本的なミスマッチです。

ポジションバイアスとは？

Googleで検索する際、おそらく2ページ目の結果よりも、最初の数件の結果をより頻繁にクリックするでしょう。これは「ポジションバイアス」と呼ばれる現象です。人間は、結果が上位に表示されているという理由だけで、必ずしも関連性が高いとは限らない結果とインタラクションする傾向があります。

これは、検索システムのトレーニングにおいて大きな問題を引き起こします。人間のクリックデータから学習すると、上位にランクされた結果が常に優れていると学習してしまい、それは必ずしも真実ではありません。これは、メインストリートにあるレストランだけでレストランを評価するようなものです。サイドストリートにある素晴らしいお店を見逃してしまうことと同じです。

AI検索エージェントは、この問題に悩まされることはありません。彼らは、ドキュメントの内容に基づいて評価し、位置によって評価するわけではないため、その行動は、よりクリーンなトレーニングシグナルとなります。

Paradigm comparison: Human Search vs Agentic Search — **図2:** 従来の人間中心の検索方法（左）は、人間のログデータを使用して学習を行います。提案手法（右）は、LLM検索エージェントのマルチステップなインタラクション記録、つまりエージェントの軌跡から直接学習を行います。

この不整合は、エージェント時代における検索学習の再考を促します。著者は、人間によって訓練された検索システムを再利用するのではなく、検索モデルはエージェントとのインタラクションデータから直接訓練されるべきと主張しています。学習ランキングが人間のクリックログによって革新されたように、次の革新はエージェントの軌跡から生まれるかもしれません。

エージェントの軌跡（Agent trajectories）は、マルチターン検索セッション中に生成される、一連の中間クエリ、取得されたドキュメント、閲覧決定、および推論過程を完全に記録します。これらの軌跡には、ドキュメントの有用性に関する豊富な情報が含まれており、これは人間のフィードバックとは根本的に異なるものです。

エージェント軌跡から得られた3つの重要な発見

深層学習研究エージェントの行動履歴を体系的に分析した結果、著者らは、ドキュメントの有用性を示す3つの行動パターンを特定しました。これらのパターンは、従来の人間からのフィードバックの限界を克服するものです。

🔍

ブラウジングは成功のシグナル

エージェントがドキュメントを閲覧することに決定した場合、それはそのドキュメントが潜在的に有用であるという強力な指標となります。分析の結果、閲覧はタスクの成功にとって必要条件であることが示されており、成功するタスクの軌跡は常に、関連するドキュメントの閲覧を含んでいます。したがって、閲覧されたドキュメントは、肯定的な学習信号の自然な候補となります。

⛔

未閲覧 = 信頼性の高いネガティブサンプル

人間の検索とは異なり、ユーザーは関連性に関わらず、上位にランク付けされた結果をクリックしがちである(position bias)。一方、エージェントは、閲覧の決定において、その位置にあまり依存しない傾向がある。これは、エージェントの経路における閲覧されていないドキュメントが、単に未確認の結果ではなく、真に拒否されたものであることを意味し、複雑なバイアス除去の手法を必要とせずに、信頼性の高いネガティブな学習信号として機能する。

🧠

推論トレースが関連度の強さを示す

ドキュメントを閲覧した後、エージェントは推論の履歴 (reasoning traces)を生成します。これは、エージェントが読んだ内容を評価する際の内的思考プロセスです。これらの推論履歴の長さは、ドキュメントの有用性と強く相関しています。推論が長いほど、エージェントはより多くの有用な情報を発見したことを意味します。これは、人間の滞在時間 (dwell time)に似ていますが、はるかに詳細で信頼性の高い関連性を示す指標となります。

Statistical analysis of agent trajectories — 図4：エージェントの軌跡分析：(a) 正しい軌跡と誤った軌跡における遷移確率、(b) 精度と閲覧した証拠の数、(c) 人間とエージェント間の位置分布の比較、(d) ドキュメントカテゴリごとの閲覧後の思考の長さ。

検索エージェントはこう考える

エージェントの軌跡がなぜこれほど価値があるのかを理解するために、深層学習研究エージェントが実際にどのように機能するかを見てみましょう。質問が与えられたとき、エージェントは単一の検索クエリを送信するだけではありません。代わりに、思考、検索、閲覧、推論という多段階のプロセスを実行します。

Deep research agent trajectory example — **図3:** エージェントの段階的なプロセスを示す経路の例：思考 → 検索 → 情報 → 閲覧 → 情報 → 回答。閲覧後の*推論の長さ*は、エージェントがドキュメントの内容をどの程度深く処理したかを示します。

各々の軌跡は、エージェントの意思決定プロセス全体を捉えています。具体的には、エージェントが閲覧を選択したドキュメント、拒否したドキュメント、そして各ドキュメントに対してどれだけの推論を費やしたかなどが記録されています。これらの詳細な行動データは、LRAT（Learning from Rational Agent Trajectories）の学習パラダイムの基礎をなしています。

LRATフレームワーク

LRAT (Learning to Retrieve from Agent Trajectories) は、エージェントとのインタラクションから高品質な検索の教師信号を段階的に抽出し、ユーティリティを考慮した重み付けで検索モデルを訓練するフレームワークです。このフレームワークは、以下の4つの主要な構成要素を持っています。

LRAT framework architecture — 図5： LRATフレームワークの概要。これは、単純な関連性抽出から始まり、推論を考慮したフィルタリング、強度推定、そして重み付きコントラスティブ学習へと進むプロセスを示しています。

1. ナイーブな関連性抽出 (Naive Relevance Mining)

最初のステップでは、エージェントの検索 → 閲覧の遷移から、大まかな教師信号を抽出します。エージェントが検索クエリを発行し、その結果として返されたドキュメントの1つを閲覧した場合、そのドキュメントはナイーブなポジティブサンプルとみなされます。同じ検索結果に含まれるが、閲覧されなかった他のドキュメントは、ナイーブなネガティブサンプルとなります。エージェントは最小限の位置バイアスを示すため、これらのネガティブサンプルは、人間のクリックログから得られるネガティブサンプルよりもはるかに信頼性が高くなります。

肯定例と否定例

検索モデルの学習は、誰かに写真を選んで「関連あり」と「関連なし」のグループに分けることを教えるようなものです。

肯定例 (Positive samples) = 「関連あり」のグループに入るべき写真（エージェントが閲覧し、役立つと判断したドキュメント）
否定例 (Negative samples) = 「関連なし」のグループに入るべき写真（エージェントが閲覧したが、スキップしたドキュメント）

学習の質は、これらのラベルを正しく設定することに大きく依存します。役立つドキュメントを「関連なし」のグループに入れると（偽陰性 (false negative)）、モデルは誤ったことを学習してしまいます。人間のクリックを利用した従来の方式では、ラベルの質が低い（ノイズが多い）という問題があります。これは、人間がクリックする理由が、関連性とは無関係な場合があるためです。一方、エージェントの行動履歴は、より意図的な閲覧判断に基づいているため、より質の高いラベルを提供します。

2. 推論に基づく肯定的なフィルタリング

閲覧されたすべてのドキュメントが実際に役立つとは限りません。エージェントがドキュメントを閲覧し、その後、それが役に立たないことに気づくこともあります。LRATは、エージェントの閲覧後の推論履歴を分析し、そのドキュメントが実際にタスクの進捗に貢献したかどうかを判断するために、LLM-as-judgeを使用します。このフィルタリングの段階により、ノイズが除去される一方で、真の有効なドキュメントの97.2%が保持されます。

LLM-as-Judge は、別の言語モデルが別のシステムの出力を評価する技術です。これは、上司が部下の業務記録をレビューするようなものです。ここでは、評価を行うLLM（Qwen3-30B）が、エージェントがドキュメント閲覧後に作成した推論を読み、次のように判断します。「このエージェントは実際にこのドキュメントから有益な情報を学んだのか、それとも単に表面をなぞっただけなのか？」。このセカンドオピニオンによって、通常であればトレーニングデータに混入してしまうノイズとなる情報を除去することができます。

3. 関連性の重要度評価

すべての関連文書が同等に有用であるとは限りません。LRATモデルは、エージェントの閲覧後の推論の長さを基に算出される連続的な量としての関連性を評価します。推論の連鎖が長いほど、文書との深い関与と、より高い有用性を示します。これは、指数関数的な飽和関数を使用して、上限が設定された有用性スコアにマッピングされ、詳細な推論が増えるにつれて得られる効果が減少していくという現象を捉えています。

Thought token length distribution — **図6：**閲覧後の思考トークンの長さの分布。この指数関数的な減衰パターンは、関連性強度推定に使用される飽和関数を説明するものです。

関連性の強さの重み \(w\) は、次のように計算されます: \(w = \frac{1 - e^{-l \cdot \ln 2 / B}}{H_{\text{raw}}}\)、ここで \(l\) は推論の長さ、\(B\) は中央値の推論の長さ（半減期）、そして \(H_{\text{raw}}\) は、\(\mathbb{E}[w] \approx 1\) を満たすようにするための正規化定数です。

4. 重み付きコントラスティブ学習

LRATは、重み付きInfoNCE損失を用いた、密な双方向エンコーダ検索器を学習します。関連性の強さの重みは、各学習データの勾配寄与を調整し、エージェントのより深い推論を引き起こしたドキュメントが、学習中により大きな影響を持つようにします。ネガティブサンプルは、閲覧されていないトラジェクトリードキュメントと、バッチ内ネガティブサンプルから取得され、識別能力の向上に貢献します。

InfoNCE Loss は、コントラスティブ学習における標準的な学習目標です。これは、多肢選択式のテストのように機能します。モデルは、与えられたクエリに対して、候補となる文書の集合の中から正しい文書を選択する必要があります。LRATにおける「重み付き」バージョンでは、正解の中には、他の正解よりも重要度が高いものがあります。エージェントがより深い推論を誘発した文書には、より高い重みが与えられ、モデルが真に価値のある結果を優先するように促します。

実験結果

セットアップ

LRATは、以下の2つのベンチマークで評価されました。InfoSeek-Eval（300件のマルチホップクエリ、同一ドメイン内）と、BrowseComp-Plus（830件の複雑な質問、異なるドメイン）。2つの検索基盤モデルがテストされました。Qwen3-Embedding-0.6B（デコーダーベース）と、Multilingual-E5-Large-Instruct（エンコーダーベース）。これらのモデルは、40億から358億パラメータに及ぶ、6種類の多様なエージェントアーキテクチャに統合されました。これには、タスクに最適化された検索エージェントと、汎用的なエージェント基盤モデルの両方が含まれます。

評価セットアップの理解

この実験では、LRATを以下の2つのシナリオでテストします。

同一ドメイン（InfoSeek-Eval）: テスト問題は、トレーニングデータと類似しています。これは、この手法がそもそも機能するかどうかを確認するためのものです。学生が学習した内容に関するテストを行うようなものです。
異なるドメイン（BrowseComp-Plus）: 完全に異なるデータセットからの、異なる種類の問題です。こちらはより難しいテストであり、別のコースの試験を与えるようなものです。ここで高いパフォーマンスを発揮することは、LRATが特定のデータセットに特化したパターンだけでなく、一般的な検索スキルを学習していることを意味します。

6種類の異なるエージェントアーキテクチャ（4Bから358Bパラメータ）でのテストは、LRATの改善が特定のモデルに依存するものではないことをさらに検証します。これは、LRATの改善が、規模や設計に関わらず、汎用性を持っていることを示しています。

バイエンコーダ型密結合検索器は、検索クエリと各ドキュメントの両方を固定長のベクトル（埋め込み）に変換し、その後、ドット積を使用して類似性を測定します。これは「バイエンコーダ」と呼ばれており、クエリとドキュメントがそれぞれ異なるエンコーダを通過するからです。このアーキテクチャは、ドキュメントの埋め込みを事前に計算できるため、大規模な高速検索が可能になるという利点があり、多くの最新のセマンティック検索システムで使用されています。

Main experimental results — **図1:** LRATは、すべてのエージェントの基盤において、一貫して成功率を向上させます。InfoSeek-Evalにおいて平均+28.6%、BrowseComp-Plusにおいて平均+27.5%の改善が見られます。

主要な発見

エビデンス検索の改善

LRATは、検索システムの、注釈付きの証拠文書を見つけ出す能力を大幅に向上させます。BrowseComp-Plusにおいて、すべてのエージェントと検索システム（retriever）の組み合わせにおいて、証拠の再現率が7%から37%以上に改善され、これは、エージェントの行動履歴に基づく学習が、検索システムをエージェントの情報ニーズと効果的に一致させることを示しています。

エンドツーエンドのタスク成功率の向上

より優れた検索機能は、直接的にタスクの成果向上に繋がります。LRATで訓練された検索機能を搭載したエージェントは、ドメイン内およびドメイン外の両方の環境において、大幅に高い成功率を達成します。この改善効果は、40億パラメータから3580億パラメータまでの、すべてのエージェントアーキテクチャとスケールにおいて一貫して見られます。

より効率的な実行

LRATは精度を向上させるだけでなく、エージェントを高速化します。InfoSeek-Evalにおける平均的なインタラクションステップは、最大で約30%削減されました。より優れた検索結果は、エージェントが必要な情報をより早く見つけられるようにし、コストのかかる探索的なインタラクションを減らし、計算リソースを節約します。

詳細な結果

Agent Backbone	Retriever	SR (ID)	SR (OOD)	Recall (OOD)
AgentCPM (4B)	Qwen3-Emb	40.3	13.5	23.2
	Qwen3-Emb + LRAT	55.7	15.8	32.0
	E5-Large	49.7	15.9	26.5
	E5-Large + LRAT	47.3	15.9	32.1
Tongyi (30B)	Qwen3-Emb	52.0	21.0	47.7
	Qwen3-Emb + LRAT	68.7	27.2	55.9
	E5-Large	63.3	29.0	50.4
	E5-Large + LRAT	60.0	25.4	56.1
GLM-4.7 (358B)	Qwen3-Emb	67.7	43.9	66.6
	Qwen3-Emb + LRAT	82.0	54.6	77.8
	E5-Large	73.7	46.4	68.7
	E5-Large + LRAT	81.7	50.6	76.3

表2 (簡略版): エージェントの基盤構造ごとの結果。SR = 成功率（%）、ID = InfoSeek-Eval (同一ドメイン内)、OOD = BrowseComp-Plus (異ドメイン外)。LRATの行は、一貫した改善を示しています。

アブレーションスタディと詳細分析

コンポーネントごとのアブレーション

LRAT のどの部分が最も重要であるかを理解するために、Qwen3-Embedding-0.6B を使用して、BrowseComp-Plus に対してアブレーション研究を実施しました。コンポーネントは、基本となる検索モジュールに段階的に追加されました。

Ablation study results — **図7：** 各エージェントの基盤構造における、各LRATコンポーネントの漸進的な貢献度を示すアブレーションスタディの結果。

+Naive: ブラウジングされた/されていない信号のみを使用することで、大きな改善が見られ、エージェントのブラウジング判断が位置の偏りを持たず、信頼性の高い学習信号を提供することを確認しました。
+フィルタ: LLM（大規模言語モデル）を用いたフィルタリングにより、閲覧されたドキュメントの処理性能がさらに向上し、閲覧後の推論プロセスが誤検出を効果的に特定することが示されました。
+Reweight: 推論の長さを介した関連性強度推定を組み込むことで、さらなる効果が得られ、詳細なドキュメントの有用性モデリングの価値が検証されます。

スケーラビリティと堅牢性

LRATは、データ量が増加しても高い性能を維持します。段階的にデータセットのサイズを大きくして学習を行った結果（1Kから30Kの軌跡）、エージェントの成功率が着実に向上しました。推論時においても、LRATで学習した検索システムは、様々なトップ-K検索のパラメータ設定において、既存の手法を常に上回る性能を示します。さらに、Kの値を大きくすることでノイズが発生する可能性があっても、LRATは優れた性能を維持します。

Scalability and robustness analysis — **図8:** (a) 学習データの拡張性—エージェントの軌跡数が増えるほど、性能が向上します。(b) トップ-K設定におけるロバスト性—LRATは、検索予算に関わらず、その利点を維持します。

データ・フライホイール効果

おそらく最も注目すべき発見は、LRATが、人間のクリックログ改善サイクルに類似した、自己持続的なデータフィードバックループを構築できるという点です。シミュレーションされた反復的な展開において、検索エンジンは、各ステップで最新のエージェントの行動履歴データで更新されます。結果として、反復ごとに、成功率と証拠の想起精度の両方において着実な改善が見られました。これは、現実世界のオープンエンドなクエリから得られた、必ずしも完璧ではない行動履歴データを使用した場合でも当てはまります。

データフライホイールが重要な理由

「データフライホイール」とは、自己強化型の改善サイクルです。従来のウェブ検索では、以下のように機能します。ユーザーが増える → クリックデータが増える → 検索モデルが改善される → ユーザーが増える。Googleの優位性の要因の一つは、このフライホイールです。

LRATは、人間ではなくAIエージェントでも同様のパターンが機能することを示しています。エージェントが改善された検索システム（リトリーバー）とインタラクトすると、より優れた行動パターン（トラジェクトリー）が生成され、それがさらにリトリーバーを改善します。これは重要です。なぜなら、人間のフィードバックが全く必要なく、システムがエージェントとのインタラクションだけで自己改善できることを意味するからです。これにより、エージェントが主な利用者となる検索システムへの実用的な展開が可能になります。

Data flywheel simulation — **図9：** データフライホイールのシミュレーション。左：反復的な検索器-エージェントの更新ループ。右：エージェントの成功率と検索器のリコールが、ループの反復回数とともに着実に向上する。

結論と今後の展望

本論文では、人間中心の検索学習と、エージェントによる検索のニーズとの間に存在する根本的な不一致を指摘し、エージェントの軌跡からの検索学習を新たな検索パラダイムとして形式化しています。 LRAT（Learning from Agent Trajectories）は、エージェントのインタラクションデータには、検索品質、タスクの成功率、および多様なエージェントアーキテクチャにおける実行効率を大幅に向上させる可能性のある、豊かで信頼性の高い教師信号が含まれていることを示しています。

主要な貢献

新しいパラダイム： エージェントの軌跡から情報を取得するための、体系化された学習方法。これにより、学習信号のソースを、人間のインタラクションログから、エージェントのインタラクションデータへとシフトさせます。
行動に関する知見： 3つの重要なエージェントのシグナルを特定しました。具体的には、閲覧されたドキュメントは必要条件、閲覧されなかったドキュメントは信頼性の高いネガティブサンプル、そして推論履歴は関連性の強度を示す指標です。
実用的なフレームワーク： プログレッシブな信号抽出と重み付きコントラスティブ学習を組み合わせたLRATを提案し、6つの多様なエージェントアーキテクチャにおいて、一貫した性能向上（InfoSeek-Evalで+28.6%、BrowseComp-Plusで+27.5%）を達成しました。

参考文献（クリックして展開）

Agichtein, E., Brill, E., & Dumais, S. (2006). Improving web search ranking by incorporating user behavior information. SIGIR.
Baeza-Yates, R. et al. (1999). Modern Information Retrieval. ACM Press.
Burges, C. et al. (2005). Learning to rank using gradient descent. ICML.
Cao, Y. et al. (2006). Adapting ranking SVM to document retrieval. SIGIR.
Chen, H. et al. (2026). AgentCPM-Explore: An end-to-end infrastructure for deep research agents.
Chen, Z. et al. (2025). BrowseComp-Plus: A reproducible benchmark for deep research agents.
Dai, S. et al. (2025). Next-Search: Rebuilding user feedback ecosystem for generative AI search. SIGIR.
Gutmann, M. & Hyvärinen, A. (2010). Noise-contrastive estimation. AISTATS.
Jin, B. et al. (2025). Search-R1: Training LLMs to reason and leverage search engines with RL.
Joachims, T. (2002). Optimizing search engines using clickthrough data. KDD.
Kelly, D. & Belkin, N. (2004). Display time as implicit feedback. SIGIR.
Kim, Y. et al. (2014). Modeling dwell time to predict click-level satisfaction. WSDM.
Liu, T.-Y. (2009). Learning to rank for information retrieval. FTIR.
Liu, Y. et al. (2016). Time-aware click model. TOIS.
Liu, J. et al. (2025). WebExplorer: Explore and evolve for training long-horizon web agents.
Luo, C. et al. (2025). InfoSeek-Eval benchmark for information-seeking agents.
OpenAI (2025). GPT-OSS-120B.
Song, Y. et al. (2025). R1-searcher: Incentivizing the search capability in LLMs.
Team, MiniMax (2025). MiniMax-M2.1-229B.
Team, GLM (2025). GLM-4.7-358B.
Team, Tongyi (2025). Tongyi-DeepResearch-30B.
Wang, L. et al. (2024). Multilingual-E5-Large-Instruct. ACL.
Zhang, P. et al. (2025). Qwen3-Embedding-0.6B.