Published: March 30, 2026
検索システムは、これまで人間向けに設計されてきましたが、LLM(大規模言語モデル)を活用した検索エージェントが登場し、状況を一変させています。本論文では、LRATというフレームワークを紹介します。これは、人間のクリックログではなく、エージェントとのインタラクション履歴から直接検索モデルを学習させるもので、様々なエージェントアーキテクチャにおいて一貫した性能向上を実現します。
数十年にわたり、情報検索(IR)システムは、人間のユーザー向けに設計・トレーニングされてきました。主流のランキング学習手法は、大規模な人間のインタラクションログ(クリック、閲覧時間、スクロールパターンなど)に基づいて、検索結果が関連性を持つ理由を理解しようとします。この人間中心のパラダイム(human-centric paradigm)は、ウェブ検索エンジンからレコメンデーションシステムまで、あらゆるものに影響を与えてきました。
しかし、根本的な変化が起きています。急速に台頭しているLLM(大規模言語モデル)を活用した検索エージェントにより、検索結果の利用は、人間ではなくAIエージェントによって行われることがますます多くなっています。これらのエージェントは、クエリを発行し、ドキュメントを閲覧し、コンテンツについて推論し、多段階のループで意思決定を行います。彼らは人間のようにクリックしませんし、人間のようにざっと目を通しませんし、また、人間の持つ先入観に左右されることもありません。しかし、彼らが依存する検索モデルは、依然として人間の行動に基づいて学習されています—これは、根本的なミスマッチです。
Googleで検索する際、おそらく2ページ目の結果よりも、最初の数件の結果をより頻繁にクリックするでしょう。これは「ポジションバイアス」と呼ばれる現象です。人間は、結果が上位に表示されているという理由だけで、必ずしも関連性が高いとは限らない結果とインタラクションする傾向があります。
これは、検索システムのトレーニングにおいて大きな問題を引き起こします。人間のクリックデータから学習すると、上位にランクされた結果が常に優れていると学習してしまい、それは必ずしも真実ではありません。これは、メインストリートにあるレストランだけでレストランを評価するようなものです。サイドストリートにある素晴らしいお店を見逃してしまうことと同じです。
AI検索エージェントは、この問題に悩まされることはありません。彼らは、ドキュメントの内容に基づいて評価し、位置によって評価するわけではないため、その行動は、よりクリーンなトレーニングシグナルとなります。
この不整合は、エージェント時代における検索学習の再考を促します。著者は、人間によって訓練された検索システムを再利用するのではなく、検索モデルはエージェントとのインタラクションデータから直接訓練されるべきと主張しています。学習ランキングが人間のクリックログによって革新されたように、次の革新はエージェントの軌跡から生まれるかもしれません。
エージェントの軌跡(Agent trajectories)は、マルチターン検索セッション中に生成される、一連の中間クエリ、取得されたドキュメント、閲覧決定、および推論過程を完全に記録します。これらの軌跡には、ドキュメントの有用性に関する豊富な情報が含まれており、これは人間のフィードバックとは根本的に異なるものです。
深層学習研究エージェントの行動履歴を体系的に分析した結果、著者らは、ドキュメントの有用性を示す3つの行動パターンを特定しました。これらのパターンは、従来の人間からのフィードバックの限界を克服するものです。
エージェントがドキュメントを閲覧することに決定した場合、それはそのドキュメントが潜在的に有用であるという強力な指標となります。分析の結果、閲覧はタスクの成功にとって必要条件であることが示されており、成功するタスクの軌跡は常に、関連するドキュメントの閲覧を含んでいます。したがって、閲覧されたドキュメントは、肯定的な学習信号の自然な候補となります。
人間の検索とは異なり、ユーザーは関連性に関わらず、上位にランク付けされた結果をクリックしがちである(position bias)。一方、エージェントは、閲覧の決定において、その位置にあまり依存しない傾向がある。これは、エージェントの経路における閲覧されていないドキュメントが、単に未確認の結果ではなく、真に拒否されたものであることを意味し、複雑なバイアス除去の手法を必要とせずに、信頼性の高いネガティブな学習信号として機能する。
ドキュメントを閲覧した後、エージェントは推論の履歴 (reasoning traces)を生成します。これは、エージェントが読んだ内容を評価する際の内的思考プロセスです。これらの推論履歴の長さは、ドキュメントの有用性と強く相関しています。推論が長いほど、エージェントはより多くの有用な情報を発見したことを意味します。これは、人間の滞在時間 (dwell time)に似ていますが、はるかに詳細で信頼性の高い関連性を示す指標となります。
エージェントの軌跡がなぜこれほど価値があるのかを理解するために、深層学習研究エージェントが実際にどのように機能するかを見てみましょう。質問が与えられたとき、エージェントは単一の検索クエリを送信するだけではありません。代わりに、思考、検索、閲覧、推論という多段階のプロセスを実行します。
各々の軌跡は、エージェントの意思決定プロセス全体を捉えています。具体的には、エージェントが閲覧を選択したドキュメント、拒否したドキュメント、そして各ドキュメントに対してどれだけの推論を費やしたかなどが記録されています。これらの詳細な行動データは、LRAT(Learning from Rational Agent Trajectories)の学習パラダイムの基礎をなしています。
LRAT (Learning to Retrieve from Agent Trajectories) は、エージェントとのインタラクションから高品質な検索の教師信号を段階的に抽出し、ユーティリティを考慮した重み付けで検索モデルを訓練するフレームワークです。このフレームワークは、以下の4つの主要な構成要素を持っています。
最初のステップでは、エージェントの検索 → 閲覧の遷移から、大まかな教師信号を抽出します。エージェントが検索クエリを発行し、その結果として返されたドキュメントの1つを閲覧した場合、そのドキュメントはナイーブなポジティブサンプルとみなされます。同じ検索結果に含まれるが、閲覧されなかった他のドキュメントは、ナイーブなネガティブサンプルとなります。エージェントは最小限の位置バイアスを示すため、これらのネガティブサンプルは、人間のクリックログから得られるネガティブサンプルよりもはるかに信頼性が高くなります。
検索モデルの学習は、誰かに写真を選んで「関連あり」と「関連なし」のグループに分けることを教えるようなものです。
学習の質は、これらのラベルを正しく設定することに大きく依存します。役立つドキュメントを「関連なし」のグループに入れると(偽陰性 (false negative))、モデルは誤ったことを学習してしまいます。人間のクリックを利用した従来の方式では、ラベルの質が低い(ノイズが多い)という問題があります。これは、人間がクリックする理由が、関連性とは無関係な場合があるためです。一方、エージェントの行動履歴は、より意図的な閲覧判断に基づいているため、より質の高いラベルを提供します。
閲覧されたすべてのドキュメントが実際に役立つとは限りません。エージェントがドキュメントを閲覧し、その後、それが役に立たないことに気づくこともあります。LRATは、エージェントの閲覧後の推論履歴を分析し、そのドキュメントが実際にタスクの進捗に貢献したかどうかを判断するために、LLM-as-judgeを使用します。このフィルタリングの段階により、ノイズが除去される一方で、真の有効なドキュメントの97.2%が保持されます。
すべての関連文書が同等に有用であるとは限りません。LRATモデルは、エージェントの閲覧後の推論の長さを基に算出される連続的な量としての関連性を評価します。推論の連鎖が長いほど、文書との深い関与と、より高い有用性を示します。これは、指数関数的な飽和関数を使用して、上限が設定された有用性スコアにマッピングされ、詳細な推論が増えるにつれて得られる効果が減少していくという現象を捉えています。
関連性の強さの重み \(w\) は、次のように計算されます: \(w = \frac{1 - e^{-l \cdot \ln 2 / B}}{H_{\text{raw}}}\)、ここで \(l\) は推論の長さ、\(B\) は中央値の推論の長さ(半減期)、そして \(H_{\text{raw}}\) は、\(\mathbb{E}[w] \approx 1\) を満たすようにするための正規化定数です。
基本的な考え方はシンプルです。推論の長さが長いほど、有用なドキュメントである。
しかし、推論の長さをそのまま使用することはできません。なぜなら:
これは逓減収益(diminishing returns)です。これは教科書を読むのと同様のパターンです。最初の章では多くのことを学びますが、20章目になると、新しい章を読むたびに得られる新しい知識は少なくなります。
この公式では、指数関数的な飽和関数(exponential saturation function)(バッテリーの充電曲線のようなもの)を使用しています。これは、最初は急速に上昇し、その後は平坦になります。半減期パラメータB(中央値の推論長に設定)は、この平坦化がどのくらいの速さで起こるかを制御します。正規化により、平均的な重みが1になるようにし、これにより全体のトレーニングプロセスがバランスを保たれます。
LRATは、重み付きInfoNCE損失を用いた、密な双方向エンコーダ検索器を学習します。関連性の強さの重みは、各学習データの勾配寄与を調整し、エージェントのより深い推論を引き起こしたドキュメントが、学習中により大きな影響を持つようにします。ネガティブサンプルは、閲覧されていないトラジェクトリードキュメントと、バッチ内ネガティブサンプルから取得され、識別能力の向上に貢献します。
LRATは、以下の2つのベンチマークで評価されました。InfoSeek-Eval(300件のマルチホップクエリ、同一ドメイン内)と、BrowseComp-Plus(830件の複雑な質問、異なるドメイン)。2つの検索基盤モデルがテストされました。Qwen3-Embedding-0.6B(デコーダーベース)と、Multilingual-E5-Large-Instruct(エンコーダーベース)。これらのモデルは、40億から358億パラメータに及ぶ、6種類の多様なエージェントアーキテクチャに統合されました。これには、タスクに最適化された検索エージェントと、汎用的なエージェント基盤モデルの両方が含まれます。
この実験では、LRATを以下の2つのシナリオでテストします。
6種類の異なるエージェントアーキテクチャ(4Bから358Bパラメータ)でのテストは、LRATの改善が特定のモデルに依存するものではないことをさらに検証します。これは、LRATの改善が、規模や設計に関わらず、汎用性を持っていることを示しています。
LRATは、検索システムの、注釈付きの証拠文書を見つけ出す能力を大幅に向上させます。BrowseComp-Plusにおいて、すべてのエージェントと検索システム(retriever)の組み合わせにおいて、証拠の再現率が7%から37%以上に改善され、これは、エージェントの行動履歴に基づく学習が、検索システムをエージェントの情報ニーズと効果的に一致させることを示しています。
より優れた検索機能は、直接的にタスクの成果向上に繋がります。LRATで訓練された検索機能を搭載したエージェントは、ドメイン内およびドメイン外の両方の環境において、大幅に高い成功率を達成します。この改善効果は、40億パラメータから3580億パラメータまでの、すべてのエージェントアーキテクチャとスケールにおいて一貫して見られます。
LRATは精度を向上させるだけでなく、エージェントを高速化します。InfoSeek-Evalにおける平均的なインタラクションステップは、最大で約30%削減されました。より優れた検索結果は、エージェントが必要な情報をより早く見つけられるようにし、コストのかかる探索的なインタラクションを減らし、計算リソースを節約します。
| Agent Backbone | Retriever | SR (ID) | SR (OOD) | Recall (OOD) |
|---|---|---|---|---|
| AgentCPM (4B) | Qwen3-Emb | 40.3 | 13.5 | 23.2 |
| Qwen3-Emb + LRAT | 55.7 | 15.8 | 32.0 | |
| E5-Large | 49.7 | 15.9 | 26.5 | |
| E5-Large + LRAT | 47.3 | 15.9 | 32.1 | |
| Tongyi (30B) | Qwen3-Emb | 52.0 | 21.0 | 47.7 |
| Qwen3-Emb + LRAT | 68.7 | 27.2 | 55.9 | |
| E5-Large | 63.3 | 29.0 | 50.4 | |
| E5-Large + LRAT | 60.0 | 25.4 | 56.1 | |
| GLM-4.7 (358B) | Qwen3-Emb | 67.7 | 43.9 | 66.6 |
| Qwen3-Emb + LRAT | 82.0 | 54.6 | 77.8 | |
| E5-Large | 73.7 | 46.4 | 68.7 | |
| E5-Large + LRAT | 81.7 | 50.6 | 76.3 |
表2 (簡略版): エージェントの基盤構造ごとの結果。SR = 成功率(%)、ID = InfoSeek-Eval (同一ドメイン内)、OOD = BrowseComp-Plus (異ドメイン外)。LRATの行は、一貫した改善を示しています。
LRAT のどの部分が最も重要であるかを理解するために、Qwen3-Embedding-0.6B を使用して、BrowseComp-Plus に対してアブレーション研究を実施しました。コンポーネントは、基本となる検索モジュールに段階的に追加されました。
LRATは、データ量が増加しても高い性能を維持します。段階的にデータセットのサイズを大きくして学習を行った結果(1Kから30Kの軌跡)、エージェントの成功率が着実に向上しました。推論時においても、LRATで学習した検索システムは、様々なトップ-K検索のパラメータ設定において、既存の手法を常に上回る性能を示します。さらに、Kの値を大きくすることでノイズが発生する可能性があっても、LRATは優れた性能を維持します。
おそらく最も注目すべき発見は、LRATが、人間のクリックログ改善サイクルに類似した、自己持続的なデータフィードバックループを構築できるという点です。シミュレーションされた反復的な展開において、検索エンジンは、各ステップで最新のエージェントの行動履歴データで更新されます。結果として、反復ごとに、成功率と証拠の想起精度の両方において着実な改善が見られました。これは、現実世界のオープンエンドなクエリから得られた、必ずしも完璧ではない行動履歴データを使用した場合でも当てはまります。
「データフライホイール」とは、自己強化型の改善サイクルです。従来のウェブ検索では、以下のように機能します。ユーザーが増える → クリックデータが増える → 検索モデルが改善される → ユーザーが増える。Googleの優位性の要因の一つは、このフライホイールです。
LRATは、人間ではなくAIエージェントでも同様のパターンが機能することを示しています。エージェントが改善された検索システム(リトリーバー)とインタラクトすると、より優れた行動パターン(トラジェクトリー)が生成され、それがさらにリトリーバーを改善します。これは重要です。なぜなら、人間のフィードバックが全く必要なく、システムがエージェントとのインタラクションだけで自己改善できることを意味するからです。これにより、エージェントが主な利用者となる検索システムへの実用的な展開が可能になります。
本論文では、人間中心の検索学習と、エージェントによる検索のニーズとの間に存在する根本的な不一致を指摘し、エージェントの軌跡からの検索学習を新たな検索パラダイムとして形式化しています。 LRAT(Learning from Agent Trajectories)は、エージェントのインタラクションデータには、検索品質、タスクの成功率、および多様なエージェントアーキテクチャにおける実行効率を大幅に向上させる可能性のある、豊かで信頼性の高い教師信号が含まれていることを示しています。