SoK: エージェントとしての能力 ― LLMエージェントにおけるツール利用を超えて.

主体性スキルとは何ですか？

スキルとは、単なるツール呼び出しや指示以上のものです。それは、再利用可能で呼び出し可能なモジュールであり、一連の操作やポリシーをカプセル化し、エージェントが反復的な条件下で目標のクラスを達成することを可能にします。これには、独自の適用可能性ロジック、実行ポリシー、終了条件、および呼び出し可能なインターフェースが含まれます。

2.1 形式的な定義

エージェントのスキルは、それを関連する抽象化と区別する重要な特性を捉えた四重組として形式化されます。エージェントが、行動空間A、観測空間O、および目標空間Gを介して環境Eと相互作用するとします。

Definition 1 (Agentic Skills)

各コンポーネントは、スキルを同時に実行可能、再利用可能、かつ管理可能にするという、他の既存の抽象化では完全に提供できない3つの重要な特性を実現する上で、それぞれが独自の役割を果たします。

\[ S = (C, \pi, T, R) \]

S = (C, π, T, R) の分解

この四重組が、本論文の中核となる主張です。スキルとは、単に呼び出し可能な関数ではなく、契約なのです。これは、サービスレベルアグリーメント（SLA）を持つマイクロサービスのようなものです。

C (Condition: 条件) — このスキルは、どのような場合に呼び出すことができるのか？例えば、「ウェブサイトのナビゲーションは可能ですが、認証が必要なページではできません」
π (Policy: ポリシー) — どのように実行されるのか？これは実際の動作であり、コード、自然言語による指示、または学習されたポリシーです。
T (Termination: 終了条件) — いつ終了するのか？成功、失敗、またはタイムアウトの条件であり、単に「完了するまで実行」ではありません。
R (Interface: インターフェース) — 他のスキルやエージェントは、何を見るのか？入力、出力、副作用—APIの境界です。

T と C がないと、単に「スキル」は関数呼び出しにすぎません。この契約こそが、異なるコンテキストで再利用可能で安全にするものです。

C

適用条件

この機能は、観察結果と目標を{0,1}に照らして評価し、このスキルが現在の状況に適しているかどうかを判断します。これは、スキルが有効になるための条件を満たすかどうかを判定する「ゲート関数」として機能します。スキルの「いつ使うべきか」という知識を司るものです。

π

実行可能なポリシー

観察データや履歴をアクションに変換すること：これがスキルの基本的な仕組みです。これは、プロンプトテンプレート、Python関数、強化学習のポリシー、またはそれらの組み合わせとして実装できます。πが、原始的なアクションの代わりに、ライブラリΣから別のスキルを選択する場合、階層的な構成が生まれます。

T

終了条件

スキルが完了したかどうか（成功したか、またはそうでないか）を、現在の目標との関係において指定します。これが、モジュール化を可能にするものです。呼び出し元は、正確にいつ制御が自分たちに戻ってくるかを知ることができます。T がない場合、スキルを安全に連携させることはできません。

R

呼び出し可能なインターフェース

この機能は、スキルのプログラミング上の境界を定義します。具体的には、名前、パラメータのスキーマ、および戻り値の型を規定します。これにより、エージェント、他のスキル、および外部のオーケストレーターが、このスキルを確実に呼び出すことができます。`R` なしでは、内部の知識をプログラム的に利用できません。

Formal structure of an agentic skill S = (C, pi, T, R) — 図1：エージェント型スキル内部構造。観察データOが適用可能性ゲートCに入力されます。ポリシーπが行動Aを生成します。終了条件Tが、処理を継続するか停止するかを決定します。インターフェースRは、このモジュール全体を呼び出し可能なAPI境界として提供します。

2.2 スキルと関連する抽象化

主体的なスキルは、デザインの領域において独特な位置を占めています。これらは単なるツール、計画、または記憶ではありません。以下の表は、これらのスキルを5つの主要な側面から比較しています。

重要な区別は以下の通りです。ツールは「何を呼び出すことができるか？」という問いに答えます。一方、スキルは「私は何ができるのか？そして、いつ、どのようにそれを行うのか？」という問いに答えます。ツールは、個々のAPIエンドポイントです。スキルは、再利用可能なワークフローであり、それらのツールをいつ、どのように使用するかという判断を含みます。スキルは、複数のツールを呼び出し、状態を維持し、エラーを処理し、構造化された結果を返すことができます。これらはすべて、事前に定義されており、異なるタスク間で再利用可能です。

Skills vs. related abstractions comparison table — 表I：5つの次元（再利用単位、実行セマンティクス、検証対象、構成可能性、およびガバナンス対象）における、スキルと関連する抽象化との比較。

vs. ツール

ツールとは、固定されたインターフェースを持ち、内部的な判断を行わない、基本的な機能（例：ウェブ検索API）のことです。スキルはツールを呼び出すことができますが、適用可能性のロジック、複数ステップのシーケンス、および明示的な終了条件によって、それらを拡張します。この区別は、システムコールとライブラリルーチンの違いに似ています。

vs. 計画

プランは、タスクをサブゴールに分解する、一度きりの思考成果物です。プランはセッションの範囲内で有効であり、追加の解釈なしに直接実行することはできません。スキルはセッション間で保持され、実行可能なポリシーを含み、呼び出し可能なインターフェースを提供します。

vs. 記憶

エピソード記憶と意味記憶は、観察や事実を保存します。スキルは手続き記憶であり、それがどのように行動するかをコード化するものであり、何が起こったかをコード化するものではありません。これは、認知心理学における「知っていること（宣言的）」と「知っている方法（手続き的）」の区別を反映しています。

vs. プロンプトテンプレート

プロンプトテンプレートは、適用条件や終了ロジックなしで、コンテキストウィンドウに挿入されるテキストの断片です。これらは、自動的に選択したり、階層的に構成したり、独立して制御したりすることはできません。スキルは、プロンプトエンジニアリングにおける最適なパターンを包括し、形式化します。

スキルライフサイクル：発見から展開まで

スキルは静的な要素ではなく、相互作用、フィードバック、および制約条件によって形成される進化するシステムの一部です。そのライフサイクルは、スキルの初期段階から最終的な廃止または更新に至るまでの7つの段階で構成されます。

The agentic skill lifecycle from discovery to deployment — 図2：エージェントスキルライフサイクル。実線矢印は主要な進行方向を示し、点線矢印は改善と廃止のためのフィードバックループを示します。各段階は、本論文で調査された、それぞれ異なる研究分野に対応しています。

01

発見.

インタラクションログやデモンストレーションから、反復的なタスクパターンを特定します。重要な質問は以下の通りです：どの行動が、再利用可能なスキルとしてカプセル化するに十分な頻度で、かつ安定して発生するのか？

02

練習と改善

試行錯誤による実行とフィードバック。候補となる技術はテストされ、そのポリシーは改善され、特殊なケース（エッジケース）に対処されます。Voyagerのようなシステムでは、環境からのフィードバックを用いた反復ループとしてこのプロセスが実装されています。

03

蒸留

軌跡の経験を、コンパクトで再利用可能な形式である四重組 S = (C, π, T, R) に圧縮します。この段階では、一時的なエージェントの経験を、永続的な手続き知識へと変換します。

04

ストレージ

検索可能なライブラリにおけるインデックス作成スキル。スキルは、効率的な検索を可能にするために、豊富なメタデータ（名前、説明、適用条件）とともに保存する必要があります。ベクトルデータベースとセマンティックインデックスは、一般的なアプローチです。

05

検索と構成

特定のタスクに適したスキルを選択し、それらを組み合わせる。検索には、埋め込みベースの類似性検索またはLLMルーティングを使用する。組み合わせによって、複雑な、長期的なタスクのための階層的なスキルツリーを構築する。

06

実行.

スキルをサンドボックス化された実行環境で実行します。実行時には、アクセス権の制限を厳守し、異常な動作を監視する必要があります。サンドボックス化のアプローチは、コードスキル（コンテナ化）と自然言語処理（NL）スキル（コンテキストウィンドウの分離）で異なります。

07

評価と更新

スキルのパフォーマンスを継続的に測定し、パフォーマンスが低いスキルを更新または廃止します。パフォーマンスが低いスキルは、新たなサイクル（練習/改善）を開始します。安全性が確保できなくなった、または陳腐化したスキルは、ライブラリから削除されます。

フィードバックループが重要な理由

ライフサイクルは直線的ではなく、ループです。スキルが期待値を下回る(ステージ7が失敗を示す)場合、システムは自動的にそのスキルを改善のために再検討 (ステージ2へ) するか、新しいスキルの開発が必要な能力の不足 (ステージ1へ) を示す必要があります。現在のシステムは、この自動更新ループがほとんど存在しません。その結果、APIや環境の変化に伴い、スキルが静かに劣化していきます。これが、本論文における重要な未解決の研究課題の一つです。

Agentic skill lifecycle illustration — 7段階の主体的なスキルライフサイクルを、循環フローとして概念的に示した図

スキルパッケージングのための7つのデザインパターン.

65件の分析対象システムにおいて、本論文は、スキルが実際にどのようにパッケージ化され、ロードされ、実行されるかを捉える、7つの繰り返される設計パターンを特定しています。各パターンは、コンテキストコスト、決定性、構成可能性、およびガバナンスの間の異なるトレードオフを生み出します。

P1

メタデータ駆動型開示.

VoyagerLARS

✓ スケーラブルで、コンテキストコストが低い ⚠ メタデータ汚染

P2

Code-as-Skill (実行可能なスクリプト)

LATMCodeAct

✓ 高い決定性と構成可能性 ⚠ サンドボックスからの脱出の危険性

P3

ワークフローの適用

LangChainDEPS

✓ 予測可能な、複数のステップからなるプロセス ⚠ 変更が難しい、柔軟性に欠ける

P4

自己進化するスキルライブラリ.

VoyagerJARVIS

✓ 高い適応性 ⚠ 制御されていないスキル低下.

P4 の実際応用: 自己進化するライブラリ（Minecraft の Voyager のようなもの）は、エージェントが探索する中で新しいスキルを記述することを可能にします。リスクは 品質の低下です。エージェントが生成するスキルは、初期のチェックを通過するものの、エッジケースでは機能しないような、わずかに問題のあるものになる可能性があります。スキルをライブラリに追加する際の検証プロセスがないと、ライブラリは信頼できないコードで埋め尽くされます。これは、テストのない自動マージ CI/CD パイプラインのようなものです。

P5

ハイブリッド NL+コードマクロ

HuggingGPTToolBench

✓ 柔軟性があり、人間が読みやすい ⚠ 自然言語とコードの境界が不明確な場合があります。

P6

メタスキル

SKILL-4-LLMMetaGPT

✓ 複雑なパイプラインを調整します ⚠ 高いコンテキストコスト、低い決定性

P7

プラグイン/マーケットプレイスでの配布

OpenAI GPT StoreClawHub

✓ コミュニティ規模での情報発信と発見 🔴 サプライチェーン攻撃 (ClawHavoc)

なぜマーケットプレイス経由でのスキル提供 (P7) が最も高いリスクを伴うのか

スキルがマーケットプレイス (P7) を通じて配布される場合、脅威の範囲が拡大します。P1～P6 では、スキルは社内またはエージェント自身によって作成されますが、P7 のスキルは未知の第三者から提供されます。単一の悪意のあるスキルが、検出される前に数千人のユーザーによってインストールされる可能性があります。ClawHavoc の攻撃 (セクション 7) は、まさにそれを実証しました。1,184 個の悪意のあるスキルが、マーケットプレイスを通じてアクティブユーザーの 36.8% に到達しました。広がり (thousands of users) と権限 (agent-level execution) の組み合わせが、P7 を分類における最もリスクの高い配布パターンにしています。

P7 Marketplace: spectrum from human-controlled to autonomous — 図3：P7マーケットプレイスの分布—人間の制御下から完全に自律的なスキル実行までの範囲。P7は、他のすべてのパターンを包括的に網羅する主要な配信チャネルとして機能します。

Seven design patterns: systems, strengths, weaknesses, risks — 表III：代表的なシステムとともに、7つの設計パターンを示し、それぞれの長所、短所、および主なセキュリティリスクを記述します。

Pattern trade-off matrix: context cost, determinism, composability, governance — 表IV：トレードオフマトリックス – コンテキストコスト、決定性、構成可能性、およびガバナンス（L=低、M=中、H=高）。P2 (Code-as-skill) は、低いコンテキストコストで、高い決定性と高い構成可能性を実現します。

重要な示唆： コードをスキルとして扱う (P2) というアプローチは、高い決定性、高い組み合わせ可能性、そして低いコンテキストコストという最適なエンジニアリング上のトレードオフを提供しますが、サンドボックス化が必要です。マーケットプレイスでの配布 (P7) は、規模を最大化しますが、ClawHavocが示したように、最も高いサプライチェーンリスクを伴います。

表現 × 範囲分類法

7つのデザインパターンとは独立して、スキルは、それが「何であるか」（表現）や、それが「どの環境で機能するか」（範囲）によっても分類できます。この二次元的な分類法は、現在の研究における網羅性の欠如を明らかにします。

スキル表現のタイプ

NL

自然言語 (NL)

自然言語で記述された手順書（プレイブック、レシピ）。人間が容易に作成・理解できる。決定性が低い—実行はLLMインタープリタに依存する。初期のエージェントシステムにおいて主流であった。

Code

コード

実行可能なスクリプト（Python、JavaScript）で、決定論的な動作をします。高い組み合わせ可能性を持ちます。ユニットテストが可能で、バージョン管理が可能であり、形式的な検証も可能です。コードインジェクションのリスクを軽減するために、サンドボックス化された実行環境が必要です。

Policy

ポリシー (学習済み)

ニューラルネットワークを用いた制御ポリシー、または強化学習によって訓練されたコントローラー。分布の変化に対して高い適応性を持つものの、検査や監査が困難である。主に、離散的な自然言語指示だけでは不十分な、ロボティクスや具現化されたAIの分野で使用される。

Hybrid

ハイブリッド

自然言語指示、実行可能なコード、およびオプションの学習済みコンポーネントの組み合わせ。柔軟性を提供しつつ、ある程度の監査可能性を維持します。多くの本番システムは、ハイブリッドな構成へと収束します。

運用範囲：環境

🌐

ウェブ

ブラウザのナビゲーション、ウェブスクレイピング、フォームとのインタラクション。WebArenaやMind2Webのようなベンチマークが存在する、十分に研究されている分野です。また、これは「混乱した代理人」攻撃の主要な攻撃対象領域でもあります。

💻

OS / デスクトップ

ファイルシステム、プロセス管理、GUI自動化。OSWorldなどのベンチマークで評価されます。高権限環境では、ここでスキルを発揮するには厳格なアクセス制限が必要です。

⚙️

ソフトウェアエンジニアリング

コード生成、デバッグ、テスト、リポジトリ管理。SWE-benchとSWE-agentは主要なベンチマークです。コードスキルにおいて、SkillsBench（最も低いドメインでの獲得）でキュレーションされたスキルと比較して、+4.5ppの改善が見られています。

🤖

ロボティクス

物理ロボットの制御、ナビゲーション、操作。主にポリシーベースのスキル。SayCanとNavCatは代表的なシステムです。評価は、物理世界の多様性により困難です。

🔗

マルチエージェント

複数の協力または競合する主体間の連携。メタスキル（P6）と市場のパターン（P7）が特に重要です。異なるテナント間のスキルへのアクセスは、追加のガバナンスの複雑さをもたらします。

表II: 代表的なシステム → ライフサイクル段階 × 表現マッピング (展開するにはクリックしてください)

Representative systems mapped to lifecycle stages and skill representation — 表II：ライフサイクル段階（探索から評価まで）にマッピングされた代表的なシステムと、主要なスキル表現（コード、自然言語（NL）、潜在表現、ハイブリッド）。

表V：包括性システム調査 - パターン、表現、範囲、ライフサイクルカバレッジ（展開するにはクリックしてください）

Comprehensive system survey: patterns, representation, scope, lifecycle — 表V：すべての分類次元にわたる、詳細に分析された24のシステム。ガバナンスの列には、重要なギャップが示されており、ほとんどのシステムでガバナンスメカニズムとして「None（該当なし）」と記載されています。

⚠ ガバナンスの欠如: 包括的な調査（表V）によると、ほとんどの学術システムに明確なガバナンスメカニズムが欠けていることが明らかになっています。ガバナンスに関する欄は大部分が空白であり、これは本論文が最も緊急性の高い課題として指摘する、実用的なスキルベースエージェントにとっての重要な欠如です。

セキュリティ、信頼、およびガバナンス

ClawHavoc攻撃の手口

この攻撃は、マーケットプレイスのユーザーが公開されているスキルに抱く信頼を悪用しました。

ステップ1 — 悪意のあるアップロード: 攻撃者は、一見すると有用な生産性スキルをClawHubマーケットプレイスに公開しました。
ステップ2 — プロンプトインジェクション: これらのスキルには、隠された指示が含まれており、LLMエージェントによって実行されると、機密データ（APIキー、認証情報、ウォレットアドレス）が攻撃者が制御するエンドポイントに送信される原因となりました。
ステップ3 — サプライチェーンの拡散: マーケットプレイスではワンクリックでインストールできるため、悪意のあるスキルは検知される前に、アクティブユーザーの36.8%に拡散されました。

この攻撃は、悪意のあるnpmパッケージに似ていますが、ペイロードはコードインジェクションではなく、プロンプトインジェクションであり、静的に検知することがはるかに困難です。

脅威モデル：主要な攻撃カテゴリ6つ

毒されたスキル回収.

検索メカニズムが、無害なクエリに対して悪意のあるスキルを提示するようにするために、スキルのメタデータを操作する手法。これは、SEOの汚染（SEO poisoning）に類似している。この手法は、パターン1（メタデータ駆動型の情報公開）を利用している。

悪意のあるスキルペイロード.

あるスキルのポリシー π は、実行されると不正な動作を行う指示やコードを含んでいます。コードスキル (P2) の場合、これは従来のソフトウェアサプライチェーン攻撃に類似しています。一方、自然言語スキル (P5) の場合、ペイロードはプロンプトインジェクションの一種です。

テナント間情報漏洩

マルチエージェント環境や、共有スキルリポジトリを持つマルチユーザー環境において、あるテナントが作成したスキルが、別のテナントが所有するデータやリソースにアクセスする可能性があります。これは、エンタープライズ環境における重大なリスクです。

スキル・ドリフトの悪用.

スキルが作成時点では安全であっても、環境が変化することで安全ではなくなる可能性があります。攻撃者が環境の一部を制御している場合（例えば、スキルがアクセスするウェブページなど）、スキルのコードを変更せずに動作を操作することが可能です。

環境汚染による混乱を招く副官

信頼できない情報源（ウェブページ、ユーザーが作成したドキュメントなど）には、エージェントを操作し、本来は安全な特権的な機能を誤用させるような悪意のある指示が含まれていることがあります。その機能自体は損なわれていません。攻撃は、エージェントの指示に従うという性質を悪用するものです。

適用条件：毒性物質による汚染

Cへの入力値を操作することで、悪意のあるスキルがC(o,g) = 1という値を常に返すように仕込み、本来活性化されるべきではない状況でも活性化させてしまう。これにより、悪意のあるスキルが広範なタスクカテゴリで活性化され、攻撃対象となる範囲が最大化される。

信頼度段階モデル：4段階の段階的開示方式

T1

T1: メタデータのみ

エージェントは、スキル名と説明のみを表示します。指示やコードはロードされません。実行リスクなしでスキルを検出できます。すべての信頼できないスキルに対して安全です。

T2

T2: 命令アクセス

エージェントは、スキルの自然言語による指示を、自身のコンテキストウィンドウに読み込みます。読み込み時には、読み取り専用モードでの動作を強制する必要があります。この段階でのプロンプトインジェクションのリスクは、アーキテクチャ上の分離によって軽減する必要があります。

T3

T3: 教師ありの実行 (Supervised Execution)

この機能は、アクション（ツールの呼び出し、コードの実行など）を実行できますが、各アクションにはユーザーの承認が必要であったり、制限されたサンドボックス内で実行されます。検証はされているものの、完全に信頼できるとは言えないソースからの機能に適しています。

T4

T4: 自律実行

この機能は、アクションごとの承認なしで実行されますが、事前に設定されたアクセス許可の範囲と監視の対象となります。これは、T3レベルで実績があり、信頼性と出所が確認された機能にのみ適用されます。

信頼度レベルの実際的な利用方法

4つのレベルは、具体的な展開の決定事項に対応します。

T1 (検証済み) — 人間または正式なツールによる監査済み。フル権限で実行しても安全です。本番環境に展開してください。
T2 (コミュニティ) — 信頼できるソースからのものですが、個別に監査されていません。中程度の権限で実行し、異常がないか監視してください。
T3 (未検証) — 不明なソースからのもの。サンドボックス環境で実行します。ネットワークアクセスおよび認証情報へのアクセスは許可されません。
T4 (悪意のあるものと想定) — 悪意があると想定します。実行する場合でも、最大限の隔離を行ってください。ClawHavocのスキルは、発見された当初はT4に分類されていました。

Trust-tiered security threat model for agentic skill execution — 図5：信頼段階に基づいたセキュリティ脅威モデル。4つの階層化された信頼境界（T1～T4）と、3つの主要な攻撃ベクトル：Poisoned Retrieval（改ざんされたデータの取得）、Malicious Payload（悪意のあるペイロード）、Supply-Chain Attack（サプライチェーン攻撃）。最終的な脅威の結果は、スキル情報の漏洩（APIキー、認証情報、暗号ウォレットなど）です。

ClawHavoc: 最初の大規模なスキル供給チェーン攻撃

ClawHavocというキャンペーンは、OpenClawのClawHubスキル登録システムに対するものであり、これはスキルサプライチェーンの悪用に関する、最初の大規模な実証的証拠を提供します。ClawHubの公開から数週間以内に、セキュリティ研究者によってこの攻撃が特定され、論文で示されたすべての脅威カテゴリが具体化されました。

1,184 悪意のあるスキルが特定されました

36.8% 公開されているすべてのスキルセットに、セキュリティ上の脆弱性が存在していた

12 パブリッシャーアカウントが関連しています

60+ AMOSというマルウェアが標的にしている暗号資産ウォレットの種類

主な攻撃内容（Atomic macOS Stealer / AMOS）は、.envファイルからLLM APIキー、60種類以上の仮想通貨ウォレットのキー、ブラウザの認証情報、セッショントークンなどを体系的に収集し、これにより、大規模な不正請求、モデルの悪用、および金融詐欺を可能にしました。

パターン分類による攻撃経路の分析.

Poisoned Retrieval (P1)

攻撃者は、人気のある正当なスキルを、ほぼ同一の名前で複製し、Pattern-1のメタデータ駆動型検索機能を悪用して、悪意のあるバージョンをオリジナルと同じランク、またはそれ以上のランクで表示させました。

悪意のあるコードのペイロード (P2)

含まれるスキルには、リバースシェル、認証情報窃取のためのウェブフック、およびソーシャルエンジニアリングによる「セットアップ」手順が含まれており、ユーザーに `curl | bash` パイプラインを実行させることで、P2のコード実行に対する信頼を悪用している。

混乱した依存性注入 (Confused Deputy Injection)

スキルドキュメントへのプロンプトインジェクションによって、エージェントが正規のツールアクセスを利用して悪意のあるコマンドを実行するように誘導され、スキルレベルの信頼性チェックを迂回されました。

適用条件操作（C-Poisoning）

広すぎるスキル記述により、悪意のあるスキルが幅広いタスクカテゴリ（暗号化、生産性、自動化）で有効になり、P1メタデータ操作を通じて攻撃対象領域が最大化されました。

獲得、構成、およびオーケストレーション

スキルがどのようにしてライブラリに組み込まれるかは、その実行方法と同じくらい重要です。スキルの獲得方法は、その品質、汎用性、および管理特性に影響を与えます。

スキルの獲得戦略

人間が作成

人間の開発者や専門家によって直接記述されたスキルです。最高品質で信頼性が高く、エンタープライズ環境での利用に最適です。主な制約は、スケーラビリティです。

デモンストレーション・ディスティレーション

人間のエージェントや専門家によるデモンストレーションから、軌道蒸留（trajectory distillation）によってスキルを抽出します。スケーラビリティと品質のバランスを重視します。主要な課題は、抽出されたスキルが、デモンストレーションされた状況を超えて汎用性を持つようにすることです。

自己学習と探求

エージェントは、環境との相互作用を通じて、自律的にスキルを発見し、作成します。最も高い拡張性を持ちますが、信頼性は最も低いです。ベンチマークのデータは、自己生成されたスキルがパフォーマンスを低下させる可能性があることを示しており、導入時の体系的な検証が不可欠です。

階層的なスキル構成.

あるスキルポリシー π が、原始的なアクションの代わりに、ライブラリ Σ から別のスキルを選択する場合、階層的な構成が生じます。これは、強化学習におけるオプションフレームワークにおけるオプション-サブルーチン構造を反映しています。これにより、より単純な基本的なスキルから、複雑で長期的なタスクの実行が可能になります。

障害からの回復機能は非常に重要です。サブスキルが失敗した場合（T_γ = failure）、制御は十分なコンテキストとともに親タスクに戻り、別のスキルを再試行するか、または人間の監視に引き継ぐことができます。図4は、「Webアプリケーションのデプロイ」の例におけるこのフローを示しています。

Skill retrieval and hierarchical composition with failure recovery — 図4：スキル検索と階層的な構成。タスクは、埋め込みマッチングまたはLLMルーティングによって検索をトリガーします。上位レベルのスキル「Webアプリケーションのデプロイ」は、サブスキルである「データベースのセットアップ」、構成サーバーの設定、およびテストの実行に分解されます。失敗が発生した場合、代替スキルを選択してリカバリーを行います。

検索メカニズム

埋め込みマッチ

スキルの説明に対するベクトル類似検索。高速でスケーラブル。意味的に類似しているものの、語彙的には異なるスキルを見逃す可能性があります。多くの実用システムで採用されている標準的なアプローチです。

LLMルーティング

LLMは、タスクの説明とスキルメタデータを読み取り、ルーティングの決定を行います。微妙な曖昧さの解消において、より高い精度を実現します。ただし、処理速度が遅く、コストも高くなります。重要なスキルや、結果に大きな影響を与える可能性のあるスキル選択に最適です。

エージェントとしての能力の評価.

この論文では、5次元の評価フレームワークを提案し、既存のベンチマークを測定可能なスキル特性にマッピングしています。重要な発見点として、単一のベンチマークではすべての次元を網羅できないため、包括的な評価には複数のベンチマークを組み合わせる必要があることが挙げられます。

🔬 SkillsBenchからの重要な発見： 厳選されたスキルは、エージェントの平均合格率を+16.2パーセントポイント向上させます（24.3%から40.6%へ）。この改善は、ヘルスケア分野で+51.9pp、製造業分野で+41.9ppと最も大きくなっています。一方、自己生成されたスキルは、パフォーマンスを低下させる可能性があります。したがって、スキルの登録時に、体系的な検証が不可欠です。

5つの評価項目

正確性

そのスキルは、意図された結果を達成していますか？真の値データによるアノテーションまたは決定論的な検証によって評価されます。コードスキルについては、単体テストが直接的な検証を提供します。 Webインタラクションスキルについては、環境状態の比較によって目標達成が確認されます。

堅牢性

このスキルは、入力の変動、環境の変化、および特殊な状況下でも、その性能を維持できますか？例えば、堅牢なスキルは、古いUIレイアウトと最新のUIレイアウトの両方に対応できます。これは、本番環境での長期的な利用にとって非常に重要です。

効率

トークン消費量、経過時間、ツール呼び出し回数、およびAPIコスト。効率は、デプロイメントコストとモジュール性の直接的な要因です。効率の悪いサブスキルは、後続のワークフローを遅らせます。特に、長期的なタスクにおいて重要です。

一般化

このスキルは、未経験のタスクや分野に適用できるのでしょうか？アウト・オブ・ディストリビューション評価は困難です。 Cross-website generalization (Mind2Web) や cross-application evaluation (OSWorld) は、ある程度の証拠を提供しています。自己生成されたスキルは、この点においてしばしば失敗します。

安全性

このスキルは、有害な行動を回避し、許可された範囲内で動作し、エラーを適切に処理できるか。不正または危険な動作に対して、敵対的テスト、レッドチームによる評価、および実行時モニタリングを通じて評価されます。これは、信頼レベルモデルに直接関連しています。

Anchor事例：SkillsBench

SkillsBench (86のタスク、7,308の軌跡) は、キュレーションされたスキル（curated skills）の価値に関する、現在までに最も直接的な証拠を提供しています。この研究では、複数のドメインにわたって、キュレーションされたスキルと自己生成されたスキルのパフォーマンスを比較し、その結果、劇的なパフォーマンスの違いが明らかになりました。

+16.2pp キュレーションされたスキルを用いることで、平均的な合格率が向上します

24.3%→40.6% 全体合格率（基準値 → 厳選データ）

+51.9pp 医療分野における改善（最も大きな進歩）

コンテキストにおける+16.2ppの意味合い：16.2パーセントポイントの改善とは、全体の合格率が24.3%から40.6%へと上昇したことを意味し、これは約67%の相対的な増加です。エージェントのベンチマークにおいて、最先端の進歩のほとんどは2〜5pp程度ですが、+16ppは非常に優れた成果です。ヘルスケア分野における+51.9ppの改善は、さらに顕著です。高リスクの分野では、「処方箋に基づいて用量を検証してから推奨する」といった精選されたスキルと、自己生成されたスキルとの間には、正しい答えと危険な答えとの違いが生じる可能性があります。

未解決問題と研究ロードマップ

スキルベースのエージェントは、信頼性の高い大規模な展開を妨げるいくつかの未解決の課題を抱えています。その中でも、特に緊急性の高い5つの研究分野が挙げられます。

10.1

検証済みの自律的なスキル生成.

自動生成されたスキルは、パフォーマンスを低下させる可能性があります。主な課題は、もはやスキルの生成自体ではなく、入学時の検証です。スキルは、CI/CDパイプラインにおけるソフトウェアアーティファクトのように扱われるべきです。つまり、ライブラリに登録する前に、テストスイートに対して評価する必要があります。

10.2

教師なし学習によるスキル発見.

多くのシステムは、依然として、あらかじめ定義されたカリキュラムや、明示的な報酬シグナルに依存しています。オープンエンドな能力の成長を実現するには、強化学習 (RL) から、大規模言語モデル (LLM) ベースのエージェントへの、教師なし学習によるスキル発見を適用する必要があります。これにより、人間の介入なしに、相互作用の履歴から再利用可能な行動が自然に生まれるようになります。

10.3

表現形式にわたる形式検証.

ソフトウェアの品質保証に関する長年の経験は、コーディングスキルに役立ちます。一方、自然言語処理（NL）やポリシーに関するスキルには、同等の検証ツールが不足しています。実用的なガバナンスの課題は、実行可能なコンポーネントに対するルールベースの分析と、言語ベースのスキルに対する意味的な検査を組み合わせることです。

10.4

環境変動に対するロバスト性

適切に実装されたスキルであっても、API、ツール、およびワークフローが進化するにつれて、機能しなくなる可能性があります。現在のシステムでは、実行統計の継続的な監視による積極的なドリフト検出や、過去の動作からの逸脱の検出がほとんど行われていません。

10.5

ガバナンス、経済、および法的責任

マーケットプレイスのエコシステムは、貢献に対するインセンティブを生み出す一方で、サプライチェーン攻撃の対象となる範囲を拡大します。責任モデルは、スキル提供者、プラットフォーム運営者、およびユーザー間の責任を明確にする必要があります。認証メカニズムは、信頼性の高いスキルには報酬を与え、リスクの高いスキルにはペナルティを科すように設計されるべきです。

結論

エージェントとしてのスキルとは、再利用可能な手続き型モジュールであり、LLMエージェントが単一のツール利用にとどまらず、信頼性の高い長期的なタスク実行を可能にするものです。このSoK論文は、以下の6つの貢献を提供します。

S = (C, π, T, R)という、スキル、ツール、計画、そして記憶を明確に区別する、正確な境界条件を持つ、統一された形式的な定義。
発見から評価、そして更新までの全プロセスを網羅する、7段階のライフサイクルモデル
実際のシステムにおけるスキルがどのようにパッケージ化され、ロードされ、実行されるかに関する、7つのパターンによる設計分類。
直交的な表現 × スコープの分類体系。これは、どのようなスキルが存在し、それらがどのような環境で有効であるかを記述します。
セキュリティとガバナンスに関する分析。脅威モデル、信頼レベル、およびClawHavocの事例研究が含まれます
ベンチマークのマッピングと、SkillsBenchによるアノテーション研究を用いた評価フレームワーク（キュレーションされたスキルから+16.2ppの改善）。

この分野は、教師なし学習、クロス表現の検証、ドリフト検出、およびガバナンス経済において、未解決の課題に直面しています。堅牢で、検証可能で、認証可能な能力の開発が進むかどうかは、スキルベースのエージェントが、高いリスクを伴う現実世界の環境で信頼できるかどうかを決定するでしょう。

キーワード

Agentic AI LLM Agents Skill Learning Procedural Knowledge Multi-agent Systems Security Governance cs.CR SoK

参考資料（代表的な選択）：

S. Zhou et al., "WebArena: A realistic web environment for building autonomous agents," ICLR 2024, arXiv:2307.13854.
J. Yang et al., "SWE-agent: Agent-computer interfaces enable automated software engineering," NeurIPS 2024, arXiv:2405.15793.
Z. Ji et al., "Measuring and augmenting large language models for solving capture-the-flag challenges," CCS 2025.
Y. Shen et al., "HuggingGPT: Solving AI tasks with ChatGPT and its friends in Hugging Face," NeurIPS 2023.
C. Xie et al., "Can large language model agents simulate human trust behavior?" NeurIPS 2024.
S. Hong et al., "MetaGPT: Meta programming for a multi-agent collaborative framework," ICLR 2024.
Q. Wu et al., "AutoGen: Enabling next-gen LLM applications via multi-agent conversation," COLM 2024.
J. R. Anderson et al., "An integrated theory of the mind," Psychological Review, 2004.
J. E. Laird, The Soar Cognitive Architecture. MIT Press, 2012.
R. S. Sutton, D. Precup, S. Singh, "Between MDPs and semi-MDPs," Artificial Intelligence, 1999.

SoK: エージェントとしてのスキル