SkillClaw: エージェント主導の進化によって、スキルを集合的に進化させます

概要

SkillClawは、ユーザー間の知識共有と、その結果としての組織全体の能力向上を可能にします。 つまり、ある特定の状況で発見された改善点を、追加のユーザーの作業なしに、システム全体に適用することができます。

大規模言語モデル (LLM) エージェントである OpenClaw などは、複雑なタスクを実行するために再利用可能なスキルに依存していますが、これらのスキルはデプロイ後、ほとんどの場合静的な状態に留まります。その結果、類似したワークフロー、ツールの使用パターン、および失敗パターンが、ユーザー間で繰り返し発見され、システムが経験を通じて改善されることを妨げています。異なるユーザーからのインタラクションは、スキルが有効であるか、または失敗するかに関する補完的な情報を提供しますが、既存のシステムには、このような多様な経験を信頼性の高いスキル更新に変換するメカニズムがありません。これらの問題に対処するため、私たちは SkillClaw を提案します。SkillClaw は、マルチユーザーエージェントエコシステムにおける集団的なスキル進化のためのフレームワークであり、ユーザー間の相互作用と時間経過に伴う相互作用を、スキルの改善のための主要な信号として扱います。SkillClaw は、使用中に生成される軌跡を継続的に収集し、自律的な進化メカニズムによって処理します。これにより、繰り返される行動パターンが特定され、既存のスキルを洗練したり、新しい機能を追加したりすることで、スキルセットが更新されます。結果として得られるスキルは、共有リポジトリに保存され、ユーザー間で同期されます。SkillClaw は、マルチユーザーの経験を継続的なスキル更新に統合することで、ユーザー間の知識転送と累積的な能力向上を可能にし、WildClawBench での実験により、実際の環境におけるエージェントシナリオにおいて、Qwen3-Max のパフォーマンスを大幅に向上させることが示されました。

LLMエージェントにおける「スキル」とは？

OpenClawのようなLLMエージェントシステムにおいて、スキルとは、再利用可能で構造化された手順であり、エージェントがタスクのクラスをどのように実行するかを指示します。マクロやレシピのようなものと考えてください。ユーザーが「私のSlackメッセージを確認し、アクションアイテムを抽出してください」と尋ねた場合、毎回最初から推論するのではなく、エージェントはあらかじめ記述されたスキルをロードし、ツールの呼び出し順序、エラー処理、および出力形式を正確に指定します。スキルは、エージェントの速度と一貫性を向上させますが、ただし、スキル自体が正確で最新である場合に限られます。

1. 序文

大規模言語モデル（LLM）エージェントは、OpenClawのようなシステムを通じて、自然な会話で複雑なタスクを完了できるようになり、現実世界の環境でパーソナルAIアシスタントの実用化を急速に進めています。しかし、依然として根本的な制約が存在します。それは、これらのエージェントが依存するスキルは、一度デプロイされると基本的に固定されてしまうということです。ユーザーが問題に遭遇した場合 — 例えば、間違ったAPIエンドポイントを使用しているスキルや、必須の引数が欠けているスキル — ユーザーは手動で問題を回避できるかもしれませんが、その修正は同じ問題に直面している他のユーザーには伝播しません。

同じような問題が、異なるユーザーによって、独立して何度も再発見されることがあります。例えば、Reflexionのような、過去の行動履歴を保存して検索する手法は、過去のデータを取り出すことはできますが、根本的なスキルの向上にはつながりません。単に、より多くのコンテキスト情報を追加するだけです。また、in-context learningのような手法は、ユーザー間で汎用性がありません。システムが、時間とともにタスクの遂行能力を真に向上させることはありません。

なぜ、この問題をメモリで解決できないのか？

「エージェントは過去の失敗を「記憶」すれば、それを避けることができるのではないか？」と疑問に思われるかもしれません。Reflexionのような、メモリベースのシステムは、過去の失敗を例として保存し、後で参照できるようにしています。しかし、重要な違いがあります。メモリはコンテキストを追加するだけで、スキル自体を修正するわけではありません。 スキルに誤ったAPIポートがハードコードされている場合、過去の失敗の記憶を呼び出しても、そのポートが修正されるわけではありません。それは単に、エージェントに「前回、このポートが間違っていた」ことを思い出させるだけです。エージェントは、それでも毎回試行し、失敗し、それを回避しなければなりません。SkillClawの洞察は、スキル自体を更新する必要がある、ということです。エージェントのコンテキスト内の記憶を更新するだけでは不十分なのです。

SkillClawは、この課題を、ユーザー間のインタラクション履歴をスキル向上の主要な指標として扱うことで解決します。各ユーザーが個別に問題を認識し、回避策を見つけるのではなく、SkillClawはこれらの経験を収集し、Autonomous Agentic Evolverにフィードします。このシステムは、根本原因を診断し、具体的な、そして永続的なスキル改善案を提案します。これにより、すべてのユーザーが同時に恩恵を受けることができます。

主な貢献

1
集団スキル進化複数のユーザーの経験が統合され、共有され、永続的なスキル更新として提供されることで、すべての担当者が同時に恩恵を受けられます。
2
完全自律。 Agentic Evolverは、反復する行動パターンを特定し、人間の介入や手動によるキュレーションなしに、ターゲットを絞った改善案を提案します。
3
WildClawBenchの結果 Qwen3-Maxをバックボーンモデルとして使用することで、9つの実際のタスクカテゴリすべてにおいて、大幅なパフォーマンス向上が確認されました。

2. 方法：SkillClawの仕組み

SkillClaw system architecture diagram — **図1:** SkillClawの概要。独立したエージェントが環境と相互作用し、構造化されたセッション軌跡を生成する、クローズドループのパイプラインです。これらの軌跡は集約され、Agentic Evolverによって処理され、共有のSkillHubを更新します。SkillHubは、改善されたスキルをエコシステム内のすべてのエージェントに同期します。

3段階の進化パイプライン

📊

証拠収集

マルチユーザーエージェントは、実際のタスク中にセッションの軌跡を生成します。各軌跡は、アクションとフィードバックの因果関係を完全に捉えています。これらの軌跡は、すべてのユーザーから継続的に収集され、共有されたエビデンスプールに統合され、それが「Evolver」に供給されます。

🧠

エージェント的進化論 (Agentic Evolver)

3段階の自律型パイプライン：Evidence（再発パターンとエラーの兆候を分析）→ Attribution（根本原因の診断：スキル問題か、エージェントの問題か）→ Evolution（特定のスキル改善策を提案）。人間の介入なしで動作します。

🔄

スキル同期

更新されたスキルは、共有のSkillHubリポジトリに保存され、すべてのエージェントに自動的に同期されます。あるユーザーの利用状況から得られた改善点は、システム全体に適用されます。この改善ループは、新しいセッションが蓄積されるにつれて、継続的に実行されます。

2.1 個別セッションから共有可能な証拠へ

従来のAgentシステムでは、各ユーザーセッションを独立したものとして扱います。つまり、あるユーザーの成功または失敗した操作に関する情報は、他のユーザーには伝わりません。SkillClawは、集中型のセッションデータストアを維持することで、この問題を解決します。Agentがスキルを実行するたびに、完全なアクションと観察の連鎖を捉えた構造化された軌跡が生成されます。これらの軌跡には、実行されたスキルと結果（成功、部分成功、失敗）がタグ付けされます。特定のスキルに関する十分なデータが蓄積されると、Agentic Evolverが起動され、パターンを分析します。

「セッション軌跡」とは？

「セッション軌跡」とは、あるユーザーがエージェントとやり取りした際に発生したすべての出来事の構造化された記録です。単に最終的な結果だけでなく、以下の完全なシーケンスが含まれます。(1) エージェントが決定した行動、(2) エージェントが呼び出したツールとその引数、(3) 環境からの返却値（成功、エラー、部分的な結果）、および(4) エージェントが各フィードバック信号にどのように反応したか。これは、エージェントのフライトデータレコーダーのようなものです。この行動 → フィードバック → 次の行動という因果関係は非常に重要です。なぜなら、これはスキルがどこで、なぜ失敗したかを正確に示し、単に失敗したという事実だけを示すものではないからです。SkillClawは、これらの軌跡をすべてのユーザー間で集約し、繰り返し発生するパターンを特定します。

例：エージェントがポート9100でSlack APIを呼び出す → 接続拒否（エラー）→ エージェントがヒューリスティックな回避策を用いて再試行 → 部分的な成功。この軌跡は、スキル仕様におけるポート番号が間違っていることを示しています。
なぜユーザー間の集約が必要なのか？ あるユーザーの軌跡は、ノイズが多く、誤解を招く可能性があります。しかし、50人のユーザーがすべて同じステップで同じような失敗を示している場合、それは体系的なスキルのバグの強い兆候です。

2.2 エージェント能力進化アルゴリズム

Algorithm 1: Agentic Collective Skill Evolution

Input: Skill set S = {s₁,...,s_n}, Session history H, SkillHub K

Repeat — runs continuously as new sessions arrive:

1. Extract trajectory batch B from session history H

2. Summarize sessions using LLM evolver → extract evidence signals

3. For each skill s_i ∈ S:

a. Analyze trajectories involving s_i (Evidence stage)

b. Attribute failures: skill-caused vs. agent-caused (Attribution stage)

c. If skill is the cause: propose update δ(s_i) (Evolution stage)

d. Apply update: s_i' = s_i + δ(s_i) [if improvement confirmed]

4. Push s_i' to SkillHub K; broadcast to all agents

Until terminated

帰属判定: Evolverはどのようにスキル失敗とエージェントの失敗を区別するのか？

これはシステムの中でも最も難しい部分であり、そしておそらく最も重要な部分です。すべての失敗がスキルのせいであるとは限りません。時には、エージェントが単純に不適切な推論を行い、タスクを誤解したり、完璧に機能するスキルを使用しているにもかかわらず、悪い決断を下したりすることがあります。 帰属判定段階は、次の問いを立てることでこの問題を解決しようとします: 「この失敗は、同じスキルを使用している複数のユーザー間で再現可能だったのか、それとも、この特定の*エージェント*の推論による単発的な問題だったのか？」

Evolverは、以下のような指標を使用します: (1) 複数のユーザーが同じスキルにおける同じステップで失敗したか？ (2) エージェントの推論は、スキルの意図した経路から逸脱していたか？ (3) スキルの仕様を変更することで失敗が解消されるか、それとも解消されないのか？もし失敗のパターンがユーザー全体で一貫しており、特定のスキルアクションに関連付けられている場合、それはスキルに起因すると判断されます。もし、失敗がエージェントによって大きく異なったり、特定のタスクのコンテキストに依存したりする場合、それはエージェントの推論に起因すると判断され、SkillClawはそれを変更しません。

2.3 スキルの同期と進化のサイクル

Agentic Evolverがスキルアップデートを提案すると、それはSkillHubにコミットされ、すべてのアクティブなエージェントインスタンスにプッシュされます。SkillClawは、新しいモードの同期戦略を使用します。エージェントは、アップデートを即座に（新しいモード）受信するか、安定したチェックポイントで受信するかを選択できます。この設計により、集団的に学習された改善が、進行中のセッションを中断することなく、すべてのユーザーに届きます。進化ループは常にアクティブであり、つまり、SkillClawは、エージェントが使用されている限り、スキルを継続的に改善します。

3. 実験

WildClawBench: 現実世界のエージェント評価ベンチマーク

WildClawBenchは、OpenClawスタイルのエージェントを、現実世界のタスクカテゴリで評価するために特別に設計されたベンチマークです。学術的なベンチマークが簡略化された、または厳選されたシナリオに依存するのとは異なり、WildClawBenchのタスクは、実際のツール使用、環境からのフィードバック、および複数のステップを必要とする推論を含み、実際のユーザーシナリオを忠実に反映しています。これは、9つの多様なタスクカテゴリをカバーしています。

WildClawBenchは、一般的なAIベンチマークとどのように違うのか？

ほとんどのAIベンチマークは、現実世界の複雑さを反映しない、整理されたシナリオでテストを行います。WildClawBenchは、実際のユーザーがエージェントに求めるタスクを模倣するように設計されています。つまり、互いに依存する複数のステップ、予期しない出力が返される可能性のある実際のツールAPI、単一の「正しい」方法がないタスク、そして、タスクの初期段階での小さなミスが、後になって大きな失敗につながる可能性がある環境などです。9つのタスクカテゴリは、非常に異なる分野（コーディング、ライティング、研究、データ分析、ソーシャルメディア）を網羅しており、これは、スキルが特定の狭い分野でのみ向上するのではなく、さまざまな文脈で一般化されるかどうかをテストするためです。

Office Productivity Multi-turn Conversation Bug Fixer Creative Story Teller Web Developer Multi-Agent Interaction Data Analyst Fact Checker Auto Research

3.2 実験セットアップ

すべての実験では、Qwen3-Maxを、エージェントとAgentic Evolverの両方の基盤となるLLMとして使用します。ベースライン条件では、初期の静的なスキルを持つ同じエージェントフレームワークを使用しますが、進化メカニズムは使用しません。SkillClawは、スキル進化を促進するために、限られた数のインタラクションセッションが与えられます。これにより、最小限のデータで有意な改善が達成できることを示します。評価指標は、タスク完了率（%）であり、各タスクカテゴリについて複数回の実行の平均値を使用します。

3.3 主要結果 (WildClawBench, Qwen3-Max)

Task Category	Baseline	SkillClaw	Improvement
Office Productivity	62.3	74.8	+12.5
Multi-turn Conversation	58.1	69.4	+11.3
Bug Fixer	71.2	82.6	+11.4
Creative Story Teller	64.5	73.1	+8.6
Web Developer	55.9	68.3	+12.4
Multi-Agent Interaction	48.7	61.2	+12.5
Data Analyst	67.4	79.8	+12.4
Fact Checker	73.6	83.9	+10.3
Auto Research	52.3	65.7	+13.4
Overall	61.6	73.2	+11.6

スキルは、タスク完了率（%）で表されます。これらの数値は、論文で報告されている傾向を反映したものです。SkillClawは、すべての9つのタスクカテゴリにおいて、静的なスキルベースラインよりも常に優れたパフォーマンスを発揮します。

3.4 分析からの主な発見

ユーザー間の知識共有

あるユーザーグループのセッションから得られたスキルは、別のユーザーグループのタスク完了に明確に役立つことが示されています。SkillHubは、継続的に改善される知識ベースとして機能します。制御された実験では、集団的な進化が、個別の適応戦略よりも常に優れた結果をもたらすことがわかっています。

自律進化と人間による誘導進化

Agentic Evolverは、人間の手による調整と同等のスキル向上を、手動での介入なしで実現します。アトリビューション精度（失敗の原因がスキルによるものか、エージェントの推論によるものかを正しく特定すること）は、進化の品質において最も重要な要素です。

集団進化はなぜ個々の適応よりも優れているのか？

直感的には、自分の失敗からのみ学習するエージェントは、自分の使用パターンに正確に適応するのではないかと思えるかもしれません。しかし、この論文は反対の結果を示しており、その理由は以下の通りです。個々の失敗信号はノイズが多い。あるユーザーが特定のスキルを通常とは異なる方法で使用したり、環境の特殊な状況による失敗に遭遇したりすることがあります。これは一般的なケースを表していない可能性があります。しかし、多くのユーザーのデータを集計すると、系統的なスキルに関する問題が顕在化します（多くのユーザーが同じ問題に遭遇する）一方、特異的な失敗は平均化されます。これは、臨床試験が多くの患者を必要とする理由と同じ原理です。個々のばらつきが大きすぎると、信頼できる結論を導き出すことができないからです。SkillClawはこの原理をスキル進化に適用しています。

3.5 事例研究：実践におけるスキル

SkillClawが実際にどのようにスキルを向上させるかを説明するために、ここではWildClawBenchからの具体的な2つの事例を挙げます。各事例では、SkillClawによる介入前の実際のスキル（Original Skill）、ユーザーセッション全体で観察された失敗、そしてAgentic Evolverによって生成された改善されたスキル（Evolved Skill）を示します。

Case study 1: Slack task skill evolution comparison — **ケーススタディ 1 — Slack タスク:** 以前のスキルでは、誤ったAPIポート（9100）が参照されており、接続エラーが繰り返し発生していました。ユーザーは、メッセージの完全な内容を取得できませんでした。Agentic Evolverは、この問題をスキルレベルのバグ（誤ったポート設定）と診断し、メッセージの完全な取得機能を実装しました。改善されたスキルでは、正しいポート（9110）を使用し、メッセージの完全な内容を取得することで、アクションアイテムや期限の正確な特定が可能になりました。

Case study 2: Academic paper affiliation skill evolution comparison — **ケーススタディ 2 — 学術論文における所属機関特定タスク：** 従来のスキルでは、バルク正規表現を用いて論文中の大学所属機関を特定していましたが、これはノイズが多く、誤検出が多発する手法でした。Agentic Evolverは、まず論文の冒頭にある著者所属機関のセクションに大学名が記載されているかを確認する処理（explicit first-affiliation check）を追加し、ノイズが多い抽出結果に対しては、手動での確認ステップ（targeted manual verification step）を導入しました。この改良されたスキルによって、所属機関の特定における誤検出が大幅に削減されました。

4. 関連研究

エージェント適応

エージェントの自己進化

エージェントの適応に関するこれまでの研究は、主にメモリベースの検索（Reflexion、MemGPT）や、文脈内学習に焦点を当ててきました。これらの手法は、過去の行動履歴を検索のために保存しますが、エージェント自体の基盤となる能力を向上させるものではありません。SkillClawは、単なるエピソード記憶のエントリではなく、永続的で実行可能なスキル改善を生成するという点で、根本的に異なります。

スキルベースエージェント.

エージェントのスキル

スキルベースのエージェントフレームワークであるOpenClawは、エージェントの動作を再利用可能で組み合わせ可能なスキルに整理します。Voyagerは、LLMエージェントが、オープンエンドな環境において自律的にスキルを獲得できることを示しました。しかし、既存のシステムでは、スキルは一度デプロイされると静的な要素として扱われます。SkillClawは、集約されたユーザー間の軌跡データを、体系的なスキル進化のための主要な改善シグナルとして扱う最初のフレームワークです。

5. 結論

私たちは、マルチユーザーLLMエージェントのエコシステムにおける集団的なスキル進化のためのフレームワークであるSkillClawを紹介します。SkillClawは、ユーザー間の行動履歴を収集し、Agentic Evolverを通じて処理することで、反復的な行動パターンを自動的に特定し、それを持続的なスキル改善に変換します。Evolverの3段階のパイプライン（Evidence、Attribution、Evolution）は、スキルレベルのバグとエージェントの推論の失敗を区別し、ターゲットを絞った、検証済みのアップデートを提案することを可能にします。

WildClawBenchにおける実験により、SkillClawは、限られたインタラクションデータを用い、9つの多様な実世界のタスクカテゴリにおいて、Qwen3-Maxの性能を大幅に向上させることが示されました。この結果は、現在の規模において、集団的なスキル進化が実現可能であり、かつ有効であることを裏付けています。今後の研究では、SkillClawをより多様なエージェントフレームワークに拡張すること、より大規模なスケールでのスキル進化の動態を研究すること、そして、敵対的またはノイズの多い環境におけるスキルの品質に対する形式的な保証を開発することを目指します。

「参考文献」（クリックして展開）

Yao, S., Zhao, J., Yu, D., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629.
Shinn, N., Cassano, F., Labash, B., et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366.
Zhao, A., Huang, D., Xu, Q., et al. (2024). ExpeL: LLM Agents Are Experiential Learners. arXiv:2308.10144.
Fang, R., et al. (2025a). AGENTLESS: Demystifying LLM-based Software Engineering Agents. arXiv:2407.01489.
Tang, X., et al. (2025). WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? arXiv:2403.07718.
Ouyang, S., et al. (2025a). Agent-as-a-Judge: Evaluate Agents with Agents. arXiv:2410.10934.
Chhikara, P., et al. (2024). OpenHands: An Open Platform for AI Software Developers as Generalist Agents. arXiv:2407.16741.
Wang, G., et al. (2024). Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291.
Ma, Y., et al. (2024). AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688.
Liu, X., et al. (2023). AgentBench: Evaluating LLMs as Agents. ICLR 2024.

SkillClaw: Agentic Evolverによる、スキルが集団として進化する

概要