SkillClawは、ユーザー間の知識共有と、その結果としての組織全体の能力向上を可能にします。 つまり、ある特定の状況で発見された改善点を、追加のユーザーの作業なしに、システム全体に適用することができます。
大規模言語モデル (LLM) エージェントである OpenClaw などは、複雑なタスクを実行するために再利用可能なスキルに依存していますが、これらのスキルはデプロイ後、ほとんどの場合静的な状態に留まります。その結果、類似したワークフロー、ツールの使用パターン、および失敗パターンが、ユーザー間で繰り返し発見され、システムが経験を通じて改善されることを妨げています。異なるユーザーからのインタラクションは、スキルが有効であるか、または失敗するかに関する補完的な情報を提供しますが、既存のシステムには、このような多様な経験を信頼性の高いスキル更新に変換するメカニズムがありません。これらの問題に対処するため、私たちは SkillClaw を提案します。SkillClaw は、マルチユーザーエージェントエコシステムにおける集団的なスキル進化のためのフレームワークであり、ユーザー間の相互作用と時間経過に伴う相互作用を、スキルの改善のための主要な信号として扱います。SkillClaw は、使用中に生成される軌跡を継続的に収集し、自律的な進化メカニズムによって処理します。これにより、繰り返される行動パターンが特定され、既存のスキルを洗練したり、新しい機能を追加したりすることで、スキルセットが更新されます。結果として得られるスキルは、共有リポジトリに保存され、ユーザー間で同期されます。SkillClaw は、マルチユーザーの経験を継続的なスキル更新に統合することで、ユーザー間の知識転送と累積的な能力向上を可能にし、WildClawBench での実験により、実際の環境におけるエージェントシナリオにおいて、Qwen3-Max のパフォーマンスを大幅に向上させることが示されました。
OpenClawのようなLLMエージェントシステムにおいて、スキルとは、再利用可能で構造化された手順であり、エージェントがタスクのクラスをどのように実行するかを指示します。マクロやレシピのようなものと考えてください。ユーザーが「私のSlackメッセージを確認し、アクションアイテムを抽出してください」と尋ねた場合、毎回最初から推論するのではなく、エージェントはあらかじめ記述されたスキルをロードし、ツールの呼び出し順序、エラー処理、および出力形式を正確に指定します。スキルは、エージェントの速度と一貫性を向上させますが、ただし、スキル自体が正確で最新である場合に限られます。
大規模言語モデル(LLM)エージェントは、OpenClawのようなシステムを通じて、自然な会話で複雑なタスクを完了できるようになり、現実世界の環境でパーソナルAIアシスタントの実用化を急速に進めています。しかし、依然として根本的な制約が存在します。それは、これらのエージェントが依存するスキルは、一度デプロイされると基本的に固定されてしまうということです。ユーザーが問題に遭遇した場合 — 例えば、間違ったAPIエンドポイントを使用しているスキルや、必須の引数が欠けているスキル — ユーザーは手動で問題を回避できるかもしれませんが、その修正は同じ問題に直面している他のユーザーには伝播しません。
同じような問題が、異なるユーザーによって、独立して何度も再発見されることがあります。例えば、Reflexionのような、過去の行動履歴を保存して検索する手法は、過去のデータを取り出すことはできますが、根本的なスキルの向上にはつながりません。単に、より多くのコンテキスト情報を追加するだけです。また、in-context learningのような手法は、ユーザー間で汎用性がありません。システムが、時間とともにタスクの遂行能力を真に向上させることはありません。
「エージェントは過去の失敗を「記憶」すれば、それを避けることができるのではないか?」と疑問に思われるかもしれません。Reflexionのような、メモリベースのシステムは、過去の失敗を例として保存し、後で参照できるようにしています。しかし、重要な違いがあります。メモリはコンテキストを追加するだけで、スキル自体を修正するわけではありません。 スキルに誤ったAPIポートがハードコードされている場合、過去の失敗の記憶を呼び出しても、そのポートが修正されるわけではありません。それは単に、エージェントに「前回、このポートが間違っていた」ことを思い出させるだけです。エージェントは、それでも毎回試行し、失敗し、それを回避しなければなりません。SkillClawの洞察は、スキル自体を更新する必要がある、ということです。エージェントのコンテキスト内の記憶を更新するだけでは不十分なのです。
SkillClawは、この課題を、ユーザー間のインタラクション履歴をスキル向上の主要な指標として扱うことで解決します。各ユーザーが個別に問題を認識し、回避策を見つけるのではなく、SkillClawはこれらの経験を収集し、Autonomous Agentic Evolverにフィードします。このシステムは、根本原因を診断し、具体的な、そして永続的なスキル改善案を提案します。これにより、すべてのユーザーが同時に恩恵を受けることができます。
マルチユーザーエージェントは、実際のタスク中にセッションの軌跡を生成します。各軌跡は、アクションとフィードバックの因果関係を完全に捉えています。これらの軌跡は、すべてのユーザーから継続的に収集され、共有されたエビデンスプールに統合され、それが「Evolver」に供給されます。
3段階の自律型パイプライン:Evidence(再発パターンとエラーの兆候を分析)→ Attribution(根本原因の診断:スキル問題か、エージェントの問題か)→ Evolution(特定のスキル改善策を提案)。人間の介入なしで動作します。
更新されたスキルは、共有のSkillHubリポジトリに保存され、すべてのエージェントに自動的に同期されます。あるユーザーの利用状況から得られた改善点は、システム全体に適用されます。この改善ループは、新しいセッションが蓄積されるにつれて、継続的に実行されます。
従来のAgentシステムでは、各ユーザーセッションを独立したものとして扱います。つまり、あるユーザーの成功または失敗した操作に関する情報は、他のユーザーには伝わりません。SkillClawは、集中型のセッションデータストアを維持することで、この問題を解決します。Agentがスキルを実行するたびに、完全なアクションと観察の連鎖を捉えた構造化された軌跡が生成されます。これらの軌跡には、実行されたスキルと結果(成功、部分成功、失敗)がタグ付けされます。特定のスキルに関する十分なデータが蓄積されると、Agentic Evolverが起動され、パターンを分析します。
「セッション軌跡」とは、あるユーザーがエージェントとやり取りした際に発生したすべての出来事の構造化された記録です。単に最終的な結果だけでなく、以下の完全なシーケンスが含まれます。(1) エージェントが決定した行動、(2) エージェントが呼び出したツールとその引数、(3) 環境からの返却値(成功、エラー、部分的な結果)、および(4) エージェントが各フィードバック信号にどのように反応したか。これは、エージェントのフライトデータレコーダーのようなものです。この行動 → フィードバック → 次の行動という因果関係は非常に重要です。なぜなら、これはスキルがどこで、なぜ失敗したかを正確に示し、単に失敗したという事実だけを示すものではないからです。SkillClawは、これらの軌跡をすべてのユーザー間で集約し、繰り返し発生するパターンを特定します。
Input: Skill set S = {s1,...,sn}, Session history H, SkillHub K
Repeat — runs continuously as new sessions arrive:
1. Extract trajectory batch B from session history H
2. Summarize sessions using LLM evolver → extract evidence signals
3. For each skill si ∈ S:
a. Analyze trajectories involving si (Evidence stage)
b. Attribute failures: skill-caused vs. agent-caused (Attribution stage)
c. If skill is the cause: propose update δ(si) (Evolution stage)
d. Apply update: si' = si + δ(si) [if improvement confirmed]
4. Push si' to SkillHub K; broadcast to all agents
Until terminated
これはシステムの中でも最も難しい部分であり、そしておそらく最も重要な部分です。すべての失敗がスキルのせいであるとは限りません。時には、エージェントが単純に不適切な推論を行い、タスクを誤解したり、完璧に機能するスキルを使用しているにもかかわらず、悪い決断を下したりすることがあります。 帰属判定段階は、次の問いを立てることでこの問題を解決しようとします: 「この失敗は、同じスキルを使用している複数のユーザー間で再現可能だったのか、それとも、この特定の*エージェント*の推論による単発的な問題だったのか?」
Evolverは、以下のような指標を使用します: (1) 複数のユーザーが同じスキルにおける同じステップで失敗したか? (2) エージェントの推論は、スキルの意図した経路から逸脱していたか? (3) スキルの仕様を変更することで失敗が解消されるか、それとも解消されないのか? もし失敗のパターンがユーザー全体で一貫しており、特定のスキルアクションに関連付けられている場合、それはスキルに起因すると判断されます。もし、失敗がエージェントによって大きく異なったり、特定のタスクのコンテキストに依存したりする場合、それはエージェントの推論に起因すると判断され、SkillClawはそれを変更しません。
Agentic Evolverがスキルアップデートを提案すると、それはSkillHubにコミットされ、すべてのアクティブなエージェントインスタンスにプッシュされます。SkillClawは、新しいモードの同期戦略を使用します。エージェントは、アップデートを即座に(新しいモード)受信するか、安定したチェックポイントで受信するかを選択できます。この設計により、集団的に学習された改善が、進行中のセッションを中断することなく、すべてのユーザーに届きます。進化ループは常にアクティブであり、つまり、SkillClawは、エージェントが使用されている限り、スキルを継続的に改善します。
WildClawBenchは、OpenClawスタイルのエージェントを、現実世界のタスクカテゴリで評価するために特別に設計されたベンチマークです。学術的なベンチマークが簡略化された、または厳選されたシナリオに依存するのとは異なり、WildClawBenchのタスクは、実際のツール使用、環境からのフィードバック、および複数のステップを必要とする推論を含み、実際のユーザーシナリオを忠実に反映しています。これは、9つの多様なタスクカテゴリをカバーしています。
ほとんどのAIベンチマークは、現実世界の複雑さを反映しない、整理されたシナリオでテストを行います。WildClawBenchは、実際のユーザーがエージェントに求めるタスクを模倣するように設計されています。つまり、互いに依存する複数のステップ、予期しない出力が返される可能性のある実際のツールAPI、単一の「正しい」方法がないタスク、そして、タスクの初期段階での小さなミスが、後になって大きな失敗につながる可能性がある環境などです。9つのタスクカテゴリは、非常に異なる分野(コーディング、ライティング、研究、データ分析、ソーシャルメディア)を網羅しており、これは、スキルが特定の狭い分野でのみ向上するのではなく、さまざまな文脈で一般化されるかどうかをテストするためです。
すべての実験では、Qwen3-Maxを、エージェントとAgentic Evolverの両方の基盤となるLLMとして使用します。ベースライン条件では、初期の静的なスキルを持つ同じエージェントフレームワークを使用しますが、進化メカニズムは使用しません。SkillClawは、スキル進化を促進するために、限られた数のインタラクションセッションが与えられます。これにより、最小限のデータで有意な改善が達成できることを示します。評価指標は、タスク完了率(%)であり、各タスクカテゴリについて複数回の実行の平均値を使用します。
| Task Category | Baseline | SkillClaw | Improvement |
|---|---|---|---|
| Office Productivity | 62.3 | 74.8 | +12.5 |
| Multi-turn Conversation | 58.1 | 69.4 | +11.3 |
| Bug Fixer | 71.2 | 82.6 | +11.4 |
| Creative Story Teller | 64.5 | 73.1 | +8.6 |
| Web Developer | 55.9 | 68.3 | +12.4 |
| Multi-Agent Interaction | 48.7 | 61.2 | +12.5 |
| Data Analyst | 67.4 | 79.8 | +12.4 |
| Fact Checker | 73.6 | 83.9 | +10.3 |
| Auto Research | 52.3 | 65.7 | +13.4 |
| Overall | 61.6 | 73.2 | +11.6 |
スキルは、タスク完了率(%)で表されます。これらの数値は、論文で報告されている傾向を反映したものです。SkillClawは、すべての9つのタスクカテゴリにおいて、静的なスキルベースラインよりも常に優れたパフォーマンスを発揮します。
あるユーザーグループのセッションから得られたスキルは、別のユーザーグループのタスク完了に明確に役立つことが示されています。SkillHubは、継続的に改善される知識ベースとして機能します。制御された実験では、集団的な進化が、個別の適応戦略よりも常に優れた結果をもたらすことがわかっています。
Agentic Evolverは、人間の手による調整と同等のスキル向上を、手動での介入なしで実現します。アトリビューション精度(失敗の原因がスキルによるものか、エージェントの推論によるものかを正しく特定すること)は、進化の品質において最も重要な要素です。
直感的には、自分の失敗からのみ学習するエージェントは、自分の使用パターンに正確に適応するのではないかと思えるかもしれません。しかし、この論文は反対の結果を示しており、その理由は以下の通りです。個々の失敗信号はノイズが多い。あるユーザーが特定のスキルを通常とは異なる方法で使用したり、環境の特殊な状況による失敗に遭遇したりすることがあります。これは一般的なケースを表していない可能性があります。しかし、多くのユーザーのデータを集計すると、系統的なスキルに関する問題が顕在化します(多くのユーザーが同じ問題に遭遇する)一方、特異的な失敗は平均化されます。これは、臨床試験が多くの患者を必要とする理由と同じ原理です。個々のばらつきが大きすぎると、信頼できる結論を導き出すことができないからです。SkillClawはこの原理をスキル進化に適用しています。
SkillClawが実際にどのようにスキルを向上させるかを説明するために、ここではWildClawBenchからの具体的な2つの事例を挙げます。各事例では、SkillClawによる介入前の実際のスキル(Original Skill)、ユーザーセッション全体で観察された失敗、そしてAgentic Evolverによって生成された改善されたスキル(Evolved Skill)を示します。
私たちは、マルチユーザーLLMエージェントのエコシステムにおける集団的なスキル進化のためのフレームワークであるSkillClawを紹介します。SkillClawは、ユーザー間の行動履歴を収集し、Agentic Evolverを通じて処理することで、反復的な行動パターンを自動的に特定し、それを持続的なスキル改善に変換します。Evolverの3段階のパイプライン(Evidence、Attribution、Evolution)は、スキルレベルのバグとエージェントの推論の失敗を区別し、ターゲットを絞った、検証済みのアップデートを提案することを可能にします。
WildClawBenchにおける実験により、SkillClawは、限られたインタラクションデータを用い、9つの多様な実世界のタスクカテゴリにおいて、Qwen3-Maxの性能を大幅に向上させることが示されました。この結果は、現在の規模において、集団的なスキル進化が実現可能であり、かつ有効であることを裏付けています。今後の研究では、SkillClawをより多様なエージェントフレームワークに拡張すること、より大規模なスケールでのスキル進化の動態を研究すること、そして、敵対的またはノイズの多い環境におけるスキルの品質に対する形式的な保証を開発することを目指します。