---
arxiv_id: 2604.08377
title: "SkillClaw: エージェント主導の進化によって、スキルを集合的に進化させます | Flecto"
authors:
  - Ziyu Ma
  - Shidong Yang
  - Yuxiang Ji
  - Xucong Wang
  - Yong Wang
  - Yiming Hu
  - Tongwen Huang
  - Xiangxiang Chu
difficulty: Intermediate
tags:
  - Agent
  - LLM
  - Reasoning
published_at: 2026-04-09
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.08377/
lang: ja
---

> Ziyu Ma* , Shidong Yang*, Yuxiang Ji*, Xucong Wang*, Yong Wang†, Yiming Hu, Tongwen Huang, Xiangxiang Chu · DreamX Team · arXiv 2604.08377 · 2026年4月9日 * 同等貢献 † プロジェクトリーダー</span

**著者**: arXivで読む ↗

## Abstract

SkillClawは、 ユーザー間の知識共有と、その結果としての組織全体の能力向上を可能にします。 つまり、ある特定の状況で発見された改善点を、追加のユーザーの作業なしに、システム全体に適用することができます。

大規模言語モデル (LLM) エージェントである OpenClaw などは、複雑なタスクを実行するために再利用可能なスキルに依存していますが、これらのスキルはデプロイ後、ほとんどの場合静的な状態に留まります。その結果、類似したワークフロー、ツールの使用パターン、および失敗パターンが、ユーザー間で繰り返し発見され、システムが経験を通じて改善されることを妨げています。異なるユーザーからのインタラクションは、スキルが有効であるか、または失敗するかに関する補完的な情報を提供しますが、既存のシステムには、このような多様な経験を信頼性の高いスキル更新に変換するメカニズムがありません。これらの問題に対処するため、私たちは SkillClaw を提案します。SkillClaw は、マルチユーザーエージェントエコシステムにおける集団的なスキル進化のためのフレームワークであり、ユーザー間の相互作用と時間経過に伴う相互作用を、スキルの改善のための主要な信号として扱います。SkillClaw は、使用中に生成される軌跡を継続的に収集し、自律的な進化メカニズムによって処理します。これにより、繰り返される行動パターンが特定され、既存のスキルを洗練したり、新しい機能を追加したりすることで、スキルセットが更新されます。結果として得られるスキルは、共有リポジトリに保存され、ユーザー間で同期されます。SkillClaw は、マルチユーザーの経験を継続的なスキル更新に統合することで、ユーザー間の知識転送と累積的な能力向上を可能にし、WildClawBench での実験により、実際の環境におけるエージェントシナリオにおいて、Qwen3-Max のパフォーマンスを大幅に向上させることが示されました。

## Introduction

### 1. 序文

大規模言語モデル（LLM）エージェントは、OpenClawのようなシステムを通じて、自然な会話で複雑なタスクを完了できるようになり、現実世界の環境でパーソナルAIアシスタントの実用化を急速に進めています。しかし、依然として根本的な制約が存在します。それは、これらのエージェントが依存するスキルは、一度デプロイされると基本的に固定されてしまうということです。ユーザーが問題に遭遇した場合 — 例えば、間違ったAPIエンドポイントを使用しているスキルや、必須の引数が欠けているスキル — ユーザーは手動で問題を回避できるかもしれませんが、その修正は同じ問題に直面している他のユーザーには伝播しません。

同じような問題が、異なるユーザーによって、独立して何度も再発見されることがあります。例えば、Reflexionのような、過去の行動履歴を保存して検索する手法は、過去のデータを取り出すことはできますが、根本的なスキルの向上にはつながりません。単に、より多くのコンテキスト情報を追加するだけです。また、in-context learningのような手法は、ユーザー間で汎用性がありません。システムが、時間とともにタスクの遂行能力を真に向上させることはありません。

SkillClawは、この課題を、ユーザー間のインタラクション履歴をスキル向上の主要な指標として扱うことで解決します。各ユーザーが個別に問題を認識し、回避策を見つけるのではなく、SkillClawはこれらの経験を収集し、Autonomous Agentic Evolverにフィードします。このシステムは、根本原因を診断し、具体的な、そして永続的なスキル改善案を提案します。これにより、すべてのユーザーが同時に恩恵を受けることができます。

### 主な貢献

### 集団スキル進化

### 複数のユーザーの経験が統合され、共有され、永続的なスキル更新として提供されることで、すべての担当者が同時に恩恵を受けられます。

### 完全自律。

### Agentic Evolverは、反復する行動パターンを特定し、人間の介入や手動によるキュレーションなしに、ターゲットを絞った改善案を提案します。

### WildClawBenchの結果

### Qwen3-Maxをバックボーンモデルとして使用することで、9つの実際のタスクカテゴリすべてにおいて、大幅なパフォーマンス向上が確認されました。

## Experiments

### 3. 実験

### WildClawBench: 現実世界のエージェント評価ベンチマーク

WildClawBenchは、OpenClawスタイルのエージェントを、現実世界のタスクカテゴリで評価するために特別に設計されたベンチマークです。学術的なベンチマークが簡略化された、または厳選されたシナリオに依存するのとは異なり、WildClawBenchのタスクは、実際のツール使用、環境からのフィードバック、および複数のステップを必要とする推論を含み、実際のユーザーシナリオを忠実に反映しています。これは、9つの多様なタスクカテゴリをカバーしています。

### 3.2 実験セットアップ

すべての実験では、Qwen3-Maxを、エージェントとAgentic Evolverの両方の基盤となるLLMとして使用します。ベースライン条件では、初期の静的なスキルを持つ同じエージェントフレームワークを使用しますが、進化メカニズムは使用しません。SkillClawは、スキル進化を促進するために、限られた数のインタラクションセッションが与えられます。これにより、最小限のデータで有意な改善が達成できることを示します。評価指標は、タスク完了率（%）であり、各タスクカテゴリについて複数回の実行の平均値を使用します。

### 3.3 主要結果 (WildClawBench, Qwen3-Max)

スキルは、タスク完了率（%）で表されます。これらの数値は、論文で報告されている傾向を反映したものです。SkillClawは、すべての9つのタスクカテゴリにおいて、静的なスキルベースラインよりも常に優れたパフォーマンスを発揮します。

### 3.4 分析からの主な発見

### ユーザー間の知識共有

あるユーザーグループのセッションから得られたスキルは、別のユーザーグループのタスク完了に明確に役立つことが示されています。SkillHubは、継続的に改善される知識ベースとして機能します。制御された実験では、集団的な進化が、個別の適応戦略よりも常に優れた結果をもたらすことがわかっています。

### 自律進化と人間による誘導進化

Agentic Evolverは、人間の手による調整と同等のスキル向上を、手動での介入なしで実現します。アトリビューション精度（失敗の原因がスキルによるものか、エージェントの推論によるものかを正しく特定すること）は、進化の品質において最も重要な要素です。

## Conclusion

### 5. 結論

### SkillClawは、多くのユーザーからの集積的な経験が、手動での調整なしに、継続的なスキル向上を自動的に促進できることを示しています。

私たちは、マルチユーザーLLMエージェントのエコシステムにおける集団的なスキル進化のためのフレームワークであるSkillClawを紹介します。SkillClawは、ユーザー間の行動履歴を収集し、Agentic Evolverを通じて処理することで、反復的な行動パターンを自動的に特定し、それを持続的なスキル改善に変換します。Evolverの3段階のパイプライン（Evidence、Attribution、Evolution）は、スキルレベルのバグとエージェントの推論の失敗を区別し、ターゲットを絞った、検証済みのアップデートを提案することを可能にします。

WildClawBenchにおける実験により、SkillClawは、限られたインタラクションデータを用い、9つの多様な実世界のタスクカテゴリにおいて、Qwen3-Maxの性能を大幅に向上させることが示されました。この結果は、現在の規模において、集団的なスキル進化が実現可能であり、かつ有効であることを裏付けています。今後の研究では、SkillClawをより多様なエージェントフレームワークに拡張すること、より大規模なスケールでのスキル進化の動態を研究すること、そして、敵対的またはノイズの多い環境におけるスキルの品質に対する形式的な保証を開発することを目指します。

## References

### 「参考文献」（クリックして展開）

## Meta

### SkillClaw: エージェント主導の進化によって、スキルを集合的に進化させます | Flecto

### SkillClaw: エージェント型イボリューションによって、スキルを共同で進化させましょう。

マルチユーザーLLMエージェントエコシステムにおける、集団的なスキル進化のためのフレームワーク。SkillClawは、ユーザー間のインタラクション履歴を集約し、自律的なAgentic Evolverを使用して、共有スキルを継続的に改善します。これにより、手動でのキュレーションなしに、ユーザー間の知識転送を可能にします。

マルチユーザーLLMエージェントエコシステムにおける、集団的なスキル進化のためのフレームワーク。SkillClawは、ユーザー間のインタラクション履歴を収集し、自律的なエージェント・エボルーバーを使用して、共有スキルを継続的に改善します。これにより、手動でのキュレーションなしに、ユーザー間の知識共有が可能になります。

### https://flecto.zer0ai.dev/ja/papers/2604.08377/

### ja_JP

### https://flecto.zer0ai.dev/ja/papers/2604.08377/

## Method

### 2. 方法：SkillClawの仕組み

図1: SkillClawの概要。独立したエージェントが環境と相互作用し、構造化されたセッション軌跡を生成する、クローズドループのパイプラインです。これらの軌跡は集約され、Agentic Evolverによって処理され、共有のSkillHubを更新します。SkillHubは、改善されたスキルをエコシステム内のすべてのエージェントに同期します。

### 3段階の進化パイプライン

### 証拠収集

マルチユーザーエージェントは、実際のタスク中にセッションの軌跡を生成します。各軌跡は、アクションとフィードバックの因果関係を完全に捉えています。これらの軌跡は、すべてのユーザーから継続的に収集され、共有されたエビデンスプールに統合され、それが「Evolver」に供給されます。

### エージェント的進化論 (Agentic Evolver)

3段階の自律型パイプライン： Evidence （再発パターンとエラーの兆候を分析）→ Attribution （根本原因の診断：スキル問題か、エージェントの問題か）→ Evolution （特定のスキル改善策を提案）。人間の介入なしで動作します。

### スキル同期

更新されたスキルは、共有のSkillHubリポジトリに保存され、すべてのエージェントに自動的に同期されます。あるユーザーの利用状況から得られた改善点は、システム全体に適用されます。この改善ループは、新しいセッションが蓄積されるにつれて、継続的に実行されます。

### 2.1 個別セッションから共有可能な証拠へ

従来のAgentシステムでは、各ユーザーセッションを独立したものとして扱います。つまり、あるユーザーの成功または失敗した操作に関する情報は、他のユーザーには伝わりません。SkillClawは、集中型のセッションデータストアを維持することで、この問題を解決します。Agentがスキルを実行するたびに、完全なアクションと観察の連鎖を捉えた構造化された軌跡が生成されます。これらの軌跡には、実行されたスキルと結果（成功、部分成功、失敗）がタグ付けされます。特定のスキルに関する十分なデータが蓄積されると、Agentic Evolverが起動され、パターンを分析します。

### 2.2 エージェント能力進化アルゴリズム

### 2.3 スキルの同期と進化のサイクル

Agentic Evolverがスキルアップデートを提案すると、それはSkillHubにコミットされ、すべてのアクティブなエージェントインスタンスにプッシュされます。SkillClawは、新しいモードの同期戦略を使用します。エージェントは、アップデートを即座に（新しいモード）受信するか、安定したチェックポイントで受信するかを選択できます。この設計により、集団的に学習された改善が、進行中のセッションを中断することなく、すべてのユーザーに届きます。進化ループは常にアクティブであり、つまり、SkillClawは、エージェントが使用されている限り、スキルを継続的に改善します。

## Case_Studies

### 3.5 事例研究：実践におけるスキル

SkillClawが実際にどのようにスキルを向上させるかを説明するために、ここではWildClawBenchからの具体的な2つの事例を挙げます。各事例では、SkillClawによる介入前の実際のスキル（Original Skill）、ユーザーセッション全体で観察された失敗、そしてAgentic Evolverによって生成された改善されたスキル（Evolved Skill）を示します。

ケーススタディ 1 — Slack タスク: 以前のスキルでは、誤ったAPIポート（9100）が参照されており、接続エラーが繰り返し発生していました。ユーザーは、メッセージの完全な内容を取得できませんでした。Agentic Evolverは、この問題をスキルレベルのバグ（誤ったポート設定）と診断し、メッセージの完全な取得機能を実装しました。改善されたスキルでは、正しいポート（9110）を使用し、メッセージの完全な内容を取得することで、アクションアイテムや期限の正確な特定が可能になりました。

ケーススタディ 2 — 学術論文における所属機関特定タスク： 従来のスキルでは、バルク正規表現を用いて論文中の大学所属機関を特定していましたが、これはノイズが多く、誤検出が多発する手法でした。Agentic Evolverは、まず論文の冒頭にある著者所属機関のセクションに大学名が記載されているかを確認する処理（explicit first-affiliation check）を追加し、ノイズが多い抽出結果に対しては、手動での確認ステップ（targeted manual verification step）を導入しました。この改良されたスキルによって、所属機関の特定における誤検出が大幅に削減されました。

## Related_Work

### 4. 関連研究

### エージェント適応

### エージェントの自己進化

エージェントの適応に関するこれまでの研究は、主にメモリベースの検索（Reflexion、MemGPT）や、文脈内学習に焦点を当ててきました。これらの手法は、過去の行動履歴を検索のために保存しますが、エージェント自体の基盤となる能力を向上させるものではありません。SkillClawは、単なるエピソード記憶のエントリではなく、永続的で実行可能なスキル改善を生成するという点で、根本的に異なります。

### スキルベースエージェント.

### エージェントのスキル

スキルベースのエージェントフレームワークであるOpenClawは、エージェントの動作を再利用可能で組み合わせ可能なスキルに整理します。Voyagerは、LLMエージェントが、オープンエンドな環境において自律的にスキルを獲得できることを示しました。しかし、既存のシステムでは、スキルは一度デプロイされると静的な要素として扱われます。SkillClawは、集約されたユーザー間の軌跡データを、体系的なスキル進化のための主要な改善シグナルとして扱う最初のフレームワークです。

## Footer

### Published on Flecto · arXiv 2604.08377 · 2026年4月