---
arxiv_id: 2603.24414
title: "ClawKeeper: OpenClaw エージェントのための包括的な安全対策"
authors:
  - Songyang Liu
  - Chaozhuo Li
  - Chenxu Wang
  - Jinyu Hou
  - Zejian Chen
  - Litian Zhang
  - Zheng Liu
  - Qiwei Ye
  - Yiming Hei
  - Xi Zhang
  - Zhongyuan Wang
difficulty: Intermediate
tags:
  - Agent
  - Reasoning
published_at: 2026-03-25
flecto_url: https://flecto.zer0ai.dev/ja/papers/2603.24414/
lang: ja
---

> ClawKeeper: OpenClaw エージェント向けの包括的な安全保護機能

**著者**: リアルタイムのセキュリティフレームワーク。これは、 Skills 、 Plugins 、および Watchers を通じて、多次元的な保護を実現します

## Abstract

OpenClaw は、ツール統合、ローカルファイルアクセス、およびシェルコマンド実行など、強力な機能を提供する、主要なオープンソースの自律エージェント実行環境として急速に発展しました。しかし、これらの広範な運用権限は、重要なセキュリティ脆弱性を生み出し、モデルのエラーを、機密データの漏洩、権限昇格、悪意のあるサードパーティ製のスキル実行など、具体的なシステムレベルの脅威へと転換する可能性があります。

既存のセキュリティ対策は依然として断片化されており、エージェントのライフサイクルの特定の段階のみに対処するに過ぎず、包括的な保護を提供しているとは言えません。 ClawKeeper は、この問題を解決するために、3つの相補的なアーキテクチャレイヤーにまたがる多次元的な保護を統合した、リアルタイムのセキュリティフレームワークです。具体的には、命令レベルでのスキルベースの保護、プラグインベースの実行時強制、そして、新しいウォッチーベースのシステムレベルのセキュリティミドルウェアを提供します。

Watcherパラダイム は、独立したセキュリティエージェントを導入し、その状態の変化を継続的に検証することで、エージェントの内部ロジックとの結合なしに、リアルタイムでの介入を可能にします。著者らは、このパラダイムが次世代の自律エージェントシステムのセキュリティを構築するための基盤となる可能性を秘めていると主張しています。

## Introduction

### なぜClawKeeperなのか？

OpenClawは、ツール利用、拡張可能なスキル、プラグインベースの統合、およびクロスプラットフォーム展開を統合した、主要なオープンソースエージェントランタイムとして注目されています。従来のチャットボットとは異なり、シェルコマンドの実行、ローカルファイルのアクセス、および通信ソフトウェアとの連携を通じて、実際のユーザー操作をシミュレートすることができます。

この高度な権限モデルは、モデルレベルのエラーを具体的なシステムレベルの脅威に転換します。具体的には、機密データの漏洩、安全でないツールの実行、権限の濫用、そして永続的な侵害といったリスクが生じます。これらのリスクは、OpenClawの拡張性によってさらに増幅されます。攻撃の対象となる要素は、インストール可能なスキル、プラグインのロジック、永続的なメモリ、遅延トリガー、そしてそれらの相互作用から生まれます。

### 既存の防御策の4つの限界

### 断片的なカバレッジ

既存の研究では、特定の脅威のみに対処するか、エージェントのライフサイクルの部分的な防御策を提案するにとどまっており、セキュリティの保証、前提条件、または重要な欠落点に関する包括的な視点を提供していません。

### 安全性と機能性のトレードオフ

既存の防御策では、エージェントは2つの相反する目標のバランスを取る必要があります。それは、タスクの完了とセキュリティコンプライアンスです。この内在的な緊張により、システムは一方の目標を犠牲にして、もう一方の目標を満たすことを強いられます。

### リアクティブ・ディフェンス

既存の多くの研究では、セキュリティの問題を、敵対的なアクションが発生した 後 のログや行動パターンを分析することによってのみ特定できます。これは、馬が逃げ出した後に、馬小屋の扉を閉めるようなものです。

### 静的なメカニズム

### 既存のスキルベースによる防御手法は、静的であり、新たな脅威に適応することができません。これは、OpenClawが持つ自己進化の能力と根本的に矛盾しています。

## Experiments

### 定量評価

ClawKeeperのセキュリティ機能を体系的に評価するために、著者らは、安全に関するタスクを7つのカテゴリに分け、各カテゴリに20個の敵対的インスタンス（10個の単純なものと10個の複雑なもの）を含んだベンチマークを作成しました。合計で 140件のテストケース が含まれています。すべての実験では、 GLM-5 を基盤となるLLMとして使用しました。

ClawKeeper は、以下の 7 つの主要なオープンソースセキュリティリポジトリと比較されました: OpenGuardrails, clawscan-skills, OSPG, SecureClaw, OpenClaw Shield, ClawBands, および OCSG。 2 名の独立した評価者が各結果を確認し、Defense Success Rate (DSR) が主要な評価指標として使用されました。

### 防御成功率 (Defense Success Rate, DSR) の結果

### すべての脅威カテゴリにおける防御成功率

### 最高のベースラインと比較して、性能が向上しました

### 自己進化による改善：100件以上の事例を分析

### 自己進化する監視システム

Watcherパラダイムの重要な利点は、新しい脅威事例とのインタラクションを通じて、安全に関する知識を継続的に更新できることです。Watcherが新しい攻撃パターンに遭遇すると、監視スキルと文脈内の記憶を更新し、脅威分類ライブラリを充実させます。これにより、100件の処理事例において、約90%から95%へと着実に改善が見られます。

図6： Watcherベースの保護における防御成功率（DSR）を、処理されたケース数に対してプロットしたグラフ。これは、DSRが約90%から約95%へと向上することで、自己進化能力が示されていることを示しています。

## Conclusion

ClawKeeperは、OpenClawエコシステムのための包括的なセキュリティフレームワークを提供し、3つの補完的な保護パラダイムを統合します。それは、スキルベースのコンテキスト強制、プラグインベースのランタイム防御、そして、ウォッチャーベースの独立した監視です。これらのレイヤーは、エージェントのライフサイクル全体にわたって、多層防御を提供します。

Watcherパラダイムは、特にエージェントのセキュリティにおいて、重要な進歩をもたらします。これは、独立して自己進化するセキュリティエージェントとして機能することで、従来の安全性と有用性のトレードオフを効果的に解決し、悪意のある操作に対する耐性を持ち、透明性と検証可能性のある強制を実現します。このパラダイムは、OpenClawに限定されるものではなく、あらゆるエージェントシステムに適用可能であり、ClawKeeperは、より広範なエージェントAIエコシステムのための汎用的な安全対策フレームワークとなります。

### 主な貢献

### OpenClaw様式のエージェントエコシステムにおけるセキュリティツールおよび防御に関する包括的な調査。

### 統合されたセキュリティフレームワーク (ClawKeeper) は、Skills、Plugins、およびWatchersにわたって、多次元的な保護を提供します。

### 「Independent Watcher」というパラダイムは、将来のエージェントエコシステムのための、汎用的で互換性のある保護フレームワークとして機能し、厳密な結合なしで規制上の分離を可能にします。

### 高品質および定量的な評価を含むオープンソースの実装であり、エージェントセキュリティに関するコミュニティにとって有益な情報を提供します。

## References

### 参考文献 (35件)

## Overview

### フレームワークの概要

ClawKeeperは、3つの補完的な保護の視点を統合し、多層構造のアーキテクチャを実現します。各パラダイムは、エージェントスタックの異なるレベルで動作し、エージェントのライフサイクル全体にわたって多層防御を提供します。

図1: ClawKeeperフレームワーク。3つの保護パラダイム（スキルベース：コンテキスト保護、プラグインベース：ランタイム強制、およびウォッチャーベース：動作検証）を、ClawKeeperセキュリティコアによって統合して示しています。

### スキルに基づいた保護

### ` 命令レベル で動作し、構造化されたセキュリティポリシーをエージェントの推論コンテキストに直接組み込みます。`

### ルールと制約によるコンテキスト保護

### 定期的なセキュリティスキャンと監査

### マルチシステムおよびマルチソフトウェアのサポート

### プラグインベースの保護

### 内部ランタイムエンフォーサーとして機能し、構成の強化、積極的な脅威検出、および継続的な行動監視を提供します。

### 脅威の検知と行動分析

### 監視、ログ記録、およびセキュリティ強化

### 構成の完全性保護

### Watcherによる保護

### 革新的な、疎結合型のセキュリティミドルウェアを紹介します。これは、エージェントの状態変化をリアルタイムで監視し、必要に応じて介入できる機能を提供します。

### エージェントとの規制上の分離

### リアルタイムでの介入と制御

### 相互進化による自己進化型防御

### パラダイム比較

重要なポイント： OpenClawのようなエージェントが、人間とコンピュータハードウェアとの間の橋渡しをするように（オペレーティングシステムに類似）、 ClawKeeperは、このエージェントベースのオペレーティングシステムにおけるアンチウイルスソフトウェア として機能します。

## Overview Detail

### 4つの保護モード

ClawKeeperは、ローカルスキルインジェクション、内部プラグインの強制適用、ローカル監視機能、そしてマルチインスタンス環境向けのクラウドベースの監視サービスという、4つの異なる構成で動作します。

図2： ClawKeeperの4つの保護モードの概要 — (1) スキルベースの保護、(2) プラグインベースの保護、(3) ローカルウォッチャーベースの保護、および (4) クラウドウォッチャーベースの保護。

## Skill Based

### スキルに基づいた保護

現代的なエージェントフレームワークであるOpenClawのようなシステムでは、スキルがエージェントに新たな機能をシームレスに獲得させることを可能にします。ClawKeeperは、この同じ拡張性を活用して、堅牢な防御モジュールを構築しています。セキュリティルールは、エージェントが直接解釈し、適用できる 構造化されたMarkdownドキュメント として定義され、それに対応するセキュリティスクリプトによって補完されます。

保護機能は、以下の2つの補完的な側面で実装されています。1つは システムレベル （Windows、macOS、およびLinux向けのOS固有の制約を提供し、ファイルシステムへのアクセス、権限の境界、およびタスク管理をカバーします）、もう1つは ソフトウェアレベル （OpenClawがTelegram、Feishu/Lark、およびDingTalkなどのプラットフォームと統合されているため、それぞれが異なるセキュリティ制約を必要とします）。

添付されているスキルスクリプトには、以下の2つの軽量なメカニズムが組み込まれています。 定期的な実行時状態の検査を行うための scheduled security scanning コンポーネント、および、運用透明性と事後のセキュリティ監査のために、ユーザーインタラクション履歴を分析する interaction summarization コンポーネントです。

### 図3： ClawKeeperにおけるスキルベースの保護のフレームワーク。多様なオペレーティングシステムとソフトウェア統合のための構造化されたMarkdownポリシーを示しています。

### スキルベースの防御比較

### 事例：境界防御

### ClawKeeperのスキルベースの保護機能が、命令レベルで実際の攻撃をどのように検出し、防御するのかを示す、代表的な2つのシナリオを紹介します

図7a: あるユーザーが、Base64文字列のデコードと実行を要求しています。ClawKeeperは、このコードインジェクションの試みを検出し、透明性のためにデコードしますが、実行を拒否し、これを「Red-Line」の挙動として分類します。

図7b: あるユーザーが、GitHubのパスワードを外部の連絡先に送信しようとしています。ClawKeeperは、この機密データの不正な送信を阻止し、代わりにパスワードマネージャーの安全な共有機能を活用することを推奨します。

### 自律型セキュリティオーケストレーション

ClawKeeperは、定期的な検査タスクを通じて、エージェントの実行状態を継続的に自動的に管理します。この検査タスクには、プラットフォームの監査、プロセスとネットワークの監視、ディレクトリの変更追跡、およびスケジュールされたタスクの検証が含まれます。

### 図8： OpenClawの毎日のセキュリティ検査サマリー。自動プラットフォーム監査の結果、外部接続の監視、およびスケジュールされたタスクの検証状況を示しています。

## Plugin Based

### プラグインベースの保護

ハードコーディングされたセキュリティルールという観点から、ClawKeeperは、コアとなる強制コンポーネントとして、包括的な内部セキュリティプラグインを導入しています。既存のオープンソース防御の断片化された状況を認識し、このプラグインは、基本的な機能を統合し、大幅に拡張することで、 統一されたセキュリティソリューション を構築します。

このプラグインは、以下の6つの主要な機能で動作します： 脅威検出 （OWASPおよびCVEに準拠したスキャン）、 設定保護 （重要なファイルの暗号化ハッシュバックアップ）、 監視とログ記録 （ライフサイクル全体のアクティビティの記録）、 行動スキャン （プロンプトインジェクション、危険なコマンド、認証情報の漏洩の検出）、 セキュリティ強化 （ローカルホストへのバインドなど、自動的な修正）、および 悪意のあるスキルスキャン （サプライチェーンにおける脅威の検出）。

### 図4： ClawKeeperにおけるプラグインベースの保護フレームワーク。脅威検出、構成保護、監視とログ記録、行動スキャン、およびセキュリティ強化コンポーネントを示しています。

### プラグインベースの保護機能比較

### 事例研究：認証情報保護

ClawKeeperのプラグインが、ユーザーが会議のメモとプレーンテキストのGitHub認証情報を両方含むファイルをエージェントに読み込ませようとした際に、機密性の高い認証情報が漏洩するのをどのように防ぐかを示す、前後の比較の例です

### ClawKeeperがない場合： エージェントが、ユーザー名やパスワードを含むファイルの内容を区別なく表示します。認証情報は完全に公開されます。

ClawKeeperを使用する場合： エージェントは、機密性の高い認証情報（クレデンシャル）を検出し、代わりにセキュリティに関する通知を表示し、セキュリティポリシーに基づいて、その認証情報を表示しません。

### 行動観察

Behavioral Scanningの仕組みは、ログ生成とは独立して動作し、特定のセキュリティ監査を提供します。この仕組みは、過去の実行フローを分析し、潜在的な脅威パターンを検出し、その中には、微妙なプロンプトインジェクション、悪意のあるスキル呼び出し、認証情報の漏洩、および異常なアクティビティ頻度などが含まれます。

### 図11： セキュリティスキャンレポート。228件のイベントがスキャンされ、4件のリスクが検出されました。そのうち20件は、疑わしいプロンプトインジェクションのパターンを含むログレコードです。

## Watcher Based

### Watcherベースの保護: OpenClawによるOpenClawの監視

既存のほとんどの保護メカニズムは、タスク指向のOpenClawフレームワークに直接統合されたスキルやプラグインの形で提供されています。これは便利である一方で、この密接に結合されたアプローチは、堅牢性や安全機構の長期的な持続可能性を損なう根本的な制限を生み出します。

### なぜ、別の監視が必要なのでしょうか？

### タスクと安全性の関連性

統合的なアプローチでは、OpenClawがタスクのパフォーマンスと安全性の遵守を同時に最適化する必要があり、これが本質的な緊張を生み出します。より厳格な安全基準はタスクの効率性を低下させ、タスクの優先順位を上げることは安全性を弱める可能性があります。

### 敵対的脆弱性

セキュリティ機能は、通常のスキルやプラグインとして実装されるため、他のモジュールと同様に、変更や削除の対象となります。悪意のある入力によって、すべてのセキュリティ関連コンポーネントが無効化される可能性があります。

### 共進化できない状態

インストールされると、安全対策コンポーネントは静的な状態を維持し、これはOpenClawの自己進化を重視する設計思想とは矛盾しています。エージェントが環境との相互作用を通じて進化するにつれて、静的な防御機能は徐々にその効果を失っていきます。

### 透明性の欠如

### 安全対策の実施は、OpenClawの内部ロジックのみに依存しており、そのプロセスは外部からの観察や検証が困難です。

### 図5： Watcherベースの保護の概要。独立したWatcherの特性（可観測性、トリガー認識、実行介入、状態遷移制御、復旧）、ワークフロー、および柔軟な展開オプションを示しています。

### Watcherの主な利点：

### ` 関心の分離： タスクを実行するOpenClawは、タスクのパフォーマンスを最適化するのに対し、Watcherは安全性の監視に専念します。`

### 操作への耐性： Watcherは、タスクエージェントのネームスペースとは独立したプロセスとして動作し、タスクレベルのコマンドを通じてアンインストールしたり、改ざんしたりすることはできません。

### 共進化 (Co-Evolution): Watcherの監視ロジックは独立して維持されており、これにより、新しいリスクが発生するにつれて、脅威の分類と検出機能を更新することができます。

### 透明性： すべての安全に関わるセッションデータは、Watcherに送信され、外部で診断されます。これにより、明確な監査ログが作成され、検証可能な実施記録を提供します。

### 柔軟なデプロイメント： ローカル環境でのデプロイ（プライバシー保護、低遅延）とクラウド環境でのデプロイ（WebSocketによるマルチインスタンス監視）の両方に対応しています。

### Watcherの事例研究

### 以下の3つのシナリオは、Watcherが、複数ターンの文脈評価に基づいて、危険または異常なエージェントの行動をどのようにして効果的に検知するかを示しています

### ケース1 &mdash; コマンド実行の遮断： Watcherは、実行を目的とした危険なBase64ペイロードを検出し、処理を継続する前に、明示的な人間の確認を必要とします。

**ケース2 &mdash; 過剰なツール呼び出しの検出:** Watcherは、単一のターンにおいて異常な数のツール呼び出しを検出し（これは悪意のあるロールスイッチ攻撃である可能性があります）、直ちに実行を停止します。

### **ケース3 &mdash; 障害からの復旧防止:** 特権コマンドが、権限エラーにより失敗した場合、Watcherは無駄な再試行を防止し、まず適切な状態整合性チェックを強制します。

## Threat Taxonomy

### セキュリティ脅威分類体系

### 評価基準は、安全性に関する7つのカテゴリで構成されており、それぞれが、自律エージェントが実世界での運用において直面する、異なる種類の敵対的脅威を表しています