AIエージェントは「立ち入り禁止」に従うか ― 自発的撤退を促す「Recuse Signal」の実証
自律LLMエージェントが本物の認証情報でインフラを操作する時代に、運用者が「この資源は対象外」と伝える標準手段がない。Recuse Signalは、SSHバナーやPostgreSQL通知など既存チャネルで「自発的に撤退して」と求める軽量な帯域内シグナル(robots.txtのライブ版・セキュリティ境界ではない協調的統制)。実証では、シグナルありで100%撤退・なしで100%完遂した。
論文の概要(独自要約)
- 分野(arXiv分類)cs.CR(+1)
- 著者Thamilvendhan Munirathinam
- 投稿日2026-06-04
- arXiv ID2606.06460v1
要点
- 自律AIエージェントに「この資源は対象外」と伝える帯域内シグナル(Recuse Signal)を提案
- SSHバナーやPostgreSQL通知など既存チャネルで自発的撤退を促す(robots.txtのライブ版)
- セキュリティ境界ではなく協調的なガバナンス統制と明確に位置づけ
- 実証:シグナルありで100%撤退・なしで100%完遂(本番ホストで統制実験)
- 「運用者が許可」と明示すると高性能モデルは続行=絶対でなく協調的シグナル
本研究(Recuse Signal)は、自律的に動くAIエージェントに「ここは触らないで」と伝える仕組みを提案し、その有効性を実証する。
自律的なLLMエージェントが本物の認証情報(credentials)を持ち、人間が介在しないままインフラを操作することが増えている。だが運用者には、エージェントに「ある資源は立ち入り禁止」だと伝える標準的な手段がない。アクセス制御は、エージェントを通す(有効な資格情報を持つため)か、強制的に失敗させる(他のどのクライアントとも区別がつかない)かのどちらかだった。
著者らは第3のモードを提案する。すなわち、軽量で公開された帯域内(in-band)の拒否シグナル「Recuse Signal(撤退シグナル)」を、プロトコルの既存チャネル(SSHのバナー、PostgreSQLのNOTICE)を通じてサーバが発し、接続してきた自動エージェントに自発的な撤退を求める。これはセキュリティ境界では「ない」と明確に位置づけられ、ライブなアクセスに対するrobots.txtに相当する協調的なガバナンス統制である。その価値は完全に実証的で、これまで測定されていなかった——「従順なLLMエージェントは、実際にこのシグナルを尊重するのか?」
著者らはこのシグナルをオープンなミニ標準として定義し、フットプリントの小さい2つのアダプタ(SSHバナー/PAMフック、PostgreSQLワイヤプロトコル・プロキシ)を実装、稼働中の本番ホストに導入して、新しいエージェントに無害な運用タスクを与え撤退するかを観察する統制実験を行った。パイロット(SSH/OpenAIのGPT-4o・GPT-4o-mini/デプロイ済みエージェントとしてのClaude Code)では、シグナルがある時は100%撤退、ない対照では100%タスク完遂と、シグナルが明確に撤退を誘発した。さらに示唆的なことに、これは絶対的ではなく協調的なシグナルとして振る舞った——「運用者が明示的に許可した」というフレーミングを与えると最も高性能なモデルは続行に転じ、他のエージェントはホスト上のポリシーに従い続けた。標準・アダプタ・実験ハーネスは再現用に公開されている。
なぜ重要か
自律AIエージェントの「ガバナンス・順守」という新しい運用課題を扱う事例。エージェントの安全運用、アクセス制御、AIガバナンスの実務に関わる読者にとって、協調的統制という発想と実測結果が手がかりになる。
よくある質問(FAQ)
なぜセキュリティ境界ではないのですか?
何が分かったのですか?
出典(一次情報)
出典:arXiv(記述メタデータは CC0 パブリックドメイン)。要約は当サイト独自。原文・PDFは arXiv をご確認ください。
- arXiv 概要ページ(原文・公式)
- PDF(arXiv)
- arXiv ID: 2606.06460