AI文章検出は「人とAIの共同編集」でこそ難しくなる ― 進行的編集の検出ベンチマーク「OpAI-Bench」
AIライティング支援の普及で、文書は「純粋な人間/AI」ではなく、人とAIが段階的に共同編集した産物になりつつある。OpAI-Benchは、人→AIへの段階的変換を文書・文・トークン・スパンの多粒度で検証するAI文章検出ベンチマーク。混在した「中間版」は、完全な人間版・AI版より検出が難しいという非単調な傾向を明らかにした。
論文の概要(独自要約)
- 分野(arXiv分類)cs.CL(+2)
- 著者Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao ほか(計12名)
- 投稿日2026-06-04
- arXiv ID2606.06481v1
要点
- 文書は「純粋な人間/AI」でなく人とAIの段階的共同編集の産物になっている、という前提に立つ
- 人→AIへの段階的変換を文書・文・トークン・スパンの多粒度で検証するベンチマーク(OpAI-Bench)
- 9段階の改訂版・5種のAI編集操作・4ドメインで来歴(provenance)を保持
- 検出可能性はAI編集割合だけでなく編集操作・ドメイン・改訂履歴に依存
- 混在「中間版」は完全な人間/AI版より検出しにくい=非単調パターンを発見
本研究(OpAI-Bench)は、AIによる文章生成・編集の「検出」を、現実的な共同編集の文脈で捉え直す。
背景として、AIライティング支援が起草・改訂のワークフローに組み込まれた結果、多くの文書はもはや「純粋に人間が書いた/AIが生成した」のどちらでもなく、人とAIが段階的に共同編集(progressive human-AI co-editing)した産物になっている。一方、既存のAI文章検出ベンチマークは主に「最終成果物」に注目し、改訂の過程でAI著者性のシグナルがどのように現れ・蓄積し・消えるかをほとんど捉えられていない。
著者らは、人手で書かれた文書を起点に、あらかじめ定めたAI被覆率と5種の代表的なAI編集操作のもとで、各サンプルに9段階の改訂版を順に生成する。対象は4ドメインで、文書・文・トークン・スパンという複数粒度の著者性来歴(provenance)を完全に保持する。評価は、8つの文書レベル検出器・7つの文レベル検出器・2つの細粒度(トークン/スパン)検出器を用いて包括的に行う。
実験から、AI文章の検出可能性は「AI編集された分量の割合」だけでなく、編集操作の種類・ドメイン・累積的な改訂履歴にも支配されることが分かった。興味深いことに、人とAIが混在する中間版は、完全な人間版や大きくAI編集された版よりも検出が難しいことが多く、既存ベンチマークが見落としていた非単調(non-monotonic)な検出パターンが明らかになった。OpAI-Benchは、AI支援による執筆が現実的な進行的編集のもとで「いつ・どこで・どのように」検出可能になるかを分析する制御された試験台を提供する。
なぜ重要か
AI文章検出・来歴(provenance)・コンテンツ真正性の研究動向を示す。検出ツールが共同編集下で非単調に難しくなる事実は、教育・出版・プラットフォームでAI検出を運用する際の限界理解に役立つ。
よくある質問(FAQ)
なぜ「中間版」の検出が難しいのですか?
実用的に何の役に立ちますか?
出典(一次情報)
出典:arXiv(記述メタデータは CC0 パブリックドメイン)。要約は当サイト独自。原文・PDFは arXiv をご確認ください。
- arXiv 概要ページ(原文・公式)
- PDF(arXiv)
- arXiv ID: 2606.06481