GPT-5、Claude 4、Gemini 2、Llama 3を含む22種の生成モデルに対するAI検出器の実世界精度を公開します。モデル別テーブル、正直な限界説明、研究者向けダウンロード可能データセット付き。
多くのAI検出ツールは不透明なスコア一つを信頼するよう求めます。しかし皆さんには証拠を提示する義務があると考えます。このページでは内部検証の全結果を公開します——テストした全生成モデル、各モデルのAUC-ROCスコア、最も困難だったエッセイ種別、本番環境での判定閾値。
この水準の透明性はAI検出分野では異例です。多くの競合——盗作チェックベンダー、AI検出専門サービス、汎用SaaSツール——は精度データを一切公開しないか、恣意的に選んだ単一数値のみを公開します。教育者、出版者、研究者がいずれかのツールを信頼するには再現可能なベンチマークが必要であり、その慣行は持続不可能です。
数値はModernBERT検出器の訓練に使用したキャリブレーションコーパスの1,000サンプル検証分割に基づきます。このベンチマークを駆動するのと同一の方法論が、皆さんがツールに提出する全文書にも適用されます。デモ用の隠蔽は一切ありません。
検証セットは1,200サンプルのキャリブレーションコーパスから抽出した1,000エッセイで構成されます。人間が執筆した600エッセイ(PAN25共有タスクデータおよびPERSUADE論証エッセイデータセット)と、制御されたプロンプト下で22種の大規模言語モデルが生成した600エッセイです。80/20の訓練・検証分割は固定かつ再現可能です。
各サンプルは独立してスコアリングされ、正解ラベルが漏洩するメタデータへのアクセスはありません。検出器はサンプルがAI生成である確率を[0, 100]の範囲で返します。その後、生成モデル別およびエッセイ種別で受信者動作特性曲線下面積(AUC-ROC)を算出します。
全閾値、訓練ハイパーパラメータ、生確率出力はログに記録されます。データセット自体はこのページ下部からダウンロード可能です——CSV形式、1行1サンプル、生成モデル識別子、エッセイ種別ラベル、生スコア、最終二値判定付き。
1,000サンプル全体で、当社のアンサンブル検出器はAUC-ROC [AUC: 0.9884]を達成します。本番環境で使用する50%判定閾値において:検証セットの人間エッセイで偽陽性0件、AIエッセイで再現率60%。F1最適閾値26.56%では再現率が90%に向上し、偽陽性2%のトレードオフが生じます——高感度スクリーニングワークフローに適した設定です。
公開ツールでの文書レベル判定は保守的な50%閾値を使用し、最大再現率よりも偽陽性ゼロを優先します。より積極的なフラグ付けを望む教師、出版者、研究者はウィジェットの感度スライダーで上書き可能です。
比較として、Binocularsゼロショットコンポーネント単独(2× Llama-3.1-8B構成)はAUC [AUC: 0.8509]を単独で達成します。ファインチューニング済みModernBERTコンポーネント単独は分布内エッセイで[AUC: 1.0000]、分布外テキストで[AUC: 0.9069]を達成します。アンサンブルは単一軸では両者の間に位置しますが、相補的な弱点を補正するため平均では両者を上回ります。
以下はモデル別AUC-ROCテーブルです。モデルは検証セットでの検出容易度順(易→難)に並んでいます。[PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAIモデル: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. その他: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
主要パターン:新しく大規模で指示チューニングされたモデルほど、統計的検出器(当社含む)に対してより人間らしいテキストを生成する傾向があります。Claude 4.5 SonnetとGPT-5.xは、スコア分布が人間ベースラインと最も重なる2ファミリーです。これは2025年に発表された全独立研究と一致します——軍拡競争は現実であり、モデルサイズは検出にとって直接的な逆風です。
全てのテキストが等しく検出可能なわけではありません。結果をエッセイ種別——各PERSUADEプロンプトカテゴリ——で分解すると、最良と最悪の差は大きいです。[PER-TYPE TABLE]
論証的・説得的・説明的エッセイ:検出器が最も強い領域。訓練コーパスがこれらのスタイルに偏重しているため、AUCは通常0.97~1.00。ほとんどの学術誠実性ユースケースがここに該当します。
創作・文学分析:最も弱い領域。literary_analysisではAUCが0.69まで低下します——フィクションにおける人間スタイルとLLM出力が収束し、教師あり・ゼロショット双方のコンポーネントで信頼性高く区別できません。フィクションで高いAIスコアが出た場合は懐疑的に扱ってください。
任意の文書を貼り付けると、ベンチマーク数値に使用するのと同じ文章別判定と判定閾値が表示されます。無料、登録不要。
検証セットが示唆するより頻繁に検出を逃れるテキストのクラスが3つあります。人間化AIテキスト——敵対的言い換えやスタイル転写ツールを通過した出力——は基礎テキストが完全生成であっても人間として判定されることがよくあります。短文(100語未満)は統計的シグナルが不十分で分類が困難です。非ネイティブ英語はLLMとESLライターが特定の語彙・構文的嗜好を共有するため、AI生成として判定されることがあります。
当社の検出器は確率的なものであり、証拠的なものではありません。高いAIスコアはさらなる調査のシグナルであり、不正行為の証拠ではありません。スコアと文脈を組み合わせることを強くお勧めします:最近の編集履歴、バージョン草稿、同一著者の他の執筆サンプル、そして許可される場合は著者との短い追跡会話。
最新の生成モデル出力で継続的に再訓練していますが、常にラグが存在します:先週リリースされたモデルは訓練データに十分表現されていない可能性があります。ワークフローが最新モデルの検出に依存する場合、更新数値のため四半期ごとにベンチマークページを再確認してください。
研究者、ジャーナリスト、教育者が独自に主張を検証できるよう、生の検証結果を公開しています。CSVには次が含まれます:サンプルID、生成モデル識別子(または「human」)、エッセイ種別ラベル、生確率出力、50%閾値での二値判定、26.56%閾値での二値判定。
ダウンロード:ai-detector-benchmark-2026-04.csv(四半期更新)。学術利用は無制限。商業的再出版には帰属表示が必要:「盗作検出 — AI検出ベンチマーク2026-04」。
同じ方法論のインタラクティブ版をご自身のテキストで試すには、AI & 盗作チェッカーツールをご利用ください——任意の文書を貼り付けると、文章別判定、同じ判定閾値、公開数値に使用するのと同じ信頼区間が表示されます。
ベンチマーク結果は内部検証セットに基づいており、分布外テキストには一般化しない場合があります。公開数値は1,000サンプルにわたる平均性能を表します。ご自身の文書は異なるスコアになる場合があります。AI検出結果は著作権の単独証拠としてではなく、複数の判断要素の一つとしてご使用ください。