全てのAIテキストが等しく検出可能なわけではありません。当社の生成モデル別ベンチマークの結果を示します——どのモデルファミリーをほぼ完璧な精度で捕捉し、どれで苦労しているか、そして検出ワークフロー選択について何を示唆するか。
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
検証セットでの検出容易度順(易→難)。差は大きく——一部のモデルファミリーでAUCが0.99を超える一方、0.80台に低下するものもあります。検出困難度はモデルサイズ、指示チューニングの洗練度、出力分散と相関します。
完全な生成モデル別内訳の方法論については、精度ベンチマークページをご覧ください。この記事はデータの実践的意味を要約します——信頼すべき検出器の選択と使用モデルに関するユーザー向け。
GPT-3.5は検出が最も容易な現代モデルです——当社セットでAUC [AUC: ?]。レガシー生成アーティファクト(繰り返し、回避、平板な文体)が依然明確に存在します。GPT-4はAUC [AUC: ?]に低下、GPT-4oは[AUC: ?]に低下し、徐々に向上するキャリブレーションを反映します。GPT-5.xはファミリー中最も検出困難——AUC [AUC: ?]——指示チューニングチームが検出アーティファクト除去を明示的にターゲットにしたためです。
実践的意味:GPT-3.5時代の不正行為に対応する学術ワークフローは検出のみに大きく依存できます。GPT-5に対応するワークフローは、当社の教師向けワークフローガイドに記載の通り、検出と文脈的証拠を組み合わせる必要があります。
温度設定が重要です。低温度出力(t≤0.5)はより狭い語彙に確率質量を集中させるため検出が容易です。ほとんどのチャットインターフェースはt≈0.7をデフォルトとし、テキストを適度に検出可能な領域に置きます。敵対的ユーザーは明示的に温度を上げるか多様なデコードを使用して範囲を広げ、検出を回避します——当社アンサンブルはこれを部分的に修正しますが完全ではありません。
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claudeファミリーは同世代のGPTモデルより一貫して反復が少なくスタイル的に多様なテキストを生成し、統計的手法での検出が困難です。
Claudeの構造的AI訓練は、当社の教師ありクラシファイアが学習する「機械の特徴」——回避パターン、特定の接続詞の多用、予測可能な段落構造——を明示的にターゲットにしています。これは直接的な敵対関係です:生成モデルが検出器が依存する特徴に対して訓練されています。
Claude 4.5 SonnetとGPT-5.xは困難度において近接しています。検証データで人間ベースラインと最も重なるスコア分布を持ちます。ワークフローがいずれかのモデルをターゲットにする場合、デフォルト閾値での再現率低下を予想し、高感度スクリーニングのためF1最適値への引き下げを検討してください。
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Geminiはバージョン間で最も変動する検出パフォーマンスを示しています——中間リリースで改善が着地する前に一時的に後退することがありました。
Geminiのマルチモーダル訓練は、テキスト専用出力に画像キャプションやコード説明ドメインからの残存パターンをもたらすことがあります。当社検出器はこれを捕捉しており、純散文より混合ドメインプロンプトでGeminiがわずかに検出しやすい理由を説明します。
Docsを通じてGeminiを使用する学生や従業員がいるGoogle Workspaceユーザーにとって、検出シグナルは生のAPI出力と同様です。直接のGemini API使用とは異なるワークスペース統合固有の回避パターンは観察していません。
いずれかのLLMからの出力を貼り付けると、文章別判定が表示されます。当社検出器は全22のモデルファミリーを単一のアンサンブルチェックとして扱います。
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. オープンウェイトモデルはクローズドモデルより広い範囲にわたります——ファインチューニングバリアント、量子化デプロイメント、コミュニティ変更チェックポイントが全て微妙に異なる出力を生成します。
オープンウェイトでの検出は戦略的に重要です。人間化ツールは通常オープンウェイトモデル上に構築されているためです——LlamaとMistralの派生品はローカルで低コストで動作し、それが言い換えやスタイル転写サービスの価格設定理由です。AI人間化が懸念事項である場合、最終的にLlamaファミリーの生成に対して防衛していることになります。
DeepSeek R1とo3-mini(OpenAI推論モデル)は別途言及に値します。両方とも推論チェーンアーティファクト——出力に見える明示的なステップバイステップロジック——を含むテキストを生成し、当社検出器はこれを認識するよう学習済みです。推論モデルは現在ベースチャット対応物より検出が容易です。
検出が懸念でなくモデルを選択する場合、Claude 4.5 SonnetとGPT-5が最も検出困難です。検出ワークフローを構築する場合、実際に見るモデルを優先してください:ほとんどの学術的不正行為は無料インターフェースを通じてGPT-4/5で動作します。ほとんどのコンテンツファーミングはLlama派生人間化ツールで動作します。
単一モデルファミリーで訓練した単一検出器は他のモデルで最悪のパフォーマンスを示します。当社のアンサンブルアプローチは全22生成モデルのサンプルで訓練しており、困難なケース(Claude 4.5、GPT-5)でのモデル別AUCが0.90以上を維持する理由です。一方、単一モデル訓練の検出器は0.80を下回ります。
基礎トレンド:検出困難度は生成モデルリリースのペースより速く上昇しています。各新しいフラッグシップは前世代より検出困難であり、再訓練はギャップを縮めますが完全ではありません。2026~2027年のベースラインはフロンティアモデルでより低いAUC、レガシーモデルでほぼ一定になると予想します。
モデル別AUC数値は内部検証に基づいており、一般化しない場合があります。各モデルの困難度は生成モデルと訓練コーパスの両方が進化するにつれて変化します。現在のデータは2026-04ベンチマーク実行を反映します。