Tidak semua teks AI sama-sama dapat dideteksi. Berikut adalah hasil benchmark per generator kami — keluarga model mana yang detektor kami tangkap dengan akurasi hampir sempurna, mana yang kesulitan, dan apa artinya itu bagi memilih alur kerja deteksi.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Diurutkan dari yang termudah hingga tersulit untuk dideteksi pada set validasi kami. Penyebarannya lebar — AUC pada beberapa keluarga model melebihi 0,99 sementara yang lain turun ke kisaran 0,80. Kesulitan deteksi berkorelasi dengan ukuran model, kecanggihan penyesuaian instruksi, dan varians output.
Untuk metodologi rincian per generator lengkap, lihat halaman benchmark akurasi kami. Artikel ini merangkum implikasi praktis dari data tersebut bagi pengguna yang memilih detektor mana yang dipercaya dan model mana yang digunakan.
GPT-3.5 adalah model modern yang paling mudah dideteksi — AUC [AUC: ?] pada set kami. Artefak generasi warisan (pengulangan, hedging, register membosankan) masih jelas ada. GPT-4 turun ke AUC [AUC: ?], GPT-4o ke [AUC: ?], mencerminkan kalibrasi yang semakin baik. GPT-5.x adalah yang paling sulit dari keluarga tersebut — AUC [AUC: ?] — karena tim penyesuaian instruksi secara eksplisit menargetkan penghapusan artefak deteksi.
Implikasi praktis: alur kerja akademis yang khawatir tentang kecurangan era GPT-3.5 dapat sangat mengandalkan deteksi saja. Alur kerja yang khawatir tentang GPT-5 perlu menggabungkan deteksi dengan bukti kontekstual, seperti yang dijelaskan dalam panduan alur kerja guru kami.
Pengaturan suhu penting. Output suhu rendah (t≤0,5) lebih mudah dideteksi karena mereka memusatkan massa probabilitas pada kosakata yang lebih sempit. Sebagian besar antarmuka obrolan default ke t≈0,7, menempatkan teks dalam zona yang cukup dapat dideteksi. Pengguna adversarial secara eksplisit menaikkan suhu atau menggunakan decoding yang beragam untuk memperlebar rentang dan menghindari deteksi — ensemble kami sebagian mengoreksi ini tetapi tidak sepenuhnya.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Keluarga Claude secara konsisten menghasilkan teks yang kurang berulang dan lebih bervariasi secara stilistika daripada model GPT generasi yang sama, yang membuatnya lebih sulit dideteksi melalui metode statistik.
Pelatihan AI konstitusional Claude secara khusus menargetkan “tanda mesin” yang dipelajari pengklasifikasi supervisi kami — pola hedging, penggunaan berlebihan konektif tertentu, struktur paragraf yang dapat diprediksi. Ini adalah hubungan adversarial langsung: generator dilatih terhadap fitur yang diandalkan detektor.
Claude 4.5 Sonnet dan GPT-5.x memiliki kesulitan yang setara. Distribusi skor mereka paling banyak tumpang tindih dengan baseline manusia dalam data validasi kami. Jika alur kerja Anda menargetkan salah satu dari model ini, harapkan penurunan recall pada ambang batas default dan pertimbangkan untuk menurunkan ke F1-optimal untuk penyaringan sensitivitas tinggi.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini telah menunjukkan kinerja deteksi yang paling bervariasi di berbagai versi — beberapa rilis perantara mengalami regresi sementara sebelum perbaikan tiba.
Pelatihan multi-modal Gemini berarti output teks saja terkadang membawa pola vestigial dari domain keterangan gambar atau penjelasan kode. Detektor kami menangkap ini, yang menjelaskan detektabilitas Gemini yang sedikit lebih tinggi pada prompt domain campuran daripada pada prosa murni.
Untuk pengguna Google Workspace yang siswa atau karyawannya menggunakan Gemini melalui Docs, sinyal deteksi serupa dengan output API mentah. Kami belum mengamati pola pengelakan spesifik integrasi-workspace yang berbeda dari penggunaan API Gemini langsung.
Tempelkan output dari LLM mana pun dan lihat keputusan per kalimat. Detektor kami memperlakukan semua 22 keluarga model sebagai pemeriksaan ensemble tunggal.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Model bobot terbuka mencakup rentang yang lebih luas daripada model tertutup — varian fine-tuning, deployment yang dikuantisasi, dan checkpoint yang dimodifikasi komunitas semuanya menghasilkan output yang sedikit berbeda.
Deteksi pada bobot terbuka secara strategis penting karena alat humanisasi biasanya dibangun di atas model bobot terbuka — turunan Llama dan Mistral berjalan secara lokal dengan biaya rendah, itulah mengapa layanan parafrase dan transfer gaya mempricingnya. Jika kekhawatiran Anda adalah AI yang dimanusiakan, Anda pada akhirnya mempertahankan diri terhadap generasi keluarga Llama.
DeepSeek R1 dan o3-mini (model penalaran OpenAI) layak disebutkan secara terpisah. Keduanya menghasilkan teks dengan artefak rantai penalaran — logika langkah demi langkah yang eksplisit terlihat dalam output — yang telah dipelajari detektor kami untuk dikenali. Model penalaran saat ini lebih mudah dideteksi daripada padanan obrolan dasarnya untuk alasan ini.
Jika Anda memilih model untuk menulis dan deteksi bukan kekhawatiran Anda, Claude 4.5 Sonnet dan GPT-5 adalah yang paling sulit dideteksi. Jika Anda membangun alur kerja deteksi, prioritaskan untuk model yang benar-benar Anda lihat: sebagian besar penyalahgunaan akademis masih berjalan di GPT-4/5 melalui antarmuka gratis; sebagian besar pertanian konten berjalan pada humanisasi turunan Llama.
Satu detektor yang dilatih pada satu keluarga model akan berkinerja paling buruk pada yang lain. Pendekatan ensemble kami melatih pada sampel dari semua 22 generator, itulah mengapa AUC per model pada kasus sulit (Claude 4.5, GPT-5) masih di atas 0,90 sementara detektor yang dilatih pada satu model akan turun di bawah 0,80.
Tren yang mendasarinya: kesulitan deteksi meningkat lebih cepat dari cadence rilis generator. Setiap flagship baru lebih sulit dideteksi dari sebelumnya, pelatihan ulang menutup kesenjangan tetapi tidak sepenuhnya. Harapkan baseline 2026–2027 memiliki AUC yang lebih rendah pada model frontier dan kira-kira konstan pada model warisan.
Angka AUC per model berasal dari validasi internal kami dan mungkin tidak dapat digeneralisasikan. Kesulitan setiap model berubah seiring waktu karena generator dan korpus pelatihan kami berkembang. Data saat ini mencerminkan benchmark run 2026-04.