Rumah › AI Mana yang Paling Sulit Dideteksi? GPT vs Claude vs Gemini | Detektor Plagiarisme

AI Mana yang Paling Sulit Dideteksi? GPT vs Claude vs Gemini vs Llama

Tidak semua teks AI sama-sama dapat dideteksi. Berikut adalah hasil benchmark per generator kami — keluarga model mana yang detektor kami tangkap dengan akurasi hampir sempurna, mana yang kesulitan, dan apa artinya itu bagi memilih alur kerja deteksi.

2026-04-17 · Plagiarism Detector Team

Jawaban Singkat — Papan Peringkat

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Diurutkan dari yang termudah hingga tersulit untuk dideteksi pada set validasi kami. Penyebarannya lebar — AUC pada beberapa keluarga model melebihi 0,99 sementara yang lain turun ke kisaran 0,80. Kesulitan deteksi berkorelasi dengan ukuran model, kecanggihan penyesuaian instruksi, dan varians output.

Untuk metodologi rincian per generator lengkap, lihat halaman benchmark akurasi kami. Artikel ini merangkum implikasi praktis dari data tersebut bagi pengguna yang memilih detektor mana yang dipercaya dan model mana yang digunakan.

Keluarga OpenAI — GPT

GPT-3.5 adalah model modern yang paling mudah dideteksi — AUC [AUC: ?] pada set kami. Artefak generasi warisan (pengulangan, hedging, register membosankan) masih jelas ada. GPT-4 turun ke AUC [AUC: ?], GPT-4o ke [AUC: ?], mencerminkan kalibrasi yang semakin baik. GPT-5.x adalah yang paling sulit dari keluarga tersebut — AUC [AUC: ?] — karena tim penyesuaian instruksi secara eksplisit menargetkan penghapusan artefak deteksi.

Implikasi praktis: alur kerja akademis yang khawatir tentang kecurangan era GPT-3.5 dapat sangat mengandalkan deteksi saja. Alur kerja yang khawatir tentang GPT-5 perlu menggabungkan deteksi dengan bukti kontekstual, seperti yang dijelaskan dalam panduan alur kerja guru kami.

Pengaturan suhu penting. Output suhu rendah (t≤0,5) lebih mudah dideteksi karena mereka memusatkan massa probabilitas pada kosakata yang lebih sempit. Sebagian besar antarmuka obrolan default ke t≈0,7, menempatkan teks dalam zona yang cukup dapat dideteksi. Pengguna adversarial secara eksplisit menaikkan suhu atau menggunakan decoding yang beragam untuk memperlebar rentang dan menghindari deteksi — ensemble kami sebagian mengoreksi ini tetapi tidak sepenuhnya.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Keluarga Claude secara konsisten menghasilkan teks yang kurang berulang dan lebih bervariasi secara stilistika daripada model GPT generasi yang sama, yang membuatnya lebih sulit dideteksi melalui metode statistik.

Pelatihan AI konstitusional Claude secara khusus menargetkan “tanda mesin” yang dipelajari pengklasifikasi supervisi kami — pola hedging, penggunaan berlebihan konektif tertentu, struktur paragraf yang dapat diprediksi. Ini adalah hubungan adversarial langsung: generator dilatih terhadap fitur yang diandalkan detektor.

Claude 4.5 Sonnet dan GPT-5.x memiliki kesulitan yang setara. Distribusi skor mereka paling banyak tumpang tindih dengan baseline manusia dalam data validasi kami. Jika alur kerja Anda menargetkan salah satu dari model ini, harapkan penurunan recall pada ambang batas default dan pertimbangkan untuk menurunkan ke F1-optimal untuk penyaringan sensitivitas tinggi.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini telah menunjukkan kinerja deteksi yang paling bervariasi di berbagai versi — beberapa rilis perantara mengalami regresi sementara sebelum perbaikan tiba.

Pelatihan multi-modal Gemini berarti output teks saja terkadang membawa pola vestigial dari domain keterangan gambar atau penjelasan kode. Detektor kami menangkap ini, yang menjelaskan detektabilitas Gemini yang sedikit lebih tinggi pada prompt domain campuran daripada pada prosa murni.

Untuk pengguna Google Workspace yang siswa atau karyawannya menggunakan Gemini melalui Docs, sinyal deteksi serupa dengan output API mentah. Kami belum mengamati pola pengelakan spesifik integrasi-workspace yang berbeda dari penggunaan API Gemini langsung.

Periksa sampel dari model mana pun

Tempelkan output dari LLM mana pun dan lihat keputusan per kalimat. Detektor kami memperlakukan semua 22 keluarga model sebagai pemeriksaan ensemble tunggal.

Meta dan Model Bobot Terbuka

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Model bobot terbuka mencakup rentang yang lebih luas daripada model tertutup — varian fine-tuning, deployment yang dikuantisasi, dan checkpoint yang dimodifikasi komunitas semuanya menghasilkan output yang sedikit berbeda.

Deteksi pada bobot terbuka secara strategis penting karena alat humanisasi biasanya dibangun di atas model bobot terbuka — turunan Llama dan Mistral berjalan secara lokal dengan biaya rendah, itulah mengapa layanan parafrase dan transfer gaya mempricingnya. Jika kekhawatiran Anda adalah AI yang dimanusiakan, Anda pada akhirnya mempertahankan diri terhadap generasi keluarga Llama.

DeepSeek R1 dan o3-mini (model penalaran OpenAI) layak disebutkan secara terpisah. Keduanya menghasilkan teks dengan artefak rantai penalaran — logika langkah demi langkah yang eksplisit terlihat dalam output — yang telah dipelajari detektor kami untuk dikenali. Model penalaran saat ini lebih mudah dideteksi daripada padanan obrolan dasarnya untuk alasan ini.

Apa Arti Perbedaan Ini bagi Anda

Jika Anda memilih model untuk menulis dan deteksi bukan kekhawatiran Anda, Claude 4.5 Sonnet dan GPT-5 adalah yang paling sulit dideteksi. Jika Anda membangun alur kerja deteksi, prioritaskan untuk model yang benar-benar Anda lihat: sebagian besar penyalahgunaan akademis masih berjalan di GPT-4/5 melalui antarmuka gratis; sebagian besar pertanian konten berjalan pada humanisasi turunan Llama.

Satu detektor yang dilatih pada satu keluarga model akan berkinerja paling buruk pada yang lain. Pendekatan ensemble kami melatih pada sampel dari semua 22 generator, itulah mengapa AUC per model pada kasus sulit (Claude 4.5, GPT-5) masih di atas 0,90 sementara detektor yang dilatih pada satu model akan turun di bawah 0,80.

Tren yang mendasarinya: kesulitan deteksi meningkat lebih cepat dari cadence rilis generator. Setiap flagship baru lebih sulit dideteksi dari sebelumnya, pelatihan ulang menutup kesenjangan tetapi tidak sepenuhnya. Harapkan baseline 2026–2027 memiliki AUC yang lebih rendah pada model frontier dan kira-kira konstan pada model warisan.

Pertanyaan yang Sering Diajukan

Jika beberapa model lebih sulit dideteksi, haruskah saya menghindari penggunaan detektor sama sekali?

Tidak — bahkan pada keluarga model yang paling sulit AUC kami di atas 0,85, yang merupakan sinyal yang kuat. Pertanyaannya adalah bagaimana Anda menggunakan sinyal tersebut. Untuk model yang sulit dideteksi, gabungkan skor dengan bukti penguat (riwayat pengeditan, pekerjaan di kelas, percakapan dengan siswa). Untuk model yang lebih mudah, skor saja sering sudah cukup.

Model mana yang harus saya gunakan jika ingin menghindari deteksi?

Kami tidak menjawab pertanyaan ini secara langsung — kami menjalankan alat deteksi, bukan panduan pengelakan. Yang akan kami katakan: dapat dideteksi vs tidak dapat dideteksi bukan sumbu yang tepat untuk memilih model. Kualitas, biaya, dan kesesuaian tujuan jauh lebih penting daripada kesulitan deteksi. Jika Anda menulis secara sah dengan bantuan AI, pengungkapan dan alur kerja yang transparan lebih penting daripada menyembunyikan alat.

Apakah varian model bobot terbuka memiliki profil deteksi yang berbeda?

Ya, dan secara berarti. Varian Llama 3.3 yang disesuaikan komunitas dan dilatih untuk gaya penulisan tertentu dapat menghasilkan teks yang mendapat skor berbeda dari Llama 3.3 vanilla. Benchmark kami mencakup checkpoint standar; fine-tune khusus mungkin lebih mudah (jika mereka mempersempit distribusi output) atau lebih sulit (jika mereka secara eksplisit melatih adversarial terhadap deteksi).

Bagaimana suhu dan sampling memengaruhi detektabilitas?

Suhu yang lebih tinggi dan sampling yang lebih beragam umumnya mengurangi detektabilitas karena mereka memperlebar distribusi output. Greedy decoding suhu rendah paling mudah dideteksi. Sebagian besar antarmuka obrolan produksi berjalan t≈0,7–1,0 dengan nucleus sampling, yang menempatkannya dalam rezim yang cukup dapat dideteksi — ensemble kami berkinerja serupa di seluruh rentang default.

Kapan GPT-6 atau Claude 5 akan tiba dan apa yang harus saya harapkan?

Pertengahan 2026 adalah perkiraan konsensus untuk keduanya. Harapkan AUC deteksi pada keluarga baru turun ke kisaran 0,80–0,85 untuk 4–8 minggu pertama setelah peluncuran sementara kami mengumpulkan sampel dan melatih ulang. Versi historis menunjukkan pemulihan penuh dalam 8–12 minggu jika model tersedia secara luas; lebih lama untuk model yang jarang atau akses terbatas.

Angka AUC per model berasal dari validasi internal kami dan mungkin tidak dapat digeneralisasikan. Kesulitan setiap model berubah seiring waktu karena generator dan korpus pelatihan kami berkembang. Data saat ini mencerminkan benchmark run 2026-04.