Rumah › Mengapa Pengesanan Teks AI Sukar: Perlumbaan Senjata Serangan-Pertahanan | Pengesan Plagiarisme

Mengapa Pengesanan Teks AI Sukar: Di Dalam Perlumbaan Senjata

Pengesanan dan penjanaan terkunci dalam perlumbaan kucing-dan-tikus. Setiap keluaran model baharu menutup jurang statistik yang diandalkan oleh pengesan — dan setiap peningkatan pengesanan dijawab oleh alat pemanusiaan baharu. Inilah yang sebenarnya berlaku di bawah tudung.

2026-04-17 · Plagiarism Detector Team

Asas Statistik Pengesanan

Setiap pengesan teks AI pada dasarnya adalah pembeza statistik — ia melihat ciri-ciri teks (kebarangkalian token, kekeliruan, kesibukan, keteraturan sintaktik) dan cuba mencari isyarat yang membezakan kandungan yang dijana oleh mesin daripada kandungan yang ditulis oleh manusia. Kaedah Binoculars (ICML 2024) menggunakan nisbah kekeliruan-silang antara dua model bahasa sebagai isyaratnya. Pendekatan terselia ModernBERT mempelajari isyarat itu secara langsung daripada contoh berlabel.

Kedua-dua pendekatan berkongsi kerentanan asas: isyarat yang mereka andalkan adalah kesan sampingan daripada cara model menjana teks, bukan ciri fundamental penulisan-oleh-mesin. Apabila penjana bertambah baik, kesan sampingan tersebut mengecil. Model yang dilatih untuk menulis lebih seperti manusia akan — secara definisi — lebih sukar untuk dikesan.

Ini bukan kegagalan penyelidikan. Ia adalah fakta struktur tentang masalah ini. Pengesanan beroperasi pada sasaran yang bergerak: setiap keluaran LLM utama merapatkan jurang, setiap alat pemanusiaan secara eksplisit melatih terhadap output pengesan. Soalannya bukan ‘bolehkah kita mencapai pengesanan 100% selama-lamanya’ — ia tidak dapat dilakukan — tetapi ‘bolehkah kita kekal di hadapan generasi semasa cukup lama untuk berguna dalam amalan.’

Apa yang Dilakukan Pedang — Penjanaan Bertambah Baik

Tiga trend penjanaan menjadikan pengesanan lebih sukar. Saiz: model yang lebih besar menghasilkan teks yang lebih pelbagai dari segi statistik kerana mereka mempunyai taburan dalaman yang lebih kaya. Model dengan parameter 70 bilion mempunyai julat output seperti manusia yang lebih luas daripada model dengan parameter 7 bilion. Pelarasan-arahan: kaedah RLHF dan konstitusional mengajar model untuk mengelakkan pola berulang, berhati-hati, membosankan yang menjadikan GPT-3 mudah dikesan. Suhu dan pensampelan: antara muka sembang telah beralih ke arah pensampelan nukleus dan rawak, yang memecahkan beberapa pola varians rendah yang digunakan oleh pengesan klasik sebagai sauh.

GPT-5, Claude 4.5, dan Gemini 2.5 semuanya lebih sukar untuk dikesan daripada pendahulu mereka. Pengesahan dalaman kami mengesahkan ini: setiap generasi model mengurangkan AUC kami pada keluarga tersebut sebanyak 5–10 mata peratusan berbanding generasi sebelumnya. Lihat penanda aras ketepatan kami untuk nombor setiap model.

Alat pemanusiaan — Undetectable AI, StealthWriter, Humanbeing, dan senarai yang semakin bertambah — adalah musuh yang eksplisit. Mereka mengambil output AI dan memparafrasakan, menulis semula, atau memindahkan gaya khusus untuk mengalahkan pengesan. Mereka dilatih terhadap pengesan awam (termasuk kami, walaupun kami tidak pernah berkongsi berat model kami) dan mereka bertambah baik secara terukur dengan setiap kemas kini.

Apa yang Dilakukan Perisai — Pengesanan Merespons

Pengesan mempunyai tiga respons terhadap perlumbaan senjata penjanaan. Pengesetan ensemble: menggabungkan pelbagai isyarat pengesanan supaya mana-mana taktik pengelakan tunggal tidak mencukupi. Ensemble kami yang menggabungkan Binoculars sifar-tembak dengan ModernBERT terselia mengeksploitasi ini: alat pemanusiaan yang mengalahkan satu komponen sering gagal terhadap yang lain, dan skor ensemble menangkap kedua-duanya.

Latihan semula berterusan: kami menambah sampel daripada setiap keluaran penjana utama baharu dalam masa 4 minggu selepas pelancaran. Jika GPT-6 dikeluarkan esok, korpus latihan kami akan memasukkannya pada pertengahan bulan depan. Ini mahal — pengiraan, anotasi, pengesahan semula — tetapi ia adalah satu-satunya cara untuk memastikan pengesanan terkini. Pengesan yang melatih semula setiap tahun atau kurang adalah secara efektif barang muzium dalam masa setahun.

Latihan bersifat adversarial: kami sengaja melatih pada sampel AI yang dimanusiakan dan output yang diparafrasakan, mengajar model untuk melihat melalui pemindahan gaya peringkat-permukaan. Ini meningkatkan lantai apa yang perlu dilakukan oleh alat pemanusiaan untuk mengelak kami, yang seterusnya melambatkan perlumbaan senjata.

Di Dalam Landskap Pengelakan

Bagaimana alat pemanusiaan sebenarnya berfungsi? Tiga kategori luas. Parafrasa: tulis semula teks kata-demi-kata atau ayat-demi-ayat menggunakan LLM sekunder. Berkesan terhadap pengesan naif yang bergantung pada urutan token tepat; sederhana berkesan terhadap kaedah statistik. Pemindahan gaya: ubah teks untuk meniru pengarang atau daftar tertentu. Lebih berkesan — AUC pengesan kami jatuh ~8 mata pada teks AI yang dipindahkan gaya.

Pengeditan hibrid manusia-AI: pengarang menulis draf, menjalankannya melalui LLM untuk penggilap, kemudian menyunting versi yang digilap secara manual. Ini adalah kes yang paling sukar — kerja kolaboratif yang sah yang menggabungkan isyarat manusia dan mesin pada tahap ayat. Tiada pengesan, termasuk kami, dapat menyelesaikan ini dengan boleh dipercayai tanpa metadata sejarah-penyuntingan yang tidak dapat dilihat oleh pengesan.

Model mental yang berguna: alat pemanusiaan bukan pemecah-pengesan, ia adalah pengganda kos bagi si pelari. Ia mengambil masa, kadang-kadang wang, dan sentiasa menambah risiko memperkenalkan ralat. Kebanyakan percubaan penipuan akademik tidak menggunakan alat pemanusiaan kerana geseran melebihi faedah. Di mana alat pemanusiaan mendominasi adalah penternakan kandungan profesional dan spam SEO yang dijana AI — kes kegunaan di mana daya pemprosesan penting dan kawalan kualiti lemah.

Lihat bagaimana pengesan kami memberikan skor sekarang

Tampal mana-mana dokumen dan tonton keputusan setiap ayat dalam masa nyata. Logik ensemble yang diterangkan di atas berjalan pada teks anda dalam masa kurang daripada 30 saat.

Mengapa Ensemble Lebih Penting Daripada Mana-mana Metrik Tunggal

Pengesan isyarat-tunggal mempunyai satu mod kegagalan. Jika anda hanya bergantung pada kekeliruan, output yang diparafrasakan dengan kebarangkalian token yang diubah mengalahkan anda. Jika anda hanya bergantung pada pengklasifikasi terselia, teks luar-taburan (keluarga model baharu, domain penulisan baharu) mengalahkan anda. Ensemble meratakan kelemahan: parafrasa yang mengalahkan kekeliruan mungkin masih mencetuskan kepala terselia, dan sebaliknya.

Pengesan pengeluaran kami secara eksplisit diensembelkan: 35% Binoculars (sifar-tembak, agnostik-model, teguh terhadap luar-taburan) + 65% ModernBERT (terselia, khusus-domain, ketepatan tinggi pada teks dalam-taburan). Berat dipilih secara empirik — AUC ensemble dimaksimumkan apabila ModernBERT mendominasi tetapi Binoculars mengekalkan kuasa veto pada kes tepi.

Akibatnya: alat pemanusiaan kini perlu mengalahkan dua seni bina pengesanan yang berbeza secara substantif secara serentak untuk mengelak keputusan kami. Alat pemanusiaan awam biasanya dilatih terhadap satu pengesan sasaran tunggal, yang bermaksud mereka sering berjaya terhadap pengesan khusus itu tetapi gagal terhadap ensemble. Ini adalah kelebihan struktur utama pengesanan dalam perlumbaan senjata semasa.

Jangkaan Realistik untuk 12 Bulan Akan Datang

Apa yang harus kita jangkakan sepanjang 2026–2027? GPT-6 dan Claude 5 berkemungkinan keluaran pertengahan tahun; kedua-duanya akan merapatkan jurang lebih jauh. Model sumber-terbuka — Llama 4, Qwen 4 — akan terus membuat komoditi penjanaan berkualiti tinggi dan menjadikan alat pemanusiaan lebih murah untuk dijalankan dalam skala besar. AUC pengesanan pada model hadapan berkemungkinan jatuh ke jalur 0.80–0.90 untuk tahun pertama selepas keluaran sebelum latihan semula membetulkannya.

Pada pihak pertahanan: isyarat berbilang-modal (dinamik menaip, sejarah suntingan, pengesahan pengarangan terhadap korpus yang diketahui) berkemungkinan lebih penting daripada pengesanan teks semata-mata dalam masa 24 bulan. Pengesan teks-sahaja kami akan kekal sebagai penapis pertama tetapi semakin menjadi ahli pengundi dalam tumpukan bukti yang lebih kaya.

Garis bawah yang jujur: pengesanan berasaskan teks semata-mata tidak akan pernah mencapai 100%. Ia akan mencapai tahap sekitar 90–95% AUC pada teks dalam-taburan dan 75–85% pada model hadapan. Jika aliran kerja anda memerlukan kepastian, anda memerlukan bukti di luar skor. Jika aliran kerja anda memerlukan isyarat yang kuat untuk mengutamakan semakan manusia, pengesanan berasaskan teks kekal berguna dan secara terukur lebih baik daripada tidak membuat apa-apa.

Soalan Lazim

Jika pengesanan AI tidak akan pernah sempurna, adakah berbaloi untuk menggunakannya?

Ya — soalannya bukan ‘adakah ia sempurna’ tetapi ‘adakah ia lebih baik daripada tidak membuat saringan langsung.’ Pengesan AUC 90% pada beban kerja anda adalah peningkatan isyarat-kepada-hingar yang besar. Orang yang paling lantang mengenai batasan pengesan sering adalah mereka yang cuba mengatasinya; itu bukan hujah untuk meninggalkan alat ini.

Bolehkah penanda air menggantikan pengesanan statistik?

Penanda air menanamkan tandatangan statistik tersembunyi dalam teks yang dijana yang kemudiannya boleh diambil semula oleh pengesan. Ia berfungsi apabila penjana bekerjasama (OpenAI telah menggunakannya secara eksperimental) tetapi gagal sepenuhnya pada model sumber-terbuka, yang menjana tanpa penanda air. Pengesanan statistik akan kekal perlu pada masa hadapan yang dapat diramalkan kerana ia berfungsi walaupun apabila penjana enggan bekerjasama.

Apakah perkara tunggal yang paling sukar untuk dikesan hari ini?

Pengeditan hibrid manusia-AI — serpihan teks yang draf oleh AI, digilap oleh manusia pada peringkat ayat. Tiada pengesan semasa yang boleh menyelesaikan ini dengan boleh dipercayai tanpa akses kepada metadata sejarah-suntingan. Jika itulah kes kegunaan anda, pengesanan berasaskan teks adalah alat yang salah — anda memerlukan instrumentasi aliran kerja.

Berapa kerap keluaran penjana baharu sebenarnya mengurangkan AUC anda?

Setiap keluaran utama, kira-kira setiap 3–6 bulan, mengurangkan AUC pada keluarga tersebut sebanyak 5–10 mata peratusan sehingga kami melatih semula. Latihan semula mengambil masa kira-kira 4 minggu selepas kami mempunyai sampel yang mencukupi. Keputusan praktikal: sentiasa ada tetingkap 2–8 minggu selepas pelancaran baharu di mana AUC kami pada keluarga tersebut lebih rendah daripada purata. Kami mendedahkan jurang ini pada halaman penanda aras.

Adakah ensemble membantu terhadap alat pemanusiaan?

Secara substantif — ia adalah pertahanan struktur utama yang kami ada. Alat pemanusiaan melatih terhadap pengesan sasaran. Apabila sasaran itu adalah ensemble dua pengesan yang berbeza seni bina, alat pemanusiaan perlu mengalahkan kedua-duanya secara serentak, yang secara bermakna lebih sukar daripada mengalahkan mana-mana satu sahaja. Inilah sebabnya kami menggunakan ensemble dalam pengeluaran walaupun satu komponen sahaja akan lebih murah untuk dijalankan.

Artikel ini menerangkan sifat-sifat struktur pengesanan teks AI. Nombor tertentu merujuk kepada pengesahan dalaman kami dan mungkin tidak boleh digeneralisasikan. Kami mengemas kini halaman ini apabila penyelidikan baharu dan keluaran penjana memerlukannya.