Tespit ve üretim, kedi-fare oyununun içine kilitlenmiştir. Her yeni model sürümü, dedektörlerin dayandığı istatistiksel boşluğu kapatır — her tespit iyileştirmesine yeni bir insanlaştırıcı araçla karşılık verilir. İşte kaputun altında gerçekte neler oluyor.
Her YZ metin dedektörü, özünde istatistiksel bir ayrıştırıcıdır — metnin özelliklerine (belirteç olasılıkları, şaşkınlık, patlamalılık, sözdizimsel düzenlilik) bakarak makine tarafından üretilen içeriği insan tarafından yazılandan ayırt eden sinyaller bulmaya çalışır. Binoculars yöntemi (ICML 2024), sinyal olarak iki dil modeli arasındaki çapraz şaşkınlığın oranını kullanır. ModernBERT denetimli yaklaşımı ise sinyali doğrudan etiketlenmiş örneklerden öğrenir.
Her iki yaklaşım da temel bir açıklığa sahiptir: dayandıkları sinyaller, modellerin metin üretme biçiminin yan etkileridir; makine yazımının temel özellikleri değildir. Jeneratörler geliştikçe bu yan etkiler küçülür. Daha insanca yazmak üzere eğitilen bir model — tanımı gereği — tespit edilmesi daha zor olacaktır.
Bu bir araştırma başarısızlığı değil. Problemin yapısal bir gerçeğidir. Tespit, hareketli bir hedef üzerinde çalışır: her önemli LLM sürümü boşluğu daraltır, her insanlaştırıcı araç dedektör çıktılarına karşı açıkça eğitilir. Soru ‘sonsuza kadar %100 tespit elde edebilir miyiz’ — bu imkânsızdır — değil, ‘pratikte yararlı olacak kadar uzun süre mevcut neslin önünde kalabilir miyiz’ sorusudur.
Üç üretim eğilimi tespiti zorlaştırıyor. Boyut: daha büyük modeller, daha zengin iç dağılımlara sahip oldukları için istatistiksel açıdan daha çeşitli metinler üretir. 70 milyar parametreli bir modelin 7 milyar parametreli olandan daha geniş bir insana benzer çıktı aralığı vardır. Talimat ayarı: RLHF ve anayasal yöntemler modellere GPT-3'ü kolayca tespit edilebilir kılan tekrarlayıcı, çekingen, sıradan örüntülerden kaçınmayı öğretir. Sıcaklık ve örnekleme: sohbet arayüzleri çekirdek örnekleme ve rastgeleliğe doğru kaymış olup klasik dedektörlerin çıpa olarak kullandığı düşük varyans örüntülerini kırmaktadır.
GPT-5, Claude 4.5 ve Gemini 2.5, seleflerinden belirgin biçimde daha zor tespit edilmektedir. Dahili doğrulamalarımız bunu doğrulamaktadır: her model nesli, o ailedeki AUC'umuzu bir önceki nesle kıyasla 5–10 yüzde puanı düşürmektedir. Model başına rakamlar için doğruluk kıyaslamamıza bakın.
İnsanlaştırıcı araçlar — Undetectable AI, StealthWriter, Humanbeing ve büyüyen bir liste — açık düşmanlardır. YZ çıktısını alır ve dedektörleri özellikle yenmek için yeniden ifade eder, yeniden yazar veya stil transferi yaparlar. Kamuya açık dedektörlere karşı (model ağırlıklarımızı hiçbir zaman paylaşmamamıza rağmen bizimkiler de dahil) eğitilirler ve her güncellemede ölçülebilir biçimde daha iyi hale gelirler.
Dedektörlerin üretim silah yarışına üç yanıtı vardır. Topluluk oluşturma: herhangi bir kaçınma taktiğinin yetersiz kalması için birden fazla tespit sinyalini birleştirmek. Denetimli ModernBERT ile sıfır-atış Binoculars topluluğumuz bundan yararlanır: bir bileşeni yenen bir insanlaştırıcı çoğunlukla diğerine takılır ve topluluk skoru her ikisini de yakalar.
Sürekli yeniden eğitim: piyasaya çıkışından sonraki 4 hafta içinde her önemli yeni jeneratör sürümünden örnekler ekliyoruz. GPT-6 yarın çıkarsa, eğitim gövdemiz gelecek ayın ortasına kadar onu kapsayacaktır. Bu pahalıdır — hesaplama, etiketleme, yeniden doğrulama — ama tespiti güncel tutmanın tek yolu budur. Yılda bir veya daha az yeniden eğiten dedektörler, bir yıl içinde fiilen müze eseri haline gelir.
Düşmanca eğitim: insanlaştırılmış YZ örnekleri ve yeniden ifade edilmiş çıktılar üzerinde kasıtlı olarak eğitim yaparak modele yüzeysel stil transferini görmesini öğretiyoruz. Bu, bir insanlaştırıcının bizi atlatmak için yapması gerekenin alt sınırını yükseltir ve silah yarışını yavaşlatır.
İnsanlaştırıcı araçlar aslında nasıl çalışır? Üç geniş kategori. Yeniden ifade etme: ikincil bir LLM kullanarak metni kelime kelime veya cümle cümle yeniden yazmak. Tam belirteç dizilerine dayanan naif dedektörlere karşı etkilidir; istatistiksel yöntemlere karşı orta düzeyde etkilidir. Stil transferi: metni belirli bir yazar veya kayıt biçimini taklit edecek şekilde dönüştürmek. Daha etkilidir — dedektörümüzün AUC'u stil transferli YZ metninde ~8 puan düşmektedir.
Karma insan-YZ düzenlemesi: yazar bir taslak yazar, YZ ile cilalar, ardından cilalanan sürümü elle düzenler. Bu en zor durumdur — dedektörün göremeyeceği düzenleme geçmişi meta verisi olmadan insan ve makine sinyallerini cümle düzeyinde harmanlayan meşru işbirlikçi çalışma. Bizimkiler de dahil hiçbir dedektör bunları güvenilir biçimde çözemez.
Yararlı bir zihinsel model: bir insanlaştırıcı, dedektör kırıcı değil, kaçınan kişi için bir maliyet çarpanıdır. Zaman, bazen para ve her zaman hata riski ekler. Çoğu akademik hile girişimi insanlaştırıcı kullanmaz çünkü sürtünme faydayı geçer. İnsanlaştırıcıların hâkim olduğu yer, işlem hacminin önemli olduğu ve kalite kontrolünün zayıf olduğu profesyonel içerik üretim çiftlikleri ve YZ tarafından oluşturulan SEO spam'ıdır.
Herhangi bir belgeyi yapıştırın ve cümle başına kararı gerçek zamanlı izleyin. Yukarıda açıklanan topluluk mantığı, metniniz üzerinde 30 saniye içinde çalışır.
Tek sinyalli bir dedektörün tek bir başarısızlık modu vardır. Yalnızca şaşkınlığa güvenirseniz, değiştirilmiş belirteç olasılıklarına sahip yeniden ifade edilmiş çıktı sizi yener. Yalnızca denetimli bir sınıflandırıcıya güvenirseniz, dağılım dışı metin (yeni bir model ailesi, yeni bir yazma alanı) sizi yener. Bir topluluk, zayıflıkları ortalar: şaşkınlığı yenen yeniden ifade, muhtemelen hâlâ denetimli kafayı tetikler ve bunun tersi de geçerlidir.
Üretim dedektörümüz açıkça bir topluluktur: %35 Binoculars (sıfır-atış, model bağımsız, dağılım dışına dayanıklı) + %65 ModernBERT (denetimli, alana özgü, dağılım içi metinde yüksek hassasiyet). Ağırlıklar ampirik olarak seçildi — ModernBERT baskın olduğunda ancak Binoculars uç durumlarda veto yetkisi koruduğunda topluluk AUC maksimum düzeye ulaştı.
Sonuç: bir insanlaştırıcı aracının artık kararımızdan kaçmak için iki önemli ölçüde farklı tespit mimarisini aynı anda yenmesi gerekiyor. Kamuya açık insanlaştırıcılar genellikle tek bir hedef dedektöre karşı eğitilir; bu da o belirli dedektöre karşı çoğunlukla başarılı olduklarını ancak bir topluluğa karşı başarısız olduklarını gösterir. Bu, tespitinin mevcut silah yarışındaki birincil yapısal avantajıdır.
2026–2027 döneminde ne beklemeliyiz? GPT-6 ve Claude 5 muhtemelen yıl ortası sürümleridir; her ikisi de boşluğu daha da daraltacaktır. Açık ağırlıklı modeller — Llama 4, Qwen 4 — yüksek kaliteli üretimi emtia haline getirmeye ve insanlaştırıcıları ölçekte çalıştırmayı ucuzlatmaya devam edecektir. Sınır modellerindeki tespit AUC'u, yeniden eğitim düzeltmeden önce piyasaya çıkışın ilk yılında muhtemelen 0,80–0,90 bandına düşecektir.
Savunma tarafında: çok modlu sinyaller (yazma dinamikleri, düzenleme geçmişi, bilinen bir gövdeye karşı yazarlık doğrulaması) 24 ay içinde saf metin tabanlı tespiten daha fazla önem kazanacaktır. Yalnızca metin dedektörümüz ilk filtre olmaya devam edecek ancak giderek daha zengin bir kanıt yığınında bir oy üyesine dönüşecektir.
Dürüst sonuç: saf metin tabanlı tespit hiçbir zaman %100'e ulaşamayacak. Dağılım içi metinde yaklaşık %90–95 AUC'da, sınır modellerinde ise %75–85 civarında bir platoya ulaşacaktır. İş akışınız kesinlik gerektiriyorsa, skorun ötesinde kanıta ihtiyacınız var. İş akışınız insan incelemesini önceliklendirmek için güçlü bir sinyal gerektiriyorsa, metin tabanlı tespit yararlı olmaya devam eder ve hiç tarama yapmamaktan ölçülebilir biçimde daha iyidir.
Bu makale, YZ metin tespitinin yapısal özelliklerini açıklamaktadır. Belirli rakamlar dahili doğrulamamıza atıfta bulunmaktadır ve genelleşmeyebilir. Bu sayfayı yeni araştırmalar ve jeneratör sürümleri gerektiğinde güncelleriz.