Ev › Tespit Edilmesi En Zor YZ Hangisi? GPT vs Claude vs Gemini | İntihal Dedektörü

Tespit Edilmesi En Zor YZ Hangisi? GPT vs Claude vs Gemini vs Llama

Her YZ metni eşit derecede tespit edilebilir değildir. İşte jeneratör başına kıyaslamamızın sonuçları — dedektörümüzün neredeyse mükemmel doğrulukla yakaladığı model aileleri, zorlandıkları ve bunun bir tespit iş akışı seçme hakkında söyledikleri.

2026-04-17 · Plagiarism Detector Team

Kısa Cevap — Sıralama

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Doğrulama setimizdeki tespit edilmesi en kolaydan en zora doğru sıralanmıştır. Yayılım geniştir — bazı model ailelerindeki AUC 0,99'u aşarken diğerleri 0,80'lere düşer. Tespit zorluğu, model boyutu, talimat ayarı gelişmişliği ve çıktı varyansıyla ilişkilidir.

Tam jeneratör başına dağılım metodolojisi için doğruluk kıyaslama sayfamıza bakın. Bu makale, hangi dedektöre güvenileceğini ve hangi modelin kullanılacağını seçen kullanıcılar için bu verilerin pratik çıkarımlarını özetlemektedir.

OpenAI Ailesi — GPT

GPT-3.5, setimizdeki AUC [AUC: ?] ile tespit edilmesi en kolay modern modeldir. Eski nesil üretim artefaktları (tekrar, çekingenlik, sıradan kayıt) açıkça mevcuttur. GPT-4, AUC [AUC: ?]'a düşer, GPT-4o ise giderek daha iyi kalibrasyon yansıtarak [AUC: ?]'a iner. GPT-5.x, ailenin en zor olanıdır — AUC [AUC: ?] — çünkü talimat ayarı ekibi tespit artefaktı kaldırmayı açıkça hedeflemiştir.

Pratik çıkarım: GPT-3.5 dönemi sahtekârlığından endişe duyan akademik iş akışları yalnızca tespite büyük ölçüde güvenebilir. GPT-5'ten endişe duyan iş akışlarının, öğretmen iş akışı kılavuzumuzda açıklandığı gibi tespiti bağlamsal kanıtla eşleştirmesi gerekir.

Sıcaklık ayarları önemlidir. Düşük sıcaklıktaki çıktılar (t≤0,5), daha dar bir kelime dağarcığında olasılık kütlesini yoğunlaştırdığından tespit edilmesi daha kolaydır. Çoğu sohbet arayüzü varsayılan olarak t≈0,7'ye ayarlıdır ve metni orta derecede tespit edilebilir bir bölgeye yerleştirir. Düşmanca kullanıcılar, aralığı genişletmek ve tespiti atlatmak için sıcaklığı açıkça artırır veya çeşitli kod çözme kullanır — topluluğumuz bunu kısmen düzeltir ancak tam olarak değil.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude ailesi, aynı nesil GPT modellerinden tutarlı biçimde daha az tekrarlayıcı, daha stilistik açıdan çeşitli metinler üretir; bu da istatistiksel yöntemler aracılığıyla tespit edilmesini zorlaştırır.

Claude'un anayasal-YZ eğitimi, denetimli sınıflandırıcımızın öğrendiği “makine belirtilerini” özellikle hedefler — çekingenlik örüntüleri, belirli bağlaçların aşırı kullanımı, öngörülebilir paragraf yapısı. Bu, doğrudan bir düşmanca ilişkidir: jeneratör, dedektörün dayandığı özelliklere karşı eğitilir.

Claude 4.5 Sonnet ve GPT-5.x, zorluk açısından birbirine yakındır. Skor dağılımları, doğrulama verilerimizde insan temelini en fazla örtüşenlerdir. İş akışınız bu modellerden birini hedefliyorsa, varsayılan eşikte düşük geri çağırma bekleyin ve yüksek duyarlılıklı tarama için F1-optimal'e düşürmeyi düşünün.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini, sürümler arasında en değişken tespit performansını göstermiştir — bazı ara sürümler, iyileştirmeler gelmeden önce geçici olarak gerilemiştir.

Gemini'nin çok modlu eğitimi, yalnızca metin çıktılarının zaman zaman görüntü açıklaması veya kod yorumlama alanlarından körelmiş örüntüler taşıması anlamına gelir. Dedektörümüz bunları fark eder; bu da Gemini'nin saf düzyazıdan daha çok karma alan istemleri üzerinde neden biraz daha yüksek tespit edilebilirliğe sahip olduğunu açıklar.

Öğrencilerinin veya çalışanlarının Gemini'yi Dokümanlar aracılığıyla kullanan Google Workspace kullanıcıları için tespit sinyali, ham API çıktısına benzerdir. Doğrudan Gemini API kullanımından farklı, çalışma alanı entegrasyonuna özgü kaçınma örüntüleri gözlemlemedik.

Herhangi bir modelden bir örnek kontrol edin

Herhangi bir LLM'den çıktı yapıştırın ve cümle başına kararı görün. Dedektörümüz tüm 22 model ailesini tek bir topluluk denetimi olarak ele alır.

Meta ve Açık Ağırlıklı Modeller

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Açık ağırlıklı modeller, kapalı olanlardan daha geniş bir aralığa yayılır — ince ayar varyantları, nicelenmiş dağıtımlar ve topluluk tarafından değiştirilmiş kontrol noktaları hepsi biraz farklı çıktılar üretir.

Açık ağırlıklı modellerde tespit, stratejik açıdan önemlidir çünkü insanlaştırıcı araçlar genellikle açık ağırlıklı modeller üzerine inşa edilir — Llama ve Mistral türevleri düşük maliyetle yerel olarak çalışır; bu nedenle yeniden ifade etme ve stil transferi hizmetleri onları kullanmaktadır. Endişeniz insanlaştırılmış YZ ise, nihayetinde Llama ailesi üretimine karşı savunuyorsunuz.

DeepSeek R1 ve o3-mini (OpenAI akıl yürütme modeli) ayrı bir söz hak eder. Her ikisi de çıktıda görünür adım adım mantık içeren akıl yürütme zinciri artefaktlarıyla metin üretir; dedektörümüz bunları tanımayı öğrenmiştir. Akıl yürütme modelleri, bu nedenle şu anda temel sohbet karşıtlarından daha kolay tespit edilmektedir.

Bu Farklılıklar Sizin İçin Ne Anlama Geliyor

Yazma için bir model seçiyor ve tespit sizin için endişe değilse, Claude 4.5 Sonnet ve GPT-5 tespit edilmesi en zor olanlardır. Bir tespit iş akışı oluşturuyorsanız, gerçekten gördüğünüz modeller için öncelik verin: çoğu akademik kötüye kullanım hâlâ ücretsiz arayüzler üzerinden GPT-4/5 üzerinde çalışır; çoğu içerik çiftliği Llama türevi insanlaştırıcılar üzerinde çalışır.

Tek bir model ailesinde eğitilmiş tek bir dedektör, diğerlerinde en kötü performansı gösterir. Topluluk yaklaşımımız tüm 22 jeneratörden gelen örnekler üzerinde eğitim yapar; bu nedenle zor durumlarda (Claude 4.5, GPT-5) model başına AUC hâlâ 0,90'ın üzerindeyken, tek model eğitimli herhangi bir dedektör 0,80'in altına düşerdi.

Temel eğilim: tespit zorluğu, jeneratör piyasaya çıkış hızından daha hızlı artıyor. Her yeni amiral gemisi, bir öncekinden daha zor tespit edilir; yeniden eğitim boşluğu kapatır ama tam olarak değil. 2026–2027 temelinin, sınır modellerde daha düşük AUC ve eski nesil modellerde kabaca sabit olmasını bekleyin.

Sıkça Sorulan Sorular

Bazı modeller tespit edilmesi daha zorsa, dedektörleri hiç kullanmaktan vazgeçmeli miyim?

Hayır — en zor model ailelerinde bile AUC'umuz 0,85'in üzerindedir, bu da güçlü bir sinyaldir. Soru, sinyali nasıl kullandığınızdır. Tespit edilmesi zor modeller için, skoru destekleyici kanıtlarla eşleştirin (düzenleme geçmişi, sınıf içi çalışma, öğrenci görüşmesi). Daha kolay modeller için, skor tek başına çoğunlukla yeterlidir.

Tespiti önlemek için hangi modeli kullanmalıyım?

Bu soruyu doğrudan yanıtlamıyoruz — bir tespit aracı çalıştırıyoruz, kaçınma rehberi değil. Söyleyeceğimiz şu: tespit edilebilir-tespit edilemez ekseni, model seçmek için doğru eksen değildir. Kalite, maliyet ve amaca uygunluk, tespit zorluğundan çok daha fazla önem taşır. YZ yardımıyla meşru biçimde yazıyorsanız, aracı gizlemekten daha fazla açıklama ve şeffaf iş akışı önem taşır.

Açık ağırlıklı model varyantlarının farklı tespit profilleri var mı?

Evet ve bu anlamlı bir farktır. Belirli bir yazma stili için topluluk tarafından ince ayarlı bir Llama 3.3 varyantı, vanilla Llama 3.3'ten farklı puanlayan metinler üretebilir. Kıyaslamamız standart kontrol noktasını kapsar; özel ince ayarlar çıktı dağılımlarını daraltırlarsa daha kolay (veya açıkça düşmanca eğitim tespite karşı yapılırsa daha zor) olabilir.

Sıcaklık ve örnekleme tespit edilebilirliği nasıl etkiler?

Daha yüksek sıcaklık ve daha çeşitli örnekleme, çıktı dağılımını genişlettiğinden genel olarak tespit edilebilirliği azaltır. Düşük sıcaklıklı açgözlü kod çözme, tespit edilmesi en kolaydır. Çoğu üretim sohbet arayüzü nükleer örnekleme ile t≈0,7–1,0 arasında çalışır ve bunları orta derecede tespit edilebilir bir rejime yerleştirir — topluluğumuz, varsayılan aralık boyunca benzer performans gösterir.

GPT-6 veya Claude 5 ne zaman gelecek ve ne beklemeliyim?

Her ikisi için de 2026 ortası, uzlaşı tahminidir. Piyasaya çıkıştan sonraki ilk 4–8 hafta içinde yeni ailelerdeki tespit AUC'unun örnekler toplayıp yeniden eğitirken 0,80–0,85 bandına düşmesini bekleyin. Tarihsel sürümler, modelin geniş çapta erişilebilir olması durumunda 8–12 hafta içinde tam toparlanmayı öngörüyor; nadir veya sınırlı erişimli modeller için daha uzun sürebilir.

Model başına AUC rakamları dahili doğrulamamızdan elde edilmiştir ve genelleşmeyebilir. Her modelin zorluğu, hem jeneratör hem de eğitim gövdemiz geliştikçe zaman içinde değişir. Mevcut veriler, 2026-04 kıyaslama çalışmasını yansıtmaktadır.