Ev › İntihal Tespiti Nasıl Çalışır: Teknolojinin Açıklaması

İntihal Tespiti Nasıl Çalışır: Teknolojinin Açıklaması

2025-02-15 · Plagiarism Detector Team

Metin Çıkarma ve Belge Ayrıştırma

Herhangi bir intihal analizi başlamadan önce, yazılım teslim edilen belgeden temiz, aranabilir metin çıkarmalıdır. Bu, göründüğünden daha karmaşık bir sorundur; çünkü belgeler çok çeşitli biçimlerde gelir (DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT ve HTML dahil diğerleri). Her birinin biçimlendirme, meta veri, gömülü nesneler ve kodlama açısından kendine özgü iç yapısı vardır. Güvenilir bir metin çıkarma hattı, karşılaştırmaya uygun normalleştirilmiş düz metin üretmek için tüm bu biçimleri tutarlı biçimde işleyebilmelidir.

İntihal Dedektörü, güvenilirliği en üst düzeye çıkarmak için 5 katmanlı metin çıkarma mimarisi kullanır. DOCX dosyaları için ilk katman, yerel DocX XML yapısını doğrudan ayrıştırır. Bu başarısız olursa (bozulma veya standart dışı biçimlendirme nedeniyle) sistem, Microsoft'un iFilter arabirimine, ardından ham OpenXML ayrıştırmaya ve son olarak son çare evrensel çıkarıcı olarak Apache Tika'ya geri düşer. Bu basamaklı yaklaşım, hasarlı veya standart dışı belgelerin bile kullanılabilir metin üretmesi anlamına gelir. Aynı çok katmanlı ilke, 12'den fazla desteklenen biçim genelinde geçerlidir ve hiçbir belgenin işlenmeden kalmamasını sağlar.

Çıkarma işlemi aynı zamanda kodlama normalleşmesini de kapsar; çeşitli karakter kodlamalarından (UTF-8, UTF-16, Windows-1252, ISO-8859 varyantları) gelen metni birleşik bir iç gösterime dönüştürür. Bu kritiktir, çünkü kodlama uyumsuzlukları özdeş metni bayt düzeyinde farklı görünmesine yol açabilir ve bu da kaçırılan intihal eşleşmelerine neden olur. Uygun çıkarma, her sonraki tespit aşaması için temeli atar.

Metin Parmak İzi Alma

Temiz metin çıkarıldıktan sonra, tespit motoru onu metin parmak izi alma adı verilen bir işlemle analiz edilebilir birimlere böler. Belge, örtüşen sözcük dizilerine (n-gramlar) bölünür ve her dizi kompakt bir sayısal karma değere (parmak izi) dönüştürülür. Bu parmak izleri, her seferinde pahalı tam metin karşılaştırmaları yapmadan diğer kaynaklardan gelen parmak izleriyle hızla karşılaştırılabilen verimli tanımlayıcılar olarak hizmet eder.

Parmak izi alma algoritması, hassasiyet ile verimlilik arasında denge kurmalıdır. Kısa n-gramlar (3-4 sözcük) daha fazla eşleşme yakalar ancak yaygın ifadelerden aşırı yanlış pozitifler üretir. Daha uzun n-gramlar (8-10 sözcük) daha özgüldür ancak birkaç sözcüğün değiştirildiği intihal vakalarını kaçırabilir. Gelişmiş sistemler, değişken uzunluklu parmak izini temsili bir parmak izi alt kümesi seçen ayıklama algoritmaları ile birleştirerek, karşılaştırma alanını herhangi boyuttaki belgeler için yönetilebilir tutarken tespit doğruluğunu korur.

Arama Motoru Sorgulama

Belge parmak izi alındıktan sonra tespit motoru, söz konusu parmak izlerini İnternet'teki mevcut içerikle karşılaştırmalıdır. İntihal Dedektörü, özgün bir yaklaşım benimser: tek bir tescilli veritabanına güvenmek yerine, dört büyük arama motorunu eş zamanlı olarak sorgular (Google, Bing, Yahoo ve DuckDuckGo) ve 4 milyarı aşkın web sayfasından oluşan birleşik dizinlerine erişir. Bu çok motorlu strateji, her arama motorunun web'in farklı bölümlerini dizine ekleyip sonuçları farklı biçimlerde sıraladığı göz önüne alındığında, kaynak kapsamını dramatik biçimde artırır.

Sorgulama süreci, arama sorgusu olarak gönderilecek metin parçalarının akıllıca döndürülmesini ve seçilmesini kullanır. Her parmak izi sorgulanmaz; motor, genel ifadeler yerine anlamlı eşleşmeler döndürme olasılığı en yüksek olan, belgeden en ayırt edici pasajları seçer. Sorgu zamanlaması, hız sınırlarını yönetir ve iş yükünü motorlar arasında dağıtarak verimi korur. Sonuç, hiçbir tek motorlu yaklaşımın kopyalayamayacağı, kamuya açık İnternet içeriğinin akademik depolar, haber arşivleri, içerik fabrikaları, makale değirmenleri ve genel web sayfaları dahil kapsamlı bir taramasıdır.

Kaynak Alma ve Karşılaştırma

Arama motoru sorguları potansiyel eşleşen URL'ler döndürdüğünde, tespit motoru kaynak alma ve karşılaştırma aşamasına girer. Her aday kaynak sayfası alınır, içeriği çıkarılır ve normalleştirilir (gerçek makale metnini izole etmek için HTML etiketleri, navigasyon öğeleri, başlıklar ve alt bilgiler soyulur), ardından teslim edilen belgeyle hizalanır. Bu hizalama, noktalama işareti, boşluk ve biçimlendirmedeki küçük farklılıkları hesaba katan ve iki metin arasındaki en uzun ortak alt dizileri tanımlayan dizi eşleme algoritmalarını kullanır.

Karşılaştırma tam eşleşmelerle sınırlı değildir. Motor, tek tek sözcüklerin eşanlamlılarla değiştirildiği, cümle sırasının yeniden düzenlendiği veya bağlantı ifadelerinin eklendiği ya da kaldırıldığı pasajları tanımlamak için bulanık eşleme gerçekleştirir. Bu, en yaygın kaçınma tekniğini yakalar: özgün anlam ve yapıyı koruyan yüzeysel yeniden ifadelendirme. Eşleşen her segment, kaynak URL'si, örtüşme yüzdesi ve karşılık gelen belirli metin parçalarıyla birlikte kaydedilerek özgünlük raporu için ham veri oluşturulur.

Benzerlik Puanlaması

Tüm kaynaklar alındıktan ve karşılaştırıldıktan sonra motor, teslim edilen belgenin harici kaynaklarla ne kadar eşleştiğini temsil eden bir yüzde olan benzerlik puanını hesaplar. Bu hesaplama, basit bir oranın ötesinde nüanslidır. Motor, farklı eşleşme türleri arasında ayrım yapar: tam kopyalar, yakın eşleşmeler (parafraz edilmiş pasajlar), uygun şekilde alıntılanmış ve atıflandırılmış materyal ve intihal göstermeyen yaygın ifadeler veya standart metin.

İntihal Dedektörü'nün referans tespit sistemi, belgede alıntıları, tırnak içindeki ifadeleri ve kaynakça referanslarını otomatik olarak tanımlar ve bunları atıflandırılmamış eşleşmelerden farklı biçimde değerlendirir. Tırnak işaretleri içine alınmış ve ardından atıf gelen bir metin bloğu, intihal olarak değil, meşru bir referans olarak işaretlenir. Bu, özellikle kaynakları doğru kullanımları nedeniyle iyi araştırılmış makaleleri cezalandıracak şişirilmiş benzerlik puanlarını önler. Nihai puan, gerçek özgünlük endişelerini yansıtır ve gözden geçirene anlamlı ve uygulanabilir bir ölçüt sunar.

Yapay Zekâ İçerik Tespiti

Yapay zekâ tarafından oluşturulan metin giderek yaygınlaştıkça, intihal tespiti mevcut herhangi bir kaynaktan kopyalanmamış ancak yine de özgün insan çalışması olmayan içeriği ele almak zorundadır. İntihal Dedektörü, ChatGPT, Gemini ve HuggingChat dahil büyük dil modelleri tarafından üretilen metni tanımlayabilen, 0,98 duyarlılıkla entegre bir yapay zekâ içerik tespiti modülü içermektedir. Tespit, metnin istatistiksel özelliklerini (sözcük frekansı dağılımları, cümle düzeyinde şaşkınlık, patlamalılık kalıpları ve jeton olasılık dizileri) analiz ederek çalışır; bunlar insan ile makine yazımı arasında sistematik olarak farklılık gösterir.

İnsan yazımı, cümle uzunluğunda daha fazla değişkenlik, daha öngörülemeyen sözcük seçimleri ve karmaşıklıkta düzensiz kalıplar sergileme eğilimindedir. Buna karşılık yapay zekâ tarafından üretilen metin, daha düzgün cümle yapısına sahip istatistiksel olarak olası sözcük dizilerine ve olasılık dağılımında karakteristik bir "pürüzsüzlüğe" yönelir. Tespit modeli, hem insan hem de yapay zekâ metninden oluşan büyük külliyatlar üzerinde eğitilmiştir ve ayrıntılı sonuçlar sağlamak için paragraf düzeyinde çalışır. Bu analiz, geleneksel intihal tespiti ile birlikte tek bir taramada çalışır; dolayısıyla gözden geçirenler, ayrı araçlara veya iş akışlarına ihtiyaç duymadan hem kopyalanan içeriği hem de yapay zekâ tarafından oluşturulan pasajları kapsayan birleşik bir rapor alır.

Hile Önleme Teknolojisi

Sofistike kullanıcılar, çeşitli teknik hileler kullanarak intihal tespitini geçersiz kılmaya çalışır. En yaygın kaçınma tekniği, Unicode karakter ikamesidir; Latin karakterlerin diğer Unicode komut dosyalarından görsel olarak özdeş karakterlerle değiştirilmesi. Örneğin, Kiril harfi "а" (U+0430) ekranda Latin harfi "a" (U+0061) ile özdeş görünür; ancak kod noktası düzeyinde farklı karakterlerdir. Saf bir metin karşılaştırması, Kiril "a" ile yazılan "academic" kelimesini tamamen farklı bir kelime olarak değerlendirerek intihal yapılan pasajın tespiti tamamen atlatmasına neden olurdu.

İntihal Dedektörü bunu, Unicode Hile Önleme Motoruyla (UACE) ele alır. Karşılaştırmadan önce UACE, Kiril, Yunan, Ermeni ve benzer görünen karakterler içeren diğer komut dosyaları genelinde görsel olarak eşdeğer karakterleri Latin eşdeğerlerine eşleyerek tüm metni normalleştirir. Motor, yüzlerce karakter çiftini kapsayan kapsamlı bir ikame tablosu sürdürür. Bu normalleştirme, metin çıkarma aşamasında şeffaf biçimde gerçekleşir; dolayısıyla her sonraki tespit aşaması, kaynak belgeye hangi karakter hileleri uygulanmış olursa olsun temiz, kanonik metin üzerinde çalışır.

Karakter ikamesinin ötesinde UACE, sözcükler veya harfler arasına görünmez Unicode karakterlerin (sıfır genişlikli boşluklar, sıfır genişlikli birleştiriciler, yumuşak kısa çizgiler) eklenmesi, belgeler içinde beyaz metin üzerine gizlenmiş beyaz renkli metin ve tanınabilir ifadeleri parçalamak için eklenen mikro yazı tipi metni dahil diğer kaçınma yöntemlerini de tespit eder. Bu teknikler, gözden geçireni yazarın tespiti kasıtlı olarak engellemeye çalıştığı konusunda uyaran ve bunun intihal niyetinin güçlü bir kanıtı olan özgünlük raporunda kasıtlı manipülasyon girişimi olarak işaretlenir.

Metninizi İntihal Dedektörü ile Kontrol Edin

Ücretsiz bir demo indirin veya intihal ve yapay zeka tarafından oluşturulan içeriği kontrol etmeye başlamak için bir lisans satın alın.

Özgünlük Raporları

Tespit sürecinin doruk noktası, tüm bulguları organize ve gözden geçirilebilir bir biçimde sunan ayrıntılı bir belge olan Özgünlük Raporudur. Rapor, teslim edilen metinde eşleşen pasajları renge göre kodlanmış kaynakla birlikte vurgular ve her eşleşmeyi karşılık gelen URL'ye veya veritabanı girişine bağlar. Özet bölümü, genel benzerlik puanını, eşleşen kaynak sayısını, tespit edilen yapay zekâ kaynaklı içerik yüzdesini ve eşleşme türlerinin dökümünü (tam, parafraz edilmiş, atıflandırılmış) gösterir.

Kurumlar için Özgünlük Raporları, kuruluşun logosuyla markalı hâle getirilebilir ve akademik dürüstlük kayıtları için uygun profesyonel, standartlaştırılmış bir biçim sunar. Raporlar kanıt niteliğinde olacak şekilde tasarlanmıştır; resmî inceleme süreçleri, akademik dürüstlük duruşmaları veya hukuki bağlamlarda kullanılmaya uygundur. Rapordaki her iddia bağımsız olarak doğrulanabilir: gözden geçirenler eşleşmeyi kendi gözleriyle doğrulamak için orijinal kaynağa tıklayabilir. Bu şeffaflık, intihal bulgularının savunulabilir ve adil olmasını sağlayarak hem inceleme sürecinin bütünlüğünü hem de değerlendirilen kişinin haklarını korur.

Masaüstü ile Bulut İşleme Karşılaştırması

İntihal tespitinde temel mimari seçim, belgelerin kullanıcının kendi makinesinde yerel olarak mı yoksa uzak bir bulut sunucusuna yüklenerek mi işlendiğidir. Bulut tabanlı intihal denetleyicileri, kullanıcıların belgelerini sağlayıcının sunucularına yüklemesini gerektirir; burada metin çıkarılır, analiz edilir ve çoğunlukla bir veritabanında saklanır. Bu durum, özellikle hassas akademik araştırma, yayımlanmamış el yazmaları, hukuki belgeler ve kurumsal materyaller için ciddi gizlilik ve gizlilik endişeleri doğurur. Bulut hizmetlerine yüklenen belgeler saklanabilir, dizine eklenebilir veya yapay zekâ modellerini eğitmek için kullanılabilir; veri ihlalleri ise gizli içeriği ifşa edebilir.

İntihal Dedektörü tamamen masaüstünde çalışır. Belgeler yerel olarak açılır, ayrıştırılır ve analiz edilir; tam metin hiçbir zaman harici bir sunucuya iletilmez. Yalnızca seçilen metin parçaları (arama sorguları), bir insanın tarayıcıda bir ifadeyi manuel olarak arayacağı şekilde karşılaştırma için arama motorlarına gönderilir. Bu mimari temel bir gizlilik güvencesi sağlar: tam belge hiçbir zaman kullanıcının makinesini terk etmez. Hassas materyaller işleyen kurumlar için (kısa yazıları kontrol eden hukuk firmaları, makaleleri inceleyen tıp araştırmacıları, raporları denetleyen devlet kurumları) bu masaüstü öncelikli yaklaşım yalnızca bir tercih değil, uyumluluk gereksinimidir. Tek seferlik satın alma modeliyle birleştirildiğinde (yinelenen abonelik yoktur) hem gizlilik hem de maliyet öngörülebilirliği sunar.

Sıkça Sorulan Sorular

Bir intihal denetleyici kaç kaynağı tarar?

İntihal Dedektörü, birlikte 4 milyarın üzerinde web sayfasını kapsayan dört büyük arama motorunun — Google, Bing, Yahoo ve DuckDuckGo — birleşik dizinlerinde arama yapar. Bu; akademik depolar, haber arşivleri, bloglar, içerik platformları ve genel web'i kapsar. Ayrıca PDAS özelliğini kullanan kurumlar, kendi özel belge veritabanlarında arama yapabilir. Çok motorlu yaklaşım, tek bir arama motoruna veya özel bir veritabanına dayanan araçlara kıyasla çok daha geniş bir kapsam sağlar.

İntihal tespiti, parafraz yapılmış içerikleri yakalayabilir mi?

Evet. Modern intihal tespiti, tam eşleşme karşılaştırmasının ötesine geçer. İntihal Dedektörü, ifadeler değiştirilmiş ancak temel anlam ve yapı özgün kaynaktan korunmuş pasajları tespit etmek için anlamsal analiz yapan yeniden yazma tespiti teknolojisini kullanır. Bu özellik, kasıtlı intihalin en yaygın biçimini — başkasının fikirlerini yeterli atıf yapmadan sözcük bazında eşleşmeyi önleyecek kadar yeniden ifade etmeyi — yakalar.

İntihal tespit araçları hangi dosya biçimlerini işleyebilir?

İntihal Dedektörü, DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT ve HTML dahil olmak üzere 12'den fazla belge biçimini destekler. Beş aşamalı metin çıkarma hattı, hasarlı, karmaşık veya standart dışı dosyalarda bile güvenilir ayrıştırma sağlar. Her biçim için sistem, yerel biçim ayrıştırıcıdan evrensel yedek çıkarıcılara uzanan basamaklı çıkarma yöntemlerini kullanır; böylece desteklenen biçimde sunulan neredeyse her belge başarıyla işlenir ve analiz edilir.

Bir intihal denetleyici kullandığımda belgem saklanır veya paylaşılır mı?

İntihal Dedektörü ile cevap hayırdır. Masaüstü bir uygulama olduğundan belgeniz tamamen yerel makinenizde açılır ve işlenir. Belgenin tam metni hiçbir sunucuya yüklenmez. Yalnızca kısa metin parçacıkları, bir web tarayıcısında manuel olarak yapacağınız aramalarla aynı şekilde, genel arama motorlarına sorgu olarak gönderilir. Bu, bulut tabanlı intihal denetleyicilerden temel farkı oluşturur; söz konusu araçlar tam belge yüklemesi gerektirir ve içeriğinizi saklayabilir, dizine ekleyebilir veya kullanabilir. Masaüstü işleme, doğrulanabilir bir gizlilik güvencesi sağlar.

Yapay zeka içerik tespiti, intihal tespitinin yanında nasıl çalışır?

İntihal Dedektörü, yapay zeka içerik tespitini ve geleneksel intihal tespitini tek bir entegre taramada çalıştırır. İntihal motoru, kopyalanmış veya parafraz yapılmış içerik için metni İnternet kaynaklarıyla karşılaştırırken yapay zeka tespit modülü eş zamanlı olarak metnin istatistiksel özelliklerini — şaşkınlık, patlama etkisi ve belirteç olasılık kalıpları — analiz ederek ChatGPT, Gemini veya HuggingChat gibi modeller tarafından üretilmiş olması muhtemel pasajları tespit eder. Sonuçlar, hem benzerlik eşleşmelerini hem de yapay zeka tarafından üretilen içerik işaretlerini gösteren tek bir Özgünlük Raporu'nda bir araya getirilir; bu sayede inceleyenler ayrı araçlar çalıştırmak zorunda kalmadan belge özgünlüğünün eksiksiz bir görüntüsünü elde eder.