Sebelum sebarang analisis plagiarisme boleh dimulakan, perisian mesti mengekstrak teks yang bersih dan boleh dicari daripada dokumen yang diserahkan. Ini adalah masalah yang lebih kompleks berbanding yang kelihatan, kerana dokumen datang dalam pelbagai format — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT, dan HTML, antara lain — setiap satunya dengan struktur dalaman pemformatan, metadata, objek tertanam, dan pengekodan sendiri. Saluran pengekstrakan teks yang boleh dipercayai mesti mengendalikan semua format ini secara konsisten, menghasilkan teks biasa yang dinormalkan yang sesuai untuk perbandingan.
Pengesan Plagiarisme menggunakan seni bina pengekstrakan teks 5 peringkat untuk memaksimumkan kebolehpercayaan. Untuk fail DOCX, peringkat pertama menghurai struktur XML DocX asli secara langsung. Jika itu gagal (akibat rasuah atau pemformatan bukan standard), sistem jatuh kembali ke antara muka iFilter Microsoft, kemudian ke penghuraian OpenXML mentah, dan akhirnya ke Apache Tika sebagai pengekstrak universal langkah terakhir. Pendekatan berperingkat ini bermaksud bahawa walaupun dokumen yang rosak atau bukan standard menghasilkan teks yang boleh digunakan. Prinsip berbilang peringkat yang sama berlaku merentas semua 12+ format yang disokong, memastikan tiada dokumen dibiarkan tanpa diproses.
Proses pengekstrakan juga mengendalikan normalisasi pengekodan — menukar teks daripada pelbagai pengekodan aksara (UTF-8, UTF-16, Windows-1252, varian ISO-8859) kepada representasi dalaman yang bersatu. Ini kritikal kerana ketidakpadanan pengekodan boleh menyebabkan teks yang sama kelihatan berbeza pada peringkat bait, membawa kepada padanan plagiarisme yang terlepas. Pengekstrakan yang betul meletakkan asas untuk setiap peringkat pengesanan seterusnya.
Setelah teks yang bersih diekstrak, enjin pengesanan memecahkannya kepada unit yang boleh dianalisis melalui proses yang dipanggil cap jari teks. Dokumen dipecahkan kepada urutan perkataan yang bertindih (n-gram), dan setiap urutan ditukar kepada cincangan angka yang padat — cap jari. Cap jari ini berfungsi sebagai pengecam yang cekap yang boleh dibandingkan dengan cepat berbanding cap jari daripada sumber lain tanpa melakukan perbandingan teks penuh yang mahal setiap kali.
Algoritma cap jari mesti mengimbangi sensitiviti berbanding kecekapan. N-gram pendek (3-4 perkataan) menangkap lebih banyak padanan tetapi menghasilkan terlalu banyak positif palsu daripada frasa lazim. N-gram yang lebih panjang (8-10 perkataan) lebih spesifik tetapi mungkin terlepas plagiarisme apabila beberapa perkataan telah ditukar. Sistem canggih menggunakan cap jari panjang pembolehubah digabungkan dengan algoritma winnowing yang memilih subset cap jari yang mewakili, mengekalkan ketepatan pengesanan sambil memastikan ruang perbandingan boleh diuruskan untuk dokumen sebarang saiz.
Dengan dokumen yang dicap jari, enjin pengesanan mesti membandingkan cap jari tersebut berbanding kandungan sedia ada di seluruh Internet. Pengesan Plagiarisme mengambil pendekatan yang berbeza: daripada bergantung pada satu pangkalan data proprietari, ia membuat pertanyaan kepada empat enjin carian utama serentak — Google, Bing, Yahoo, dan DuckDuckGo — mengakses indeks gabungan mereka yang melebihi 4 bilion halaman web. Strategi berbilang enjin ini meningkatkan liputan sumber secara dramatik, kerana setiap enjin carian mengindeks bahagian web yang berbeza dan memberi kedudukan hasil secara berbeza.
Proses pertanyaan menggunakan penggiliran dan pemilihan cerdas serpihan teks untuk dikemukakan sebagai pertanyaan carian. Tidak setiap cap jari dibuat pertanyaan — enjin memilih petikan yang paling tersendiri daripada dokumen, yang paling berkemungkinan mengembalikan padanan bermakna daripada frasa generik. Penjadualan pertanyaan menguruskan had kadar dan mengedarkan permintaan merentas enjin untuk mengekalkan daya pemprosesan. Hasilnya adalah sapuan komprehensif kandungan Internet yang tersedia secara awam yang tiada pendekatan enjin tunggal boleh replikasi, merangkumi repositori akademik, arkib berita, ladang kandungan, kilang esei, dan halaman web umum.
Apabila pertanyaan enjin carian mengembalikan URL yang berpotensi sepadan, enjin pengesanan memasuki fasa pengambilan sumber dan perbandingan. Setiap halaman sumber calon diambil, kandungannya diekstrak dan dinormalkan (membuang tag HTML, elemen navigasi, pengepala, dan pengaki untuk mengasingkan teks artikel sebenar), kemudian diselaraskan berbanding dokumen yang diserahkan. Penjajaran ini menggunakan algoritma padanan jujukan yang mengenal pasti jujukan biasa terpanjang antara dua teks, mengambil kira variasi kecil dalam tanda baca, ruang kosong, dan pemformatan.
Perbandingan tidak terhad kepada padanan tepat. Enjin melakukan padanan kabur untuk mengenal pasti petikan di mana perkataan individu telah digantikan dengan sinonim, susunan ayat telah disusun semula, atau frasa penghubung telah ditambah atau dibuang. Ini menangkap teknik pengelakan yang paling lazim: penulisan semula permukaan yang mengekalkan makna dan struktur asal. Setiap segmen yang sepadan direkod dengan URL sumbernya, peratusan pertindihan, dan serpihan teks khusus yang berkaitan, membina data mentah untuk laporan keaslian.
Setelah semua sumber diambil dan dibandingkan, enjin mengira skor persamaan — peratusan yang mewakili berapa banyak dokumen yang diserahkan sepadan dengan sumber luaran. Pengiraan ini lebih bernuansa daripada nisbah mudah. Enjin membezakan antara jenis padanan yang berbeza: salinan tepat, padanan hampir (petikan parafrasa), bahan yang dipetik dan dikaitkan dengan betul, dan frasa lazim atau teks boilerplate yang tidak menunjukkan plagiarisme.
Sistem pengesanan rujukan Pengesan Plagiarisme secara automatik mengenal pasti petikan, sebutan, dan rujukan bibliografi dalam dokumen dan merawatnya secara berbeza daripada padanan tanpa atribusi. Blok teks yang diletakkan dalam tanda petikan dan diikuti dengan petikan ditandakan sebagai rujukan yang sah, bukan sebagai plagiarisme. Ini mencegah skor persamaan yang melambung yang sebaliknya akan menghukum kertas yang diselidiki dengan baik atas penggunaan sumber yang betul. Skor akhir mencerminkan keprihatinan keaslian yang tulen, memberikan pengulas metrik yang bermakna dan boleh diambil tindakan.
Apabila teks yang dijana AI menjadi lebih lazim, pengesanan plagiarisme mesti menangani kandungan yang tidak disalin daripada mana-mana sumber sedia ada tetapi tetap bukan karya manusia yang asli. Pengesan Plagiarisme termasuk modul pengesanan kandungan AI bersepadu dengan sensitiviti 0.98, mampu mengenal pasti teks yang dihasilkan oleh model bahasa besar termasuk ChatGPT, Gemini, dan HuggingChat. Pengesanan berfungsi dengan menganalisis sifat statistik teks — taburan kekerapan perkataan, kebingungan peringkat ayat, corak burstiness, dan jujukan kebarangkalian token — yang berbeza secara sistematik antara penulisan manusia dan mesin.
Penulisan manusia cenderung menunjukkan variasi yang lebih besar dalam panjang ayat, pilihan perkataan yang lebih tidak dijangka, dan corak kerumitan yang tidak teratur. Teks yang dijana AI, sebaliknya, cenderung ke arah jujukan perkataan yang berkemungkinan secara statistik dengan struktur ayat yang lebih seragam dan "kehalusan" yang mencirikan dalam taburan kebarangkaliannya. Model pengesanan dilatih pada korpus besar teks manusia dan AI, dan ia beroperasi pada peringkat perenggan untuk memberikan keputusan yang terperinci. Analisis ini berjalan bersama pengesanan plagiarisme tradisional dalam satu imbasan, jadi pengulas menerima laporan bersatu yang merangkumi kandungan yang disalin dan petikan yang dijana AI tanpa memerlukan alat berasingan atau aliran kerja tambahan.
Pengguna yang canggih cuba mengalahkan pengesanan plagiarisme melalui pelbagai helah teknikal. Teknik pengelakan yang paling lazim adalah penggantian aksara Unicode — menggantikan aksara Latin dengan aksara yang kelihatan sama daripada skrip Unicode lain. Sebagai contoh, huruf Cyrillic "a" (U+0430) kelihatan sama dengan huruf Latin "a" (U+0061) pada skrin, tetapi ia adalah aksara yang berbeza pada peringkat kod. Perbandingan teks yang naif akan merawat "academic" yang dieja dengan "a" Cyrillic sebagai perkataan yang sama sekali berbeza, menyebabkan petikan yang diplagiat terlepas daripada pengesanan sepenuhnya.
Pengesan Plagiarisme menangani ini dengan Enjin Anti-Penipuan Unicode (UACE). Sebelum perbandingan, UACE menormalkan semua teks dengan memetakan aksara yang setara secara visual merentas blok Unicode — skrip Cyrillic, Greek, Armenia, dan skrip lain yang mengandungi aksara serupa — kembali ke setara Latin mereka. Enjin ini mengekalkan jadual penggantian komprehensif yang merangkumi ratusan pasangan aksara. Normalisasi ini berlaku secara telus semasa fasa pengekstrakan teks, jadi setiap peringkat pengesanan seterusnya beroperasi pada teks yang bersih dan kanonik tanpa mengira helah aksara yang diterapkan pada dokumen sumber.
Di luar penggantian aksara, UACE juga mengesan kaedah pengelakan lain termasuk penyisipan aksara Unicode tidak kelihatan (ruang lebar sifar, penyambung lebar sifar, tanda sempang lembut) antara perkataan atau huruf, teks putih atas putih yang tersembunyi dalam dokumen, dan teks mikrofont yang dimasukkan untuk memecahkan frasa yang boleh dikenal pasti. Teknik-teknik ini ditandakan dalam laporan keaslian sebagai percubaan manipulasi yang disengajakan, memberitahu pengulas bahawa pengarang secara aktif cuba mengelakkan pengesanan — yang itu sendiri merupakan bukti kuat niat untuk melakukan plagiarisme.
Muat turun demo percuma atau beli lesen untuk mula menyemak plagiarisme dan kandungan yang dijana oleh AI.
Puncak proses pengesanan adalah Laporan Keaslian — dokumen terperinci yang membentangkan semua penemuan dalam format yang tersusun dan boleh disemak. Laporan menyerlahkan petikan yang sepadan dalam teks yang diserahkan, berkod warna mengikut sumber, dengan setiap padanan dikaitkan dengan URL atau entri pangkalan data yang berkaitan. Bahagian ringkasan menunjukkan skor persamaan keseluruhan, bilangan sumber yang sepadan, peratusan kandungan yang dijana AI yang dikesan, dan pecahan jenis padanan (tepat, diparafrasa, dipetik).
Bagi institusi, Laporan Keaslian boleh dilebelkan dengan logo organisasi, menyediakan format profesional yang terpiawai untuk rekod integriti akademik. Laporan direka untuk menjadi gred bukti — sesuai untuk digunakan dalam prosiding semakan rasmi, pendengaran integriti akademik, atau konteks undang-undang. Setiap tuntutan dalam laporan boleh disahkan secara bebas: pengulas boleh mengklik ke sumber asal untuk mengesahkan padanan dengan mata mereka sendiri. Ketelusan ini memastikan penemuan plagiarisme boleh dipertahankan dan adil, melindungi integriti proses semakan dan hak orang yang karyanya sedang dinilai.
Pilihan seni bina asas dalam pengesanan plagiarisme adalah sama ada dokumen diproses secara tempatan pada mesin pengguna atau dimuat naik ke pelayan awan jauh. Penyemak plagiarisme berasaskan awan memerlukan pengguna untuk memuat naik dokumen mereka ke pelayan pembekal, di mana teks diekstrak, dianalisis, dan sering disimpan dalam pangkalan data. Ini menimbulkan kebimbangan privasi dan kerahsiaan yang ketara — terutamanya untuk penyelidikan akademik yang sensitif, manuskrip yang belum diterbitkan, dokumen undang-undang, dan bahan korporat. Dokumen yang dimuat naik ke perkhidmatan awan mungkin dikekalkan, diindeks, atau digunakan untuk melatih model AI, dan pelanggaran data boleh mendedahkan kandungan sulit.
Pengesan Plagiarisme beroperasi sepenuhnya pada desktop. Dokumen dibuka, dihurai, dan dianalisis secara tempatan — teks penuh tidak pernah dihantar ke mana-mana pelayan luaran. Hanya serpihan teks terpilih (pertanyaan carian) dihantar ke enjin carian untuk perbandingan, sama seperti manusia secara manual mencari frasa dalam pelayar. Seni bina ini memberikan jaminan privasi asas: dokumen lengkap tidak pernah meninggalkan mesin pengguna. Bagi institusi yang mengendalikan bahan sensitif — firma undang-undang menyemak ringkasan, penyelidik perubatan mengkaji kertas, agensi kerajaan mengaudit laporan — pendekatan desktop-dahulu ini bukan sahaja sekadar pilihan tetapi keperluan pematuhan. Digabungkan dengan model pembelian sekali (tanpa langganan berulang), ia menawarkan privasi dan kepastian kos.