Sebelum analisis plagiarisme apa pun dapat dimulai, perangkat lunak harus mengekstrak teks yang bersih dan dapat dicari dari dokumen yang dikumpulkan. Ini adalah masalah yang lebih kompleks dari yang terlihat, karena dokumen hadir dalam berbagai format — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT, dan HTML, di antaranya — masing-masing dengan struktur internal pemformatan, metadata, objek tertanam, dan pengkodean yang berbeda. Pipeline ekstraksi teks yang andal harus menangani semua format ini secara konsisten, menghasilkan teks biasa yang dinormalisasi yang cocok untuk perbandingan.
Pendeteksi Plagiarisme menggunakan arsitektur ekstraksi teks 5 tingkat untuk memaksimalkan keandalan. Untuk file DOCX, tingkat pertama mengurai struktur XML DocX asli secara langsung. Jika gagal (karena kerusakan atau pemformatan non-standar), sistem kembali ke antarmuka iFilter Microsoft, kemudian ke penguraian OpenXML mentah, dan akhirnya ke Apache Tika sebagai ekstraktor universal terakhir. Pendekatan bertingkat ini berarti bahwa bahkan dokumen yang rusak atau non-standar menghasilkan teks yang dapat digunakan. Prinsip multi-tingkat yang sama berlaku di semua 12+ format yang didukung, memastikan tidak ada dokumen yang tidak diproses.
Proses ekstraksi juga menangani normalisasi pengkodean — mengonversi teks dari berbagai pengkodean karakter (UTF-8, UTF-16, Windows-1252, varian ISO-8859) ke representasi internal yang terpadu. Ini sangat penting karena ketidakcocokan pengkodean dapat menyebabkan teks yang identik tampak berbeda pada tingkat byte, menyebabkan kecocokan plagiarisme terlewat. Ekstraksi yang tepat meletakkan dasar untuk setiap tahap deteksi berikutnya.
Setelah teks yang bersih diekstraksi, mesin deteksi memecahnya menjadi unit yang dapat dianalisis melalui proses yang disebut fingerprinting teks. Dokumen disegmentasi menjadi urutan kata yang tumpang tindih (n-gram), dan setiap urutan dikonversi menjadi hash numerik yang kompak — sebuah sidik jari. Sidik jari ini berfungsi sebagai pengenal efisien yang dapat dengan cepat dibandingkan terhadap sidik jari dari sumber lain tanpa melakukan perbandingan teks penuh yang mahal setiap saat.
Algoritma fingerprinting harus menyeimbangkan sensitivitas dengan efisiensi. N-gram pendek (3-4 kata) menangkap lebih banyak kecocokan tetapi menghasilkan false positive berlebihan dari frasa umum. N-gram yang lebih panjang (8-10 kata) lebih spesifik tetapi mungkin melewatkan plagiarisme di mana beberapa kata telah diubah. Sistem canggih menggunakan fingerprinting panjang variabel dikombinasikan dengan algoritma winnowing yang memilih subset representatif sidik jari, mempertahankan akurasi deteksi sambil menjaga ruang perbandingan dapat dikelola untuk dokumen berukuran apa pun.
Dengan dokumen yang telah di-fingerprint, mesin deteksi harus membandingkan sidik jari tersebut terhadap konten yang ada di seluruh internet. Pendeteksi Plagiarisme mengambil pendekatan yang khas: alih-alih mengandalkan satu database kepemilikan, ia mengkueri empat mesin pencari utama secara bersamaan — Google, Bing, Yahoo, dan DuckDuckGo — mengakses indeks gabungan mereka yang mencakup lebih dari 4 miliar halaman web. Strategi multi-mesin ini secara dramatis meningkatkan cakupan sumber, karena setiap mesin pencari mengindeks bagian web yang berbeda dan meranking hasil secara berbeda.
Proses kueri menggunakan rotasi cerdas dan pemilihan fragmen teks untuk dikirim sebagai kueri pencarian. Tidak setiap sidik jari dikueri — mesin memilih bagian paling khas dari dokumen, yang paling mungkin mengembalikan kecocokan bermakna daripada frasa umum. Penjadwalan kueri mengelola batas kecepatan dan mendistribusikan permintaan di seluruh mesin untuk mempertahankan throughput. Hasilnya adalah penyapuan komprehensif konten internet yang tersedia untuk umum yang tidak dapat direplikasi oleh pendekatan mesin tunggal mana pun, mencakup repositori akademis, arsip berita, pabrik konten, pabrik esai, dan halaman web umum.
Ketika kueri mesin pencari mengembalikan URL yang mungkin cocok, mesin deteksi memasuki fase pengambilan sumber dan perbandingan. Setiap halaman sumber kandidat diambil, kontennya diekstraksi dan dinormalisasi (menghilangkan tag HTML, elemen navigasi, header, dan footer untuk mengisolasi teks artikel yang sebenarnya), dan kemudian disejajarkan dengan dokumen yang dikumpulkan. Penyelarasan ini menggunakan algoritma pencocokan urutan yang mengidentifikasi subsequence umum terpanjang antara dua teks, dengan mempertimbangkan variasi kecil dalam tanda baca, spasi, dan pemformatan.
Perbandingan tidak terbatas pada kecocokan tepat. Mesin melakukan pencocokan kabur untuk mengidentifikasi bagian di mana kata-kata individual telah diganti dengan sinonim, urutan kalimat telah diatur ulang, atau frasa penghubung telah ditambahkan atau dihapus. Ini menangkap teknik penghindaran yang paling umum: penulisan ulang dangkal yang mempertahankan makna dan struktur asli. Setiap segmen yang cocok dicatat dengan URL sumbernya, persentase tumpang tindih, dan fragmen teks spesifik yang sesuai, membangun data mentah untuk laporan orisinalitas.
Setelah semua sumber telah diambil dan dibandingkan, mesin menghitung skor kesamaan — persentase yang mewakili seberapa banyak dokumen yang dikumpulkan cocok dengan sumber eksternal. Perhitungan ini lebih bernuansa daripada rasio sederhana. Mesin membedakan antara jenis kecocokan yang berbeda: salinan tepat, kecocokan hampir tepat (bagian yang diparafrasekan), materi yang dikutip dan diatribusikan dengan benar, dan frasa umum atau teks boilerplate yang tidak menunjukkan plagiarisme.
Sistem deteksi referensi Pendeteksi Plagiarisme secara otomatis mengidentifikasi sitasi, kutipan, dan referensi bibliografi dalam dokumen dan memperlakukannya secara berbeda dari kecocokan yang tidak diatribusikan. Blok teks yang diapit tanda kutip dan diikuti sitasi ditandai sebagai referensi yang sah, bukan sebagai plagiarisme. Ini mencegah skor kesamaan yang meningkat yang seharusnya menghukum makalah yang diteliti dengan baik karena penggunaan sumber yang tepat. Skor akhir mencerminkan kekhawatiran orisinalitas yang nyata, memberikan peninjau metrik yang bermakna dan dapat ditindaklanjuti.
Seiring teks yang dihasilkan AI menjadi lebih umum, deteksi plagiarisme harus menangani konten yang tidak disalin dari sumber yang ada tetapi bagaimanapun juga bukan karya manusia yang asli. Pendeteksi Plagiarisme mencakup modul deteksi konten AI terintegrasi dengan sensitivitas 0,98, mampu mengidentifikasi teks yang diproduksi oleh model bahasa besar termasuk ChatGPT, Gemini, dan HuggingChat. Deteksi bekerja dengan menganalisis properti statistik teks — distribusi frekuensi kata, perplexity tingkat kalimat, pola burstiness, dan urutan probabilitas token — yang secara sistematis berbeda antara penulisan manusia dan mesin.
Penulisan manusia cenderung menunjukkan variabilitas yang lebih besar dalam panjang kalimat, pilihan kata yang lebih tidak terduga, dan pola kompleksitas yang tidak teratur. Teks yang dihasilkan AI, sebaliknya, condong ke urutan kata yang secara statistik probable dengan struktur kalimat yang lebih seragam dan "kelancaran" karakteristik dalam distribusi probabilitasnya. Model deteksi dilatih pada korpus besar teks manusia dan AI, dan beroperasi pada tingkat paragraf untuk memberikan hasil yang granular. Analisis ini berjalan berdampingan dengan deteksi plagiarisme tradisional dalam satu pemindaian, sehingga peninjau menerima laporan terpadu yang mencakup konten yang disalin dan bagian yang dihasilkan AI tanpa memerlukan alat terpisah atau alur kerja tambahan.
Pengguna yang canggih mencoba untuk mengalahkan deteksi plagiarisme melalui berbagai trik teknis. Teknik penghindaran yang paling umum adalah substitusi karakter Unicode — mengganti karakter Latin dengan karakter yang terlihat identik dari skrip Unicode lainnya. Misalnya, huruf Cyrillic "a" (U+0430) terlihat identik dengan huruf Latin "a" (U+0061) di layar, tetapi keduanya adalah karakter yang berbeda pada tingkat code point. Perbandingan teks yang naif akan memperlakukan "academic" yang dieja dengan Cyrillic "a" sebagai kata yang sama sekali berbeda, menyebabkan bagian yang diplagiat menghindari deteksi sepenuhnya.
Pendeteksi Plagiarisme mengatasi hal ini dengan Unicode Anti-Cheating Engine (UACE)-nya. Sebelum perbandingan, UACE menormalisasi semua teks dengan memetakan karakter yang setara secara visual di seluruh blok Unicode — Cyrillic, Yunani, Armenia, dan skrip lain yang mengandung karakter yang terlihat sama — kembali ke padanannya dalam Latin. Mesin mempertahankan tabel substitusi komprehensif yang mencakup ratusan pasangan karakter. Normalisasi ini terjadi secara transparan selama fase ekstraksi teks, sehingga setiap tahap deteksi berikutnya beroperasi pada teks yang bersih dan kanonik terlepas dari trik karakter apa yang diterapkan pada dokumen sumber.
Di luar substitusi karakter, UACE juga mendeteksi metode penghindaran lain termasuk penyisipan karakter Unicode yang tidak terlihat (zero-width spaces, zero-width joiners, soft hyphens) di antara kata atau huruf, teks putih-di-putih yang tersembunyi dalam dokumen, dan teks mikro-font yang disisipkan untuk memecah frasa yang dapat dikenali. Teknik-teknik ini ditandai dalam laporan orisinalitas sebagai upaya manipulasi yang disengaja, mengingatkan peninjau bahwa penulis secara aktif mencoba menghindari deteksi — yang dengan sendirinya merupakan bukti kuat niat untuk melakukan plagiarisme.
Unduh demo gratis atau beli lisensi untuk mulai memeriksa plagiarisme dan konten yang dihasilkan AI.
Puncak dari proses deteksi adalah Laporan Orisinalitas — dokumen terperinci yang menyajikan semua temuan dalam format yang terorganisir dan dapat ditinjau. Laporan menyoroti bagian yang cocok dalam teks yang dikumpulkan, dikodekan warna berdasarkan sumber, dengan setiap kecocokan terhubung ke URL yang sesuai atau entri database. Bagian ringkasan menunjukkan skor kesamaan keseluruhan, jumlah sumber yang cocok, persentase konten yang dihasilkan AI yang terdeteksi, dan rincian jenis kecocokan (tepat, diparafrasekan, dikutip).
Untuk institusi, Laporan Orisinalitas dapat dilengkapi merek dengan logo organisasi, memberikan format profesional dan terstandar untuk catatan integritas akademis. Laporan dirancang setara bukti — cocok untuk digunakan dalam proses tinjauan formal, sidang integritas akademis, atau konteks hukum. Setiap klaim dalam laporan dapat diverifikasi secara independen: peninjau dapat mengklik sumber asli untuk mengonfirmasi kecocokan dengan mata mereka sendiri. Transparansi ini memastikan temuan plagiarisme dapat dipertahankan dan adil, melindungi integritas proses tinjauan dan hak-hak orang yang karyanya sedang dievaluasi.
Pilihan arsitektur fundamental dalam deteksi plagiarisme adalah apakah dokumen diproses secara lokal di komputer pengguna atau diunggah ke server cloud jarak jauh. Pemeriksa plagiarisme berbasis cloud mengharuskan pengguna mengunggah dokumen mereka ke server penyedia, di mana teks diekstraksi, dianalisis, dan sering disimpan dalam database. Ini menimbulkan kekhawatiran privasi dan kerahasiaan yang signifikan — terutama untuk penelitian akademis yang sensitif, manuskrip yang belum diterbitkan, dokumen hukum, dan materi perusahaan. Dokumen yang diunggah ke layanan cloud mungkin disimpan, diindeks, atau digunakan untuk melatih model AI, dan pelanggaran data dapat mengekspos konten rahasia.
Pendeteksi Plagiarisme beroperasi sepenuhnya di desktop. Dokumen dibuka, diurai, dan dianalisis secara lokal — teks lengkap tidak pernah dikirimkan ke server eksternal mana pun. Hanya fragmen teks yang dipilih (kueri pencarian) yang dikirim ke mesin pencari untuk perbandingan, sama seperti cara manusia secara manual akan mencari frasa di browser. Arsitektur ini memberikan jaminan privasi yang fundamental: dokumen lengkap tidak pernah meninggalkan mesin pengguna. Untuk institusi yang menangani materi sensitif — firma hukum yang memeriksa brief, peneliti medis yang meninjau makalah, lembaga pemerintah yang mengaudit laporan — pendekatan desktop-first ini bukan hanya preferensi tetapi persyaratan kepatuhan. Dikombinasikan dengan model pembelian satu kali (tanpa langganan berulang), ini menawarkan privasi dan prediktabilitas biaya.