Bago magsimula ang anumang pagsusuri ng plagiarismo, dapat kumuha ang software ng malinis at mahahanap na teksto mula sa isinumiteng dokumento. Ito ay isang mas kumplikadong problema kaysa sa tila, dahil ang mga dokumento ay dumarating sa iba't ibang format - DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT, at HTML, bukod sa iba pa - bawat isa ay may sariling panloob na istruktura ng pag-format, metadata, mga naka-embed na bagay, at pag-encode. Ang isang maaasahang pipeline ng pagkuha ng teksto ay dapat na hawakan ang lahat ng mga format na ito nang palagian, na gumagawa ng normalized na plain text na angkop para sa paghahambing.
Gumagamit ang Plagiarism Detector ng 5-tier na arkitektura ng pagkuha ng teksto upang mapakinabangan ang pagiging maaasahan. Para sa mga DOCX file, direktang pina-parse ng unang tier ang native na istruktura ng DocX XML. Kung mabigo ito (dahil sa katiwalian o hindi karaniwang pag-format), babalik ang sistema sa iFilter interface ng Microsoft, pagkatapos ay sa raw OpenXML parsing, at sa huli ay sa Apache Tika bilang isang huling-resort na universal extractor. Ang cascading approach na ito ay nangangahulugan na kahit ang mga sirang o hindi karaniwang mga dokumento ay nagbubunga ng magagamit na teksto. Ang parehong prinsipyo ng multi-tier ay naaangkop sa lahat ng 12+ na sinusuportahang format, na tinitiyak na walang dokumento ang maiiwang hindi napoproseso.
Pinangangasiwaan din ng proseso ng pagkuha ang normalisasyon ng pag-encode - ang pag-convert ng teksto mula sa iba't ibang pag-encode ng karakter (UTF-8, UTF-16, Windows-1252, ISO-8859 na mga variant) tungo sa isang pinag-isang panloob na representasyon. Mahalaga ito dahil ang mga hindi pagtutugma ng pag-encode ay maaaring maging sanhi ng paglitaw ng magkaparehong teksto nang magkakaiba sa antas ng byte, na humahantong sa mga hindi natutugmang pagtutugma ng plagiarismo. Ang wastong pagkuha ay naglalatag ng pundasyon para sa bawat kasunod na yugto ng pagtuklas.
Kapag nakuha na ang malinis na teksto, hinahati ito ng detection engine sa mga yunit na maaaring suriin sa pamamagitan ng prosesong tinatawag na text fingerprinting. Ang dokumento ay hinahati sa magkakapatong na mga pagkakasunud-sunod ng mga salita (n-grams), at ang bawat pagkakasunud-sunod ay kino-convert sa isang compact numerical hash - isang fingerprint. Ang mga fingerprint na ito ay nagsisilbing mahusay na mga identifier na maaaring mabilis na ihambing sa mga fingerprint mula sa ibang mga mapagkukunan nang hindi nagsasagawa ng magastos na paghahambing ng buong teksto sa bawat oras.
Dapat balansehin ng algorithm ng fingerprinting ang sensitivity laban sa efficiency. Ang maiikling n-gram (3-4 na salita) ay nakakakuha ng mas maraming tugma ngunit lumilikha ng labis na false positive mula sa mga karaniwang parirala. Ang mas mahahabang n-gram (8-10 salita) ay mas espesipiko ngunit maaaring hindi mapansin ang plagiarism kung saan nabago ang ilang salita. Gumagamit ang mga advanced na sistema ng variable-length fingerprinting na sinamahan ng mga algorithm ng winnowing na pumipili ng isang kinatawan na subset ng mga fingerprint, pinapanatili ang katumpakan ng pagtuklas habang pinapanatiling madaling pamahalaan ang espasyo ng paghahambing para sa mga dokumento ng anumang laki.
Kapag na-fingerprint na ang dokumento, dapat ihambing ng detection engine ang mga fingerprint na iyon sa mga umiiral na nilalaman sa Internet. Ang Plagiarism Detector ay gumagamit ng kakaibang pamamaraan: sa halip na umasa sa iisang database, sabay-sabay nitong kini-query ang apat na pangunahing search engine - Google, Bing, Yahoo, at DuckDuckGo - na ina-access ang kanilang pinagsamang index na mahigit 4 na bilyong web page. Ang multi-engine strategy na ito ay lubos na nagpapataas ng saklaw ng pinagmulan, dahil ang bawat search engine ay nag-i-index ng iba't ibang bahagi ng web at nagraranggo ng mga resulta nang iba.
Ang proseso ng pag-query ay gumagamit ng matalinong pag-ikot at pagpili ng mga piraso ng teksto upang isumite bilang mga query sa paghahanap. Hindi lahat ng fingerprint ay kini-query - pinipili ng engine ang mga pinakanatatanging sipi mula sa dokumento, ang mga malamang na magbabalik ng makabuluhang mga tugma sa halip na mga pangkalahatang parirala. Pinamamahalaan ng pag-iiskedyul ng query ang mga limitasyon sa rate at ipinamamahagi ang mga kahilingan sa mga engine upang mapanatili ang throughput. Ang resulta ay isang komprehensibong hanay ng pampublikong magagamit na nilalaman sa Internet na hindi kayang kopyahin ng anumang single-engine na diskarte, na sumasaklaw sa mga akademikong repository, mga archive ng balita, mga content farm, mga essay mill, at mga pangkalahatang web page.
Kapag ang mga query sa search engine ay nagbabalik ng mga URL na posibleng tumutugma, ang detection engine ay papasok sa yugto ng pagkuha at paghahambing ng pinagmulan. Ang bawat kandidatong pahina ng pinagmulan ay kinukuha, ang nilalaman nito ay kinukuha at niraranggo (tinatanggal ang mga HTML tag, elemento ng nabigasyon, header, at footer upang ihiwalay ang aktwal na teksto ng artikulo), at pagkatapos ay inihanay laban sa isinumiteng dokumento. Ang pagkakahanay na ito ay gumagamit ng mga algorithm ng pagtutugma ng pagkakasunud-sunod na tumutukoy sa pinakamahabang karaniwang mga subsequence sa pagitan ng dalawang teksto, na isinasaalang-alang ang maliliit na pagkakaiba-iba sa bantas, whitespace, at formatting.
Ang paghahambing ay hindi limitado sa eksaktong mga tugma. Nagsasagawa ang engine ng fuzzy matching upang matukoy ang mga sipi kung saan ang mga indibidwal na salita ay pinalitan ng mga kasingkahulugan, ang pagkakasunud-sunod ng pangungusap ay inayos muli, o ang mga pariralang pang-ugnay ay idinagdag o inalis. Nahuhuli nito ang pinakakaraniwang pamamaraan ng pag-iwas: ang mababaw na pagbabago ng mga salita na nagpapanatili sa orihinal na kahulugan at istruktura. Ang bawat magkatugmang segment ay itinatala kasama ang pinagmulang URL nito, ang porsyento ng overlap, at ang mga partikular na piraso ng teksto na tumutugma, na bumubuo ng hilaw na datos para sa ulat ng orihinalidad.
Matapos makuha at maihambing ang lahat ng sanggunian, kinakalkula ng engine ang isang marka ng pagkakatulad - isang porsyento na kumakatawan sa kung gaano karami sa isinumiteng dokumento ang tumutugma sa mga panlabas na sanggunian. Ang kalkulasyong ito ay mas detalyado kaysa sa isang simpleng ratio. Tinutukoy ng engine ang pagkakaiba sa pagitan ng iba't ibang uri ng mga tugma: eksaktong mga kopya, halos tugma (mga paraphrased na sipi), wastong sinipi at binanggit na materyal, at mga karaniwang parirala o boilerplate na teksto na hindi nagpapahiwatig ng plagiarism.
Awtomatikong tinutukoy ng sistema ng pagtukoy ng sanggunian ng Plagiarism Detector ang mga sitasyon, sipi, at mga sangguniang bibliograpiko sa loob ng dokumento at tinatrato ang mga ito nang naiiba mula sa mga hindi nakaugnay na tugma. Ang isang bloke ng teksto na nakapaloob sa mga panipi at sinusundan ng isang sipi ay minamarkahan bilang isang lehitimong sanggunian, hindi bilang plagiarismo. Pinipigilan nito ang labis na marka ng pagkakatulad na kung hindi man ay magpaparusa sa mga papel na mahusay na sinaliksik para sa kanilang wastong paggamit ng mga mapagkukunan. Ang pangwakas na marka ay sumasalamin sa mga tunay na alalahanin sa pagka-orihinal, na nagbibigay sa tagasuri ng isang makabuluhan at naaaksyunang sukatan.
Habang nagiging mas laganap ang tekstong binuo ng AI, dapat tugunan ng pagtukoy ng plagiarism ang nilalamang hindi kinopya mula sa anumang umiiral na mapagkukunan ngunit gayunpaman ay hindi orihinal na gawa ng tao. Kasama sa Plagiarism Detector ang isang pinagsamang AI content detection module na may 0.98 sensitivity, na may kakayahang tukuyin ang tekstong ginawa ng malalaking modelo ng wika kabilang ang ChatGPT, Gemini, at HuggingChat. Gumagana ang pagtukoy sa pamamagitan ng pagsusuri sa mga istatistikal na katangian ng teksto - mga distribusyon ng dalas ng salita, pagkalito sa antas ng pangungusap, mga pattern ng burstiness, at mga sequence ng token probability - na sistematikong naiiba sa pagitan ng pagsulat ng tao at makina.
Ang pagsusulat ng tao ay may posibilidad na magpakita ng mas malaking pagkakaiba-iba sa haba ng pangungusap, mas hindi mahuhulaan na pagpili ng salita, at hindi regular na mga pattern ng pagiging kumplikado. Sa kabilang banda, ang tekstong binuo ng AI ay naaakit sa mga pagkakasunod-sunod ng salita na maaaring mangyari sa istatistika na may mas pare-parehong istruktura ng pangungusap at isang katangiang "kinis" sa distribusyon ng probabilidad nito. Ang modelo ng pagtuklas ay sinanay sa malaking corpora ng teksto ng tao at AI, at gumagana ito sa antas ng talata upang magbigay ng detalyadong mga resulta. Ang pagsusuring ito ay tumatakbo kasabay ng tradisyonal na pagtuklas ng plagiarism sa isang pag-scan, kaya ang mga tagasuri ay nakakatanggap ng isang pinag-isang ulat na sumasaklaw sa parehong kinopyang nilalaman at mga sipi na binuo ng AI nang hindi nangangailangan ng magkakahiwalay na tool o daloy ng trabaho.
Tinatangka ng mga sopistikadong gumagamit na talunin ang pagtuklas ng plagiarismo sa pamamagitan ng iba't ibang teknikal na trick. Ang pinakakaraniwang pamamaraan ng pag-iwas ay ang pagpapalit ng karakter sa Unicode - ang pagpapalit ng mga karakter sa Latin ng mga karakter na magkapareho ang hitsura mula sa ibang mga script ng Unicode. Halimbawa, ang Cyrillic na letrang "a" (U+0430) ay mukhang magkapareho sa Latin na letrang "a" (U+0061) sa screen, ngunit magkaiba ang mga karakter sa antas ng code point. Ang isang walang muwang na paghahambing ng teksto ay ituturing ang "akademiko" na binabaybay gamit ang Cyrillic na "a" bilang isang ganap na kakaibang salita, na nagiging sanhi ng ganap na pag-iwas sa pagtuklas ng plagiarismo.
Tinutugunan ito ng Plagiarism Detector gamit ang Unicode Anti-Cheating Engine (UACE) nito. Bago ang paghahambing, nionormalisa ng UACE ang lahat ng teksto sa pamamagitan ng pagmamapa ng mga karakter na biswal na magkapareho sa mga bloke ng Unicode - Cyrillic, Greek, Armenian, at iba pang mga script na naglalaman ng mga karakter na magkamukha - pabalik sa kanilang mga katumbas sa Latin. Nagpapanatili ang engine ng isang komprehensibong talahanayan ng pagpapalit na sumasaklaw sa daan-daang pares ng karakter. Ang normalisasyong ito ay nangyayari nang malinaw sa panahon ng yugto ng pagkuha ng teksto, kaya ang bawat kasunod na yugto ng pagtuklas ay gumagana sa malinis at canonical na teksto anuman ang mga trick ng karakter na inilapat sa pinagmulang dokumento.
Bukod sa pagpapalit ng karakter, natutuklasan din ng UACE ang iba pang mga paraan ng pag-iwas kabilang ang paglalagay ng mga hindi nakikitang karakter ng Unicode (zero-width spaces, zero-width joiner, soft hyphen) sa pagitan ng mga salita o letra, white-on-white na tekstong nakatago sa loob ng mga dokumento, at micro-font na tekstong ipinasok upang hatiin ang mga nakikilalang parirala. Ang mga pamamaraang ito ay minarkahan sa ulat ng orihinalidad bilang mga sinasadyang pagtatangka ng manipulasyon, na nag-aalerto sa tagasuri na aktibong sinubukan ng may-akda na iwasan ang pagtuklas - na mismo ay matibay na ebidensya ng intensyon na mangopya.
Mag-download ng libreng demo o bumili ng lisensya para simulan ang pagsusuri para sa plagiarism at nilalamang binuo ng AI.
Ang kasukdulan ng proseso ng pagtuklas ay ang Ulat ng Pagka-orihinal - isang detalyadong dokumento na nagpapakita ng lahat ng natuklasan sa isang organisado at maaaring suriing format. Itinatampok ng ulat ang mga magkatugmang sipi sa isinumiteng teksto, na may kulay ayon sa pinagmulan, kung saan ang bawat tugma ay naka-link sa katumbas nitong URL o entry sa database. Ipinapakita ng isang seksyon ng buod ang pangkalahatang marka ng pagkakatulad, ang bilang ng mga pinagmumulan na magkatugma, ang porsyento ng nilalamang nabuo ng AI na natukoy, at isang pagkasira ng mga uri ng pagtutugma (eksakto, paraphrased, binanggit).
Para sa mga institusyon, ang mga Originality Report ay maaaring lagyan ng tatak gamit ang logo ng organisasyon, na nagbibigay ng propesyonal at istandardisadong format para sa mga talaan ng akademikong integridad. Ang mga ulat ay idinisenyo upang maging evidence-grade - angkop para sa paggamit sa mga pormal na proseso ng pagsusuri, mga pagdinig sa akademikong integridad, o mga legal na konteksto. Ang bawat pahayag sa ulat ay maaaring mapatunayan nang nakapag-iisa: maaaring mag-click ang mga tagasuri sa orihinal na pinagmulan upang kumpirmahin ang tugma gamit ang kanilang sariling mga mata. Tinitiyak ng transparency na ito na ang mga natuklasan sa plagiarism ay maipagtatanggol at patas, na pinoprotektahan ang integridad ng proseso ng pagsusuri at ang mga karapatan ng taong sinusuri ang trabaho.
Ang isang pangunahing pagpipilian sa arkitektura sa pagtukoy ng plagiarism ay kung ang mga dokumento ay pinoproseso nang lokal sa makina ng gumagamit o ina-upload sa isang remote cloud server. Ang mga cloud-based plagiarism checker ay hinihiling sa mga gumagamit na i-upload ang kanilang mga dokumento sa mga server ng provider, kung saan ang teksto ay kinukuha, sinusuri, at kadalasang iniimbak sa isang database. Nagdudulot ito ng mga makabuluhang alalahanin sa privacy at kumpidensyalidad - lalo na para sa sensitibong akademikong pananaliksik, mga hindi nailathalang manuskrito, mga legal na dokumento, at mga materyales ng korporasyon. Ang mga dokumentong ina-upload sa mga serbisyo ng cloud ay maaaring panatilihin, i-index, o gamitin upang sanayin ang mga modelo ng AI, at ang mga paglabag sa data ay maaaring maglantad ng kumpidensyal na nilalaman.
Ang Plagiarism Detector ay gumagana nang buo sa desktop. Ang mga dokumento ay binubuksan, pina-parse, at sinusuri nang lokal - ang buong teksto ay hindi kailanman ipinapadala sa anumang panlabas na server. Tanging ang mga piling piraso ng teksto (mga search query) ang ipinapadala sa mga search engine para sa paghahambing, katulad ng manu-manong paghahanap ng isang tao ng isang parirala sa isang browser. Ang arkitekturang ito ay nagbibigay ng isang pangunahing garantiya sa privacy: ang kumpletong dokumento ay hindi kailanman umaalis sa makina ng gumagamit. Para sa mga institusyong humahawak ng mga sensitibong materyales - mga law firm na sumusuri ng mga brief, mga mananaliksik sa medisina na sumusuri ng mga papel, mga ahensya ng gobyerno na nag-audit ng mga ulat - ang desktop-first na diskarte na ito ay hindi lamang isang kagustuhan kundi isang kinakailangan sa pagsunod. Kasama ang isang beses na modelo ng pagbili (walang paulit-ulit na subscription), nag-aalok ito ng parehong privacy at predictability sa gastos.