Înainte de a putea începe orice analiză a plagiatului, software-ul trebuie să extragă text curat și ușor de căutat din documentul trimis. Aceasta este o problemă mai complexă decât pare, deoarece documentele sosesc într-o varietate largă de formate - DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT și HTML, printre altele - fiecare cu propria structură internă de formatare, metadate, obiecte încorporate și codificare. Un flux fiabil de extragere a textului trebuie să gestioneze toate aceste formate în mod consecvent, producând text simplu normalizat, potrivit pentru comparare.
Detector de plagiat folosește o arhitectură de extragere a textului pe 5 niveluri pentru a maximiza fiabilitatea. Pentru fișierele DOCX, primul nivel analizează direct structura XML DocX nativă. Dacă aceasta eșuează (din cauza coruperii sau a formatării nestandard), sistemul revine la interfața iFilter de la Microsoft, apoi la analiza OpenXML brută și, în final, la Apache Tika ca extractor universal de ultimă instanță. Această abordare în cascadă înseamnă că, chiar și documentele deteriorate sau nestandardizate produc text utilizabil. Același principiu multi-nivel se aplică în toate cele 12+ formate acceptate, asigurându-se că niciun document nu rămâne neprocesat.
Procesul de extragere se ocupă și de normalizarea codificării - convertirea textului din diverse codificări de caractere (UTF-8, UTF-16, Windows-1252, variante ISO-8859) într-o reprezentare internă unificată. Acest lucru este esențial deoarece neconcordanțele de codare pot face ca textul identic să apară diferit la nivel de octet, ceea ce duce la ratarea potrivirilor de plagiat. Extracția corectă pune bazele fiecărei etape ulterioare de detectare.
Odată ce textul curat este extras, motorul de detectare îl împarte în unități analizabile printr-un proces numit amprentare digitală . Documentul este segmentat în secvențe de cuvinte suprapuse (n-grame), iar fiecare secvență este convertită într-un hash numeric compact - o amprentă digitală. Aceste amprente servesc drept identificatori eficienți care pot fi comparați rapid cu amprentele digitale din alte surse, fără a fi nevoie de comparații costisitoare cu textul complet de fiecare dată.
Algoritmul de amprentare digitală trebuie să echilibreze sensibilitatea cu eficiența. N-gramele scurte (3-4 cuvinte) detectează mai multe potriviri, dar produc un număr excesiv de rezultate fals pozitive din fraze comune. N-gramele mai lungi (8-10 cuvinte) sunt mai specifice, dar pot rata plagiatul acolo unde au fost modificate câteva cuvinte. Sistemele avansate utilizează amprentarea digitală de lungime variabilă combinată cu algoritmi de cernere care selectează un subset reprezentativ de amprente digitale, menținând precizia detecției, păstrând în același timp spațiul de comparație gestionabil pentru documente de orice dimensiune.
Odată ce documentul a fost amprentat, motorul de detectare trebuie să compare aceste amprente cu conținutul existent pe internet. Detector de plagiat adoptă o abordare distinctă: în loc să se bazeze pe o singură bază de date proprietară, acesta interoghează simultan patru motoare de căutare majore - Google, Bing, Yahoo și DuckDuckGo - accesând indexul lor combinat de peste 4 miliarde de pagini web. Această strategie multi-motor crește dramatic acoperirea surselor, deoarece fiecare motor de căutare indexează diferite porțiuni ale webului și ierarhizează rezultatele diferit.
Procesul de interogare utilizează rotația inteligentă și selecția fragmentelor de text pentru a fi trimise ca interogări de căutare. Nu fiecare amprentă este interogată - motorul selectează pasajele cele mai distinctive din document, cele care au cea mai mare probabilitate de a returna potriviri semnificative, mai degrabă decât fraze generice. Planificarea interogărilor gestionează limitele de rată și distribuie solicitările între motoare pentru a menține debitul. Rezultatul este o analiză cuprinzătoare a conținutului de internet disponibil publicului, pe care nicio abordare cu un singur motor nu o poate reproduce, acoperind deopotrivă depozite academice, arhive de știri, ferme de conținut, fabrici de eseuri și pagini web generale.
Când interogările motorului de căutare returnează URL-uri potențial potrivite, motorul de detectare intră în faza de recuperare și comparare a sursei . Fiecare pagină sursă candidată este preluată, conținutul acesteia este extras și normalizat (eliminând etichetele HTML, elementele de navigare, anteturile și subsolurile pentru a izola textul real al articolului) și apoi aliniat cu documentul trimis. Această aliniere utilizează algoritmi de potrivire a secvențelor care identifică cele mai lungi subsecvențe comune dintre cele două texte, ținând cont de variații minore de punctuație, spații albe și formatare.
Comparația nu se limitează la potriviri exacte. Motorul efectuează potriviri fuzzy pentru a identifica pasajele în care cuvinte individuale au fost înlocuite cu sinonime, ordinea propozițiilor a fost rearanjată sau au fost adăugate sau eliminate fraze de legătură. Aceasta surprinde cea mai comună tehnică de evaziune: reformularea superficială care păstrează sensul și structura originală. Fiecare segment potrivit este înregistrat cu adresa URL sursă, procentul de suprapunere și fragmentele de text specifice care corespund, construind datele brute pentru raportul de originalitate.
După ce toate sursele au fost recuperate și comparate, motorul calculează un scor de similaritate - un procent care reprezintă cât din documentul trimis se potrivește cu surse externe. Acest calcul este mai nuanțat decât un simplu raport. Motorul distinge între diferite tipuri de potriviri: copii exacte, potriviri apropiate (pasaje parafrazate), materiale citate și citate corect și expresii comune sau text standard care nu indică plagiat.
Sistemul de detectare a referințelor din Detector de plagiat identifică automat citările, citatele și referințele bibliografice din document și le tratează diferit față de potrivirile neatribuite. Un bloc de text cuprins între ghilimele și urmat de o citare este semnalat ca referință legitimă, nu ca plagiat. Acest lucru previne scorurile de similaritate umflate care altfel ar penaliza lucrările bine documentate pentru utilizarea corectă a surselor. Scorul final reflectă preocupări reale legate de originalitate, oferind recenzentului o metrică semnificativă și practică.
Pe măsură ce textul generat de inteligența artificială devine tot mai răspândit, detectarea plagiatului trebuie să se adreseze conținutului care nu este copiat din nicio sursă existentă, dar care totuși nu este o lucrare umană originală. Detector de plagiat include un modul integrat de detectare a conținutului generat de inteligența artificială cu o sensibilitate de 0,98, capabil să identifice textul produs de modele lingvistice mari, inclusiv ChatGPT, Gemini și HuggingChat. Detectarea funcționează prin analizarea proprietăților statistice ale textului - distribuțiile frecvenței cuvintelor, perplexitatea la nivel de propoziție, tiparele de variabilitate (burstiness) și secvențele de probabilitate a token-urilor - care diferă sistematic între scrierea umană și cea automată.
Scrierea umană tinde să prezinte o variabilitate mai mare în lungimea propozițiilor, alegeri de cuvinte mai imprevizibile și modele neregulate de complexitate. Textul generat de inteligența artificială, prin contrast, gravitează spre secvențe de cuvinte probabile statistic, cu o structură a propozițiilor mai uniformă și o „netezime” caracteristică în distribuția probabilității. Modelul de detectare este antrenat pe corpusuri mari, atât de text uman, cât și de inteligență artificială, și operează la nivel de paragraf pentru a oferi rezultate granulare. Această analiză se desfășoară alături de detectarea tradițională a plagiatului într-o singură scanare, astfel încât recenzorii primesc un raport unificat care acoperă atât conținutul copiat, cât și pasajele generate de inteligența artificială, fără a fi nevoie de instrumente sau fluxuri de lucru separate.
Utilizatorii sofisticați încearcă să eludeze detectarea plagiatului prin diverse trucuri tehnice. Cea mai comună tehnică de evaziune este substituirea caracterelor Unicode - înlocuirea caracterelor latine cu caractere identice vizual din alte alfabete Unicode. De exemplu, litera chirilică „a” (U+0430) arată identic cu litera latină „a” (U+0061) pe ecran, dar sunt caractere diferite la nivel de punct de cod. O comparație textuală naivă ar trata „academic” scris cu un „a” chirilic ca un cuvânt complet diferit, făcând ca pasajul plagiat să evite complet detectarea.
Detector de plagiat abordează această problemă cu ajutorul motorului său Unicode Anti-Cheating Engine (UACE) . Înainte de comparație, UACE normalizează tot textul prin maparea caracterelor echivalente vizual în blocurile Unicode - chirilic, grecesc, armean și alte alfabete care conțin caractere similare - înapoi la echivalentele lor latine. Motorul menține un tabel de substituție cuprinzător care acoperă sute de perechi de caractere. Această normalizare are loc transparent în timpul fazei de extragere a textului, astfel încât fiecare etapă ulterioară de detectare operează pe un text curat, canonic, indiferent de trucurile de caractere aplicate documentului sursă.
Pe lângă substituirea caracterelor, UACE detectează și alte metode de evaziune, inclusiv inserarea de caractere Unicode invizibile (spații cu lățime zero, joncțiuni cu lățime zero, cratime soft) între cuvinte sau litere, text alb pe alb ascuns în documente și text cu microfonturi inserat pentru a separa fraze recognoscibile. Aceste tehnici sunt semnalate în raportul de originalitate ca tentative deliberate de manipulare, alertând recenzorul că autorul a încercat în mod activ să ocolească detectarea - ceea ce reprezintă în sine o dovadă puternică a intenției de a plagia.
Descărcați o versiune demonstrativă gratuită sau achiziționați o licență pentru a începe verificarea plagiatului și a conținutului generat de inteligența artificială.
Punctul culminant al procesului de detectare este Raportul de originalitate - un document detaliat care prezintă toate constatările într-un format organizat și ușor de revizuit. Raportul evidențiază pasajele potrivite din textul trimis, codificate prin culori în funcție de sursă, fiecare potrivire fiind legată de adresa URL sau intrarea în baza de date corespunzătoare. O secțiune de rezumat prezintă scorul general de similaritate, numărul de surse potrivite, procentul de conținut generat de inteligența artificială detectat și o defalcare a tipurilor de potriviri (exacte, parafrazate, citate).
Pentru instituții, Rapoartele de Originalitate pot fi personalizate cu sigla organizației, oferind un format profesional, standardizat pentru înregistrările de integritate academică. Rapoartele sunt concepute pentru a fi de nivel de evidență - potrivite pentru utilizarea în proceduri formale de evaluare, audieri privind integritatea academică sau contexte juridice. Fiecare afirmație din raport este verificabilă independent: evaluatorii pot accesa sursa originală pentru a confirma potrivirea cu ochii lor. Această transparență asigură că constatările de plagiat sunt justificabile și corecte, protejând atât integritatea procesului de evaluare, cât și drepturile persoanei a cărei muncă este evaluată.
O alegere arhitecturală fundamentală în detectarea plagiatului este dacă documentele sunt procesate local pe mașina utilizatorului sau încărcate pe un server cloud la distanță. Verificatoarele de plagiat bazate pe cloud solicită utilizatorilor să își încarce documentele pe serverele furnizorului, unde textul este extras, analizat și adesea stocat într-o bază de date. Acest lucru ridică preocupări semnificative privind confidențialitatea și protecția datelor - în special pentru cercetarea academică sensibilă, manuscrisele nepublicate, documentele juridice și materialele corporative. Documentele încărcate pe serviciile cloud pot fi păstrate, indexate sau utilizate pentru a antrena modele de inteligență artificială, iar încălcările de date pot expune conținut confidențial.
Detector de plagiat funcționează în întregime pe desktop. Documentele sunt deschise, analizate și analizate local - textul integral nu este transmis niciodată către niciun server extern. Doar fragmentele de text selectate (interogările de căutare) sunt trimise motoarelor de căutare pentru comparare, în același mod în care o ființă umană ar căuta manual o expresie într-un browser. Această arhitectură oferă o garanție fundamentală a confidențialității: documentul complet nu părăsește niciodată computerul utilizatorului. Pentru instituțiile care gestionează materiale sensibile - firme de avocatură care verifică documente, cercetători medicali care examinează lucrări, agenții guvernamentale care auditează rapoarte - această abordare bazată pe desktop nu este doar o preferință, ci o cerință de conformitate. Combinată cu un model de achiziție unică (fără abonament recurent), oferă atât confidențialitate, cât și previzibilitate a costurilor.