Vai in alto
Casa Come funziona il rilevamento del plagio: la tecnologia spiegata

Come funziona il rilevamento del plagio: la tecnologia spiegata

2025-02-15 · Plagiarism Detector Team

Estrazione di testo e analisi di documenti

Prima di poter avviare qualsiasi analisi antiplagio, il software deve estrarre testo pulito e ricercabile dal documento inviato. Si tratta di un problema più complesso di quanto sembri, poiché i documenti arrivano in un'ampia varietà di formati (tra cui DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT e HTML), ognuno con una propria struttura interna di formattazione, metadati, oggetti incorporati e codifica. Un processo di estrazione del testo affidabile deve gestire tutti questi formati in modo coerente, producendo testo normale normalizzato e adatto al confronto.

Rilevatore di plagio utilizza un'architettura di estrazione del testo a 5 livelli per massimizzare l'affidabilità. Per i file DOCX, il primo livello analizza direttamente la struttura XML nativa di DocX. Se questo non riesce (a causa di corruzione o formattazione non standard), il sistema ricorre all'interfaccia iFilter di Microsoft, quindi all'analisi OpenXML raw e infine ad Apache Tika come estrattore universale di ultima istanza. Questo approccio a cascata fa sì che anche i documenti danneggiati o non standard producano testo utilizzabile. Lo stesso principio multilivello si applica a tutti gli oltre 12 formati supportati, garantendo che nessun documento rimanga non elaborato.

Il processo di estrazione gestisce anche la normalizzazione della codifica, convertendo il testo da diverse codifiche dei caratteri (UTF-8, UTF-16, Windows-1252, varianti ISO-8859) in una rappresentazione interna unificata. Questo è fondamentale perché le discrepanze di codifica possono far sì che un testo identico appaia diverso a livello di byte, con conseguente mancata individuazione di corrispondenze di plagio. Un'estrazione corretta getta le basi per ogni successiva fase di rilevamento.

Impronta digitale del testo

Una volta estratto il testo pulito, il motore di rilevamento lo scompone in unità analizzabili attraverso un processo chiamato " impronta digitale del testo" . Il documento viene segmentato in sequenze di parole sovrapposte (n-grammi) e ogni sequenza viene convertita in un hash numerico compatto, un'impronta digitale. Queste impronte digitali fungono da identificatori efficienti che possono essere rapidamente confrontati con impronte digitali provenienti da altre fonti, senza dover eseguire ogni volta costosi confronti full-text.

L'algoritmo di fingerprinting deve bilanciare sensibilità ed efficienza. Gli n-grammi brevi (3-4 parole) catturano più corrispondenze, ma producono un numero eccessivo di falsi positivi da frasi comuni. Gli n-grammi più lunghi (8-10 parole) sono più specifici, ma potrebbero non rilevare plagio laddove alcune parole siano state modificate. I sistemi avanzati utilizzano fingerprinting a lunghezza variabile combinato con algoritmi di selezione che selezionano un sottoinsieme rappresentativo di impronte digitali, mantenendo l'accuratezza del rilevamento e rendendo lo spazio di confronto gestibile per documenti di qualsiasi dimensione.

Query sui motori di ricerca

Una volta acquisite le impronte digitali del documento, il motore di rilevamento deve confrontarle con i contenuti esistenti su Internet. Rilevatore di plagio adotta un approccio distintivo: anziché affidarsi a un singolo database proprietario, interroga simultaneamente quattro principali motori di ricerca – Google, Bing, Yahoo e DuckDuckGo – accedendo al loro indice combinato di oltre 4 miliardi di pagine web. Questa strategia multi-motore aumenta notevolmente la copertura delle fonti, poiché ogni motore di ricerca indicizza diverse porzioni del web e classifica i risultati in modo diverso.

Il processo di query utilizza la rotazione intelligente e la selezione di frammenti di testo da inviare come query di ricerca. Non tutte le impronte digitali vengono interrogate: il motore seleziona i passaggi più distintivi del documento, quelli con maggiori probabilità di restituire corrispondenze significative, piuttosto che frasi generiche. La pianificazione delle query gestisce i limiti di velocità e distribuisce le richieste tra i motori per mantenere la produttività. Il risultato è un'analisi completa dei contenuti Internet disponibili al pubblico che nessun approccio basato su un singolo motore può replicare, che comprende repository accademici, archivi di notizie, content farm, siti di vendita di elaborati e pagine web in generale.

Recupero e confronto delle fonti

Quando le query dei motori di ricerca restituiscono URL potenzialmente corrispondenti, il motore di rilevamento entra nella fase di recupero e confronto delle fonti . Ogni pagina sorgente candidata viene recuperata, il suo contenuto viene estratto e normalizzato (eliminando tag HTML, elementi di navigazione, intestazioni e piè di pagina per isolare il testo effettivo dell'articolo) e quindi allineato al documento inviato. Questo allineamento utilizza algoritmi di corrispondenza di sequenza che identificano le sottosequenze comuni più lunghe tra i due testi, tenendo conto di piccole variazioni di punteggiatura, spazi e formattazione.

Il confronto non si limita alle corrispondenze esatte. Il motore esegue un fuzzy matching per identificare i passaggi in cui singole parole sono state sostituite da sinonimi, l'ordine delle frasi è stato riorganizzato o sono state aggiunte o rimosse frasi di collegamento. Questo individua la tecnica di elusione più comune: la riformulazione superficiale che preserva il significato e la struttura originali. Ogni segmento corrispondente viene registrato con il suo URL di origine, la percentuale di sovrapposizione e i frammenti di testo specifici corrispondenti, generando i dati grezzi per il report sull'originalità.

Punteggio di similarità

Dopo aver recuperato e confrontato tutte le fonti, il motore calcola un punteggio di similarità, una percentuale che rappresenta la quantità di corrispondenza del documento inviato con fonti esterne. Questo calcolo è più dettagliato di un semplice rapporto. Il motore distingue tra diversi tipi di corrispondenze: copie esatte, corrispondenze quasi identiche (passaggi parafrasati), materiale correttamente citato e frasi comuni o testo standard che non indicano plagio.

Il sistema di rilevamento dei riferimenti di Rilevatore di plagio identifica automaticamente citazioni, citazioni e riferimenti bibliografici all'interno del documento e li tratta in modo diverso dalle corrispondenze non attribuite. Un blocco di testo racchiuso tra virgolette e seguito da una citazione viene contrassegnato come riferimento legittimo, non come plagio. Questo impedisce punteggi di similarità gonfiati che altrimenti penalizzerebbero articoli ben documentati per il loro corretto utilizzo delle fonti. Il punteggio finale riflette reali preoccupazioni sull'originalità, fornendo al revisore una metrica significativa e fruibile.

Rilevamento dei contenuti tramite intelligenza artificiale

Con la crescente diffusione dei testi generati dall'intelligenza artificiale, il rilevamento del plagio deve prendere in considerazione anche i contenuti che non sono copiati da alcuna fonte esistente, ma che non sono comunque opera umana originale. Rilevatore di plagio include un modulo integrato di rilevamento dei contenuti generati dall'intelligenza artificiale con sensibilità di 0,98, in grado di identificare il testo prodotto da modelli linguistici di grandi dimensioni, tra cui ChatGPT, Gemini e HuggingChat. Il rilevamento funziona analizzando le proprietà statistiche del testo – distribuzioni di frequenza delle parole, perplessità a livello di frase, pattern di variabilità (burstiness) e sequenze di probabilità dei token – che differiscono sistematicamente tra la scrittura umana e quella automatica.

La scrittura umana tende a presentare una maggiore variabilità nella lunghezza delle frasi, scelte lessicali più imprevedibili e modelli irregolari di complessità. Il testo generato dall'intelligenza artificiale, al contrario, tende a sequenze di parole statisticamente probabili con una struttura sintattica più uniforme e una caratteristica "fluidità" nella sua distribuzione di probabilità. Il modello di rilevamento è addestrato su ampi corpora di testo sia umano che artificiale e opera a livello di paragrafo per fornire risultati granulari. Questa analisi viene eseguita parallelamente al rilevamento tradizionale del plagio in un'unica scansione, in modo che i revisori ricevano un report unificato che copre sia il contenuto copiato sia i passaggi generati dall'intelligenza artificiale, senza bisogno di strumenti o flussi di lavoro separati.

Tecnologia anti-imbroglio

Gli utenti più esperti tentano di aggirare il rilevamento del plagio ricorrendo a vari trucchi tecnici. La tecnica di elusione più comune è la sostituzione dei caratteri Unicode, ovvero la sostituzione dei caratteri latini con caratteri visivamente identici provenienti da altri sistemi di scrittura Unicode. Ad esempio, la lettera cirillica "a" (U+0430) appare identica alla lettera latina "a" (U+0061) sullo schermo, ma a livello di codice sono caratteri diversi. Un confronto testuale ingenuo tratterebbe "academic" scritto con la "a" cirillica come una parola completamente diversa, facendo sì che il brano plagiato eluda completamente il rilevamento.

Rilevatore di plagio affronta questo problema con il suo Unicode Anti-Cheating Engine (UACE) . Prima del confronto, UACE normalizza tutto il testo mappando i caratteri visivamente equivalenti nei blocchi Unicode (cirillico, greco, armeno e altri alfabeti che contengono caratteri simili) ai loro equivalenti latini. Il motore gestisce una tabella di sostituzione completa che copre centinaia di coppie di caratteri. Questa normalizzazione avviene in modo trasparente durante la fase di estrazione del testo, quindi ogni successiva fase di rilevamento opera su testo pulito e canonico, indipendentemente dai trucchi applicati al documento sorgente.

Oltre alla sostituzione dei caratteri, UACE rileva anche altri metodi di elusione, tra cui l'inserimento di caratteri Unicode invisibili (spazi a larghezza zero, giunzioni a larghezza zero, trattini morbidi) tra parole o lettere, testo bianco su bianco nascosto all'interno dei documenti e testo in microfont inserito per interrompere frasi riconoscibili. Queste tecniche vengono segnalate nel rapporto di originalità come tentativi deliberati di manipolazione, avvisando il revisore che l'autore ha cercato attivamente di eludere il rilevamento, il che costituisce di per sé una forte prova di intenzione di plagio.

Controlla il tuo testo con Rilevatore di plagio

Scarica una demo gratuita o acquista una licenza per iniziare a verificare il plagio e i contenuti generati dall'intelligenza artificiale.

Rapporti di originalità

Il culmine del processo di rilevamento è il Rapporto di Originalità, un documento dettagliato che presenta tutti i risultati in un formato organizzato e consultabile. Il rapporto evidenzia i passaggi corrispondenti nel testo inviato, codificati a colori in base alla fonte, con ogni corrispondenza collegata al relativo URL o voce del database. Una sezione di riepilogo mostra il punteggio di similarità complessivo, il numero di fonti corrispondenti, la percentuale di contenuti generati dall'intelligenza artificiale rilevati e una ripartizione per tipologia di corrispondenza (esatta, parafrasata, citata).

Per le istituzioni, i Report sull'Originalità possono essere personalizzati con il logo dell'organizzazione, fornendo un formato professionale e standardizzato per i documenti sull'integrità accademica. I report sono progettati per essere di livello probatorio, adatti all'uso in procedimenti di revisione formale, udienze sull'integrità accademica o contesti legali. Ogni affermazione nel report è verificabile in modo indipendente: i revisori possono cliccare sulla fonte originale per confermare la corrispondenza con i propri occhi. Questa trasparenza garantisce che i risultati di plagio siano difendibili ed equi, proteggendo sia l'integrità del processo di revisione sia i diritti della persona il cui lavoro viene valutato.

Elaborazione desktop vs. cloud

Una scelta architetturale fondamentale nel rilevamento del plagio riguarda l'elaborazione locale dei documenti sul computer dell'utente o il loro caricamento su un server cloud remoto. I sistemi di verifica del plagio basati su cloud richiedono agli utenti di caricare i propri documenti sui server del provider, dove il testo viene estratto, analizzato e spesso archiviato in un database. Ciò solleva notevoli preoccupazioni in termini di privacy e riservatezza, in particolare per ricerche accademiche sensibili, manoscritti inediti, documenti legali e materiali aziendali. I documenti caricati sui servizi cloud possono essere conservati, indicizzati o utilizzati per addestrare modelli di intelligenza artificiale, e le violazioni dei dati possono esporre contenuti riservati.

Rilevatore di plagio funziona interamente sul desktop. I documenti vengono aperti, analizzati e analizzati localmente: il testo completo non viene mai trasmesso a un server esterno. Solo frammenti di testo selezionati (query di ricerca) vengono inviati ai motori di ricerca per il confronto, proprio come un essere umano cercherebbe manualmente una frase in un browser. Questa architettura fornisce una garanzia fondamentale di privacy: il documento completo non lascia mai il computer dell'utente. Per le istituzioni che gestiscono materiali sensibili – studi legali che controllano memorie difensive, ricercatori medici che esaminano articoli, agenzie governative che verificano i report – questo approccio desktop-first non è solo una preferenza, ma un requisito di conformità. In combinazione con un modello di acquisto una tantum (nessun abbonamento ricorrente), offre privacy e prevedibilità dei costi.

Domande frequenti

Quante fonti esamina un verificatore di plagio?
Rilevatore di plagio effettua ricerche negli indici combinati di quattro principali motori di ricerca – Google, Bing, Yahoo e DuckDuckGo – che complessivamente coprono oltre 4 miliardi di pagine web. Questo include repository accademici, archivi di notizie, blog, piattaforme di contenuti e il web in generale. Inoltre, le istituzioni che utilizzano la funzionalità PDAS possono effettuare ricerche nei propri database privati di documenti. L'approccio multi-motore garantisce una copertura molto più ampia rispetto agli strumenti che si basano esclusivamente su un singolo motore di ricerca o su un database proprietario.
Il rilevamento del plagio può individuare i contenuti parafrasati?
Sì. La moderna rilevazione del plagio va oltre il confronto delle corrispondenze esatte. Rilevatore di plagio utilizza una tecnologia di rilevamento della riscrittura che esegue un'analisi semantica per identificare i passaggi in cui la formulazione è stata modificata, ma il significato e la struttura sottostanti sono stati preservati dalla fonte originale. Questo rileva la forma più comune di plagio intenzionale: la riformulazione delle idee altrui quel tanto che basta per evitare corrispondenze parola per parola, senza però attribuire correttamente il testo.
Quali formati di file possono elaborare gli strumenti di rilevamento del plagio?
Rilevatore di plagio supporta oltre 12 formati di documento, tra cui DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT e HTML. Il suo processo di estrazione del testo a 5 livelli garantisce un'analisi affidabile anche con file danneggiati, complessi o non standard. Per ogni formato, il sistema utilizza metodi di estrazione a cascata, dall'analisi del formato nativo agli estrattori universali di fallback, in modo che praticamente qualsiasi documento inviato in un formato supportato venga elaborato e analizzato correttamente.
Quando utilizzo un verificatore di plagio, il mio documento viene archiviato o condiviso?
Con Rilevatore di plagio, la risposta è no. Trattandosi di un'applicazione desktop, il documento viene aperto ed elaborato interamente sul computer locale. Il testo completo del documento non viene mai caricato su alcun server. Solo brevi frammenti di testo vengono inviati come query di ricerca ai motori di ricerca pubblici, esattamente come faresti manualmente in un browser web. Questa è una differenza fondamentale rispetto ai verificatori di plagio basati su cloud, che richiedono il caricamento dell'intero documento e possono archiviare, indicizzare o utilizzare i tuoi contenuti. L'elaborazione desktop offre una garanzia di privacy verificabile.
Come funziona il rilevamento dei contenuti tramite intelligenza artificiale insieme al rilevamento del plagio?
Rilevatore di plagio esegue il rilevamento dei contenuti tramite intelligenza artificiale e il rilevamento del plagio tradizionale in un'unica scansione integrata. Il motore antiplagio confronta il testo con fonti Internet per individuare contenuti copiati o parafrasati, mentre il modulo di rilevamento tramite intelligenza artificiale analizza simultaneamente le proprietà statistiche del testo (perplessità, variabilità e pattern di probabilità dei token) per identificare passaggi probabilmente generati da modelli come ChatGPT, Gemini o HuggingChat. I risultati vengono combinati in un unico rapporto sull'originalità che mostra sia le corrispondenze di similarità sia i flag di contenuto generati dall'intelligenza artificiale, offrendo ai revisori un quadro completo dell'autenticità del documento senza dover utilizzare strumenti separati.