Πριν ξεκινήσει οποιαδήποτε ανάλυση λογοκλοπής, το λογισμικό πρέπει να εξάγει καθαρό, αναζητήσιμο κείμενο από το υποβληθέν έγγραφο. Πρόκειται για πιο σύνθετο πρόβλημα από ό,τι φαίνεται, επειδή τα έγγραφα φτάνουν σε μεγάλη ποικιλία μορφών — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT και HTML, μεταξύ άλλων — καθεμία με τη δική της εσωτερική δομή μορφοποίησης, μεταδεδομένων, ενσωματωμένων αντικειμένων και κωδικοποίησης. Ένας αξιόπιστος αγωγός εξαγωγής κειμένου πρέπει να χειρίζεται όλες αυτές τις μορφές με συνέπεια, παράγοντας ομαλοποιημένο απλό κείμενο κατάλληλο για σύγκριση.
Ο Ανιχνευτής Λογοκλοπής χρησιμοποιεί μια αρχιτεκτονική εξαγωγής κειμένου 5 βαθμίδων για να μεγιστοποιήσει την αξιοπιστία. Για αρχεία DOCX, η πρώτη βαθμίδα αναλύει απευθείας τη γηγενή δομή DocX XML. Εάν αυτό αποτύχει (λόγω καταστροφής ή μη τυπικής μορφοποίησης), το σύστημα επιστρέφει στη διεπαφή iFilter της Microsoft, στη συνέχεια στη ανάλυση raw OpenXML και τέλος στο Apache Tika ως καθολικό εξαγωγέα τελευταίας λύσης. Αυτή η διαδοχική προσέγγιση σημαίνει ότι ακόμα και κατεστραμμένα ή μη τυπικά έγγραφα αποδίδουν χρήσιμο κείμενο. Η ίδια αρχή πολλαπλών βαθμίδων ισχύει σε όλες τις 12+ υποστηριζόμενες μορφές, διασφαλίζοντας ότι κανένα έγγραφο δεν μένει αδρανές.
Η διαδικασία εξαγωγής χειρίζεται επίσης την ομαλοποίηση κωδικοποίησης — μετατρέποντας κείμενο από διάφορες κωδικοποιήσεις χαρακτήρων (UTF-8, UTF-16, Windows-1252, παραλλαγές ISO-8859) σε μια ενιαία εσωτερική αναπαράσταση. Αυτό είναι κρίσιμο επειδή οι αναντιστοιχίες κωδικοποίησης μπορεί να κάνουν πανομοιότυπο κείμενο να εμφανίζεται διαφορετικό σε επίπεδο byte, οδηγώντας σε χαμένες αντιστοιχίσεις λογοκλοπής. Η κατάλληλη εξαγωγή θέτει τα θεμέλια για κάθε επόμενο στάδιο ανίχνευσης.
Μόλις εξαχθεί το καθαρό κείμενο, η μηχανή ανίχνευσης το χωρίζει σε αναλύσιμες μονάδες μέσω μιας διαδικασίας που ονομάζεται δακτυλικά αποτυπώματα κειμένου. Το έγγραφο τεμαχίζεται σε επικαλυπτόμενες ακολουθίες λέξεων (n-γράμματα) και κάθε ακολουθία μετατρέπεται σε συμπαγές αριθμητικό κατακερματισμό — ένα δακτυλικό αποτύπωμα. Αυτά τα δακτυλικά αποτυπώματα χρησιμεύουν ως αποτελεσματικά αναγνωριστικά που μπορούν να συγκριθούν γρήγορα με τα δακτυλικά αποτυπώματα από άλλες πηγές χωρίς να εκτελούνται ακριβές συγκρίσεις πλήρους κειμένου κάθε φορά.
Ο αλγόριθμος δακτυλικών αποτυπωμάτων πρέπει να εξισορροπεί την ευαισθησία με την αποτελεσματικότητα. Τα σύντομα n-γράμματα (3-4 λέξεις) εντοπίζουν περισσότερες αντιστοιχίσεις αλλά παράγουν υπερβολικά ψευδώς θετικά αποτελέσματα από κοινές φράσεις. Τα μακρύτερα n-γράμματα (8-10 λέξεις) είναι πιο συγκεκριμένα αλλά μπορεί να χάσουν τη λογοκλοπή όπου έχουν αλλαχθεί μερικές λέξεις. Τα προηγμένα συστήματα χρησιμοποιούν δακτυλικά αποτυπώματα μεταβλητού μήκους σε συνδυασμό με αλγορίθμους winnowing που επιλέγουν ένα αντιπροσωπευτικό υποσύνολο δακτυλικών αποτυπωμάτων, διατηρώντας την ακρίβεια ανίχνευσης ενώ διατηρεί τον χώρο σύγκρισης διαχειρίσιμο για έγγραφα οποιουδήποτε μεγέθους.
Αφού δημιουργηθούν τα δακτυλικά αποτυπώματα του εγγράφου, η μηχανή ανίχνευσης πρέπει να συγκρίνει αυτά τα αποτυπώματα με υπάρχον περιεχόμενο σε ολόκληρο το διαδίκτυο. Ο Ανιχνευτής Λογοκλοπής ακολουθεί μια διακεκριμένη προσέγγιση: αντί να βασίζεται σε μια μόνη ιδιόκτητη βάση δεδομένων, ερωτά τέσσερις κύριες μηχανές αναζήτησης ταυτόχρονα — Google, Bing, Yahoo και DuckDuckGo — αποκτώντας πρόσβαση στο συνδυαστικό τους ευρετήριο άνω των 4 δισεκατομμυρίων ιστοσελίδων. Αυτή η στρατηγική πολλαπλών μηχανών αυξάνει δραματικά την κάλυψη πηγών, επειδή κάθε μηχανή αναζήτησης ευρετηριάζει διαφορετικά τμήματα του διαδικτύου και κατατάσσει τα αποτελέσματα διαφορετικά.
Η διαδικασία αναζήτησης χρησιμοποιεί ευφυή εναλλαγή και επιλογή αποσπασμάτων κειμένου για υποβολή ως ερωτήματα αναζήτησης. Δεν ερωτάται κάθε δακτυλικό αποτύπωμα — η μηχανή επιλέγει τα πιο χαρακτηριστικά αποσπάσματα από το έγγραφο, αυτά που είναι πιο πιθανό να επιστρέψουν ουσιαστικές αντιστοιχίσεις και όχι γενικές φράσεις. Ο προγραμματισμός ερωτημάτων διαχειρίζεται τους περιορισμούς ρυθμού και κατανέμει τα αιτήματα στις μηχανές για να διατηρεί την απόδοση. Το αποτέλεσμα είναι μια ολοκληρωμένη κάλυψη του δημόσια διαθέσιμου διαδικτυακού περιεχομένου που καμία προσέγγιση με μία μηχανή δεν μπορεί να αντιγράψει, καλύπτοντας ακαδημαϊκά αποθετήρια, αρχεία ειδήσεων, περιοχές περιεχομένου, εργαστήρια δοκιμίων και γενικές ιστοσελίδες.
Όταν τα ερωτήματα μηχανών αναζήτησης επιστρέφουν πιθανώς αντίστοιχα URLs, η μηχανή ανίχνευσης εισέρχεται στη φάση ανάκτησης και σύγκρισης πηγών. Κάθε υποψήφια σελίδα πηγής ανακτάται, το περιεχόμενό της εξάγεται και ομαλοποιείται (αφαιρώντας ετικέτες HTML, στοιχεία πλοήγησης, κεφαλίδες και υποσέλιδα για απομόνωση του πραγματικού κειμένου άρθρου) και στη συνέχεια ευθυγραμμίζεται με το υποβληθέν έγγραφο. Αυτή η ευθυγράμμιση χρησιμοποιεί αλγορίθμους αντιστοίχισης ακολουθιών που εντοπίζουν τις μεγαλύτερες κοινές υποακολουθίες μεταξύ των δύο κειμένων, λαμβάνοντας υπόψη μικρές παραλλαγές στην στίξη, τα κενά και τη μορφοποίηση.
Η σύγκριση δεν περιορίζεται σε ακριβείς αντιστοιχίσεις. Η μηχανή εκτελεί ασαφή αντιστοίχιση για να εντοπίσει αποσπάσματα όπου μεμονωμένες λέξεις έχουν αντικατασταθεί με συνώνυμα, η σειρά προτάσεων έχει αναδιαταχθεί ή έχουν προστεθεί ή αφαιρεθεί συνδέσμοι φράσεις. Αυτό εντοπίζει την πιο κοινή τεχνική αποφυγής: επιφανειακή αναδιατύπωση που διατηρεί την αρχική σημασία και δομή. Κάθε αντίστοιχο τμήμα καταγράφεται με τη διεύθυνση URL πηγής, το ποσοστό επικάλυψης και τα συγκεκριμένα αποσπάσματα κειμένου που αντιστοιχούν, χτίζοντας τα ακατέργαστα δεδομένα για την αναφορά πρωτοτυπίας.
Αφού ανακτηθούν και συγκριθούν όλες οι πηγές, η μηχανή υπολογίζει μια βαθμολογία ομοιότητας — ένα ποσοστό που αντιπροσωπεύει πόσο από το υποβληθέν έγγραφο αντιστοιχεί σε εξωτερικές πηγές. Αυτός ο υπολογισμός είναι πιο λεπτός από ένα απλό λόγο. Η μηχανή διακρίνει μεταξύ διαφορετικών τύπων αντιστοιχίσεων: ακριβών αντιγράφων, σχεδόν-αντιστοιχιών (παραφρασμένα αποσπάσματα), σωστά παρατιθέμενου και αναφερόμενου υλικού και κοινών φράσεων ή τυπικού κειμένου που δεν υποδηλώνουν λογοκλοπή.
Το σύστημα ανίχνευσης αναφορών του Ανιχνευτή Λογοκλοπής εντοπίζει αυτόματα παραπομπές, παραθέσεις και βιβλιογραφικές αναφορές μέσα στο έγγραφο και τις αντιμετωπίζει διαφορετικά από μη αναφερόμενες αντιστοιχίσεις. Ένα μπλοκ κειμένου που περικλείεται σε εισαγωγικά και ακολουθείται από παραπομπή επισημαίνεται ως νόμιμη αναφορά, όχι ως λογοκλοπή. Αυτό αποτρέπει διογκωμένες βαθμολογίες ομοιότητας που διαφορετικά θα τιμωρούσαν καλά ερευνημένες εργασίες για τη σωστή χρήση πηγών. Η τελική βαθμολογία αντικατοπτρίζει γνήσιες ανησυχίες πρωτοτυπίας, δίνοντας στον αξιολογητή μια ουσιαστική και εφαρμόσιμη μετρική.
Καθώς το κείμενο που παράγεται από ΤΝ γίνεται πιο διαδεδομένο, η ανίχνευση λογοκλοπής πρέπει να αντιμετωπίζει περιεχόμενο που δεν αντιγράφεται από καμία υπάρχουσα πηγή αλλά δεν αποτελεί παρόλα αυτά πρωτότυπο ανθρώπινο έργο. Ο Ανιχνευτής Λογοκλοπής περιλαμβάνει ένα ενσωματωμένο πρόγραμμα ανίχνευσης περιεχομένου ΤΝ με ευαισθησία 0,98, ικανό να εντοπίζει κείμενο που παράγεται από μεγάλα γλωσσικά μοντέλα συμπεριλαμβανομένων ChatGPT, Gemini και HuggingChat. Η ανίχνευση λειτουργεί αναλύοντας στατιστικές ιδιότητες του κειμένου — κατανομές συχνότητας λέξεων, περιπλοκότητα σε επίπεδο πρότασης, μοτίβα ανομοιομορφίας και ακολουθίες πιθανότητας μάρκας — που διαφέρουν συστηματικά μεταξύ ανθρώπινης και μηχανικής γραφής.
Η ανθρώπινη γραφή τείνει να παρουσιάζει μεγαλύτερη μεταβλητότητα στο μήκος πρότασης, πιο απρόβλεπτες επιλογές λέξεων και ακανόνιστα μοτίβα πολυπλοκότητας. Αντίθετα, το κείμενο που παράγεται από ΤΝ βαρύνεται προς στατιστικά πιθανές ακολουθίες λέξεων με πιο ομοιόμορφη δομή πρότασης και χαρακτηριστική "ομαλότητα" στην κατανομή πιθανότητας. Το μοντέλο ανίχνευσης εκπαιδεύεται σε μεγάλα σύνολα δεδομένων τόσο ανθρώπινου όσο και κειμένου ΤΝ, και λειτουργεί σε επίπεδο παραγράφου για να παρέχει λεπτομερή αποτελέσματα. Αυτή η ανάλυση εκτελείται παράλληλα με την παραδοσιακή ανίχνευση λογοκλοπής σε μία μόνη σάρωση, έτσι ώστε οι αξιολογητές να λαμβάνουν μια ενιαία αναφορά που καλύπτει τόσο το αντιγραμμένο περιεχόμενο όσο και τα αποσπάσματα που παράγονται από ΤΝ χωρίς να χρειάζονται ξεχωριστά εργαλεία ή ροές εργασίας.
Εξελιγμένοι χρήστες προσπαθούν να εξαπατήσουν την ανίχνευση λογοκλοπής μέσω διαφόρων τεχνικών τεχνασμάτων. Η πιο κοινή τεχνική αποφυγής είναι η αντικατάσταση χαρακτήρων Unicode — αντικατάσταση λατινικών χαρακτήρων με οπτικά πανομοιότυπους χαρακτήρες από άλλα συστήματα γραφής Unicode. Για παράδειγμα, το κυριλλικό γράμμα "a" (U+0430) μοιάζει πανομοιότυπο με το λατινικό γράμμα "a" (U+0061) στην οθόνη, αλλά είναι διαφορετικοί χαρακτήρες σε επίπεδο κωδικού. Μια αφελής σύγκριση κειμένου θα αντιμετώπιζε το "academic" που γράφτηκε με κυριλλικό "a" ως εντελώς διαφορετική λέξη, κάνοντας το λογοκλεμμένο απόσπασμα να αποφύγει εντελώς την ανίχνευση.
Ο Ανιχνευτής Λογοκλοπής αντιμετωπίζει αυτό με τη Μηχανή Κατά της Αντιγραφής Unicode (UACE). Πριν από τη σύγκριση, η UACE ομαλοποιεί όλο το κείμενο αντιστοιχίζοντας οπτικά ισοδύναμους χαρακτήρες σε τμήματα Unicode — κυριλλικό, ελληνικό, αρμένικο και άλλα συστήματα γραφής που περιέχουν χαρακτήρες που μοιάζουν με λατινικούς — πίσω στα λατινικά ισοδύναμά τους. Η μηχανή διατηρεί ένα ολοκληρωμένο πίνακα αντικατάστασης που καλύπτει εκατοντάδες ζεύγη χαρακτήρων. Αυτή η ομαλοποίηση συμβαίνει με διαφάνεια κατά τη φάση εξαγωγής κειμένου, έτσι ώστε κάθε επόμενο στάδιο ανίχνευσης να λειτουργεί σε καθαρό, κανονικό κείμενο ανεξάρτητα από τα τεχνάσματα χαρακτήρων που εφαρμόστηκαν στο έγγραφο πηγής.
Πέρα από την αντικατάσταση χαρακτήρων, η UACE εντοπίζει επίσης άλλες μεθόδους αποφυγής, συμπεριλαμβανομένης της εισαγωγής αόρατων χαρακτήρων Unicode (χώροι μηδενικού πλάτους, ενώτες μηδενικού πλάτους, μαλακές παύλες) μεταξύ λέξεων ή γραμμάτων, λευκό-σε-λευκό κείμενο κρυμμένο μέσα σε έγγραφα, και κείμενο μικρο-γραμματοσειράς που εισάγεται για να σπάσει αναγνωρίσιμες φράσεις. Αυτές οι τεχνικές επισημαίνονται στην αναφορά πρωτοτυπίας ως σκόπιμες απόπειρες χειραγώγησης, ειδοποιώντας τον αξιολογητή ότι ο συγγραφέας προσπάθησε ενεργά να παρακάμψει την ανίχνευση — κάτι που αποτελεί από μόνο του ισχυρή ένδειξη πρόθεσης λογοκλοπής.
Κατεβάστε μια δωρεάν επίδειξη ή αγοράστε άδεια χρήσης για να ξεκινήσετε τον έλεγχο λογοκλοπής και περιεχομένου που παράγεται από τεχνητή νοημοσύνη.
Η κορύφωση της διαδικασίας ανίχνευσης είναι η Αναφορά Πρωτοτυπίας — ένα λεπτομερές έγγραφο που παρουσιάζει όλα τα ευρήματα σε οργανωμένη, αναθεωρήσιμη μορφή. Η αναφορά επισημαίνει αντίστοιχα αποσπάσματα στο υποβληθέν κείμενο, κωδικοποιημένα χρωματικά κατά πηγή, με κάθε αντιστοίχιση συνδεδεμένη με την αντίστοιχη διεύθυνση URL ή καταχώρηση βάσης δεδομένων. Μια ενότητα περίληψης εμφανίζει τη συνολική βαθμολογία ομοιότητας, τον αριθμό αντίστοιχων πηγών, το ποσοστό εντοπισμένου περιεχομένου ΤΝ και ανάλυση τύπων αντιστοίχισης (ακριβής, παραφρασμένος, αναφερόμενος).
Για ιδρύματα, οι Αναφορές Πρωτοτυπίας μπορούν να φέρουν το λογότυπο του οργανισμού, παρέχοντας επαγγελματική, τυποποιημένη μορφή για αρχεία ακαδημαϊκής ακεραιότητας. Οι αναφορές έχουν σχεδιαστεί να είναι αποδεικτικής ποιότητας — κατάλληλες για χρήση σε επίσημες διαδικασίες αναθεώρησης, ακροάσεις ακαδημαϊκής ακεραιότητας ή νομικά πλαίσια. Κάθε ισχυρισμός στην αναφορά είναι ανεξάρτητα επαληθεύσιμος: οι αξιολογητές μπορούν να κάνουν κλικ για να μεταβούν στην αρχική πηγή για να επιβεβαιώσουν την αντιστοίχιση με τα ίδια τους τα μάτια. Αυτή η διαφάνεια διασφαλίζει ότι τα ευρήματα λογοκλοπής είναι υπερασπίσιμα και δίκαια, προστατεύοντας τόσο την ακεραιότητα της διαδικασίας αναθεώρησης όσο και τα δικαιώματα του ατόμου του οποίου το έργο αξιολογείται.
Μια θεμελιώδης αρχιτεκτονική επιλογή στην ανίχνευση λογοκλοπής είναι αν τα έγγραφα υπόκεινται σε επεξεργασία τοπικά στον υπολογιστή του χρήστη ή ανεβαίνουν σε απομακρυσμένο διακομιστή cloud. Οι ελεγκτές λογοκλοπής που βασίζονται σε cloud απαιτούν από τους χρήστες να ανεβάσουν τα έγγραφά τους στους διακομιστές του παρόχου, όπου το κείμενο εξάγεται, αναλύεται και συχνά αποθηκεύεται σε βάση δεδομένων. Αυτό εγείρει σημαντικές ανησυχίες για την ιδιωτικότητα και εμπιστευτικότητα — ιδιαίτερα για ευαίσθητη ακαδημαϊκή έρευνα, αδημοσίευτα χειρόγραφα, νομικά έγγραφα και εταιρικά υλικά. Έγγραφα που ανεβαίνουν σε υπηρεσίες cloud μπορεί να διατηρούνται, να ευρετηριάζονται ή να χρησιμοποιούνται για εκπαίδευση μοντέλων ΤΝ, και παραβιάσεις δεδομένων μπορεί να αποκαλύψουν εμπιστευτικό περιεχόμενο.
Ο Ανιχνευτής Λογοκλοπής λειτουργεί εξ ολοκλήρου στον επιτραπέζιο υπολογιστή. Τα έγγραφα ανοίγουν, αναλύονται και επεξεργάζονται τοπικά — το πλήρες κείμενο δεν μεταδίδεται ποτέ σε εξωτερικό διακομιστή. Μόνο επιλεγμένα αποσπάσματα κειμένου (ερωτήματα αναζήτησης) αποστέλλονται σε μηχανές αναζήτησης για σύγκριση, με τον ίδιο τρόπο που ένας άνθρωπος θα αναζητούσε χειροκίνητα μια φράση σε πρόγραμμα περιήγησης. Αυτή η αρχιτεκτονική παρέχει θεμελιώδη εγγύηση ιδιωτικότητας: το πλήρες έγγραφο δεν εγκαταλείπει ποτέ τον υπολογιστή του χρήστη. Για ιδρύματα που χειρίζονται ευαίσθητα υλικά — δικηγορικές εταιρείες που ελέγχουν συνοπτικά, ιατρικοί ερευνητές που αναθεωρούν εργασίες, κυβερνητικές υπηρεσίες που ελέγχουν εκθέσεις — αυτή η προσέγγιση πρωτίστως σε επιτραπέζιο υπολογιστή δεν είναι απλώς προτίμηση αλλά απαίτηση συμμόρφωσης. Σε συνδυασμό με μοντέλο εφάπαξ αγοράς (χωρίς επαναλαμβανόμενη συνδρομή), προσφέρει τόσο ιδιωτικότητα όσο και προβλεψιμότητα κόστους.