Σπίτι › Πόσο Ακριβής Είναι η Ανίχνευση AI; Αξιολόγηση σε 22 LLMs | Ανιχνευτής λογοκλοπής

Πόσο Ακριβής Είναι η Ανίχνευση AI; Η Αξιολόγησή μας σε 22 LLMs

Δημοσιεύουμε την πραγματική ακρίβεια του ανιχνευτή AI μας έναντι 22 γεννητικών μοντέλων, συμπεριλαμβανομένων των GPT-5, Claude 4, Gemini 2 και Llama 3. Πίνακες ανά μοντέλο, ειλικρινείς περιορισμοί και δυνατότητα λήψης συνόλου δεδομένων για ερευνητές.

2026-04-17 · Plagiarism Detector Team

Γιατί Δημοσιεύουμε τους Αριθμούς Ακρίβειάς μας

Τα περισσότερα εργαλεία ανίχνευσης AI σας ζητούν να εμπιστευτείτε έναν αδιαφανή βαθμό. Πιστεύουμε ότι αξίζετε αποδείξεις. Σε αυτή τη σελίδα μοιραζόμαστε τα πλήρη αποτελέσματα της εσωτερικής μας επαλήθευσης — κάθε γεννήτρια που δοκιμάσαμε, το βαθμό AUC-ROC σε κάθε μία, τους τύπους δοκιμίων που μας δυσκόλεψαν περισσότερο, και τα κατώφλια απόφασης που χρησιμοποιούμε σε παραγωγή.

Αυτό το επίπεδο διαφάνειας είναι ασυνήθιστο στον χώρο της ανίχνευσης AI. Οι περισσότεροι ανταγωνιστές — προμηθευτές ελεγκτών λογοκλοπής, εξειδικευμένες υπηρεσίες ανίχνευσης AI, γενικά εργαλεία SaaS — δεν δημοσιεύουν καθόλου δεδομένα ακρίβειας ή δημοσιεύουν έναν μεμονωμένο αριθμό επιλεγμένο εκ των προτέρων. Αυτό το μοτίβο είναι μη βιώσιμο: εκπαιδευτικοί, εκδότες και ερευνητές χρειάζονται αναπαραγώγιμα σημεία αναφοράς πριν μπορέσουν να βασιστούν σε οποιοδήποτε εργαλείο.

Τα αποτελέσματά μας προέρχονται από ένα σύνολο επαλήθευσης 1.000 δειγμάτων του σώματος βαθμονόμησης που χρησιμοποιήθηκε για την εκπαίδευση του ανιχνευτή μας ModernBERT. Η ίδια μεθοδολογία που οδηγεί αυτή την αξιολόγηση εκτελείται σε κάθε έγγραφο που υποβάλλετε μέσω του εργαλείου μας. Τίποτα δεν κρύβεται για demos.

Το Σώμα Δοκιμών και η Μεθοδολογία

Το σύνολο επαλήθευσης περιέχει 1.000 δοκίμια που αντλήθηκαν από ένα σώμα βαθμονόμησης 1.200 δειγμάτων: 600 δοκίμια γραμμένα από ανθρώπους (από τα δεδομένα του κοινού έργου PAN25 και το σύνολο δεδομένων επιχειρηματικών δοκιμίων PERSUADE) και 600 δοκίμια παραγόμενα από AI (παραγόμενα από 22 διαφορετικά μεγάλα γλωσσικά μοντέλα υπό ελεγχόμενη εισαγωγή). Η διαίρεση εκπαίδευσης-επαλήθευσης 80/20 είναι σταθερή και επαναλαμβανόμενη.

Κάθε δείγμα βαθμολογείται μεμονωμένα, χωρίς πρόσβαση σε μεταδεδομένα που θα μπορούσαν να αποκαλύψουν την αληθινή κατηγορία. Ο ανιχνευτής επιστρέφει πιθανότητα στο [0, 100] που αντιπροσωπεύει την πιθανότητα το δείγμα να είναι παραγόμενο από AI. Στη συνέχεια υπολογίζουμε το εμβαδόν κάτω από την καμπύλη δέκτη-λειτουργίας (AUC-ROC) ανά γεννήτρια και ανά επίπεδο τύπου δοκιμίου.

Όλα τα κατώφλια, οι υπερπαράμετροι εκπαίδευσης και οι ακατέργαστες εξόδοι πιθανότητας καταγράφονται. Το ίδιο το σύνολο δεδομένων διατίθεται για λήψη στο κάτω μέρος αυτής της σελίδας — μορφή CSV, μία γραμμή ανά δείγμα, με ταυτότητα γεννήτριας, ετικέτα τύπου δοκιμίου, ακατέργαστο βαθμό και την τελική δυαδική απόφαση.

Κύρια Αποτελέσματα

Σε ολόκληρο το σύνολο 1.000 δειγμάτων, ο ανιχνευτής συνόλου μας επιτυγχάνει AUC-ROC [AUC: 0.9884]. Στο κατώφλι απόφασης 50% που χρησιμοποιούμε σε παραγωγή: 0 ψευδώς θετικά σε ανθρώπινα δοκίμια στο σύνολο επαλήθευσης, και 60% ανάκληση σε δοκίμια AI. Στο βέλτιστο κατώφλι F1 του 26,56%, η ανάκληση ανεβαίνει στο 90% με κόστος 2% ψευδώς θετικών — μια αντιστάθμιση πιο κατάλληλη για ροές εργασίας υψηλής ευαισθησίας.

Η απόφαση σε επίπεδο εγγράφου στο δημόσιο εργαλείο μας χρησιμοποιεί το συντηρητικό κατώφλι 50%, δίνοντας προτεραιότητα στα μηδενικά ψευδώς θετικά έναντι της μέγιστης ανάκλησης. Καθηγητές, εκδότες και ερευνητές μπορούν να το παρακάμψουν μέσω του ρυθμιστή ευαισθησίας στο widget όταν θέλουν πιο επιθετική επισήμανση.

Για σύγκριση, το μηδενικής βολής συστατικό Binoculars μόνο του (μια διαμόρφωση 2× Llama-3.1-8B) βαθμολογεί AUC [AUC: 0.8509] αυτόνομα. Το λεπτοσυντονισμένο συστατικό ModernBERT μόνο του βαθμολογεί [AUC: 1.0000] σε δοκίμια εντός διανομής και [AUC: 0.9069] σε κείμενο εκτός διανομής. Το σύνολο τοποθετείται μεταξύ τους σε οποιονδήποτε μεμονωμένο άξονα, αλλά υπερτερεί και των δύο κατά μέσο όρο επειδή διορθώνει τις συμπληρωματικές αδυναμίες τους.

Ανάλυση ανά Γεννήτρια

Ακολουθεί ο πίνακας AUC-ROC ανά μοντέλο. Τα μοντέλα είναι ταξινομημένα από τα πιο εύκολα έως τα πιο δύσκολα να ανιχνευτούν στο σύνολο επαλήθευσής μας. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Μοντέλα OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Άλλα: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Το κύριο μοτίβο: τα νεότερα, μεγαλύτερα, μοντέλα με βελτιστοποίηση οδηγιών τείνουν να παράγουν κείμενο που φαίνεται πιο ανθρώπινο σε οποιονδήποτε στατιστικό ανιχνευτή, συμπεριλαμβανομένου του δικού μας. Τα Claude 4.5 Sonnet και GPT-5.x είναι οι δύο οικογένειες όπου οι κατανομές βαθμών μας επικαλύπτονται περισσότερο με την ανθρώπινη βάση. Αυτό ταιριάζει με κάθε ανεξάρτητη μελέτη που δημοσιεύθηκε το 2025 — ο ανταγωνισμός είναι πραγματικός και το μέγεθος του μοντέλου αποτελεί άμεσο εμπόδιο για την ανίχνευση.

Πού Αδυνατεί ο Ανιχνευτής

Δεν είναι όλα τα κείμενα εξίσου ανιχνεύσιμα. Αναλύουμε τα αποτελέσματα ανά τύπο δοκιμίου — κάθε κατηγορία εισαγωγής PERSUADE — και το χάσμα μεταξύ καλύτερου και χειρότερου είναι μεγάλο. [PER-TYPE TABLE]

Επιχειρηματικά, πειστικά και εκθεσιακά δοκίμια: ο ισχυρότερος τομέας του ανιχνευτή. Το AUC είναι συνήθως 0,97–1,00 επειδή τα σώματα εκπαίδευσης υπερεκπροσωπούν αυτά τα στυλ. Εδώ εμπίπτουν οι περισσότερες περιπτώσεις χρήσης ακαδημαϊκής ακεραιότητας.

Δημιουργική γραφή και λογοτεχνική ανάλυση: ο αδύναμος τομέας μας. Για τη λογοτεχνική ανάλυση το AUC πέφτει στο 0,69 — το ανθρώπινο ύφος στη μυθοπλασία συγκλίνει με τα αποτελέσματα LLM και κανένα από τα επιτηρούμενα ή μηδενικής βολής συστατικά μας δεν μπορεί να τα διακρίνει αξιόπιστα. Αντιμετωπίστε με σκεπτικισμό έναν υψηλό βαθμό AI σε μυθοπλασία.

Δοκιμάστε τον ανιχνευτή στο δικό σας κείμενο

Επικολλήστε οποιοδήποτε έγγραφο και δείτε την ίδια ετυμηγορία ανά πρόταση και τα κατώφλια απόφασης που χρησιμοποιούμε για αυτούς τους αριθμούς αξιολόγησης. Δωρεάν, χωρίς εγγραφή.

Περιορισμοί και Τρόποι Αποτυχίας

Τρεις κατηγορίες κειμένου αποφεύγουν τον ανιχνευτή μας πιο συχνά από ό,τι υποδηλώνει το σύνολο επαλήθευσής μας. Εξανθρωπισμένο κείμενο AI — αποτέλεσμα που έχει περάσει από ένα εχθρικό εργαλείο παράφρασης ή μεταφοράς ύφους — συχνά βαθμολογείται ως ανθρώπινο ακόμα και όταν το υποκείμενο κείμενο ήταν πλήρως παραγόμενο. Σύντομο κείμενο (κάτω από 100 λέξεις) είναι δύσκολο να ταξινομηθεί καθόλου γιατί δεν υπάρχει επαρκές στατιστικό σήμα. Αγγλική γραφή μη-ντόπιων ομιλητών μπορεί να βαθμολογηθεί ως παραγόμενη από AI επειδή τα LLM και οι συγγραφείς ESL μοιράζονται ορισμένες λεξιλογικές και συντακτικές προτιμήσεις.

Ο ανιχνευτής μας είναι πιθανολογικός, όχι αποδεικτικός. Ένας υψηλός βαθμός AI είναι σήμα για περαιτέρω διερεύνηση, όχι απόδειξη παράβασης. Συνιστούμε έντονα να συνδυάζετε τον βαθμό με το πλαίσιο: πρόσφατο ιστορικό επεξεργασίας, προσχέδια εκδόσεων, δείγματα γραφής από τον ίδιο συγγραφέα, και — όπου επιτρέπεται — μια σύντομη συνέχεια συνομιλίας με τον συγγραφέα.

Συνεχώς επανεκπαιδεύουμε με τα τελευταία αποτελέσματα γεννήτριας, αλλά υπάρχει πάντα καθυστέρηση: ένα μοντέλο που κυκλοφόρησε την περασμένη εβδομάδα μπορεί να μην αντιπροσωπεύεται καλά στα δεδομένα εκπαίδευσης. Εάν η ροή εργασίας σας εξαρτάται από την ανίχνευση των τελευταίων μοντέλων, ελέγξτε ξανά τη σελίδα αξιολόγησής μας κάθε τρίμηνο για τους ενημερωμένους αριθμούς.

Λήψη του Πλήρους Συνόλου Δεδομένων

Δημοσιεύουμε τα ακατέργαστα αποτελέσματα επαλήθευσης ώστε ερευνητές, δημοσιογράφοι και εκπαιδευτικοί να μπορούν να επαληθεύσουν ανεξάρτητα τους ισχυρισμούς μας. Το CSV περιέχει: αναγνωριστικό δείγματος, ταυτότητα γεννήτριας (ή 'human'), ετικέτα τύπου δοκιμίου, ακατέργαστη έξοδος πιθανότητας, δυαδική απόφαση στο κατώφλι 50%, δυαδική απόφαση στο κατώφλι 26,56%.

Λήψη: ai-detector-benchmark-2026-04.csv (ενημερώνεται κάθε τρίμηνο). Η ακαδημαϊκή χρήση είναι απεριόριστη· η εμπορική αναδημοσίευση απαιτεί απόδοση: “Ανιχνευτής λογοκλοπής — AI Detection Benchmark 2026-04”.

Για μια διαδραστική έκδοση της ίδιας μεθοδολογίας στο δικό σας κείμενο, δοκιμάστε το εργαλείο Ελεγκτής AI & Λογοκλοπής — επικολλήστε οποιοδήποτε έγγραφο και δείτε την ετυμηγορία ανά πρόταση, τα ίδια κατώφλια απόφασης και το ίδιο διάστημα εμπιστοσύνης που χρησιμοποιούμε για αυτούς τους δημοσιευμένους αριθμούς.

Συχνές Ερωτήσεις

Πόσο συχνά ενημερώνεται αυτή η αξιολόγηση;

Κάθε τρίμηνο. Όταν κυκλοφορεί μια σημαντική γεννήτρια (GPT-6, Claude 5, Gemini 3) την προσθέτουμε στο σώμα δοκιμών εντός 4 εβδομάδων και αναδημοσιεύουμε τον ενημερωμένο πίνακα. Οι ιστορικές εκδόσεις αρχειοθετούνται με χρονολογημένα ονόματα αρχείων — η έκδοση 2026-04 είναι η τρέχουσα σταθερή κυκλοφορία.

Γιατί δεν δημοσιεύετε εξόδους πιθανότητας ανά δείγμα;

Το κάνουμε — το CSV με δυνατότητα λήψης περιέχει ακατέργαστες πιθανότητες. Αυτό που δεν δημοσιεύουμε είναι το αρχικό κείμενο δοκιμίου, επειδή το σώμα PAN25 και το σύνολο δεδομένων PERSUADE φέρουν περιορισμούς αναδιανομής. Εάν θέλετε το κείμενο, αντλήστε αυτά τα σύνολα δεδομένων απευθείας από την πηγή τους (σύνδεσμοι στην τεκμηρίωση CSV).

Μπορώ να εμπιστευτώ έναν ανιχνευτή εάν το AUC είναι κάτω από 1,0;

Κανένας ανιχνευτής δεν επιτυγχάνει AUC 1,0 σε κάθε γεννήτρια, οπότε η ερώτηση δεν είναι ‘είναι τέλειος’ αλλά ‘είναι διαφανής.’ Ένας ανιχνευτής που δημοσιεύει AUC 0,95 και σας λέει πού αδυνατεί είναι πιο αξιόπιστος από αυτόν που δημοσιεύει ‘κορυφαία ακρίβεια του κλάδου’ χωρίς αριθμό. Το AUC [AUC: 0.9884] μας είναι ειλικρινής μέση απόδοση· η ανάλυση ανά γεννήτρια και ανά τύπο δοκιμίου είναι εκεί που πρέπει να βασίσετε την απόφαση αγοράς σας.

Είναι ο ανιχνευτής AI σας έτοιμος για ακαδημαϊκή δημοσίευση;

Η υποκείμενη μεθοδολογία ναι — το Binoculars (ICML 2024) και το ModernBERT είναι και οι δύο αρχιτεκτονικές αξιολογημένες από ομοτίμους. Το συγκεκριμένο σώμα λεπτοσυντονισμού και τα κατώφλια μας είναι ιδιόκτητα, αλλά η μεθοδολογία αξιολόγησης είναι πλήρως αναπαραγώγιμη.

Πώς συγκρίνεται το δωρεάν διαδικτυακό εργαλείο με το εφαρμογή επιτραπέζιου υπολογιστή;

Ίδια μηχανή, ίδιοι αριθμοί ακρίβειας, ίδια λογική ετυμηγορίας ανά πρόταση. Η εφαρμογή επιτραπέζιου υπολογιστή προσθέτει απεριόριστο μήκος εγγράφου, σάρωση εκτός σύνδεσης, ενσωματωμένη αντιστοίχιση λογοκλοπής με 4 δισεκατομμύρια ιστοσελίδες και μαζική επεξεργασία ολόκληρων φακέλων. Για εφάπαξ ελέγχους το διαδικτυακό εργαλείο είναι επαρκές· για καθημερινές ροές εργασίας η εφαρμογή επιτραπέζιου είναι το κατάλληλο εργαλείο.

Τα αποτελέσματα αξιολόγησης προέρχονται από το εσωτερικό μας σύνολο επαλήθευσης και ενδέχεται να μην γενικεύονται σε κείμενο εκτός διανομής. Οι δημοσιευμένοι αριθμοί αντιπροσωπεύουν μέση απόδοση σε 1.000 δείγματα· το έγγραφό σας μπορεί να βαθμολογηθεί διαφορετικά. Χρησιμοποιήστε τα αποτελέσματα ανίχνευσης AI ως μία εισροή μεταξύ πολλών, όχι ως αποκλειστική απόδειξη συγγραφής.