Δημοσιεύουμε την πραγματική ακρίβεια του ανιχνευτή AI μας έναντι 22 γεννητικών μοντέλων, συμπεριλαμβανομένων των GPT-5, Claude 4, Gemini 2 και Llama 3. Πίνακες ανά μοντέλο, ειλικρινείς περιορισμοί και δυνατότητα λήψης συνόλου δεδομένων για ερευνητές.
Τα περισσότερα εργαλεία ανίχνευσης AI σας ζητούν να εμπιστευτείτε έναν αδιαφανή βαθμό. Πιστεύουμε ότι αξίζετε αποδείξεις. Σε αυτή τη σελίδα μοιραζόμαστε τα πλήρη αποτελέσματα της εσωτερικής μας επαλήθευσης — κάθε γεννήτρια που δοκιμάσαμε, το βαθμό AUC-ROC σε κάθε μία, τους τύπους δοκιμίων που μας δυσκόλεψαν περισσότερο, και τα κατώφλια απόφασης που χρησιμοποιούμε σε παραγωγή.
Αυτό το επίπεδο διαφάνειας είναι ασυνήθιστο στον χώρο της ανίχνευσης AI. Οι περισσότεροι ανταγωνιστές — προμηθευτές ελεγκτών λογοκλοπής, εξειδικευμένες υπηρεσίες ανίχνευσης AI, γενικά εργαλεία SaaS — δεν δημοσιεύουν καθόλου δεδομένα ακρίβειας ή δημοσιεύουν έναν μεμονωμένο αριθμό επιλεγμένο εκ των προτέρων. Αυτό το μοτίβο είναι μη βιώσιμο: εκπαιδευτικοί, εκδότες και ερευνητές χρειάζονται αναπαραγώγιμα σημεία αναφοράς πριν μπορέσουν να βασιστούν σε οποιοδήποτε εργαλείο.
Τα αποτελέσματά μας προέρχονται από ένα σύνολο επαλήθευσης 1.000 δειγμάτων του σώματος βαθμονόμησης που χρησιμοποιήθηκε για την εκπαίδευση του ανιχνευτή μας ModernBERT. Η ίδια μεθοδολογία που οδηγεί αυτή την αξιολόγηση εκτελείται σε κάθε έγγραφο που υποβάλλετε μέσω του εργαλείου μας. Τίποτα δεν κρύβεται για demos.
Το σύνολο επαλήθευσης περιέχει 1.000 δοκίμια που αντλήθηκαν από ένα σώμα βαθμονόμησης 1.200 δειγμάτων: 600 δοκίμια γραμμένα από ανθρώπους (από τα δεδομένα του κοινού έργου PAN25 και το σύνολο δεδομένων επιχειρηματικών δοκιμίων PERSUADE) και 600 δοκίμια παραγόμενα από AI (παραγόμενα από 22 διαφορετικά μεγάλα γλωσσικά μοντέλα υπό ελεγχόμενη εισαγωγή). Η διαίρεση εκπαίδευσης-επαλήθευσης 80/20 είναι σταθερή και επαναλαμβανόμενη.
Κάθε δείγμα βαθμολογείται μεμονωμένα, χωρίς πρόσβαση σε μεταδεδομένα που θα μπορούσαν να αποκαλύψουν την αληθινή κατηγορία. Ο ανιχνευτής επιστρέφει πιθανότητα στο [0, 100] που αντιπροσωπεύει την πιθανότητα το δείγμα να είναι παραγόμενο από AI. Στη συνέχεια υπολογίζουμε το εμβαδόν κάτω από την καμπύλη δέκτη-λειτουργίας (AUC-ROC) ανά γεννήτρια και ανά επίπεδο τύπου δοκιμίου.
Όλα τα κατώφλια, οι υπερπαράμετροι εκπαίδευσης και οι ακατέργαστες εξόδοι πιθανότητας καταγράφονται. Το ίδιο το σύνολο δεδομένων διατίθεται για λήψη στο κάτω μέρος αυτής της σελίδας — μορφή CSV, μία γραμμή ανά δείγμα, με ταυτότητα γεννήτριας, ετικέτα τύπου δοκιμίου, ακατέργαστο βαθμό και την τελική δυαδική απόφαση.
Σε ολόκληρο το σύνολο 1.000 δειγμάτων, ο ανιχνευτής συνόλου μας επιτυγχάνει AUC-ROC [AUC: 0.9884]. Στο κατώφλι απόφασης 50% που χρησιμοποιούμε σε παραγωγή: 0 ψευδώς θετικά σε ανθρώπινα δοκίμια στο σύνολο επαλήθευσης, και 60% ανάκληση σε δοκίμια AI. Στο βέλτιστο κατώφλι F1 του 26,56%, η ανάκληση ανεβαίνει στο 90% με κόστος 2% ψευδώς θετικών — μια αντιστάθμιση πιο κατάλληλη για ροές εργασίας υψηλής ευαισθησίας.
Η απόφαση σε επίπεδο εγγράφου στο δημόσιο εργαλείο μας χρησιμοποιεί το συντηρητικό κατώφλι 50%, δίνοντας προτεραιότητα στα μηδενικά ψευδώς θετικά έναντι της μέγιστης ανάκλησης. Καθηγητές, εκδότες και ερευνητές μπορούν να το παρακάμψουν μέσω του ρυθμιστή ευαισθησίας στο widget όταν θέλουν πιο επιθετική επισήμανση.
Για σύγκριση, το μηδενικής βολής συστατικό Binoculars μόνο του (μια διαμόρφωση 2× Llama-3.1-8B) βαθμολογεί AUC [AUC: 0.8509] αυτόνομα. Το λεπτοσυντονισμένο συστατικό ModernBERT μόνο του βαθμολογεί [AUC: 1.0000] σε δοκίμια εντός διανομής και [AUC: 0.9069] σε κείμενο εκτός διανομής. Το σύνολο τοποθετείται μεταξύ τους σε οποιονδήποτε μεμονωμένο άξονα, αλλά υπερτερεί και των δύο κατά μέσο όρο επειδή διορθώνει τις συμπληρωματικές αδυναμίες τους.
Ακολουθεί ο πίνακας AUC-ROC ανά μοντέλο. Τα μοντέλα είναι ταξινομημένα από τα πιο εύκολα έως τα πιο δύσκολα να ανιχνευτούν στο σύνολο επαλήθευσής μας. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
Μοντέλα OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Άλλα: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Το κύριο μοτίβο: τα νεότερα, μεγαλύτερα, μοντέλα με βελτιστοποίηση οδηγιών τείνουν να παράγουν κείμενο που φαίνεται πιο ανθρώπινο σε οποιονδήποτε στατιστικό ανιχνευτή, συμπεριλαμβανομένου του δικού μας. Τα Claude 4.5 Sonnet και GPT-5.x είναι οι δύο οικογένειες όπου οι κατανομές βαθμών μας επικαλύπτονται περισσότερο με την ανθρώπινη βάση. Αυτό ταιριάζει με κάθε ανεξάρτητη μελέτη που δημοσιεύθηκε το 2025 — ο ανταγωνισμός είναι πραγματικός και το μέγεθος του μοντέλου αποτελεί άμεσο εμπόδιο για την ανίχνευση.
Δεν είναι όλα τα κείμενα εξίσου ανιχνεύσιμα. Αναλύουμε τα αποτελέσματα ανά τύπο δοκιμίου — κάθε κατηγορία εισαγωγής PERSUADE — και το χάσμα μεταξύ καλύτερου και χειρότερου είναι μεγάλο. [PER-TYPE TABLE]
Επιχειρηματικά, πειστικά και εκθεσιακά δοκίμια: ο ισχυρότερος τομέας του ανιχνευτή. Το AUC είναι συνήθως 0,97–1,00 επειδή τα σώματα εκπαίδευσης υπερεκπροσωπούν αυτά τα στυλ. Εδώ εμπίπτουν οι περισσότερες περιπτώσεις χρήσης ακαδημαϊκής ακεραιότητας.
Δημιουργική γραφή και λογοτεχνική ανάλυση: ο αδύναμος τομέας μας. Για τη λογοτεχνική ανάλυση το AUC πέφτει στο 0,69 — το ανθρώπινο ύφος στη μυθοπλασία συγκλίνει με τα αποτελέσματα LLM και κανένα από τα επιτηρούμενα ή μηδενικής βολής συστατικά μας δεν μπορεί να τα διακρίνει αξιόπιστα. Αντιμετωπίστε με σκεπτικισμό έναν υψηλό βαθμό AI σε μυθοπλασία.
Επικολλήστε οποιοδήποτε έγγραφο και δείτε την ίδια ετυμηγορία ανά πρόταση και τα κατώφλια απόφασης που χρησιμοποιούμε για αυτούς τους αριθμούς αξιολόγησης. Δωρεάν, χωρίς εγγραφή.
Τρεις κατηγορίες κειμένου αποφεύγουν τον ανιχνευτή μας πιο συχνά από ό,τι υποδηλώνει το σύνολο επαλήθευσής μας. Εξανθρωπισμένο κείμενο AI — αποτέλεσμα που έχει περάσει από ένα εχθρικό εργαλείο παράφρασης ή μεταφοράς ύφους — συχνά βαθμολογείται ως ανθρώπινο ακόμα και όταν το υποκείμενο κείμενο ήταν πλήρως παραγόμενο. Σύντομο κείμενο (κάτω από 100 λέξεις) είναι δύσκολο να ταξινομηθεί καθόλου γιατί δεν υπάρχει επαρκές στατιστικό σήμα. Αγγλική γραφή μη-ντόπιων ομιλητών μπορεί να βαθμολογηθεί ως παραγόμενη από AI επειδή τα LLM και οι συγγραφείς ESL μοιράζονται ορισμένες λεξιλογικές και συντακτικές προτιμήσεις.
Ο ανιχνευτής μας είναι πιθανολογικός, όχι αποδεικτικός. Ένας υψηλός βαθμός AI είναι σήμα για περαιτέρω διερεύνηση, όχι απόδειξη παράβασης. Συνιστούμε έντονα να συνδυάζετε τον βαθμό με το πλαίσιο: πρόσφατο ιστορικό επεξεργασίας, προσχέδια εκδόσεων, δείγματα γραφής από τον ίδιο συγγραφέα, και — όπου επιτρέπεται — μια σύντομη συνέχεια συνομιλίας με τον συγγραφέα.
Συνεχώς επανεκπαιδεύουμε με τα τελευταία αποτελέσματα γεννήτριας, αλλά υπάρχει πάντα καθυστέρηση: ένα μοντέλο που κυκλοφόρησε την περασμένη εβδομάδα μπορεί να μην αντιπροσωπεύεται καλά στα δεδομένα εκπαίδευσης. Εάν η ροή εργασίας σας εξαρτάται από την ανίχνευση των τελευταίων μοντέλων, ελέγξτε ξανά τη σελίδα αξιολόγησής μας κάθε τρίμηνο για τους ενημερωμένους αριθμούς.
Δημοσιεύουμε τα ακατέργαστα αποτελέσματα επαλήθευσης ώστε ερευνητές, δημοσιογράφοι και εκπαιδευτικοί να μπορούν να επαληθεύσουν ανεξάρτητα τους ισχυρισμούς μας. Το CSV περιέχει: αναγνωριστικό δείγματος, ταυτότητα γεννήτριας (ή 'human'), ετικέτα τύπου δοκιμίου, ακατέργαστη έξοδος πιθανότητας, δυαδική απόφαση στο κατώφλι 50%, δυαδική απόφαση στο κατώφλι 26,56%.
Λήψη: ai-detector-benchmark-2026-04.csv (ενημερώνεται κάθε τρίμηνο). Η ακαδημαϊκή χρήση είναι απεριόριστη· η εμπορική αναδημοσίευση απαιτεί απόδοση: “Ανιχνευτής λογοκλοπής — AI Detection Benchmark 2026-04”.
Για μια διαδραστική έκδοση της ίδιας μεθοδολογίας στο δικό σας κείμενο, δοκιμάστε το εργαλείο Ελεγκτής AI & Λογοκλοπής — επικολλήστε οποιοδήποτε έγγραφο και δείτε την ετυμηγορία ανά πρόταση, τα ίδια κατώφλια απόφασης και το ίδιο διάστημα εμπιστοσύνης που χρησιμοποιούμε για αυτούς τους δημοσιευμένους αριθμούς.
Τα αποτελέσματα αξιολόγησης προέρχονται από το εσωτερικό μας σύνολο επαλήθευσης και ενδέχεται να μην γενικεύονται σε κείμενο εκτός διανομής. Οι δημοσιευμένοι αριθμοί αντιπροσωπεύουν μέση απόδοση σε 1.000 δείγματα· το έγγραφό σας μπορεί να βαθμολογηθεί διαφορετικά. Χρησιμοποιήστε τα αποτελέσματα ανίχνευσης AI ως μία εισροή μεταξύ πολλών, όχι ως αποκλειστική απόδειξη συγγραφής.