Heim › Wie genau ist KI-Erkennung? Benchmark über 22 LLMs | Plagiatsdetektor

Wie genau ist KI-Erkennung? Unser Benchmark über 22 LLMs

Wir veröffentlichen die reale Genauigkeit unseres KI-Detektors gegenüber 22 generativen Modellen, darunter GPT-5, Claude 4, Gemini 2 und Llama 3. Tabellen pro Modell, ehrliche Grenzen und ein herunterladbares Dataset für Forscher.

2026-04-17 · Plagiarism Detector Team

Warum wir unsere Genauigkeitszahlen veröffentlichen

Die meisten KI-Erkennungstools verlangen, dass Sie einem einzigen undurchsichtigen Score vertrauen. Wir sind der Meinung, dass Sie Belege verdienen. Auf dieser Seite teilen wir die vollständigen Ergebnisse unseres internen Validierungslaufs — jeden Generator, den wir getestet haben, den AUC-ROC-Score für jeden einzelnen, die Aufsatztypen, die uns die meisten Schwierigkeiten bereitet haben, und die Entscheidungsschwellen, die wir in der Produktion verwenden.

Dieses Maß an Transparenz ist im KI-Erkennungsbereich ungewöhnlich. Die meisten Mitbewerber — Plagiatsprüfer-Anbieter, spezialisierte KI-Erkennungsdienste, generische SaaS-Tools — veröffentlichen entweder keine Genauigkeitsdaten oder eine einzige, sorgfältig ausgewählte Zahl. Dieses Muster ist nicht nachhaltig: Pädagogen, Verlage und Forscher benötigen reproduzierbare Benchmarks, bevor sie sich auf ein Tool verlassen können.

Unsere Zahlen stammen aus einer Validierungsaufteilung mit 1.000 Stichproben des Kalibrierungskorpus, der zum Training unseres ModernBERT-Detektors verwendet wurde. Dieselbe Methodik, die diesen Benchmark antreibt, läuft für jedes Dokument, das Sie über unser Tool einreichen. Nichts wird für Demos zurückgehalten.

Das Testkorpus und die Methodik

Das Validierungsset enthält 1.000 Aufsätze aus einem Kalibrierungskorpus mit 1.200 Stichproben: 600 menschlich verfasste Aufsätze (aus den PAN25-Shared-Task-Daten und dem PERSUADE-Argumentationsaufsatz-Datensatz) und 600 KI-generierte Aufsätze (erstellt von 22 verschiedenen großen Sprachmodellen unter kontrollierten Prompting-Bedingungen). Die 80/20-Trainings-Validierungs-Aufteilung ist fest und reproduzierbar.

Jede Stichprobe wird isoliert bewertet, ohne Zugriff auf Metadaten, die die Ground Truth preisgeben könnten. Der Detektor gibt eine Wahrscheinlichkeit in [0, 100] zurück, die die Wahrscheinlichkeit angibt, dass die Stichprobe KI-generiert ist. Anschließend berechnen wir die Fläche unter der Receiver-Operating-Characteristic-Kurve (AUC-ROC) pro Generator und auf Aufsatztypebene.

Alle Schwellenwerte, Trainings-Hyperparameter und rohen Wahrscheinlichkeitsausgaben werden protokolliert. Das Dataset selbst steht am Ende dieser Seite zum Download bereit — CSV-Format, eine Zeile pro Stichprobe, mit Generator-Identität, Aufsatztyp-Label, rohem Score und dem endgültigen binären Urteil.

Gesamtergebnisse

Über das vollständige Set mit 1.000 Stichproben erreicht unser Ensemble-Detektor AUC-ROC [AUC: 0,9884]. Beim 50 %-Entscheidungsschwellenwert, den wir in der Produktion verwenden: 0 Falsch-Positive bei menschlichen Aufsätzen im Validierungsset und 60 % Trefferquote bei KI-Aufsätzen. Beim F1-optimalen Schwellenwert von 26,56 % steigt die Trefferquote auf 90 % bei einem Preis von 2 % Falsch-Positiven — ein Kompromiss, der besser für hochsensitive Screening-Workflows geeignet ist.

Das Urteil auf Dokumentenebene in unserem öffentlichen Tool verwendet den konservativen 50 %-Schwellenwert und priorisiert null Falsch-Positive gegenüber maximaler Trefferquote. Lehrer, Verlage und Forscher können diesen über den Empfindlichkeits-Regler im Widget überschreiben, wenn sie eine aggressivere Markierung wünschen.

Zum Vergleich: Die Binoculars-Nullschuss-Komponente allein (ein 2× Llama-3.1-8B-Setup) erzielt standalone AUC [AUC: 0,8509]. Die feinabgestimmte ModernBERT-Komponente allein erzielt [AUC: 1,0000] bei in-distribution-Aufsätzen und [AUC: 0,9069] bei out-of-distribution-Text. Das Ensemble liegt auf jeder einzelnen Achse zwischen beiden, übertrifft aber beide im Durchschnitt, weil es ihre komplementären Schwächen korrigiert.

Aufschlüsselung nach Generator

Hier ist die AUC-ROC-Tabelle pro Modell. Modelle sind von am einfachsten bis am schwierigsten zu erkennen auf unserem Validierungsset geordnet. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI-Modelle: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Weitere: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Das Hauptmuster: neuere, größere, instruktionsoptimierte Modelle erzeugen statistisch menschenstähnlicheren Text, da sie über reichhaltigere interne Verteilungen verfügen. Claude 4.5 Sonnet und GPT-5.x sind die zwei Modellfamilien, bei denen unsere Score-Verteilungen am stärksten mit der menschlichen Baseline überlappen. Dies stimmt mit jeder unabhängigen Studie überein, die 2025 veröffentlicht wurde — das Wettrüsten ist real und die Modellgröße ist ein direkter Gegenwind für die Erkennung.

Wo der Detektor Schwierigkeiten hat

Nicht alle Texte sind gleichermaßen erkennbar. Wir schlüsseln Ergebnisse nach Aufsatztyp auf — jede PERSUADE-Prompt-Kategorie — und die Lücke zwischen bestem und schlechtestem ist groß. [PER-TYPE TABLE]

Argumentative, persuasive und expositorische Aufsätze: die stärkste Domäne des Detektors. AUC typischerweise 0,97–1,00, da Trainingskorpora diese Stile übergewichten. Hier fallen die meisten akademischen Integritätsfälle an.

Kreatives Schreiben und Literaturanalyse: unsere schwächste Domäne. Bei literary_analysis fällt die AUC auf 0,69 — der menschliche Stil in der Belletristik konvergiert mit LLM-Ausgaben und weder unsere überwachte noch unsere Nullschuss-Komponente kann sie zuverlässig unterscheiden. Behandeln Sie einen hohen KI-Score bei Belletristik mit Skepsis.

Testen Sie den Detektor mit Ihrem eigenen Text

Fügen Sie ein beliebiges Dokument ein und sehen Sie dasselbe satzweise Urteil und dieselben Entscheidungsschwellen, die wir für diese Benchmark-Zahlen verwenden. Kostenlos, keine Registrierung.

Einschränkungen und Versagensmodi

Drei Klassen von Texten entgehen unserem Detektor häufiger als unser Validierungsset vermuten lässt. Humanisierter KI-Text — Ausgabe, die durch ein adversariales Paraphrasierungs- oder Stil-Transfer-Tool geleitet wurde — wird oft als menschlich eingestuft, selbst wenn der zugrunde liegende Text vollständig generiert wurde. Kurzer Text (unter 100 Wörter) ist überhaupt schwer zu klassifizieren, da kein ausreichendes statistisches Signal vorhanden ist. Nicht-muttersprachliches Englisch kann als KI-generiert eingestuft werden, da LLMs und ESL-Schreiber bestimmte lexikalische und syntaktische Präferenzen teilen.

Unser Detektor ist probabilistisch, nicht beweiskräftig. Ein hoher KI-Score ist ein Signal, um weiter zu untersuchen, kein Beweis für ein Fehlverhalten. Wir empfehlen dringend, den Score mit Kontext zu kombinieren: aktuelle Bearbeitungshistorie, Versionssentwürfe, Schreibproben desselben Autors und — wo erlaubt — ein kurzes Folgegesprsäch mit dem Autor.

Wir trainieren kontinuierlich auf den neuesten Generator-Ausgaben, aber es gibt immer eine Verzögerung: ein Modell, das letzte Woche veröffentlicht wurde, ist möglicherweise in den Trainingsdaten nicht gut vertreten. Wenn Ihr Workflow davon abhängt, die neuesten Modelle zu erkennen, überprüfen Sie unsere Benchmark-Seite vierteljährlich für die aktualisierten Zahlen.

Den vollständigen Datensatz herunterladen

Wir veröffentlichen die rohen Validierungsergebnisse, damit Forscher, Journalisten und Pädagogen unsere Behauptungen unabhängig überprüfen können. Die CSV enthält: Stichproben-ID, Generator-Identität (oder „human“), Aufsatztyp-Label, rohe Wahrscheinlichkeitsausgabe, binäres Urteil bei 50 %-Schwellenwert, binäres Urteil bei 26,56 %-Schwellenwert.

Download: ai-detector-benchmark-2026-04.csv (vierteljährlich aktualisiert). Akademische Nutzung ist uneingeschränkt; kommerzielle Weiterverbreitung erfordert Quellenangabe: „Plagiatsdetektor — KI-Erkennungs-Benchmark 2026-04“.

Für eine interaktive Version derselben Methodik auf Ihrem eigenen Text probieren Sie unseren KI- & Plagiatsprüfer — fügen Sie ein beliebiges Dokument ein und sehen Sie das satzweise Urteil, dieselben Entscheidungsschwellen und dasselbe Konfidenzintervall, das wir für diese veröffentlichten Zahlen verwenden.

Häufig gestellte Fragen

Wie oft wird dieser Benchmark aktualisiert?

Vierteljährlich. Wenn ein wichtiger Generator (GPT-6, Claude 5, Gemini 3) erscheint, fügen wir ihn innerhalb von 4 Wochen zum Testkorpus hinzu und veröffentlichen die aktualisierte Tabelle erneut. Historische Versionen werden mit datierten Dateinamen archiviert — die Ausgabe 2026-04 ist das aktuelle stabile Release.

Warum veröffentlichen Sie keine Wahrscheinlichkeitsausgaben pro Stichprobe?

Wir tun es — die herunterladbare CSV enthält rohe Wahrscheinlichkeiten. Was wir nicht veröffentlichen, ist der ursprüngliche Aufsatztext, da das PAN25-Korpus und der PERSUADE-Datensatz Weiterverbreitungseinschränkungen haben. Wenn Sie den Text möchten, laden Sie diese Datensätze direkt von ihrer Quelle herunter (Links in der CSV-Dokumentation).

Kann ich einem Detektor vertrauen, wenn der AUC unter 1,0 liegt?

Kein Detektor erreicht AUC 1,0 bei jedem Generator, also lautet die Frage nicht „ist er perfekt“, sondern „ist er transparent“. Ein Detektor, der AUC 0,95 veröffentlicht und Ihnen sagt, wo er Schwierigkeiten hat, ist vertrauenswürdiger als einer, der „branchenführende Genauigkeit“ ohne Zahl veröffentlicht. Unser AUC [AUC: 0,9884] ist ehrliche Durchschnittsleistung; die Aufschlüsselungen nach Generator und Aufsatztyp sind der Ort, wo Sie Ihre Kaufentscheidung treffen sollten.

Ist Ihr KI-Detektor für akademische Veröffentlichungen geeignet?

Die zugrunde liegende Methodik ist es — Binoculars (ICML 2024) und ModernBERT sind beide peer-reviewte Architekturen. Unser spezifisches Feinabstimmungskorpus und unsere Schwellenwerte sind proprietär, aber die Benchmark-Methodik ist vollständig reproduzierbar.

Wie vergleicht sich das kostenlose Online-Tool mit dem Desktop-Produkt?

Gleiche Engine, gleiche Genauigkeitszahlen, gleiche satzweise Urteilslogik. Das Desktop-Produkt fügt unbegrenzte Dokumentenlänge, Offline-Scanning, integrierten Plagiatsabgleich mit 4 Milliarden Webseiten und Stapelverarbeitung ganzer Ordner hinzu. Für einmalige Prüfungen ist das Online-Tool ausreichend; für tägliche Workflows ist der Desktop das richtige Tool.

Benchmark-Ergebnisse stammen aus unserem internen Validierungsset und können möglicherweise nicht auf out-of-distribution-Texte verallgemeinert werden. Veröffentlichte Zahlen stellen die durchschnittliche Leistung über 1.000 Stichproben dar; Ihr Dokument kann anders bewertet werden. Verwenden Sie KI-Erkennungsergebnisse als einen Input unter vielen, nicht als alleinigen Beweis für die Urheberschaft.