Nach oben navigieren
Heim Welche KI ist am schwersten zu erkennen? GPT vs. Claude vs. Gemini | Plagiatsdetektor

Welche KI ist am schwersten zu erkennen? GPT vs. Claude vs. Gemini vs. Llama

Nicht aller KI-Text ist gleichermaßen erkennbar. Hier sind die Ergebnisse unseres Generator-spezifischen Benchmarks — welche Modellfamilien unser Detektor mit nahezu perfekter Genauigkeit erkennt, mit welchen er Schwierigkeiten hat und was das für die Wahl eines Erkennungs-Workflows bedeutet.

2026-04-17 · Plagiarism Detector Team

Die Kurzantwort — Bestenliste

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Geordnet von am einfachsten bis am schwierigsten zu erkennen auf unserem Validierungsset. Die Spanne ist breit — AUC bei einigen Modellfamilien übersteigt 0,99, während andere in die 0,80er fallen. Erkennungsschwierigkeit korreliert mit Modellgröße, Instruktions-Tuning-Sophistiziertheit und Ausgabe-Varianz.

Die vollständige Aufschlüsselung nach Generator-Methodik finden Sie auf unserer Genauigkeits-Benchmark-Seite. Dieser Artikel fasst die praktischen Implikationen dieser Daten für Nutzer zusammen, die entscheiden, welchem Detektor sie vertrauen und welches Modell sie verwenden sollen.

OpenAI-Familie — GPT

GPT-3.5 ist das am einfachsten zu erkennende moderne Modell — AUC [AUC: ?] in unserem Set. Veraltete Generierungsartefakte (Wiederholung, Zögern, blasses Register) sind noch deutlich vorhanden. GPT-4 fällt auf AUC [AUC: ?], GPT-4o auf [AUC: ?], was eine schrittweise bessere Kalibrierung widerspiegelt. GPT-5.x ist das schwierigste der Familie — AUC [AUC: ?] — weil das Instruktions-Tuning-Team explizit auf die Entfernung von Erkennungsartefakten abzielte.

Praktische Implikation: akademische Workflows, die sich um GPT-3.5-äraiges Schummeln sorgen, können sich stark auf die Erkennung allein verlassen. Workflows, die sich um GPT-5 sorgen, müssen die Erkennung mit kontextuellen Beweisen kombinieren, wie in unserem Lehrer-Workflow-Leitfaden beschrieben.

Temperatureinstellungen sind wichtig. Niedrigtemperatur-Ausgaben (t ≤ 0,5) sind leichter zu erkennen, weil sie Wahrscheinlichkeitsmasse auf einem engeren Vokabular konzentrieren. Die meisten Chat-Schnittstellen verwenden standardmäßig t ≈ 0,7, was Text in eine mäßig erkennbare Zone legt. Adversarielle Nutzer drehen die Temperatur explizit hoch oder verwenden diverses Decoding, um den Bereich zu erweitern und die Erkennung zu umgehen — unser Ensemble korrigiert dies teilweise, aber nicht vollständig.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Die Claude-Familie produziert durchgängig weniger repetitiven, stilistisch vielfältigeren Text als GPT-Modelle derselben Generation, was sie schwieriger über statistische Methoden zu erkennen macht.

Claudes Constitutional-AI-Training zielt speziell auf die „Maschinenmerkmale“ ab, auf die unser überwachter Klassifikator trainiert — Zögerungsmuster, übermäßige Verwendung bestimmter Konnektoren, vorhersehbare Absatzstruktur. Das ist eine direkte adversarielle Beziehung: der Generator wird gegen Merkmale trainiert, auf die der Detektor angewiesen ist.

Claude 4.5 Sonnet und GPT-5.x sind in der Schwierigkeit nah beieinander. Ihre Score-Verteilungen überlappen die menschliche Baseline am stärksten in unseren Validierungsdaten. Wenn Ihr Workflow auf eines dieser Modelle abzielt, erwarten Sie reduzierte Trefferquote beim Standard-Schwellenwert und erwägen Sie, auf den F1-optimalen für hochsensitives Screening zu senken.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini hat die variabelste Erkennungsleistung über Versionen hinweg gezeigt — einige Zwischenversionen haben sich vorübergehend verschlechtert, bevor Verbesserungen ankamen.

Geminis multimodales Training bedeutet, dass reine Textausgaben manchmal vestigiale Muster aus Bildunterschrift- oder Code-Erklärungsdomänen tragen. Unser Detektor erkennt diese, was Geminis leicht höhere Erkennbarkeit bei gemischten Domänen-Prompts im Vergleich zu reiner Prosa erklärt.

Für Google-Workspace-Nutzer, deren Schüler oder Mitarbeiter Gemini über Docs verwenden, ist das Erkennungssignal ähnlich wie bei der rohen API-Ausgabe. Wir haben keine workspace-integrations-spezifischen Ausweichmuster beobachtet, die sich von der direkten Gemini-API-Nutzung unterscheiden.

Stichprobe von einem beliebigen Modell prüfen

Fügen Sie Ausgabe von einem beliebigen LLM ein und sehen Sie das satzweise Urteil. Unser Detektor behandelt alle 22 Modellfamilien als eine einzige Ensemble-Prüfung.

Meta und Open-Weights-Modelle

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Open-Weights-Modelle decken eine breitere Spanne ab als geschlossene — Feinabstimmungsvarianten, quantisierte Deployments und community-modifizierte Checkpoints produzieren alle subtil unterschiedliche Ausgaben.

Erkennung bei Open-Weights ist strategisch wichtig, weil Humanisierer-Tools in der Regel auf Open-Weights-Modellen basieren — Llama- und Mistral-Derivate laufen lokal zu geringen Kosten, weshalb Paraphrasierungs- und Stil-Transfer-Dienste sie einsetzen. Wenn Ihr Anliegen humanisierte KI ist, verteidigen Sie sich letztendlich gegen Llama-Family-Generierung.

DeepSeek R1 und o3-mini (OpenAI-Reasoning-Modell) verdienen eine gesonderte Erwähnung. Beide produzieren Text mit Reasoning-Chain-Artefakten — explizite Schritt-für-Schritt-Logik, die in der Ausgabe sichtbar ist — die unser Detektor gelernt hat zu erkennen. Reasoning-Modelle sind derzeit leichter zu erkennen als ihre Basis-Chat-Pendants aus diesem Grund.

Was diese Unterschiede für Sie bedeuten

Wenn Sie ein Modell zum Schreiben auswählen und Erkennung kein Anliegen ist, sind Claude 4.5 Sonnet und GPT-5 am schwersten zu erkennen. Wenn Sie einen Erkennungs-Workflow aufbauen, priorisieren Sie für die Modelle, die Sie tatsächlich sehen: der größte Teil des akademischen Missbrauchs läuft immer noch auf GPT-4/5 über kostenlose Schnittstellen; der größte Teil des Content-Farmings läuft auf Llama-Derivat-Humanisierern.

Ein einzelner Detektor, der auf einer einzigen Modellfamilie trainiert wurde, schneidet bei den anderen am schlechtesten ab. Unser Ensemble-Ansatz trainiert auf Stichproben von allen 22 Generatoren, weshalb der AUC pro Modell bei harten Fällen (Claude 4.5, GPT-5) immer noch über 0,90 liegt, während jeder auf einem einzelnen Modell trainierte Detektor unter 0,80 fallen würde.

Der zugrunde liegende Trend: Erkennungsschwierigkeit steigt schneller als die Generator-Veröffentlichungskadenz. Jedes neue Flaggschiff ist schwieriger zu erkennen als das vorherige, Nachtraining schließt die Lücke, aber nicht vollständig. Erwarten Sie, dass die Baseline 2026–2027 bei Frontier-Modellen einen niedrigeren AUC haben wird und bei Legacy-Modellen ungefähr konstant bleibt.

Häufig gestellte Fragen

Wenn einige Modelle schwieriger zu erkennen sind, sollte ich Detektoren ganz vermeiden?
Nein — selbst bei den schwierigsten Modellfamilien liegt unser AUC über 0,85, was ein starkes Signal ist. Die Frage ist, wie Sie das Signal nutzen. Bei schwer zu erkennenden Modellen kombinieren Sie den Score mit bestätigenden Beweisen (Bearbeitungshistorie, In-Klasse-Arbeit, Schülergesprsäch). Bei leichteren Modellen reicht der Score oft allein aus.
Welches Modell sollte ich verwenden, wenn ich Erkennung vermeiden möchte?
Wir beantworten diese Frage nicht direkt — wir betreiben ein Erkennungstool, keinen Ausweich-Leitfaden. Was wir sagen werden: erkennbar vs. nicht-erkennbar ist nicht die richtige Achse für die Modellauswahl. Qualität, Kosten und Zwecktauglichkeit sind weitaus wichtiger als Erkennungsschwierigkeit. Wenn Sie legitimerweise mit KI-Unterstützung schreiben, sind Offenlegung und transparenter Workflow wichtiger als das Tool zu verbergen.
Haben Open-Weights-Modellvarianten unterschiedliche Erkennungsprofile?
Ja, und das bedeutend. Eine community-feinabgestimmte Llama-3.3-Variante, die für einen bestimmten Schreibstil trainiert wurde, kann Text produzieren, der anders bewertet wird als Vanilla Llama 3.3. Unser Benchmark deckt den Standard-Checkpoint ab; benutzerdefinierte Feinabstimmungen können leichter (wenn sie Ausgabeverteilungen verengen) oder schwieriger (wenn sie explizit adversarial gegen Erkennung trainieren) sein.
Wie beeinflussen Temperatur und Sampling die Erkennbarkeit?
Höhere Temperatur und vielfältigeres Sampling reduzieren generell die Erkennbarkeit, weil sie die Ausgabeverteilung erweitern. Niedrigtemperatur-Greedy-Decoding ist am leichtesten zu erkennen. Die meisten Produktions-Chat-Schnittstellen laufen mit t ≈ 0,7–1,0 mit Nucleus-Sampling, was sie in ein mäßig erkennbares Regime stellt — unser Ensemble schneidet im Standard-Bereich ähnlich ab.
Wann werden GPT-6 oder Claude 5 erscheinen und was sollte ich erwarten?
Mitte 2026 ist der Konsens-Forecast für beide. Erwarten Sie, dass der Erkennungs-AUC auf den neuen Familien in den ersten 4–8 Wochen nach der Markteinführung in den Bereich 0,80–0,85 fällt, während wir Stichproben sammeln und nachtrainieren. Historische Versionen legen nahe, dass sich die vollständige Erholung innerhalb von 8–12 Wochen einstellt, wenn das Modell weit verfügbar ist; länger bei seltenen oder eingeschränkten Modellen.

AUC-Zahlen pro Modell stammen aus unserer internen Validierung und können möglicherweise nicht verallgemeinert werden. Die Schwierigkeit jedes Modells ändert sich im Laufe der Zeit, da sich sowohl der Generator als auch unser Trainingskorpus weiterentwickeln. Aktuelle Daten entsprechen dem Benchmark-Lauf 2026-04.