Hogar › ¿Qué tan precisa es la detección de IA? Benchmark en 22 LLMs | Detector de Plagio

¿Qué tan precisa es la detección de IA? Nuestro Benchmark en 22 LLMs

Publicamos la precisión real de nuestro detector de IA frente a 22 modelos generativos, incluidos GPT-5, Claude 4, Gemini 2 y Llama 3. Tablas por modelo, limitaciones honestas y un conjunto de datos descargable para investigadores.

2026-04-17 · Plagiarism Detector Team

Por qué publicamos nuestros datos de precisión

La mayoría de las herramientas de detección de IA le piden que confíe en una única puntuación opaca. Creemos que merece evidencia. En esta página compartimos los resultados completos de nuestra validación interna: cada generador que probamos, la puntuación AUC-ROC correspondiente, los tipos de ensayo que más dificultades nos causaron y los umbrales de decisión que usamos en producción.

Este nivel de transparencia es inusual en el ámbito de la detección de IA. La mayoría de los competidores — proveedores de verificación de plagio, servicios especializados en detección de IA, herramientas SaaS genéricas — no publican datos de precisión o se limitan a un único número seleccionado favorablemente. Ese patrón es insostenible: educadores, editores e investigadores necesitan benchmarks reproducibles antes de poder confiar en cualquier herramienta.

Nuestros datos provienen de una partición de validación de 1.000 muestras del corpus de calibración utilizado para entrenar nuestro detector ModernBERT. La misma metodología que impulsa este benchmark se aplica a cada documento que usted envía a través de nuestra herramienta. No se reserva nada para demostraciones.

El Corpus de Prueba y la Metodología

El conjunto de validación contiene 1.000 ensayos extraídos de un corpus de calibración de 1.200 muestras: 600 ensayos escritos por humanos (del conjunto de datos de tareas compartidas PAN25 y del conjunto de ensayos argumentativos PERSUADE) y 600 ensayos generados por IA (producidos por 22 modelos de lenguaje de gran escala distintos bajo condiciones de prompting controladas). La división de entrenamiento/validación 80/20 es fija y reproducible.

Cada muestra se evalúa de forma aislada, sin acceso a metadatos que puedan filtrar la verdad de referencia. El detector devuelve una probabilidad en [0, 100] que representa la verosimilitud de que la muestra haya sido generada por IA. A continuación calculamos el área bajo la curva ROC (AUC-ROC) por generador y por tipo de ensayo.

Todos los umbrales, hiperparámetros de entrenamiento y salidas de probabilidad bruta se registran. El conjunto de datos en sí está disponible para descarga al final de esta página, en formato CSV, con una fila por muestra que incluye la identidad del generador, la etiqueta del tipo de ensayo, la puntuación bruta y el veredicto binario final.

Resultados Principales

En el conjunto completo de 1.000 muestras, nuestro detector de conjunto logra AUC-ROC [AUC: 0,9884]. Con el umbral de decisión del 50% que usamos en producción: 0 falsos positivos en ensayos humanos del conjunto de validación y 60% de recall en ensayos de IA. Con el umbral óptimo de F1 del 26,56%, el recall sube al 90% a costa de un 2% de falsos positivos — una concesión más adecuada para flujos de trabajo de detección de alta sensibilidad.

El veredicto a nivel de documento en nuestra herramienta pública utiliza el umbral conservador del 50%, priorizando cero falsos positivos sobre el recall máximo. Docentes, editores e investigadores pueden ajustar esto mediante el control deslizante de sensibilidad en el widget cuando desean una detección más agresiva.

A modo de comparación, el componente zero-shot Binoculars por sí solo (una configuración de 2× Llama-3.1-8B) obtiene AUC [AUC: 0,8509] de forma independiente. El componente supervisado ModernBERT por sí solo obtiene [AUC: 1,0000] en ensayos dentro de la distribución y [AUC: 0,9069] en texto fuera de distribución. El conjunto se sitúa entre ambos en cualquier eje individual, pero supera a los dos en promedio porque corrige sus debilidades complementarias.

Desglose por Generador

A continuación se muestra la tabla AUC-ROC por modelo. Los modelos están ordenados de más fácil a más difícil de detectar en nuestro conjunto de validación. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Modelos OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Otros: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

El patrón general: los modelos más nuevos, más grandes y ajustados por instrucciones tienden a producir texto que parece más humano para cualquier detector estadístico, incluido el nuestro. Claude 4.5 Sonnet y GPT-5.x son las dos familias donde nuestras distribuciones de puntuación se superponen más con la línea de base humana. Esto coincide con todos los estudios independientes publicados en 2025: la carrera armamentista es real y el tamaño del modelo es un viento en contra directo para la detección.

Dónde le Cuesta Más al Detector

No todo el texto es igualmente detectable. Desglosamos los resultados por tipo de ensayo — cada categoría de prompts de PERSUADE — y la brecha entre el mejor y el peor caso es amplia. [PER-TYPE TABLE]

Ensayos argumentativos, persuasivos y expositivos: el dominio más sólido del detector. AUC típicamente 0,97–1,00 porque los corpus de entrenamiento tienen un sesgo considerable hacia estos estilos. Aquí se encuadra la mayoría de los casos de uso de integridad académica.

Escritura creativa y análisis literario: nuestro dominio más débil. Para literary_analysis el AUC cae a 0,69 — el estilo humano en ficción converge con las salidas de los LLMs y ni nuestro componente supervisado ni el zero-shot pueden distinguirlos de forma fiable. Trate con escepticismo una puntuación de IA alta en textos de ficción.

Pruebe el detector con su propio texto

Pegue cualquier documento y vea el mismo veredicto por oración y los mismos umbrales de decisión que usamos para estos números de benchmark. Gratuito, sin registro.

Limitaciones y Modos de Fallo

Tres categorías de texto escapan a nuestro detector con más frecuencia de lo que sugiere nuestro conjunto de validación. Texto de IA humanizado — salida procesada por una herramienta de paráfrasis adversarial o transferencia de estilo — suele puntuar como humano aunque el texto subyacente haya sido generado íntegramente. Texto corto (menos de 100 palabras) es difícil de clasificar en cualquier caso, pues no hay suficiente señal estadística. Escritura en inglés no nativo puede puntuar como generada por IA porque los LLMs y los escritores de inglés como segunda lengua comparten ciertas preferencias léxicas y sintácticas.

Nuestro detector es probabilístico, no probatorio. Una puntuación de IA alta es una señal para investigar más a fondo, no una prueba de conducta indebida. Recomendamos firmemente complementar la puntuación con contexto: historial de edición reciente, borradores de versiones anteriores, muestras de escritura del mismo autor y — cuando sea posible — una breve conversación de seguimiento con el autor.

Reentrenamos continuamente con las últimas salidas de los generadores, pero siempre existe un desfase: un modelo lanzado la semana pasada puede no estar bien representado en los datos de entrenamiento. Si su flujo de trabajo depende de detectar los modelos más recientes, consulte nuestra página de benchmark trimestralmente para ver los números actualizados.

Descarga del Conjunto de Datos Completo

Publicamos los resultados de validación brutos para que investigadores, periodistas y educadores puedan verificar nuestras afirmaciones de forma independiente. El CSV contiene: ID de muestra, identidad del generador (o «humano»), etiqueta del tipo de ensayo, salida de probabilidad bruta, veredicto binario al 50% de umbral, veredicto binario al 26,56% de umbral.

Descarga: ai-detector-benchmark-2026-04.csv (actualizado trimestralmente). El uso académico es libre; la republicación comercial requiere atribución: «Detector de Plagio — AI Detection Benchmark 2026-04».

Para una versión interactiva de la misma metodología aplicada a su propio texto, pruebe nuestra herramienta Verificador de IA y Plagio — pegue cualquier documento y vea el veredicto por oración, los mismos umbrales de decisión y el mismo intervalo de confianza que utilizamos para estos números publicados.

Preguntas frecuentes

¿Con qué frecuencia se actualiza este benchmark?

Cada trimestre. Cuando se lanza un generador importante (GPT-6, Claude 5, Gemini 3) lo añadimos al corpus de prueba en un plazo de 4 semanas y republicamos la tabla actualizada. Las versiones históricas se archivan con nombres de archivo fechados — la edición 2026-04 es la versión estable actual.

¿Por qué no publican las salidas de probabilidad por muestra?

Lo hacemos — el CSV descargable contiene probabilidades brutas. Lo que no publicamos es el texto original de los ensayos, porque el corpus PAN25 y el conjunto de datos PERSUADE tienen restricciones de redistribución. Si desea acceder a los textos, descargue esos conjuntos de datos directamente desde su fuente (enlaces en la documentación del CSV).

¿Puedo confiar en un detector si el AUC es inferior a 1,0?

Ningún detector logra AUC 1,0 en todos los generadores, por lo que la pregunta no es «¿es perfecto?» sino «¿es transparente?». Un detector que publica AUC 0,95 y le dice dónde falla es más fiable que uno que publica «precisión líder del sector» sin ningún número. Nuestro AUC [AUC: 0,9884] es el rendimiento promedio honesto; los desglosados por generador y por tipo de ensayo son donde usted debería tomar su decisión de compra.

¿Está su detector de IA listo para publicación académica?

La metodología subyacente sí lo está — Binoculars (ICML 2024) y ModernBERT son arquitecturas revisadas por pares. Nuestro corpus de ajuste fino específico y los umbrales son propietarios, pero la metodología del benchmark es totalmente reproducible.

¿Cómo se compara la herramienta online gratuita con el producto de escritorio?

Mismo motor, mismos datos de precisión, misma lógica de veredicto por oración. El producto de escritorio añade longitud de documento ilimitada, análisis sin conexión, comparación de plagio integrada contra 4.000 millones de páginas web y procesamiento por lotes de carpetas completas. Para verificaciones puntuales la herramienta online es suficiente; para flujos de trabajo diarios el escritorio es la opción adecuada.

Los resultados del benchmark se derivan de nuestro conjunto de validación interno y pueden no generalizarse a texto fuera de distribución. Los números publicados representan el rendimiento promedio en 1.000 muestras; su documento puede obtener una puntuación diferente. Utilice los resultados de detección de IA como un dato más entre varios, no como evidencia única de autoría.