Navegar hacia arriba
Hogar ¿Qué IA es más difícil de detectar? GPT vs Claude vs Gemini | Detector de Plagio

¿Qué IA es más difícil de detectar? GPT vs Claude vs Gemini vs Llama

No todo el texto de IA es igualmente detectable. Aquí están los resultados de nuestro benchmark por generador — qué familias de modelos nuestro detector captura con precisión casi perfecta, con cuáles tiene dificultades y qué nos dice esto sobre cómo elegir un flujo de trabajo de detección.

2026-04-17 · Plagiarism Detector Team

La Respuesta Corta — Tabla de Clasificación

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Ordenados de más fácil a más difícil de detectar en nuestro conjunto de validación. La diferencia es amplia — el AUC en algunas familias de modelos supera 0,99 mientras que en otras cae a la banda de 0,80. La dificultad de detección se correlaciona con el tamaño del modelo, la sofisticación del ajuste por instrucciones y la varianza de la salida.

Para conocer la metodología completa de desglose por generador, consulte nuestra página de benchmark de precisión. Este artículo resume las implicaciones prácticas de esos datos para los usuarios que eligen a qué detector confiar y qué modelo utilizar.

Familia OpenAI — GPT

GPT-3.5 es el modelo moderno más fácil de detectar — AUC [AUC: ?] en nuestro conjunto. Los artefactos de generación de la generación anterior (repetición, cautela, registro anodino) siguen claramente presentes. GPT-4 baja a AUC [AUC: ?], GPT-4o a [AUC: ?], reflejando una calibración progresivamente mejor. GPT-5.x es el más difícil de la familia — AUC [AUC: ?] — porque el equipo de ajuste por instrucciones apuntó explícitamente a eliminar los artefactos de detección.

Implicación práctica: los flujos de trabajo académicos preocupados por la trampa de la era GPT-3.5 pueden depender en gran medida solo de la detección. Los flujos de trabajo preocupados por GPT-5 necesitan combinar la detección con evidencia contextual, como se describe en nuestra guía de flujo de trabajo para profesores.

La configuración de temperatura importa. Las salidas de baja temperatura (t≤0,5) son más fáciles de detectar porque concentran la masa de probabilidad en un vocabulario más estrecho. La mayoría de las interfaces de chat tienen por defecto t≈0,7, situando el texto en una zona moderadamente detectable. Los usuarios adversariales aumentan explícitamente la temperatura o usan decodificación diversa para ampliar el rango y evadir la detección — nuestro conjunto lo corrige parcialmente, pero no completamente.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. La familia Claude produce sistemáticamente texto menos repetitivo y más variado estilísticamente que los modelos GPT de la misma generación, lo que lo hace más difícil de detectar mediante métodos estadísticos.

El entrenamiento de IA constitucional de Claude apunta específicamente a las «marcas de máquina» de las que aprende nuestro clasificador supervisado — patrones de cautela, uso excesivo de conectores específicos, estructura de párrafo predecible. Esta es una relación adversarial directa: el generador se entrena contra las características de las que depende el detector.

Claude 4.5 Sonnet y GPT-5.x son similares en dificultad. Sus distribuciones de puntuación se superponen más con la línea de base humana en nuestros datos de validación. Si su flujo de trabajo tiene como objetivo cualquiera de estos modelos, espere un recall reducido con el umbral predeterminado y considere bajarlo al óptimo de F1 para cribado de alta sensibilidad.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini ha mostrado el rendimiento de detección más variable entre versiones — algunas versiones intermedias experimentaron una regresión temporal antes de que llegaran las mejoras.

El entrenamiento multimodal de Gemini significa que las salidas exclusivamente de texto a veces llevan patrones residuales de los dominios de leyendas de imágenes o explicaciones de código. Nuestro detector los capta, lo que explica la detectabilidad ligeramente mayor de Gemini en prompts de dominio mixto que en prosa pura.

Para los usuarios de Google Workspace cuyos estudiantes o empleados usan Gemini a través de Docs, la señal de detección es similar a la salida de la API directa. No hemos observado patrones de evasión específicos de la integración con Workspace distintos del uso directo de la API de Gemini.

Compruebe una muestra de cualquier modelo

Pegue la salida de cualquier LLM y vea el veredicto por oración. Nuestro detector trata a las 22 familias de modelos como una única verificación de conjunto.

Meta y Modelos de Pesos Abiertos

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Los modelos de pesos abiertos abarcan un rango más amplio que los cerrados — las variantes ajustadas, los despliegues cuantizados y los puntos de control modificados por la comunidad producen salidas sutilmente diferentes.

La detección en modelos de pesos abiertos es estratégicamente importante porque las herramientas humanizadoras suelen construirse sobre modelos de pesos abiertos — los derivados de Llama y Mistral se ejecutan localmente a bajo costo, por eso los servicios de paráfrasis y transferencia de estilo los usan. Si su preocupación es la IA humanizada, en última instancia está defendiéndose contra la generación de la familia Llama.

DeepSeek R1 y o3-mini (modelo de razonamiento de OpenAI) merecen mención aparte. Ambos producen texto con artefactos de cadena de razonamiento — lógica paso a paso explícita visible en la salida — que nuestro detector ha aprendido a reconocer. Los modelos de razonamiento son actualmente más fáciles de detectar que sus contrapartes de chat base por este motivo.

Qué Significan Estas Diferencias para Usted

Si está eligiendo un modelo con el que escribir y la detección no es su preocupación, Claude 4.5 Sonnet y GPT-5 son los más difíciles de detectar. Si está construyendo un flujo de trabajo de detección, priorice los modelos que realmente ve: la mayoría de los usos académicos indebidos sigue ejecutándose en GPT-4/5 a través de interfaces gratuitas; la mayoría de la generación masiva de contenido se ejecuta en humanizadores derivados de Llama.

Un único detector entrenado en una única familia de modelos tendrá el peor rendimiento en los demás. Nuestro enfoque de conjunto se entrena con muestras de los 22 generadores, por eso el AUC por modelo en los casos difíciles (Claude 4.5, GPT-5) sigue estando por encima de 0,90, mientras que cualquier detector entrenado en un único modelo caería por debajo de 0,80.

La tendencia subyacente: la dificultad de detección aumenta más rápido que el ritmo de lanzamiento de los generadores. Cada nuevo modelo insignia es más difícil de detectar que el anterior, el reentrenamiento cierra la brecha pero no completamente. Espere que la línea de base 2026–2027 sea un AUC más bajo en los modelos de frontera y aproximadamente constante en los modelos heredados.

Preguntas frecuentes

Si algunos modelos son más difíciles de detectar, ¿debería evitar usar detectores por completo?
No — incluso en las familias de modelos más difíciles nuestro AUC supera 0,85, lo que es una señal sólida. La cuestión es cómo usa esa señal. Para los modelos difíciles de detectar, complemente la puntuación con evidencia corroboradora (historial de edición, trabajo en clase, conversación con el estudiante). Para los modelos más fáciles, la puntuación sola suele ser suficiente.
¿Qué modelo debería usar si quiero evitar la detección?
No respondemos a esta pregunta directamente — llevamos una herramienta de detección, no una guía de evasión. Lo que sí diremos: detectable vs. indetectable no es el eje correcto para elegir un modelo. La calidad, el coste y la adecuación al propósito importan mucho más que la dificultad de detección. Si está escribiendo legítimamente con asistencia de IA, la divulgación y un flujo de trabajo transparente importan más que ocultar la herramienta.
¿Las variantes de modelos de pesos abiertos tienen perfiles de detección diferentes?
Sí, y de forma significativa. Una variante de Llama 3.3 ajustada por la comunidad para un estilo de escritura específico puede producir texto que puntúa de forma diferente al Llama 3.3 estándar. Nuestro benchmark cubre el punto de control estándar; los ajustes finos personalizados pueden ser más fáciles (si estrechan las distribuciones de salida) o más difíciles (si entrenan adversarialmente contra la detección).
¿Cómo afectan la temperatura y el muestreo a la detectabilidad?
Una temperatura más alta y un muestreo más diverso generalmente reducen la detectabilidad porque amplían la distribución de salida. La decodificación greedy de baja temperatura es la más fácil de detectar. La mayoría de las interfaces de chat de producción funcionan con t≈0,7–1,0 con muestreo de núcleo, lo que las sitúa en un régimen moderadamente detectable — nuestro conjunto tiene un rendimiento similar en todo el rango predeterminado.
¿Cuándo llegará GPT-6 o Claude 5 y qué debo esperar?
Mediados de 2026 es el pronóstico de consenso para ambos. Espere que el AUC de detección en las nuevas familias caiga a la banda 0,80–0,85 durante las primeras 4–8 semanas tras el lanzamiento mientras recopilamos muestras y reentrenamos. Los datos históricos sugieren una recuperación completa en 8–12 semanas si el modelo está ampliamente disponible; más tiempo para modelos raros o de acceso limitado.

Los números de AUC por modelo se derivan de nuestra validación interna y pueden no generalizarse. La dificultad de cada modelo cambia con el tiempo a medida que evolucionan tanto el generador como nuestro corpus de entrenamiento. Los datos actuales reflejan la ejecución del benchmark de 2026-04.