Nem todo o texto de IA é igualmente detetável. Aqui estão os resultados do nosso benchmark por gerador — que famílias de modelos o nosso detetor captura com precisão quase perfeita, com quais tem dificuldades e o que isso nos diz sobre a escolha de um fluxo de trabalho de deteção.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Ordenados do mais fácil ao mais difícil de detetar no nosso conjunto de validação. A diferença é grande — o AUC em algumas famílias de modelos supera 0,99 enquanto outras caem para os 0,80. A dificuldade de deteção correlaciona-se com o tamanho do modelo, a sofisticação do ajuste por instrução e a variância da saída.
Para a metodologia completa de análise por gerador, consulte a nossa página de benchmark de precisão. Este artigo resume as implicações práticas desses dados para utilizadores que escolhem em qual detetor confiar e qual modelo usar.
GPT-3.5 é o modelo moderno mais fácil de detetar — AUC [AUC: ?] no nosso conjunto. Os artefactos de geração legados (repetição, evasividade, registo insípido) permanecem claramente presentes. GPT-4 cai para AUC [AUC: ?], GPT-4o para [AUC: ?], refletindo calibração progressivamente melhor. GPT-5.x é o mais difícil da família — AUC [AUC: ?] — porque a equipa de ajuste por instrução visou explicitamente a remoção de artefactos de deteção.
Implicação prática: fluxos de trabalho académicos preocupados com batota da era GPT-3.5 podem depender muito da deteção isolada. Fluxos de trabalho preocupados com GPT-5 precisam de combinar a deteção com evidências contextuais, conforme descrito no nosso guia de fluxo de trabalho para professores.
As definições de temperatura importam. Saídas de baixa temperatura (t≤0,5) são mais fáceis de detetar porque concentram a massa de probabilidade num vocabulário mais estreito. A maioria das interfaces de chat usa t≈0,7 por padrão, colocando o texto numa zona moderadamente detetável. Utilizadores adversariais aumentam explicitamente a temperatura ou usam decodificação diversa para ampliar o intervalo e iludir a deteção — o nosso ensemble corrige parcialmente isto, mas não completamente.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. A família Claude produz consistentemente texto menos repetitivo e mais variado estilisticamente do que os modelos GPT da mesma geração, o que o torna mais difícil de detetar por métodos estatísticos.
O treino constitucional de IA do Claude visa especificamente os 'sinais de máquina' que o nosso classificador supervisionado aprende — padrões de evasividade, uso excessivo de conectores específicos, estrutura de parágrafo previsível. Esta é uma relação adversarial direta: o gerador é treinado contra características em que o detetor depende.
Claude 4.5 Sonnet e GPT-5.x estão próximos em dificuldade. As suas distribuições de pontuações sobrepõem-se mais com a linha de base humana nos nossos dados de validação. Se o seu fluxo de trabalho visa qualquer um destes modelos, espere recall reduzido com o limiar padrão e considere baixar para o ótimo de F1 para triagem de alta sensibilidade.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. O Gemini mostrou o desempenho de deteção mais variável entre versões — algumas versões intermédias regrediram temporariamente antes de as melhorias chegarem.
O treino multimodal do Gemini significa que as saídas apenas de texto às vezes carregam padrões vestigiais de domínios de legendas de imagem ou explicação de código. O nosso detetor capta estes padrões, o que explica a detetabilidade ligeiramente superior do Gemini em prompts de domínio misto em comparação com prosa pura.
Para utilizadores do Google Workspace cujos alunos ou colaboradores usam o Gemini através do Docs, o sinal de deteção é semelhante à saída bruta da API. Não observámos padrões de evasão específicos da integração no workspace distintos do uso direto da API Gemini.
Cole a saída de qualquer LLM e veja o veredicto por frase. O nosso detetor trata todas as 22 famílias de modelos como uma única verificação de ensemble.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Os modelos de pesos abertos abrangem uma gama mais ampla do que os fechados — variantes ajustadas, implementações quantizadas e checkpoints modificados pela comunidade produzem saídas subtilmente diferentes.
A deteção em pesos abertos é estrategicamente importante porque as ferramentas de humanização são geralmente construídas em modelos de pesos abertos — derivados de Llama e Mistral correm localmente a baixo custo, razão pela qual os serviços de paráfrase e transferência de estilo os usam como base. Se a sua preocupação é a IA humanizada, está a defender-se, em última análise, contra geração da família Llama.
DeepSeek R1 e o3-mini (modelo de raciocínio da OpenAI) merecem menção separada. Ambos produzem texto com artefactos de cadeia de raciocínio — lógica passo a passo explícita visível na saída — que o nosso detetor aprendeu a reconhecer. Os modelos de raciocínio são atualmente mais fáceis de detetar do que os seus homólogos de chat base por este motivo.
Se está a escolher um modelo com que escrever e a deteção não é a sua preocupação, Claude 4.5 Sonnet e GPT-5 são os mais difíceis de detetar. Se está a construir um fluxo de trabalho de deteção, priorize os modelos que realmente vê: a maioria dos abusos académicos ainda corre em GPT-4/5 através de interfaces gratuitas; a maioria da produção de conteúdo corre em humanizadores baseados em Llama.
Um único detetor treinado numa única família de modelos terá o pior desempenho nas outras. A nossa abordagem de ensemble treina em amostras de todos os 22 geradores, razão pela qual o AUC por modelo em casos difíceis (Claude 4.5, GPT-5) ainda está acima de 0,90 enquanto qualquer detetor treinado num único modelo cairia abaixo de 0,80.
A tendência subjacente: a dificuldade de deteção está a aumentar mais rapidamente do que o ritmo de lançamento dos geradores. Cada novo flagship é mais difícil de detetar do que o anterior, o retreino fecha a diferença mas não completamente. Espere que a linha de base de 2026–2027 seja menor AUC nos modelos de fronteira e aproximadamente constante nos modelos legados.
Os números AUC por modelo derivam da nossa validação interna e podem não generalizar. A dificuldade de cada modelo muda ao longo do tempo à medida que tanto o gerador como o nosso corpus de treino evoluem. Os dados atuais refletem o benchmark de 2026-04.