Lar › Quão Precisa É a Deteção de IA? Benchmark com 22 LLMs | Detector de Plágio

Quão Precisa É a Deteção de IA? O Nosso Benchmark com 22 LLMs

Publicamos a precisão real do nosso detetor de IA em 22 modelos generativos, incluindo GPT-5, Claude 4, Gemini 2 e Llama 3. Tabelas por modelo, limitações honestas e um conjunto de dados para download destinado a investigadores.

2026-04-17 · Plagiarism Detector Team

Por Que Publicamos os Nossos Números de Precisão

A maioria das ferramentas de deteção de IA pede-lhe que confie numa única pontuação opaca. Acreditamos que merece evidências. Nesta página partilhamos os resultados completos da nossa execução de validação interna — cada gerador testado, a pontuação AUC-ROC em cada um, os tipos de texto que nos deram mais trabalho e os limiares de decisão que usamos em produção.

Este nível de transparência é incomum no espaço de deteção de IA. A maioria dos concorrentes — fornecedores de verificadores de plágio, serviços especializados em deteção de IA, ferramentas SaaS genéricas — publica ou nenhum dado de precisão ou um único número escolhido a dedo. Esse padrão é insustentável: educadores, editores e investigadores precisam de benchmarks reprodutíveis antes de poder confiar em qualquer ferramenta.

Os nossos números provêm de uma divisão de validação de 1.000 amostras do corpus de calibração usado para treinar o nosso detetor ModernBERT. A mesma metodologia que impulsiona este benchmark é executada em cada documento que submete através da nossa ferramenta. Nada é reservado para demonstrações.

O Corpus de Teste e a Metodologia

O conjunto de validação contém 1.000 textos retirados de um corpus de calibração de 1.200 amostras: 600 textos escritos por humanos (dos dados da tarefa partilhada PAN25 e do conjunto de dados de textos argumentativos PERSUADE) e 600 textos gerados por IA (produzidos por 22 modelos de linguagem distintos em condições de prompting controladas). A divisão 80/20 de treino-validação é fixa e reprodutível.

Cada amostra é pontuada isoladamente, sem acesso a metadados que possam revelar a verdade de base. O detetor retorna uma probabilidade em [0, 100] que representa a probabilidade de a amostra ter sido gerada por IA. Em seguida, calculamos a área sob a curva ROC (AUC-ROC) por gerador e por tipo de texto.

Todos os limiares, hiperparâmetros de treino e saídas de probabilidade bruta são registados. O próprio conjunto de dados está disponível para download no final desta página — formato CSV, uma linha por amostra, com identidade do gerador, rótulo do tipo de texto, pontuação bruta e veredicto binário final.

Resultados Principais

No conjunto completo de 1.000 amostras, o nosso detetor de ensemble atinge AUC-ROC [AUC: 0,9884]. Com o limiar de decisão de 50% que usamos em produção: 0 falsos positivos em textos humanos no conjunto de validação e 60% de recall em textos de IA. Com o limiar ótimo de F1 de 26,56%, o recall sobe para 90% ao custo de 2% de falsos positivos — uma troca mais adequada a fluxos de trabalho de triagem de alta sensibilidade.

O veredicto ao nível do documento na nossa ferramenta pública usa o limiar conservador de 50%, priorizando zero falsos positivos em detrimento do recall máximo. Professores, editores e investigadores podem substituir isto através do controlo deslizante de sensibilidade no widget quando pretendem uma sinalização mais agressiva.

Para comparação, o componente zero-shot Binoculars isolado (uma configuração 2× Llama-3.1-8B) obtém AUC [AUC: 0,8509] de forma autónoma. O componente ModernBERT ajustado isolado obtém [AUC: 1,0000] em textos dentro da distribuição e [AUC: 0,9069] em texto fora da distribuição. O ensemble situa-se entre ambos em qualquer eixo isolado, mas supera os dois em média porque corrige as suas fraquezas complementares.

Análise por Gerador

Aqui está a tabela AUC-ROC por modelo. Os modelos estão ordenados do mais fácil ao mais difícil de detetar no nosso conjunto de validação. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

Modelos OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Outros: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

O padrão principal: modelos mais recentes, maiores e ajustados por instrução tendem a produzir texto que parece mais humano para qualquer detetor estatístico, incluindo o nosso. Claude 4.5 Sonnet e GPT-5.x são as duas famílias onde as nossas distribuições de pontuações se sobrepõem mais com a linha de base humana. Isto corresponde a todos os estudos independentes publicados em 2025 — a corrida armamentista é real e o tamanho do modelo é um obstáculo direto para a deteção.

Onde o Detetor Tem Dificuldades

Nem todo o texto é igualmente detetável. Decompomos os resultados por tipo de texto — cada categoria de prompt PERSUADE — e a diferença entre o melhor e o pior é significativa. [PER-TYPE TABLE]

Textos argumentativos, persuasivos e expositivos: o domínio mais forte do detetor. AUC tipicamente 0,97–1,00 porque os corpus de treino privilegiam estes estilos. É aqui que se enquadram a maioria dos casos de uso de integridade académica.

Escrita criativa e análise literária: o nosso domínio mais fraco. Para análise literária, o AUC cai para 0,69 — o estilo humano na ficção converge com as saídas de LLM e nenhum dos nossos componentes supervisionado ou zero-shot consegue distingui-los de forma fiável. Trate uma pontuação elevada de IA em ficção com ceticismo.

Experimente o detetor no seu próprio texto

Cole qualquer documento e veja o mesmo veredicto por frase e os limiares de decisão que usamos para estes números de benchmark. Gratuito, sem registo.

Limitações e Modos de Falha

Três classes de texto escapam ao nosso detetor com mais frequência do que o nosso conjunto de validação sugere. Texto de IA humanizado — saída passada por uma ferramenta de paráfrase adversarial ou transferência de estilo — muitas vezes é classificado como humano mesmo quando o texto subjacente foi totalmente gerado. Texto curto (menos de 100 palavras) é difícil de classificar porque não há sinal estatístico suficiente. Escrita em inglês não nativo pode ser classificada como gerada por IA porque os LLMs e os escritores de inglês como língua estrangeira partilham certas preferências lexicais e sintáticas.

O nosso detetor é probabilístico, não probatório. Uma pontuação elevada de IA é um sinal para investigar mais, não prova de má conduta. Recomendamos fortemente combinar a pontuação com contexto: histórico recente de edições, rascunhos de versões, amostras de escrita do mesmo autor e — quando permitido — uma breve conversa de acompanhamento com o autor.

Retreinamos continuamente com as saídas mais recentes dos geradores, mas há sempre um atraso: um modelo lançado na semana passada pode não estar bem representado nos dados de treino. Se o seu fluxo de trabalho depende de detetar os modelos mais recentes, consulte a nossa página de benchmark trimestralmente para os números atualizados.

Descarregar o Conjunto de Dados Completo

Publicamos os resultados brutos de validação para que investigadores, jornalistas e educadores possam verificar as nossas afirmações de forma independente. O CSV contém: ID da amostra, identidade do gerador (ou 'humano'), rótulo do tipo de texto, saída de probabilidade bruta, veredicto binário com limiar de 50%, veredicto binário com limiar de 26,56%.

Download: ai-detector-benchmark-2026-04.csv (atualizado trimestralmente). O uso académico é irrestrito; a republicação comercial requer atribuição: "Detector de Plágio — AI Detection Benchmark 2026-04".

Para uma versão interativa da mesma metodologia no seu próprio texto, experimente a nossa ferramenta Verificador de IA e Plágio — cole qualquer documento e veja o veredicto por frase, os mesmos limiares de decisão e o mesmo intervalo de confiança que usamos para estes números publicados.

Perguntas frequentes

Com que frequência este benchmark é atualizado?

Trimestralmente. Quando um gerador importante (GPT-6, Claude 5, Gemini 3) é lançado, adicionamo-lo ao corpus de teste dentro de 4 semanas e republicamos a tabela atualizada. As versões históricas são arquivadas com nomes de ficheiro datados — a edição 2026-04 é a versão estável atual.

Por que não publicam saídas de probabilidade por amostra?

Publicamos — o CSV para download contém probabilidades brutas. O que não publicamos é o texto original dos textos, porque o corpus PAN25 e o conjunto de dados PERSUADE têm restrições de redistribuição. Se quiser os textos, obtenha esses conjuntos de dados diretamente da sua fonte (ligações na documentação do CSV).

Posso confiar num detetor cujo AUC está abaixo de 1,0?

Nenhum detetor atinge AUC 1,0 em todos os geradores, pelo que a questão não é 'é perfeito' mas 'é transparente'. Um detetor que publica AUC 0,95 e diz onde tem dificuldades é mais confiável do que um que publica 'precisão líder do setor' sem qualquer número. O nosso AUC [AUC: 0,9884] é o desempenho médio honesto; as análises por gerador e por tipo de texto são onde deve tomar a sua decisão de compra.

O vosso detetor de IA está pronto para publicação académica?

A metodologia subjacente está — Binoculars (ICML 2024) e ModernBERT são ambas arquiteturas sujeitas a revisão por pares. O nosso corpus de ajuste fino específico e os limiares são proprietários, mas a metodologia de benchmark é totalmente reprodutível.

Como se compara a ferramenta gratuita online com o produto de secretária?

Mesmo motor, mesmos números de precisão, mesma lógica de veredicto por frase. O produto de secretária acrescenta comprimento ilimitado de documentos, análise offline, correspondência de plágio integrada com 4 mil milhões de páginas web e processamento em lote de pastas inteiras. Para verificações ocasionais, a ferramenta online é suficiente; para fluxos de trabalho diários, o produto de secretária é a escolha certa.

Os resultados do benchmark derivam do nosso conjunto de validação interno e podem não generalizar para texto fora da distribuição. Os números publicados representam o desempenho médio em 1.000 amostras; o seu documento pode obter pontuações diferentes. Use os resultados da deteção de IA como uma entrada entre várias, não como evidência exclusiva de autoria.