Lar › Qual IA É Mais Difícil de Detetar? GPT vs Claude vs Gemini | Detector de Plágio

Qual IA É Mais Difícil de Detetar? GPT vs Claude vs Gemini vs Llama

Nem todo o texto de IA é igualmente detetável. Aqui estão os resultados do nosso benchmark por gerador — que famílias de modelos o nosso detetor captura com precisão quase perfeita, com quais tem dificuldades e o que isso nos diz sobre a escolha de um fluxo de trabalho de deteção.

2026-04-17 · Plagiarism Detector Team

A Resposta Rápida — Tabela de Classificação

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Ordenados do mais fácil ao mais difícil de detetar no nosso conjunto de validação. A diferença é grande — o AUC em algumas famílias de modelos supera 0,99 enquanto outras caem para os 0,80. A dificuldade de deteção correlaciona-se com o tamanho do modelo, a sofisticação do ajuste por instrução e a variância da saída.

Para a metodologia completa de análise por gerador, consulte a nossa página de benchmark de precisão. Este artigo resume as implicações práticas desses dados para utilizadores que escolhem em qual detetor confiar e qual modelo usar.

Família OpenAI — GPT

GPT-3.5 é o modelo moderno mais fácil de detetar — AUC [AUC: ?] no nosso conjunto. Os artefactos de geração legados (repetição, evasividade, registo insípido) permanecem claramente presentes. GPT-4 cai para AUC [AUC: ?], GPT-4o para [AUC: ?], refletindo calibração progressivamente melhor. GPT-5.x é o mais difícil da família — AUC [AUC: ?] — porque a equipa de ajuste por instrução visou explicitamente a remoção de artefactos de deteção.

Implicação prática: fluxos de trabalho académicos preocupados com batota da era GPT-3.5 podem depender muito da deteção isolada. Fluxos de trabalho preocupados com GPT-5 precisam de combinar a deteção com evidências contextuais, conforme descrito no nosso guia de fluxo de trabalho para professores.

As definições de temperatura importam. Saídas de baixa temperatura (t≤0,5) são mais fáceis de detetar porque concentram a massa de probabilidade num vocabulário mais estreito. A maioria das interfaces de chat usa t≈0,7 por padrão, colocando o texto numa zona moderadamente detetável. Utilizadores adversariais aumentam explicitamente a temperatura ou usam decodificação diversa para ampliar o intervalo e iludir a deteção — o nosso ensemble corrige parcialmente isto, mas não completamente.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. A família Claude produz consistentemente texto menos repetitivo e mais variado estilisticamente do que os modelos GPT da mesma geração, o que o torna mais difícil de detetar por métodos estatísticos.

O treino constitucional de IA do Claude visa especificamente os 'sinais de máquina' que o nosso classificador supervisionado aprende — padrões de evasividade, uso excessivo de conectores específicos, estrutura de parágrafo previsível. Esta é uma relação adversarial direta: o gerador é treinado contra características em que o detetor depende.

Claude 4.5 Sonnet e GPT-5.x estão próximos em dificuldade. As suas distribuições de pontuações sobrepõem-se mais com a linha de base humana nos nossos dados de validação. Se o seu fluxo de trabalho visa qualquer um destes modelos, espere recall reduzido com o limiar padrão e considere baixar para o ótimo de F1 para triagem de alta sensibilidade.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. O Gemini mostrou o desempenho de deteção mais variável entre versões — algumas versões intermédias regrediram temporariamente antes de as melhorias chegarem.

O treino multimodal do Gemini significa que as saídas apenas de texto às vezes carregam padrões vestigiais de domínios de legendas de imagem ou explicação de código. O nosso detetor capta estes padrões, o que explica a detetabilidade ligeiramente superior do Gemini em prompts de domínio misto em comparação com prosa pura.

Para utilizadores do Google Workspace cujos alunos ou colaboradores usam o Gemini através do Docs, o sinal de deteção é semelhante à saída bruta da API. Não observámos padrões de evasão específicos da integração no workspace distintos do uso direto da API Gemini.

Verifique uma amostra de qualquer modelo

Cole a saída de qualquer LLM e veja o veredicto por frase. O nosso detetor trata todas as 22 famílias de modelos como uma única verificação de ensemble.

Meta e Modelos de Pesos Abertos

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Os modelos de pesos abertos abrangem uma gama mais ampla do que os fechados — variantes ajustadas, implementações quantizadas e checkpoints modificados pela comunidade produzem saídas subtilmente diferentes.

A deteção em pesos abertos é estrategicamente importante porque as ferramentas de humanização são geralmente construídas em modelos de pesos abertos — derivados de Llama e Mistral correm localmente a baixo custo, razão pela qual os serviços de paráfrase e transferência de estilo os usam como base. Se a sua preocupação é a IA humanizada, está a defender-se, em última análise, contra geração da família Llama.

DeepSeek R1 e o3-mini (modelo de raciocínio da OpenAI) merecem menção separada. Ambos produzem texto com artefactos de cadeia de raciocínio — lógica passo a passo explícita visível na saída — que o nosso detetor aprendeu a reconhecer. Os modelos de raciocínio são atualmente mais fáceis de detetar do que os seus homólogos de chat base por este motivo.

O Que Estas Diferenças Significam para Si

Se está a escolher um modelo com que escrever e a deteção não é a sua preocupação, Claude 4.5 Sonnet e GPT-5 são os mais difíceis de detetar. Se está a construir um fluxo de trabalho de deteção, priorize os modelos que realmente vê: a maioria dos abusos académicos ainda corre em GPT-4/5 através de interfaces gratuitas; a maioria da produção de conteúdo corre em humanizadores baseados em Llama.

Um único detetor treinado numa única família de modelos terá o pior desempenho nas outras. A nossa abordagem de ensemble treina em amostras de todos os 22 geradores, razão pela qual o AUC por modelo em casos difíceis (Claude 4.5, GPT-5) ainda está acima de 0,90 enquanto qualquer detetor treinado num único modelo cairia abaixo de 0,80.

A tendência subjacente: a dificuldade de deteção está a aumentar mais rapidamente do que o ritmo de lançamento dos geradores. Cada novo flagship é mais difícil de detetar do que o anterior, o retreino fecha a diferença mas não completamente. Espere que a linha de base de 2026–2027 seja menor AUC nos modelos de fronteira e aproximadamente constante nos modelos legados.

Perguntas frequentes

Se alguns modelos são mais difíceis de detetar, devo evitar usar detetores de todo?

Não — mesmo nas famílias de modelos mais difíceis o nosso AUC está acima de 0,85, o que é um sinal forte. A questão é como usa o sinal. Para modelos difíceis de detetar, combine a pontuação com evidências corroborantes (histórico de edições, trabalho em sala de aula, conversa com o aluno). Para modelos mais fáceis, a pontuação isolada é frequentemente suficiente.

Que modelo devo usar se quiser evitar a deteção?

Não respondemos diretamente a esta questão — gerimos uma ferramenta de deteção, não um guia de evasão. O que diremos: detetável vs. indetetável não é o eixo certo para escolher um modelo. Qualidade, custo e adequação ao propósito importam muito mais do que a dificuldade de deteção. Se estiver a escrever legitimamente com assistência de IA, a divulgação e o fluxo de trabalho transparente importam mais do que esconder a ferramenta.

As variantes de modelos de pesos abertos têm perfis de deteção diferentes?

Sim, e de forma significativa. Uma variante de Llama 3.3 ajustada pela comunidade para um estilo de escrita específico pode produzir texto que obtém pontuações diferentes do Llama 3.3 padrão. O nosso benchmark cobre o checkpoint padrão; ajustes finos personalizados podem ser mais fáceis (se estreitarem as distribuições de saída) ou mais difíceis (se treinarem adversarialmente contra a deteção).

Como é que a temperatura e a amostragem afetam a detetabilidade?

Temperatura mais alta e amostragem mais diversa geralmente reduzem a detetabilidade porque alargam a distribuição de saída. A decodificação gulosa de baixa temperatura é a mais fácil de detetar. A maioria das interfaces de chat em produção corre com t≈0,7–1,0 com amostragem de núcleo, o que as coloca num regime moderadamente detetável — o nosso ensemble tem desempenho semelhante em toda a gama padrão.

Quando chegarão GPT-6 ou Claude 5 e o que devo esperar?

Meados de 2026 é a previsão consensual para ambos. Espere que o AUC de deteção nas novas famílias caia para a gama 0,80–0,85 nas primeiras 4–8 semanas após o lançamento enquanto recolhemos amostras e retreinamos. As versões históricas sugerem recuperação total dentro de 8–12 semanas se o modelo estiver amplamente disponível; mais tempo para modelos raros ou de acesso limitado.

Os números AUC por modelo derivam da nossa validação interna e podem não generalizar. A dificuldade de cada modelo muda ao longo do tempo à medida que tanto o gerador como o nosso corpus de treino evoluem. Os dados atuais refletem o benchmark de 2026-04.