Deteção e geração estão presas numa corrida de gato e rato. Cada novo lançamento de modelo fecha a diferença estatística em que os detetores dependem — e cada melhoria de deteção é respondida por uma nova ferramenta de humanização. Eis o que realmente se passa sob o capô.
Todo detetor de texto de IA é, em última análise, um discriminador estatístico — analisa características do texto (probabilidades de tokens, perplexidade, explosividade, regularidade sintática) e tenta encontrar sinais que distingam conteúdo gerado por máquina de conteúdo escrito por humanos. O método Binoculars (ICML 2024) usa um rácio de perplexidade cruzada entre dois modelos de linguagem como sinal. A abordagem supervisionada ModernBERT aprende o sinal diretamente a partir de exemplos rotulados.
Ambas as abordagens partilham uma vulnerabilidade fundamental: os sinais em que dependem são efeitos secundários da forma como os modelos geram texto, não características fundamentais da escrita por máquina. À medida que os geradores melhoram, esses efeitos secundários diminuem. Um modelo treinado para escrever mais como um humano será — por definição — mais difícil de detetar.
Isto não é uma falha de investigação. É um facto estrutural sobre o problema. A deteção opera num alvo em movimento: cada grande lançamento de LLM reduz a diferença, cada ferramenta de humanização treina explicitamente contra as saídas dos detetores. A questão não é 'podemos alcançar 100% de deteção para sempre' — não é possível — mas 'podemos manter-nos à frente da geração atual tempo suficiente para ser úteis na prática'.
Três tendências de geração tornam a deteção mais difícil. Tamanho: modelos maiores produzem texto estatisticamente mais diverso porque têm distribuições internas mais ricas. Um modelo com 70 mil milhões de parâmetros tem uma gama mais ampla de saída semelhante à humana do que um com 7 mil milhões de parâmetros. Ajuste por instrução: RLHF e métodos constitucionais ensinam os modelos a evitar os padrões repetitivos, evasivos e insípidos que tornavam o GPT-3 fácil de detetar. Temperatura e amostragem: as interfaces de chat mudaram para amostragem de núcleo e aleatoriedade, o que quebra alguns dos padrões de baixa variância que os detetores clássicos usavam como âncoras.
GPT-5, Claude 4.5 e Gemini 2.5 são todos visivelmente mais difíceis de detetar do que os seus predecessores. A nossa validação interna confirma isto: cada geração de modelo reduz o nosso AUC nessa família em 5–10 pontos percentuais em comparação com a geração anterior. Consulte o nosso benchmark de precisão para os números por modelo.
Ferramentas de humanização — Undetectable AI, StealthWriter, Humanbeing e uma lista crescente — são os adversários explícitos. Pegam na saída de IA e parafraseiam-na, reescrevem-na ou fazem transferência de estilo especificamente para iludir os detetores. São treinadas contra detetores públicos (incluindo o nosso, embora nunca partilhemos os pesos do nosso modelo) e melhoram mensuravelmente a cada atualização.
Os detetores têm três respostas à corrida armamentista de geração. Ensemble: combinar múltiplos sinais de deteção para que qualquer tática de evasão isolada seja insuficiente. O nosso ensemble de Binoculars zero-shot com ModernBERT supervisionado explora isto: uma ferramenta de humanização que derrota um componente falha frequentemente perante o outro, e a pontuação de ensemble captura ambos.
Retreino contínuo: adicionamos amostras de cada novo grande lançamento de gerador dentro de 4 semanas após o lançamento. Se o GPT-6 for lançado amanhã, o nosso corpus de treino incluí-lo-á a meio do mês seguinte. Isto é dispendioso — computação, anotação, revalidação — mas é a única forma de manter a deteção atualizada. Detetores que retreinam anualmente ou com menos frequência tornam-se efetivamente peças de museu dentro de um ano.
Treino adversarial: treinamos deliberadamente em amostras de IA humanizada e saídas parafraseadas, ensinando o modelo a ver para além da transferência de estilo superficial. Isto eleva o patamar do que uma ferramenta de humanização deve fazer para nos iludir, o que por sua vez abranda a corrida armamentista.
Como é que as ferramentas de humanização funcionam realmente? Três categorias gerais. Paráfrase: reescrever o texto palavra a palavra ou frase a frase usando um LLM secundário. Eficaz contra detetores ingénuos que dependem de sequências exatas de tokens; moderadamente eficaz contra métodos estatísticos. Transferência de estilo: transformar o texto para imitar um autor ou registo específico. Mais eficaz — o AUC do nosso detetor cai ~8 pontos em texto de IA com transferência de estilo.
Edição híbrida humano-IA: o autor escreve um rascunho, passa-o por um LLM para polimento e depois edita manualmente a versão polida. Este é o caso mais difícil — trabalho legitimamente colaborativo que mistura sinais humanos e de máquina ao nível da frase. Nenhum detetor, incluindo o nosso, consegue resolver estes casos de forma fiável sem metadados de histórico de edição que o detetor não consegue ver.
Um modelo mental útil: uma ferramenta de humanização não é um quebra-detetor, é um multiplicador de custos para o evasor. Requer tempo, às vezes dinheiro e acrescenta sempre o risco de introduzir erros. A maioria das tentativas de batota académica não usa ferramentas de humanização porque o atrito supera o benefício. Onde as ferramentas de humanização dominam é na produção de conteúdo profissional e spam de SEO gerado por IA — casos de uso onde o volume importa e o controlo de qualidade é fraco.
Cole qualquer documento e observe o veredicto por frase em tempo real. A lógica de ensemble descrita acima é executada no seu texto em menos de 30 segundos.
Um detetor de sinal único tem um único modo de falha. Se depender apenas de perplexidade, uma saída parafraseada com probabilidades de tokens alteradas derrota-o. Se depender apenas de um classificador supervisionado, texto fora da distribuição (uma nova família de modelos, um novo domínio de escrita) derrota-o. Um ensemble faz a média das fraquezas: a paráfrase que derrota a perplexidade provavelmente ainda aciona o cabeçalho supervisionado, e vice-versa.
O nosso detetor em produção é explicitamente em ensemble: 35% Binoculars (zero-shot, agnóstico ao modelo, robusto a texto fora da distribuição) + 65% ModernBERT (supervisionado, específico do domínio, alta precisão em texto dentro da distribuição). Os pesos foram escolhidos empiricamente — o AUC do ensemble foi maximizado quando o ModernBERT dominava mas o Binoculars mantinha poder de veto em casos extremos.
A consequência: uma ferramenta de humanização agora tem de derrotar duas arquiteturas de deteção substancialmente diferentes em simultâneo para escapar ao nosso veredicto. As ferramentas de humanização públicas são tipicamente treinadas contra um único detetor alvo, o que significa que muitas vezes têm sucesso contra esse detetor específico mas falham contra um ensemble. Esta é a principal vantagem estrutural da deteção na corrida armamentista atual.
O que devemos esperar ao longo de 2026–2027? GPT-6 e Claude 5 são provavelmente lançamentos a meio do ano; ambos reduzirão ainda mais a diferença. Os modelos de pesos abertos — Llama 4, Qwen 4 — continuarão a democratizar a geração de alta qualidade e a tornar as ferramentas de humanização mais baratas de executar em escala. O AUC de deteção em modelos de fronteira provavelmente cairá para a banda 0,80–0,90 no primeiro ano após o lançamento antes de o retreino o corrigir.
Do lado da defesa: sinais multimodais (dinâmica de digitação, histórico de edições, verificação de autoria contra um corpus conhecido) provavelmente importarão mais do que a deteção puramente baseada em texto dentro de 24 meses. O nosso detetor apenas de texto permanecerá o primeiro filtro, mas será cada vez mais um membro votante numa pilha de evidências mais rica.
A conclusão honesta: a deteção puramente baseada em texto nunca alcançará 100%. Estabilizará em torno de 90–95% AUC em texto dentro da distribuição e 75–85% em modelos de fronteira. Se o seu fluxo de trabalho requer certeza, precisa de evidências além da pontuação. Se o seu fluxo de trabalho requer um sinal forte para priorizar a revisão humana, a deteção baseada em texto permanece útil e mensuravelmente melhor do que não fazer nada.
Este artigo descreve propriedades estruturais da deteção de texto de IA. Os números específicos referem-se à nossa validação interna e podem não generalizar. Atualizamos esta página à medida que nova investigação e novos lançamentos de geradores o justificam.