Antes de qualquer análise de plágio poder começar, o software deve extrair um texto limpo e pesquisável do documento enviado. Este é um problema mais complexo do que parece, pois os documentos chegam em uma grande variedade de formatos - DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT e HTML, entre outros - cada um com sua própria estrutura interna de formatação, metadados, objetos incorporados e codificação. Um processo de extração de texto confiável deve lidar com todos esses formatos de forma consistente, produzindo um texto simples normalizado e adequado para comparação.
O Detector de Plágio utiliza uma arquitetura de extração de texto em 5 níveis para maximizar a confiabilidade. Para arquivos DOCX, o primeiro nível analisa diretamente a estrutura XML nativa do DocX. Se essa análise falhar (devido a corrupção ou formatação não padronizada), o sistema recorre à interface iFilter da Microsoft, depois à análise OpenXML bruta e, por fim, ao Apache Tika como extrator universal de último recurso. Essa abordagem em cascata garante que mesmo documentos danificados ou com formatação não padronizada produzam texto utilizável. O mesmo princípio de múltiplos níveis se aplica a todos os mais de 12 formatos suportados, assegurando que nenhum documento fique sem processamento.
O processo de extração também lida com a normalização da codificação - convertendo textos de várias codificações de caracteres (UTF-8, UTF-16, Windows-1252, variantes de ISO-8859) em uma representação interna unificada. Isso é crucial porque incompatibilidades de codificação podem fazer com que textos idênticos pareçam diferentes no nível de bytes, levando à perda de correspondências de plágio. Uma extração adequada estabelece a base para todas as etapas subsequentes de detecção.
Uma vez extraído o texto limpo, o mecanismo de detecção o divide em unidades analisáveis por meio de um processo chamado impressão digital textual. O documento é segmentado em sequências sobrepostas de palavras (n-gramas), e cada sequência é convertida em um hash numérico compacto - uma impressão digital. Essas impressões digitais servem como identificadores eficientes que podem ser comparados rapidamente com impressões digitais de outras fontes sem a necessidade de realizar comparações dispendiosas de texto completo a cada vez.
O algoritmo de impressão digital deve equilibrar sensibilidade e eficiência. N-gramas curtos (3 a 4 palavras) detectam mais correspondências, mas produzem um número excessivo de falsos positivos a partir de frases comuns. N-gramas mais longos (8 a 10 palavras) são mais específicos, mas podem não detectar plágio quando algumas palavras foram alteradas. Sistemas avançados utilizam impressões digitais de comprimento variável combinadas com algoritmos de filtragem que selecionam um subconjunto representativo de impressões digitais, mantendo a precisão da detecção e, ao mesmo tempo, mantendo o espaço de comparação gerenciável para documentos de qualquer tamanho.
Com o documento identificado, o mecanismo de detecção deve comparar essas informações com o conteúdo existente na internet. O Detector de Plágio adota uma abordagem diferenciada: em vez de depender de um único banco de dados proprietário, ele consulta simultaneamente quatro dos principais mecanismos de busca - Google, Bing, Yahoo e DuckDuckGo - acessando seu índice combinado de mais de 4 bilhões de páginas da web. Essa estratégia com múltiplos mecanismos aumenta drasticamente a abrangência das fontes, pois cada mecanismo de busca indexa diferentes partes da web e classifica os resultados de maneira distinta.
O processo de consulta utiliza rotação e seleção inteligentes de fragmentos de texto para submeter como consultas de pesquisa. Nem todas as impressões digitais são consultadas - o mecanismo seleciona as passagens mais distintas do documento, aquelas com maior probabilidade de retornar correspondências significativas em vez de frases genéricas. O agendamento de consultas gerencia os limites de taxa e distribui as solicitações entre os mecanismos para manter a capacidade de processamento. O resultado é uma varredura abrangente do conteúdo da Internet disponível publicamente, algo que nenhuma abordagem com um único mecanismo consegue replicar, abrangendo repositórios acadêmicos, arquivos de notícias, servidores de conteúdo, sites de produção de ensaios e páginas da web em geral.
Quando as consultas aos mecanismos de busca retornam URLs potencialmente correspondentes, o mecanismo de detecção entra na fase de recuperação e comparação da fonte. Cada página de origem candidata é obtida, seu conteúdo é extraído e normalizado (removendo tags HTML, elementos de navegação, cabeçalhos e rodapés para isolar o texto do artigo propriamente dito) e, em seguida, alinhado ao documento enviado. Esse alinhamento utiliza algoritmos de correspondência de sequências que identificam as subsequências comuns mais longas entre os dois textos, levando em consideração pequenas variações de pontuação, espaços em branco e formatação.
A comparação não se limita a correspondências exatas. O mecanismo realiza uma correspondência aproximada para identificar trechos onde palavras individuais foram substituídas por sinônimos, a ordem das frases foi reorganizada ou frases de ligação foram adicionadas ou removidas. Isso detecta a técnica de evasão mais comum: a reformulação superficial que preserva o significado e a estrutura originais. Cada segmento correspondente é registrado com seu URL de origem, a porcentagem de sobreposição e os fragmentos de texto específicos correspondentes, compilando os dados brutos para o relatório de originalidade.
Após todas as fontes serem recuperadas e comparadas, o mecanismo calcula uma pontuação de similaridade - uma porcentagem que representa o quanto do documento enviado corresponde às fontes externas. Esse cálculo é mais complexo do que uma simples proporção. O mecanismo distingue entre diferentes tipos de correspondências: cópias exatas, correspondências aproximadas (trechos parafraseados), material devidamente citado e referenciado, e frases comuns ou textos padronizados que não indicam plágio.
O sistema de detecção de referências do Detector de Plágio identifica automaticamente citações, trechos e referências bibliográficas dentro do documento e as trata de forma diferente das correspondências sem atribuição. Um bloco de texto entre aspas e seguido por uma citação é sinalizado como uma referência legítima, e não como plágio. Isso evita pontuações de similaridade infladas que, de outra forma, penalizariam trabalhos bem pesquisados pelo uso adequado de fontes. A pontuação final reflete preocupações genuínas com a originalidade, fornecendo ao revisor uma métrica significativa e prática.
Com a crescente prevalência de textos gerados por IA, a detecção de plágio precisa lidar com conteúdo que não foi copiado de nenhuma fonte existente, mas que, mesmo assim, não é um trabalho humano original. O Detector de Plágio inclui um módulo integrado de detecção de conteúdo por IA com sensibilidade de 0,98, capaz de identificar textos produzidos por grandes modelos de linguagem, como ChatGPT, Gemini e HuggingChat. A detecção funciona analisando propriedades estatísticas do texto - distribuição de frequência de palavras, perplexidade em nível de sentença, padrões de variabilidade (burstiness) e sequências de probabilidade de tokens - que diferem sistematicamente entre a escrita humana e a escrita por máquina.
A escrita humana tende a apresentar maior variabilidade no comprimento das frases, escolhas de palavras mais imprevisíveis e padrões irregulares de complexidade. O texto gerado por IA, por outro lado, gravita em torno de sequências de palavras estatisticamente prováveis, com estrutura de frases mais uniforme e uma "suavidade" característica em sua distribuição de probabilidade. O modelo de detecção é treinado em grandes conjuntos de textos, tanto humanos quanto gerados por IA, e opera no nível do parágrafo para fornecer resultados detalhados. Essa análise é executada em conjunto com a detecção de plágio tradicional em uma única verificação, de modo que os revisores recebem um relatório unificado que abrange tanto o conteúdo copiado quanto as passagens geradas por IA, sem a necessidade de ferramentas ou fluxos de trabalho separados.
Usuários sofisticados tentam burlar a detecção de plágio por meio de diversos truques técnicos. A técnica de evasão mais comum é a substituição de caracteres Unicode - substituir caracteres latinos por caracteres visualmente idênticos de outros alfabetos Unicode. Por exemplo, a letra cirílica "a" (U+0430) parece idêntica à letra latina "a" (U+0061) na tela, mas são caracteres diferentes no nível do ponto de código. Uma comparação textual ingênua trataria "acadêmico" escrito com um "a" cirílico como uma palavra completamente diferente, fazendo com que o trecho plagiado escapasse totalmente da detecção.
O Detector de Plágio resolve esse problema com seu Unicode Anti-Cheating Engine (UACE). Antes da comparação, o UACE normaliza todo o texto mapeando caracteres visualmente equivalentes em blocos Unicode - cirílico, grego, armênio e outros alfabetos que contêm caracteres semelhantes - de volta para seus equivalentes em latim. O mecanismo mantém uma tabela de substituição abrangente que cobre centenas de pares de caracteres. Essa normalização ocorre de forma transparente durante a fase de extração de texto, de modo que cada etapa subsequente de detecção opera em texto limpo e canônico, independentemente dos truques de caracteres aplicados ao documento de origem.
Além da substituição de caracteres, o UACE também detecta outros métodos de evasão, incluindo a inserção de caracteres Unicode invisíveis (espaços de largura zero, junções de largura zero, hífens suaves) entre palavras ou letras, texto branco sobre fundo branco oculto em documentos e texto com microfonte inserido para quebrar frases reconhecíveis. Essas técnicas são sinalizadas no relatório de originalidade como tentativas deliberadas de manipulação, alertando o revisor de que o autor tentou ativamente burlar a detecção - o que, por si só, é uma forte evidência de intenção de plágio.
Baixe uma versão de demonstração gratuita ou adquira uma licença para começar a verificar plágio e conteúdo gerado por IA.
O ponto culminante do processo de detecção é o Relatório de Originalidade - um documento detalhado que apresenta todas as descobertas em um formato organizado e fácil de consultar. O relatório destaca as passagens correspondentes no texto enviado, codificadas por cores de acordo com a fonte, com cada correspondência vinculada ao seu respectivo URL ou entrada no banco de dados. Uma seção de resumo mostra a pontuação geral de similaridade, o número de fontes correspondentes, a porcentagem de conteúdo gerado por IA detectado e uma discriminação dos tipos de correspondência (exata, parafraseada, citada).
Para instituições, os Relatórios de Originalidade podem ser personalizados com o logotipo da organização, proporcionando um formato profissional e padronizado para registros de integridade acadêmica. Os relatórios são elaborados para serem considerados provas de alta qualidade - adequados para uso em processos formais de revisão, audiências de integridade acadêmica ou contextos legais. Cada alegação no relatório é verificável de forma independente: os revisores podem clicar para acessar a fonte original e confirmar a correspondência por si mesmos. Essa transparência garante que as constatações de plágio sejam defensáveis e justas, protegendo tanto a integridade do processo de revisão quanto os direitos da pessoa cujo trabalho está sendo avaliado.
Uma escolha arquitetônica fundamental na detecção de plágio é se os documentos são processados localmente na máquina do usuário ou enviados para um servidor remoto na nuvem. Os verificadores de plágio baseados em nuvem exigem que os usuários enviem seus documentos para os servidores do provedor, onde o texto é extraído, analisado e, frequentemente, armazenado em um banco de dados. Isso levanta preocupações significativas com a privacidade e a confidencialidade - particularmente para pesquisas acadêmicas sensíveis, manuscritos não publicados, documentos legais e materiais corporativos. Os documentos enviados para serviços em nuvem podem ser retidos, indexados ou usados para treinar modelos de IA, e violações de dados podem expor conteúdo confidencial.
O Detector de Plágio opera inteiramente no computador do usuário. Os documentos são abertos, analisados e interpretados localmente - o texto completo nunca é transmitido para nenhum servidor externo. Apenas fragmentos de texto selecionados (consultas de pesquisa) são enviados aos mecanismos de busca para comparação, da mesma forma que uma pessoa pesquisaria manualmente uma frase em um navegador. Essa arquitetura oferece uma garantia fundamental de privacidade: o documento completo nunca sai do computador do usuário. Para instituições que lidam com materiais sensíveis - escritórios de advocacia que verificam documentos, pesquisadores médicos que revisam artigos, agências governamentais que auditam relatórios - essa abordagem que prioriza o uso no computador não é apenas uma preferência, mas uma exigência de conformidade. Combinada com um modelo de compra única (sem assinatura recorrente), oferece privacidade e previsibilidade de custos.