Innan någon plagiatanalys kan påbörjas måste programvaran extrahera ren, sökbar text från det inlämnade dokumentet. Detta är ett mer komplext problem än det verkar, eftersom dokument levereras i ett brett sortiment av format — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT och HTML, bland annat — vart och ett med sin egen interna struktur av formatering, metadata, inbäddade objekt och kodning. En tillförlitlig textextraktionspipeline måste hantera alla dessa format konsekvent och producera normaliserad ren text lämplig för jämförelse.
Plagiatdetektor använder en 5-nivås textextraktionsarkitektur för att maximera tillförlitligheten. För DOCX-filer tolkar den första nivån den inhemska DocX XML-strukturen direkt. Om det misslyckas (på grund av skada eller icke-standardiserad formatering) faller systemet tillbaka på Microsofts iFilter-gränssnitt, sedan till rå OpenXML-tolkning, och slutligen till Apache Tika som sista utväg universell extraherare. Detta kaskadtillvägagångssätt innebär att även skadade eller icke-standardiserade dokument ger användbar text. Samma fler-nivåsprincip gäller för alla 12+ stödda format, vilket säkerställer att inget dokument lämnas obearbetat.
Extraktionsprocessen hanterar också kodningsnormalisering — konvertering av text från olika teckenkodningar (UTF-8, UTF-16, Windows-1252, ISO-8859-varianter) till en enhetlig intern representation. Detta är kritiskt eftersom kodningsfelmatchningar kan få identisk text att verka annorlunda på bytenivå, vilket leder till missade plagiatmatchningar. Korrekt extraktion lägger grunden för varje efterföljande detekteringssteg.
När ren text väl extraherats bryter detekteringsmotorn ned den i analyserbara enheter genom en process som kallas textfingeravtryckning. Dokumentet segmenteras i överlappande ordsekvenser (n-gram), och varje sekvens konverteras till ett kompakt numeriskt hash — ett fingeravtryck. Dessa fingeravtryck fungerar som effektiva identifierare som snabbt kan jämföras mot fingeravtryck från andra källor utan att utföra dyra fulltext-jämförelser varje gång.
Fingeravtryckningsalgoritmen måste balansera känslighet mot effektivitet. Korta n-gram (3-4 ord) fångar fler matchningar men producerar alltför många falskt positiva resultat från vanliga fraser. Längre n-gram (8-10 ord) är mer specifika men kan missa plagiat där några ord har ändrats. Avancerade system använder variabel längdfingeravtryckning kombinerad med gallringsalgoritmer som väljer en representativ delmängd av fingeravtryck, och upprätthåller detekteringsnoggrannhet samtidigt som jämförelseomfånget hålls hanterbart för dokument i alla storlekar.
Med dokumentet fingeravtryckt måste detekteringsmotorn jämföra dessa fingeravtryck mot befintligt innehåll på Internet. Plagiatdetektor tar ett distinkt tillvägagångssätt: istället för att förlita sig på en enda proprietär databas ställer det frågor till fyra stora sökmotorer samtidigt — Google, Bing, Yahoo och DuckDuckGo — och åtkommer deras kombinerade index med över 4 miljarder webbsidor. Denna flermotorstrategi ökar källtäckningen dramatiskt, eftersom varje sökmotor indexerar olika delar av webben och rankar resultat på olika sätt.
Frågningsprocessen använder intelligent rotation och selektion av textfragment för att skicka som sökfrågor. Inte varje fingeravtryck ställs som fråga — motorn väljer de mest distinkta styckena från dokumentet, de som mest sannolikt returnerar meningsfulla matchningar snarare än generiska fraser. Frågeschemaläggning hanterar hastighetsbegränsningar och distribuerar förfrågningar mellan motorer för att upprätthålla genomflödet. Resultatet är en heltäckande genomsökning av offentligt tillgängligt Internetinnehåll som inget enmotertillvägagångssätt kan replikera, och täcker akademiska förvar, nyhetsarkiv, innehållsfabriker, uppsatsförsäljare och allmänna webbsidor.
När sökmotorfrågor returnerar potentiellt matchande URL:er går detekteringsmotorn in i fasen källhämtning och jämförelse. Varje kandidatsidans innehåll hämtas, extraheras och normaliseras (HTML-taggar, navigeringselement, rubriker och sidfötter avlägsnas för att isolera den faktiska artikeltexten), och sedan anpassas mot det inlämnade dokumentet. Denna anpassning använder sekvensMatchningsalgoritmer som identifierar de längsta gemensamma undersekvenserna mellan de två texterna, med hänsyn till smärre variationer i interpunktion, mellanrum och formatering.
Jämförelsen är inte begränsad till exakta matchningar. Motorn utför suddig matchning för att identifiera stycken där enstaka ord ersatts med synonymer, meningsordning omorganiserats, eller förbindande fraser lagts till eller tagits bort. Detta fångar den vanligaste undvikningstekniken: ytlig omformulering som bevarar den ursprungliga innebörden och strukturen. Varje matchat segment registreras med sin käll-URL, överlappningsprocenten och de specifika textfragment som korresponderar, vilket bygger rådata för originalitetsrapporten.
Efter att alla källor hämtats och jämförts beräknar motorn en likhetsscore — en procentsats som representerar hur stor del av det inlämnade dokumentet matchar externa källor. Denna beräkning är mer nyanserad än ett enkelt förhållande. Motorn skiljer mellan olika typer av matchningar: exakta kopior, närmatchningar (parafraserade stycken), korrekt citerade och källhänvisade material och vanliga fraser eller standardtexter som inte indikerar plagiat.
Plagiatdetektors referensdetekteringssystem identifierar automatiskt citat, offerter och bibliografiska referenser i dokumentet och behandlar dem annorlunda än ej källhänvisade matchningar. Ett textblock omgivet av citattecken och följt av en källhänvisning flaggas som en legitim referens, inte som plagiat. Detta förhindrar uppblåsta likhetsscore som annars skulle straffa välforskade papper för deras korrekta användning av källor. Den slutliga poängen återspeglar genuina originalitetsproblem och ger granskaren ett meningsfullt och handlingsbart mått.
Allteftersom AI-genererad text blir alltmer utbredd måste plagiatdetektering hantera innehåll som inte kopieras från någon befintlig källa men som ändå inte är originalt mänskligt arbete. Plagiatdetektor inkluderar en integrerad AI-innehållsdetekteringsmodul med 0,98 känslighet, kapabel att identifiera text producerad av stora språkmodeller inklusive ChatGPT, Gemini och HuggingChat. Detekteringen fungerar genom att analysera statistiska egenskaper hos texten — ordfrekvensfördelningar, perplexitet på meningsnivå, burstighets-mönster och tokenförutsägbarhetssekvenser — som systematiskt skiljer sig mellan mänskligt och maskinellt skrivande.
Mänskligt skrivande tenderar att uppvisa större variabilitet i meningslängd, mer oförutsägbara ordval och oregelbundna komplexitetsmönster. AI-genererad text graviterar däremot mot statistiskt sannolika ordsekvenser med mer enhetlig meningsstruktur och en karakteristisk 'släthet' i sin sannolikhetsfördelning. Detekteringsmodellen tränas på stora korpusar av både mänsklig och AI-text, och den opererar på styckesnivå för att ge detaljerade resultat. Denna analys körs parallellt med traditionell plagiatdetektering i en enda genomsökning, så granskare får en enhetlig rapport som täcker både kopierat innehåll och AI-genererade stycken utan att behöva separata verktyg eller arbetsflöden.
Sofistikerade användare försöker besegra plagiatdetektering genom olika tekniska trick. Den vanligaste undvikningstekniken är Unicode-teckenbyte — att ersätta latinska tecken med visuellt identiska tecken från andra Unicode-skript. Till exempel ser det kyrilliska bokstaven 'a' (U+0430) identisk ut med det latinska bokstaven 'a' (U+0061) på skärmen, men de är olika tecken på kodpunktsnivå. En naiv textjämförelse skulle behandla 'academic' stavat med ett kyrilliskt 'a' som ett helt annat ord, vilket gör att det plagierade stycket undviker detektering helt och hållet.
Plagiatdetektor hanterar detta med sin Unicode Anti-Cheating Engine (UACE). Innan jämförelse normaliserar UACE all text genom att mappa visuellt ekvivalenta tecken över Unicode-block — kyrilliska, grekiska, armeniska och andra skript som innehåller lika-ut-tecken — tillbaka till sina latinska ekvivalenter. Motorn upprätthåller en heltäckande ersättningstabeller som täcker hundratals teckenpar. Denna normalisering sker transparent under textextraktionsfasen, så varje efterföljande detekteringssteg opererar på ren, kanonisk text oavsett vilka trickstecken som användes i källdokumentet.
Utöver teckenbyte detekterar UACE även andra undvikningsmetoder inklusive infogning av osynliga Unicode-tecken (nolbreddsmellanslag, nolbreddskopplingselement, mjuka bindestreck) mellan ord eller bokstäver, vit-på-vit text dold i dokument och mikrofontstorlek text infogad för att bryta upp igenkännbara fraser. Dessa tekniker flaggas i originalitetsrapporten som avsiktliga manipuleringsförsök, vilket varnar granskaren att upphovsmannen aktivt försökte kringgå detektering — vilket i sig är starkt bevis för avsikt att plagiera.
Ladda ner en gratis demo eller köp en licens för att börja kontrollera plagiat och AI-genererat innehåll.
Kulmen på detekteringsprocessen är Originalitetsrapporten — ett detaljerat dokument som presenterar alla fynd i ett organiserat, granskningsbart format. Rapporten markerar matchade stycken i den inlämnade texten, färgkodade efter källa, med varje matchning länkad till dess motsvarande URL eller databaspost. En sammanfattningsdel visar den övergripande likhetspoängen, antalet matchade källor, andelen detekterat AI-genererat innehåll och en uppdelning av matchningstyper (exakta, parafraserade, citerade).
För institutioner kan Originalitetsrapporter varumärkespräglas med organisationens logotyp, vilket ger ett professionellt, standardiserat format för akademiska integritetsregister. Rapporterna är utformade för att vara bevisvärda — lämpliga för användning i formella granskningsförfaranden, akademiska integritetsutredningar eller rättsliga sammanhang. Varje påstående i rapporten är självständigt verifierbart: granskare kan klicka igenom till den ursprungliga källan för att bekräfta matchningen med egna ögon. Denna transparens säkerställer att plagiatfynd är försvarliga och rättvisa, och skyddar både granskningsprocessens integritet och rättigheterna hos den vars verk utvärderas.
Ett grundläggande arkitekturval inom plagiatdetektering är om dokument bearbetas lokalt på användarens maskin eller laddas upp till en fjärransluten molnserver. Molnbaserade plagiatgranskare kräver att användare laddar upp sina dokument till leverantörens servrar, där texten extraheras, analyseras och ofta lagras i en databas. Detta väcker betydande integritets- och sekretessfrågor — särskilt för känslig akademisk forskning, opublicerade manuskript, juridiska handlingar och företagsmaterial. Dokument uppladdade till molntjänster kan behållas, indexeras eller användas för att träna AI-modeller, och dataintrång kan exponera konfidentiellt innehåll.
Plagiatdetektor körs helt och hållet på skrivbordet. Dokument öppnas, tolkas och analyseras lokalt — hela texten överförs aldrig till någon extern server. Endast utvalda textfragment (sökfrågor) skickas till sökmotorer för jämförelse, på samma sätt som en människa manuellt skulle söka efter en fras i en webbläsare. Denna arkitektur ger en grundläggande integritetgaranti: det fullständiga dokumentet lämnar aldrig användarens maskin. För institutioner som hanterar känsliga material — advokatfirmor som kontrollerar inlagor, medicinska forskare som granskar papper, myndigheter som granskar rapporter — är detta skrivbordsfokuserade tillvägagångssätt inte bara en preferens utan ett krav för efterlevnad. Kombinerat med en engångsköpsmodell (ingen löpande prenumeration) erbjuder det både integritet och kostnadsprediktabilitet.