Ennen kuin mikään plagiointianalyysi voi alkaa, ohjelmiston on poimittava puhdas, hakukelpoinen teksti lähetetystä asiakirjasta. Tämä on monimutkaisempi ongelma kuin miltä se vaikuttaa, koska asiakirjat saapuvat hyvin monenlaisissa muodoissa — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT ja HTML, muiden muassa — joilla kullakin on oma sisäinen muotoilu-, metatiedot-, upotetut objektit- ja koodausrakenne. Luotettavan tekstinpoimintaputkiston on käsiteltävä kaikkia näitä muotoja johdonmukaisesti, tuottaen normalisoitua pelkkää tekstiä vertailua varten.
Plagiointitunnistin käyttää 5-tasoista tekstinpoimintaarkkitehtuuria luotettavuuden maksimoimiseksi. DOCX-tiedostoille ensimmäinen taso jäsentää natiivin DocX XML -rakenteen suoraan. Jos se epäonnistuu (vioittumisen tai epästandardin muotoilun vuoksi), järjestelmä turvautuu Microsoftin iFilter-rajapintaan, sitten raakaun OpenXML-jäsentämiseen ja lopuksi Apache Tikaan viimeisenä yleiskäyttöisenä poimijana. Tämä kaskadimainen lähestymistapa tarkoittaa, että jopa vaurioituneet tai epästandardit asiakirjat tuottavat käyttökelpoista tekstiä. Samaa monitasoista periaatetta sovelletaan kaikkiin yli 12 tuettuun muotoon, varmistaen ettei yhtään asiakirjaa jätetä käsittelemättä.
Poimintaprosessi käsittelee myös koodausnormalisoinnin — muuntaa tekstin eri merkistökoodauksista (UTF-8, UTF-16, Windows-1252, ISO-8859-variantit) yhtenäiseksi sisäiseksi esitykseksi. Tämä on ratkaisevan tärkeää, koska koodauserot voivat saada identtisen tekstin näyttämään erilaiselta tavutasolla, johtaen puuttuviin plagiointivastaavuuksiin. Asianmukainen poiminta luo perustan kaikille seuraaville tunnistusvaiheille.
Kun puhdas teksti on poimittu, tunnistusmoottori pilkkoo sen analysoitaviksi yksiköiksi prosessissa, jota kutsutaan tekstin sormenjäljeksi. Asiakirja segmentoidaan limittyviksi sananjaksoiksi (n-grammeiksi), ja kukin jakso muunnetaan kompaktiksi numeeriseksi tiivisteeksi — sormenjäljeksi. Nämä sormenjäljet toimivat tehokkaina tunnisteina, joita voidaan nopeasti vertailla muiden lähteiden sormenjälkiin ilman, että jokainen kerta suoritetaan kallista koko tekstin vertailua.
Sormenjälkialgoritmin on tasapainotettava herkkyys tehokkuutta vasten. Lyhyet n-grammit (3–4 sanaa) havaitsevat enemmän vastaavuuksia, mutta tuottavat liiaksi vääriä positiivisia yleisistä fraaseista. Pidemmät n-grammit (8–10 sanaa) ovat tarkempia, mutta saattavat jättää huomaamatta plagioinnin, jossa muutama sana on vaihdettu. Edistyneet järjestelmät käyttävät muuttuvapituista sormenjälkitystä yhdistettynä winnowing-algoritmeihin, jotka valitsevat edustavan osajoukon sormenjäljistä, ylläpitäen tunnistustarkkuuden samalla kun vertailutila pysyy hallittavana minkä tahansa kokoisen asiakirjan osalta.
Kun asiakirja on sormenjälkistetty, tunnistusmoottori vertaa näitä sormenjälkiä olemassa olevaan sisältöön internetissä. Plagiointitunnistin ottaa erottuvan lähestymistavan: sen sijaan että se turvautuisi yhteen omistettuun tietokantaan, se kyselee neljää pääasiallista hakukonetta samanaikaisesti — Google, Bing, Yahoo ja DuckDuckGo — käyttäen niiden yhteistä indeksiä yli 4 miljardista verkkosivusta. Tämä monimoottoristrategia lisää dramaattisesti lähteiden kattavuutta, koska kukin hakukone indeksoi eri osia verkosta ja järjestää tulokset eri tavoin.
Kyselyprosessi käyttää älykkäistä rotaatiota ja tekstifragmenttien valintaa hakukyselyiksi lähettämistä varten. Kaikkia sormenjälkiä ei kysellistä — moottori valitsee asiakirjasta erottuvimmat kohdat, jotka todennäköisimmin palauttavat merkityksellisiä vastaavuuksia tavallisten fraasien sijaan. Kyselyn ajoitus hallinnoi nopeusrajoituksia ja jakaa pyynnöt moottoreiden kesken läpimenon ylläpitämiseksi. Tuloksena on kattava läpikäynti julkisesti saatavilla olevasta internet-sisällöstä, jota yksimoottorisella lähestymistavalla ei voida toistaa, kattaen akateemiset arkistot, uutisarkistot, sisältöfarmit, esseekaupat ja yleiset verkkosivut.
Kun hakukonekyselyt palauttavat mahdollisesti vastaavia URL-osoitteita, tunnistusmoottori siirtyy lähteiden hakuun ja vertailuun. Kukin ehdokaslähde-sivu haetaan, sen sisältö poimitaan ja normalisoidaan (poistamalla HTML-tagit, navigaatioelementit, otsikot ja alatunnisteet varsinaisen artikkelitekstin eristämiseksi), ja sitten se sovitetaan palautettuun asiakirjaan. Tässä sovituksessa käytetään sekvenssinvastaavuusalgoritmeja, jotka tunnistavat pisimmät yhteiset osajonot kahden tekstin välillä ottaen huomioon pienet erot välimerkeissä, välilyönneissä ja muotoilussa.
Vertailu ei rajoitu tarkkoihin vastaavuuksiin. Moottori suorittaa sumean vastaavuuden tunnistaakseen kohtia, joissa yksittäisiä sanoja on korvattu synonyymeillä, virkkeiden järjestystä on muutettu tai yhdistäviä fraaseja on lisätty tai poistettu. Tämä havaitsee yleisimmän kiertämistekniikan: pintarakenteen uudelleenmuotoilun, joka säilyttää alkuperäisen merkityksen ja rakenteen. Kukin vastaava segmentti kirjataan lähde-URL-osoitteen, päällekkäisyysprosentin ja vastaavien tekstifragmenttien kanssa, rakentaen raakadataa alkuperäisyysraporttia varten.
Kaikkien lähteiden haun ja vertailun jälkeen moottori laskee samankaltaisuuspistemäärän — prosentin, joka kuvaa, kuinka paljon palautetusta asiakirjasta vastaa ulkoisia lähteitä. Tämä laskenta on hienovaraisempaa kuin yksinkertainen suhde. Moottori erottelee erityyppisten vastaavuuksien välillä: tarkat kopiot, lähivastaavuudet (parafrasoidut kohdat), asianmukaisesti lainattu ja viitetty materiaali sekä yleiset fraasit tai standarditeksti, jotka eivät osoita plagiointia.
Plagiointitunnistimen viittauksentunnistusjärjestelmä tunnistaa automaattisesti viittaukset, lainaukset ja lähdeluettelot asiakirjassa ja käsittelee ne eri tavoin kuin merkitsemättömät vastaavuudet. Lainausmerkeissä oleva ja viittauksella seurattu tekstiblokki merkitään lailliseksi viittaukseksi, ei plagioinniksi. Tämä estää liioitellut samankaltaisuuspisteet, jotka muutoin rankaisisivat hyvin tutkittuja töitä niiden asianmukaisesta lähteiden käytöstä. Lopullinen pistemäärä heijastaa aidon alkuperäisyyden huolia, antaen arvioijalle merkityksellisen ja toiminnallisen mittarin.
Tekoälyn tuottaman tekstin yleistyessä plagiointitunnistuksen on käsiteltävä sisältöä, jota ei ole kopioitu mistään olemassa olevasta lähteestä, mutta joka ei silti ole alkuperäistä ihmisen työtä. Plagiointitunnistin sisältää integroidun tekoälysisällön tunnistus-moduulin 0,98 herkkyydellä, joka kykenee tunnistamaan suurten kielimallien, mukaan lukien ChatGPT, Gemini ja HuggingChat, tuottaman tekstin. Tunnistus toimii analysoimalla tekstin tilastollisia ominaisuuksia — sanafrekvenssin jakaumia, virkkeentason hämmennystä, purskeellisuusmalleja ja token-todennäköisyysjonoja — jotka eroavat systemaattisesti ihmisen ja koneen kirjoittamisen välillä.
Ihmisen kirjoittamisessa on taipumus näyttää suurempaa vaihtelua virkkeiden pituudessa, ennakoimattomampia sanavalinnoita ja epäsäännöllisiä monimutkaisuusmalleja. Tekoälyn tuottama teksti puolestaan gravitoituu tilastollisesti todennäköisiin sanajonoihin yhtenäisemmällä lauserakenteella ja tyypillisellä "sujuvuudella" todennäköisyysjakaumassaan. Tunnistusmalli on koulutettu suurilla kokoelmilla sekä ihmisten että tekoälyn tekstejä, ja se toimii kappaletasolla tuottaen yksityiskohtaisia tuloksia. Tämä analyysi toimii rinnakkain perinteisen plagiointitunnistuksen kanssa yhdessä skannauksessa, joten arvioijat saavat yhtenäisen raportin, joka kattaa sekä kopioidun sisällön että tekoälyn tuottamat kohdat ilman erillisiä työkaluja tai työnkulkuja.
Kehittyneet käyttäjät yrittävät hämätä plagiointitunnistusta erilaisilla teknisillä keinoilla. Yleisin kiertämistekniikka on Unicode-merkkikorvaus — latinalaisten merkkien korvaaminen visuaalisesti identtisillä merkeillä muista Unicode-kirjoitusjärjestelmistä. Esimerkiksi kyrillinen kirjain "а" (U+0430) näyttää identtiseltä latinalaisen kirjaimen "a" (U+0061) kanssa näytöllä, mutta ne ovat eri merkkejä koodipisteiden tasolla. Yksinkertainen tekstivertailu käsittelisi kyrillisellä "а"-kirjaimella kirjoitetun "academic"-sanan täysin erilaisena sanana, jolloin plagioitu kohta kiertäisi tunnistuksen kokonaan.
Plagiointitunnistin käsittelee tämän Unicode-huijauksenestomoottorin (UACE) avulla. Ennen vertailua UACE normalisoi kaiken tekstin yhdistämällä visuaalisesti ekvivalentit merkit Unicode-lohkojen välillä — kyrilliset, kreikkalaiset, armenialaiset ja muut kirjoitusjärjestelmät, jotka sisältävät latinalaisista merkeistä identtisiltä näyttäviä merkkejä — takaisin latinalaisiin vastaavuuksiinsa. Moottori ylläpitää kattavaa korvaustaululukkoa, joka kattaa satoja merkkipareja. Tämä normalisointi tapahtuu läpinäkyvästi tekstinpoimintavaiheessa, joten jokainen seuraava tunnistusvaihe toimii puhtaan, kanonisen tekstin kanssa riippumatta siitä, mitä merkkitrikkejä lähdeasiakirjaan on sovellettu.
Merkkikorvauksen lisäksi UACE havaitsee myös muita kiertämismenetelmiä, mukaan lukien näkymättömien Unicode-merkkien (nollaleveyden välilyönnit, nollaleveyden yhdistäjät, pehmeät tavuviivat) lisääminen sanojen tai kirjainten väliin, valkoisella tekstillä valkoinen-taustaisiin asiakirjoihin piilotettu teksti sekä mikrofonttinen teksti, joka on lisätty tunnistettavien fraasien hajottamiseksi. Nämä tekniikat merkitään alkuperäisyysraportissa tahallisina manipulointiyrityksinä, varoittaen arvioijaa siitä, että tekijä on aktiivisesti yrittänyt kiertää tunnistuksen — mikä itsessään on vahva näyttö plagiointiaikomuksesta.
Lataa ilmainen demo tai hanki lisenssi aloittaaksesi plagioinnin ja tekoälyllä tuotetun sisällön tarkistamisen.
Tunnistusprosessin huipentuma on Alkuperäisyysraportti — yksityiskohtainen asiakirja, joka esittää kaikki löydökset järjestetyssä, tarkasteltavassa muodossa. Raportti korostaa vastaavat kohdat palautetussa tekstissä värikoodeilla lähteen mukaan, ja jokainen vastaavuus on linkitetty vastaavaan URL-osoitteeseen tai tietokantamerkintään. Yhteenvetoosiossa näkyy kokonaissamankaltaisuuspisteet, vastaavien lähteiden määrä, havaitun tekoälyllä tuotetun sisällön prosenttiosuus sekä erittely vastaavuustyypeistä (tarkka, parafraasoitu, viitetty).
Oppilaitoksille Alkuperäisyysraportit voidaan merkitä organisaation logolla, tarjoten ammattimaisen, standardoidun muodon akateemisten eheysrekisterien käyttöön. Raportit on suunniteltu todistuskelpoisiksi — soveltuviksi virallisiin arviointimenettelyihin, akateemisiin eheyskuulemisiin tai oikeudellisiin asiayhteyksissä. Jokainen raportin väite on itsenäisesti todennettavissa: arvioijat voivat napsauttaa alkuperäiseen lähteeseen vahvistaakseen vastaavuuden omin silmin. Tämä läpinäkyvyys varmistaa, että plagiointilöydökset ovat puolustettavissa ja oikeudenmukaisia, suojaten sekä arviointiprosessin eheyttä että sen henkilön oikeuksia, jonka työtä arvioidaan.
Yksi perustavanlaatuinen arkkitehtuurivalinta plagiointitunnistuksessa on se, käsitelläänkö asiakirjat paikallisesti käyttäjän koneella vai ladataanko ne etäpilvipalvelimelle. Pilvipohjaiset plagiointitarkistajat edellyttävät käyttäjien lataavan asiakirjansa palveluntarjoajan palvelimille, joissa teksti poimitaan, analysoidaan ja usein tallennetaan tietokantaan. Tämä herättää merkittäviä yksityisyys- ja luottamuksellisuushuolia — erityisesti arkaluonteisen akateemisen tutkimuksen, julkaisemattomien käsikirjoitusten, oikeudellisten asiakirjojen ja yritysmateriaalien osalta. Pilvipalveluihin ladatut asiakirjat saatetaan säilyttää, indeksoida tai käyttää tekoälymallien kouluttamiseen, ja tietomurrot voivat paljastaa luottamuksellisen sisällön.
Plagiointitunnistin toimii kokonaan työpöydällä. Asiakirjat avataan, jäsennetään ja analysoidaan paikallisesti — koko tekstiä ei koskaan lähetetä ulkoiselle palvelimelle. Ainoastaan valitut tekstifragmentit (hakukyselyt) lähetetään hakukoneille vertailua varten, samoin kuin ihminen hakisi manuaalisesti fraasia selaimessa. Tämä arkkitehtuuri tarjoaa perustavanlaatuisen yksityisyystakuun: täydellinen asiakirja ei koskaan poistu käyttäjän koneelta. Oppilaitoksille, jotka käsittelevät arkaluonteisia materiaaleja — asianajotoimistoille, jotka tarkistavat kirjelmiä, lääketieteellisille tutkijoille, jotka arvoivat töitä, valtion virastoille, jotka auditoivat raportteja — tämä työpöytäpohjainen lähestymistapa ei ole pelkkä mieltymys vaan vaatimustenmukaisuusvaatimus. Yhdistettynä kertaostomalliin (ei toistuvia tilausmaksuja), se tarjoaa sekä yksityisyyden että kustannusten ennakoitavuuden.