Mielőtt bármilyen plágiumelemzés megkezdődhet, a szoftvernek tiszta, kereshető szöveget kell kivonnia a benyújtott dokumentumból. Ez összetettebb feladat, mint amilyennek látszik, mivel a dokumentumok rendkívül változatos formátumokban érkeznek – DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT és HTML, és még sok más –, mindegyik saját belső szerkezettel, formázással, metaadatokkal, beágyazott objektumokkal és kódolással. Egy megbízható szövegkivonási folyamat ezeket a formátumokat egységesen kell kezelje, normalizált egyszerű szöveget előállítva az összehasonlításhoz.
A Plágiumkereső 5 szintű szövegkivonási architektúrát alkalmaz a megbízhatóság maximalizálásához. DOCX fájlok esetén az első szint közvetlenül elemzi a natív DocX XML-struktúrát. Ha ez meghiúsul (sérülés vagy nem szabványos formázás miatt), a rendszer visszaesik a Microsoft iFilter interfészre, majd nyers OpenXML-elemzésre, végül az Apache Tikára mint végső, általános célú kibontóra. Ez a lépcsőzetes megközelítés azt jelenti, hogy még a sérült vagy nem szabványos dokumentumokból is nyerhető hasznos szöveg. Ugyanez a többszintű elv vonatkozik az összes 12+ támogatott formátumra, biztosítva, hogy egyetlen dokumentum sem maradjon feldolgozatlanul.
A kivonási folyamat kódolásnormalizálást is végez – a különböző karakterkódolásokból (UTF-8, UTF-16, Windows-1252, ISO-8859 változatok) származó szövegeket egységes belső ábrázolásra alakítja. Ez azért fontos, mert a kódolási eltérések miatt az azonos szövegek byte-szinten különbözőnek tűnhetnek, ami kihagyott plágiumegyezésekhez vezet. A megfelelő kivonás megalapozza az összes ezt követő felismerési szakaszt.
Miután a tiszta szöveg ki lett vonva, a felismerőmotor elemezhető egységekre bontja azt egy szövegujjlenyomat-készítési folyamaton keresztül. A dokumentumot átfedő szósorozatokra (n-gramokra) osztják fel, és minden sorozatból tömör számértékű hash – ujjlenyomat – készül. Ezek az ujjlenyomatok hatékony azonosítóként szolgálnak, amelyek gyorsan összehasonlíthatók más források ujjlenyomataival anélkül, hogy minden alkalommal drága teljes szöveges összehasonlítást kellene végezni.
Az ujjlenyomatkészítési algoritmusnak egyensúlyt kell találnia az érzékenység és a hatékonyság között. A rövid n-gramok (3-4 szó) több egyezést találnak, de túl sok hamis pozitív eredményt adnak a gyakori kifejezések miatt. A hosszabb n-gramok (8-10 szó) specifikusabbak, de előfordulhat, hogy kihagyják a plágiumot, ahol néhány szót megváltoztattak. A fejlett rendszerek változó hosszúságú ujjlenyomatkészítést alkalmaznak, kombinálva nyerési algoritmusokkal, amelyek kiválasztják az ujjlenyomatok reprezentatív részhalmazát, fenntartva a felismerési pontosságot, miközben kezelhetőn tartják az összehasonlítási teret bármilyen méretű dokumentum esetén.
Miután a dokumentum ujjlenyomata elkészült, a felismerőmotornak ezeket az ujjlenyomatokat össze kell hasonlítania az interneten lévő meglévő tartalmakkal. A Plágiumkereső sajátos megközelítést alkalmaz: ahelyett, hogy egyetlen saját adatbázisra támaszkodna, egyszerre négy fő keresőmotort kérdez le – Google, Bing, Yahoo és DuckDuckGo –, hozzáférve több mint 4 milliárd weboldalt felölelő kombinált indexükhöz. Ez a többmotoros stratégia drámaian megnöveli a forráslefedetséget, mivel minden keresőmotor az internet különböző részeit indexeli, és eltérő módon rangsorolja az eredményeket.
A lekérdezési folyamat intelligens rotációt és szövegrészletek kiválasztását alkalmazza keresési lekérdezésként való beküldéshez. Nem minden ujjlenyomatot kérdeznek le – a motor kiválasztja a dokumentum legmegkülönböztetőbb részleteit, azokat, amelyek a legnagyobb valószínűséggel adnak értelmes egyezéseket, nem pedig általános kifejezések. A lekérdezésütemezés kezeli a lekérdezési korlátokat, és a kéréseket több motor között osztja el az átviteli sebesség fenntartása érdekében. Az eredmény a nyilvánosan elérhető internetes tartalmak átfogó átvizsgálása, amelyet egyetlen motor sem tud megismételni, lefedve az akadémiai tárolókat, hírarchívumokat, tartalomgyártó farmokat, esszémalmokat és az általános weboldalakon található tartalmakat egyaránt.
Amikor a keresőmotor-lekérdezések potenciálisan egyező URL-eket adnak vissza, a felismerőmotor a forrás-visszakeresési és összehasonlítási fázisba lép. Minden jelölt forrásoldalt visszakeres, a tartalmát kivonatolja és normalizálja (az HTML-tagek, navigációs elemek, fejlécek és láblécek eltávolításával a tényleges cikk szövegének izolálásához), majd összehasonlítja a benyújtott dokumentummal. Ez az összehasonlítás szekvencia-illesztési algoritmusokat alkalmaz, amelyek azonosítják a két szöveg leghosszabb közös részsorozatait, figyelembe véve az írásjelezésben, szóközökben és formázásban lévő kisebb eltéréseket.
Az összehasonlítás nem korlátozódik a pontos egyezésekre. A motor homályos egyeztetést végez, hogy azonosítsa azokat a részleteket, ahol az egyes szavakat szinonimákkal helyettesítették, a mondatok sorrendjét átrendezték, vagy összekötő kifejezéseket adtak hozzá vagy távolítottak el. Ez elfogja a leggyakoribb kijátszási technikát: a felszíni átfogalmazást, amely megőrzi az eredeti értelmet és szerkezetet. Minden egyező szegmenst rögzítenek a forrás URL-jével, az átfedési százalékkal és az egymásnak megfelelő konkrét szövegrészletekkel, felépítve az eredetiségi jelentés alapadatait.
Miután az összes forrást visszakeresték és összehasonlították, a motor kiszámítja a hasonlósági pontszámot – egy százalékot, amely azt mutatja, hogy a benyújtott dokumentum mekkora hányada egyezik külső forrásokkal. Ez a számítás árnyaltabb, mint egy egyszerű arány. A motor különbséget tesz az egyezéstípusok között: pontos másolatok, közel-egyezések (átfogalmazott részletek), megfelelően idézett és hivatkozott anyagok, és olyan általános kifejezések vagy szabványos szövegek, amelyek nem jeleznek plágiumot.
A Plágiumkereső hivatkozásfelismerő rendszere automatikusan azonosítja a dokumentumon belüli idézeteket, idézőjeleket és bibliográfiai hivatkozásokat, és ezeket eltérően kezeli a hivatkozatlan egyezésektől. Egy idézőjelek közé tett és hivatkozással ellátott szövegblokk legitim hivatkozásnak, nem plágiumnak minősül. Ez megakadályozza a felfújt hasonlósági pontszámokat, amelyek egyébként a jól kutatott dolgozatokat büntetnék a megfelelő forráshasználatért. A végső pontszám a valódi originalitási aggodalmakat tükrözi, érdemi és cselekvést segítő mértéket adva az értékelőnek.
Ahogy az AI által generált szöveg egyre elterjedtebbé válik, a plágiumfelismerésnek olyan tartalommal is foglalkoznia kell, amely nem másolt egyetlen meglévő forrásból sem, mégis emberi eredeti munkának nem tekinthető. A Plágiumkereső integrált AI-tartalomérzékelési modult tartalmaz, 0,98-os érzékenységgel, amely képes azonosítani a nagy nyelvi modellek által előállított szövegeket, beleértve a ChatGPT-t, Geminit és a HuggingChatot. Az érzékelés a szöveg statisztikai tulajdonságait elemzi – szógyakorisági eloszlások, mondatszintű perplexitás, burstiness-minták és token-valószínűségi sorozatok –, amelyek szisztematikusan különböznek az emberi és a gépi írás között.
Az emberi írás általában nagyobb variabilitást mutat a mondathosszban, kiszámíthatatlanabb szóválasztást és a komplexitás szabálytalanabb mintáit. A mesterséges intelligencia által generált szöveg ezzel szemben statisztikailag valószínű szósorozatok felé gravitál, egyenletesebb mondatszerkezettel és jellegzetes „simassággal" a valószínűségi eloszlásban. Az érzékelési modellt mind emberi, mind AI-szöveg nagy korpuszain tanítják be, és bekezdésszinten működik, részletes eredményeket adva. Ez az elemzés a hagyományos plágiumfelismerés mellett fut egyetlen ellenőrzésen belül, így az értékelők egységes jelentést kapnak, amely lefedi mind a másolt, mind az AI által generált részleteket, anélkül hogy külön eszközöket vagy munkafolyamatokat kellene alkalmazniuk.
A kifinomult felhasználók különböző technikai trükkökkel próbálják legyőzni a plágiumfelismerést. A leggyakoribb kijátszási technika a Unicode-karakterhelyettesítés – latin karakterek helyettesítése vizuálisan azonos karakterekkel más Unicode-írásrendszerekből. Például a cirill „а" betű (U+0430) a képernyőn egyezik a latin „a" betűvel (U+0061), de a kódpont szintjén különböző karakterek. Egy egyszerű szövegösszehasonlítás cirill „a"-val írt „academic" szót teljesen más szónak kezelné, így a plagizált részlet kikerülné a felismerést.
A Plágiumkereső ezt a Unicode Csalásellenes Motor (UACE) segítségével kezeli. Az összehasonlítás előtt a UACE normalizálja az összes szöveget azáltal, hogy a vizuálisan egyenértékű karaktereket az Unicode-blokkokban – cirill, görög, örmény és más írásrendszerek, amelyek latin betűkre hasonlító karaktereket tartalmaznak – visszaképezi latin megfelelőikre. A motor kiterjedt helyettesítési táblázatot tart fenn, amely több száz karakterpárt fed le. Ez a normalizálás átlátható módon, a szövegkivonási fázisban történik, így minden ezt követő felismerési szakasz tiszta, kanonikus szövegen dolgozik, tekintet nélkül arra, milyen karaktertrükköket alkalmaztak a forrás dokumentumban.
A karakterhelyettesítésen túl a UACE más kijátszási módszereket is felismer, beleértve a láthatatlan Unicode-karakterek (nulla szélességű szóközök, nulla szélességű összekapcsolók, lágy kötőjelek) szavak közé vagy betűk közé illesztését, fehér-fehér szöveget a dokumentumokban elrejtve, és mikrofontos szöveget, amelyet felismerhető kifejezések feldarabolásához szúrnak be. Ezeket a technikákat az eredetiségi jelentésben szándékos manipulációs kísérletekként jelölik meg, figyelmeztetve az értékelőt, hogy a szerző aktívan próbálta kijátszani a felismerést – ami önmagában is erős bizonyíték a plágium szándékosságára.
Töltsön le egy ingyenes demót, vagy vásároljon licencet, és kezdje el ellenőrizni a szövegeket plágium és mesterséges intelligencia által generált tartalom szempontjából.
A felismerési folyamat csúcsát az Eredetiségi Jelentés jelenti – egy részletes dokumentum, amely szervezett, áttekinthető formátumban mutat be minden megállapítást. A jelentés kiemeli a benyújtott szövegben az egyező részleteket, forrás szerint színkódolva, minden egyezést a megfelelő URL-lel vagy adatbázis-bejegyzéssel összekapcsolva. Az összefoglaló szakasz mutatja az általános hasonlósági pontszámot, az egyező források számát, az észlelt AI által generált tartalom százalékát és az egyezéstípusok megoszlását (pontos, átfogalmazott, hivatkozott).
Az intézmények számára az Eredetiségi Jelentések az intézmény logójával is elláthatók, professzionális, egységesített formátumot adva az akadémiai integritási nyilvántartásokhoz. A jelentések bizonyítékszintű minőségűnek készülnek – alkalmasak formális felülvizsgálati eljárásokban, akadémiai integritási meghallgatásokon vagy jogi összefüggésekben való felhasználásra. A jelentésben szereplő minden megállapítás egymástól függetlenül ellenőrizhető: az értékelők az eredeti forrásra kattintva saját szemükkel erősíthetik meg az egyezést. Ez az átláthatóság biztosítja, hogy a plágiumvizsgálatok megalapozottak és igazságosak legyenek, védve mind a felülvizsgálati folyamat integritását, mind a vizsgált személy jogait.
A plágiumfelismerés egyik alapvető architekturális kérdése, hogy a dokumentumokat helyileg, a felhasználó saját gépén dolgozzák-e fel, vagy egy távoli felhőszerverre töltik fel. A felhőalapú plágiumellenőrzők megkövetelika felhasználótól, hogy dokumentumait feltöltse a szolgáltató szervereire, ahol a szöveg kivonatolásra, elemzésre kerül, és sokszor adatbázisban tárolják. Ez komoly adatvédelmi és titkossági aggályokat vet fel – különösen érzékeny akadémiai kutatások, kiadatlan kéziratok, jogi dokumentumok és vállalati anyagok esetén. A felhőszolgáltatásokba feltöltött dokumentumokat megőrizhetik, indexelhetik, vagy AI-modellek betanítására használhatják, és adatsértések érzékeny tartalmat hozhatnak nyilvánosságra.
A Plágiumkereső teljes egészében az asztali számítógépen működik. A dokumentumokat helyileg nyitják meg, elemzik és dolgozzák fel – a teljes szöveg sosem kerül semmilyen külső szerverre. Csak a kiválasztott szövegrészletek (keresési lekérdezések) kerülnek elküldésre a keresőmotorokhoz összehasonlítás céljából, pontosan úgy, ahogy egy ember manuálisan keresne egy kifejezést a böngészőben. Ez az architektúra alapvető adatvédelmi garanciát nyújt: a teljes dokumentum soha nem hagyja el a felhasználó gépét. Az érzékeny anyagokat kezelő intézmények – ügyvédi irodák irataikat ellenőrizve, orvostudományi kutatók cikkeiket vizsgálva, kormányzati szervek jelentéseket auditálva – számára ez az asztali megközelítés nem csupán preferencia, hanem megfelelési követelmény. Az egyszeri vételármodellel kombinálva (nincs ismétlődő előfizetés) mind az adatvédelmet, mind a költség-kiszámíthatóságot biztosítja.