Преди да започне какъвто и да е анализ на плагиатство, софтуерът трябва да извлече чист, търсещ се текст от подадения документ. Това е по-сложен проблем, отколкото изглежда, тъй като документите постъпват в широко разнообразие от формати — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT и HTML, сред другите — всеки с вградена структура от форматиране, метаданни, вградени обекти и кодиране. Надежден конвейер за извличане на текст трябва да обработва всички тези формати последователно, произвеждайки нормализиран обикновен текст, подходящ за сравнение.
Детектор за плагиатство използва 5-нивова архитектура за извличане на текст за максимална надеждност. При DOCX файлове първото ниво директно анализира вградената DocX XML структура. При неуспех (поради повреда или нестандартно форматиране) системата преминава към интерфейса iFilter на Microsoft, след това към чисто OpenXML анализиране и накрая към Apache Tika като универсален резервен метод. Този каскаден подход означава, че дори повредени или нестандартни документи дават използваем текст. Същият принцип на множество нива се прилага при всички 12+ поддържани формата, гарантирайки, че нито един документ не остава необработен.
Процесът на извличане обработва и нормализирането на кодирането — конвертиране на текст от различни символни кодирания (UTF-8, UTF-16, Windows-1252, ISO-8859 варианти) в обединено вътрешно представяне. Това е критично, тъй като несъответствията в кодирането могат да накарат идентичния текст да изглежда различен на байтово ниво, водейки до пропуснати съвпадения при плагиатство. Правилното извличане полага основите за всеки следващ етап на разпознаване.
Веднъж щом е извлечен чист текст, машината за разпознаване го разбива на анализируеми единици чрез процес, наречен текстово дактилоскопиране. Документът се сегментира на припокриващи се последователности от думи (n-грами) и всяка последователност се конвертира в компактен числов хеш — пръстов отпечатък. Тези пръстови отпечатъци служат като ефективни идентификатори, позволяващи бързо сравнение с пръстови отпечатъци от други источника, без да се извършват скъпоструващи пълни текстови сравнения всеки път.
Алгоритъмът за дактилоскопиране трябва да балансира между чувствителност и ефективност. Кратките n-грами (3–4 думи) улавят повече съвпадения, но генерират прекомерно фалшиви положителни резултати при общи фрази. По-дългите n-грами (8–10 думи) са по-специфични, но могат да пропуснат плагиатство, при което са сменени само няколко думи. Разширените системи използват дактилоскопиране с променлива дължина в комбинация с алгоритми за пресяване, избиращи представителна подгрупа от пръстови отпечатъци, поддържайки точност на разпознаване, докато пространството за сравнение остава управляемо за документи от всякакъв размер.
С дактилоскопирания документ машината за разпознаване трябва да сравни тези пръстови отпечатъци с existing съдържание в интернет. Детектор за плагиатство прилага отличителен подход: вместо да разчита на единична собствена база данни, той изпраща запитвания едновременно до четири основни търсачки — Google, Bing, Yahoo и DuckDuckGo — достъпвайки техния комбиниран индекс от над 4 милиарда уебстраници. Тази стратегия с множество търсачки значително увеличава покритието на источниците, тъй като всяка търсачка индексира различни части на мрежата и класира резултатите по различен начин.
Процесът на запитване използва интелигентно редуване и избор на текстови фрагменти за изпращане като заявки за търсене. Не всеки пръстов отпечатък се запитва — машината избира най-отличителните пасажи от документа, тези с най-висока вероятност да върнат смислени съвпадения, а не общи фрази. Планирането на запитванията управлява ограниченията на честотата и разпределя заявките между търсачките, за да поддържа пропускателна способност. Резултатът е изчерпателно обхождане на публично достъпното интернет съдържание, което нито един подход с единична търсачка не може да повтори, покривайки академични хранилища, новинарски архиви, контентни фабрики, есе-мелници и общи уебстраници.
Когато запитванията към търсачките върнат потенциално съвпадащи URL адреси, машината за разпознаване влиза във фазата на извличане и сравняване на источниците. Всяка страница-кандидат se извлича, съдържанието й се изважда и нормализира (премахване на HTML тагове, навигационни елементи, заглавия и футъри, за да се изолира действителния текст на статията) и след това се подравнява с подадения документ. Това подравняване използва алгоритми за съпоставяне на последователности, идентифициращи най-дългите общи подпоследователности между двата текста, като се отчитат незначителни различия в пунктуацията, празнините и форматирането.
Сравняването не се ограничава до точни съвпадения. Машината извършва размито съвпадение, за да идентифицира пасажи, при които отделни думи са заменени със синоними, редът на изреченията е пренаредени или свързващи фрази са добавени или премахнати. Това улавя най-разпространената техника за заобикаляне: повърхностното преформулиране, запазващо оригиналното значение и структура. Всеки съвпадащ сегмент се записва с URL адреса на источника, процента на припокриване и конкретните текстови фрагменти, съответстващи си, изграждайки суровите данни за доклада за оригиналност.
След извличането и сравняването на всички источника машината изчислява оценка на сходството — процент, представляващ каква част от подадения документ съвпада с външни источника. Това изчисление е по-нюансирано от проста пропорция. Машината разграничава между различни видове съвпадения: точни копия, близки съвпадения (преразказани пасажи), правилно цитирани и посочени материали и общи фрази или шаблонен текст, неозначаващ плагиатство.
Системата за разпознаване на препратки на Детектор за плагиатство автоматично идентифицира цитати, кавичен текст и библиографски препратки в документа и ги третира по различен начин от несрочените съвпадения. Текстов блок, поставен в кавички и следван от препратка, се маркира като легитимна референция, а не като плагиатство. Това предотвратява завишени оценки на сходство, които иначе биха наказали добре изследваните работи за правилното им използване на источниците. Финалната оценка отразява действителни опасения относно оригиналността, предоставяйки на рецензента смислен и приложим показател.
С нарастващата разпространеност на текст, генериран от изкуствен интелект, засичането на плагиатство трябва да се справя и с съдържание, което не е копирано от нито един съществуващ источник, но въпреки това не е оригинална човешка работа. Детектор за плагиатство включва интегриран модул за разпознаване на съдържание от изкуствен интелект с чувствителност 0,98, способен да идентифицира текст, произведен от големи езикови модели, включително ChatGPT, Gemini и HuggingChat. Разпознаването работи чрез анализиране на статистическите свойства на текста — разпределения на честотата на думите, объркване на ниво изречение, модели на нередност и последователности от вероятности на токени — различаващи се системно между човешкото и машинното писане.
Човешкото писане се отличава с по-голяма вариабилност в дължината на изреченията, по-непредвидими избори на думи и нередни модели на сложност. Текстът, генериран от изкуствен интелект, за разлика от него, гравитира към статистически вероятни последователности от думи с по-еднородна изреченска структура и характерна „гладкост" в разпределението на вероятностите. Моделът за разпознаване е обучен върху обширни корпуси от човешки и AI текстове и работи на ниво параграф, за да предоставя детайлни резултати. Този анализ тече успоредно с традиционното засичане на плагиатство в едно сканиране, така че рецензентите получават обединен доклад, обхващащ и копираното, и AI-генерираното съдържание, без да се нуждаят от отделни инструменти или работни процеси.
Изкушени потребители се опитват да заобиколят засичането на плагиатство с различни технически трикове. Най-разпространената техника за заобикаляне е подмяна на Unicode символи — замяна на латински символи с визуално идентични символи от други Unicode скриптове. Например кирилската буква „а" (U+0430) изглежда идентично с латинската буква „a" (U+0061) на екрана, но са различни символи на ниво кодова точка. Наивното текстово сравнение би третирало „academic", изписано с кирилско „а", като напълно различна дума, позволявайки на плагиатствания пасаж изцяло да избегне разпознаването.
Детектор за плагиатство се справя с това с помощта на Unicode Anti-Cheating Engine (UACE). Преди сравняване UACE нормализира целия текст, като картографира визуално еквивалентните символи в Unicode блоковете — кирилски, гръцки, арменски и други скриптове, съдържащи двойници — обратно към латинските им еквиваленти. Машината поддържа изчерпателна таблица за подмяна, обхващаща стотици двойки символи. Тази нормализация се извършва прозрачно по времето на фазата на извличане на текст, така че всеки следващ етап на разпознаване работи върху чист, каноничен текст, независимо какви символни трикове са приложени към изходния документ.
Отвъд подмяната на символи, UACE разпознава и други методи за заобикаляне, включително вмъкване на невидими Unicode символи (нулеви интервали, нулеви обединители, меки дефиси) между думи или букви, бял текст на бял фон в документи и текст с микрошрифт, вмъкнат, за да разбие разпознаваемите фрази. Тези техники се маркират в доклада за оригиналност като опити за умишлена манипулация, предупреждавайки рецензента, че авторът активно е опитал да заобиколи разпознаването — което само по себе си е силно доказателство за намерение за плагиатство.
Изтеглете безплатна демо версия или закупете лиценз, за да започнете да проверявате за плагиатство и съдържание, генерирано от изкуствен интелект.
Кулминацията на процеса на разпознаване е Докладът за оригиналност — подробен документ, представящ всички констатации в организиран, прегледен формат. Докладът маркира съвпадащите пасажи в подадения текст, цветово кодирани по источник, като всяко съвпадение е свързано с съответния URL адрес или запис в базата данни. Обобщителен раздел показва общата оценка на сходство, броя на съвпадащите источника, процента разпознато AI-генерирано съдържание и разбивка на видовете съвпадения (точно, преразказано, цитирано).
За институциите Докладите за оригиналност могат да бъдат брандирани с логото на организацията, предоставяйки професионален, стандартизиран формат за записи по академична почтеност. Докладите са проектирани да бъдат доказателствено-валидни — подходящи за официални прегледни производства, изслушвания по академична почтеност или правни контексти. Всяко твърдение в доклада е независимо проверимо: рецензентите могат да кликнат до оригиналния источник, за да потвърдят съвпадението с очите си. Тази прозрачност гарантира, че констатациите за плагиатство са защитими и справедливи, защитавайки едновременно почтеността на процеса на преглед и правата на лицето, чиято работа се оценява.
Фундаментален архитектурен избор при засичането на плагиатство е дали документите се обработват локално на машината на потребителя или се качват на отдалечен облачен сървър. Базираните на облак инструменти за проверка на плагиатство изискват потребителите да качват документите си на сървърите на доставчика, където текстът се извлича, анализира и нередко се съхранява в база данни. Това поражда значителни опасения за поверителност и конфиденциалност — особено при чувствителни академични изследвания, непубликувани ръкописи, правни документи и корпоративни материали. Документите, качени в облачни услуги, могат да бъдат задържани, индексирани или използвани за обучение на AI модели, а пробивите в сигурността могат да изложат поверително съдържание.
Детектор за плагиатство работи изцяло на настолния компютър. Документите се отварят, анализират и обработват локално — пълният текст никога не се предава на никакъв външен сървър. Само избрани текстови фрагменти (заявки за търсене) се изпращат до търсачки за сравнение — по същия начин, по който потребителят би ръчно потърсил фраза в браузър. Тази архитектура предоставя фундаментална гаранция за поверителност: пълният документ никога не напуска машината на потребителя. За институции, работещи с чувствителни материали — юридически кантори, проверяващи бележки, медицински изследователи, преглеждащи статии, правителствени агенции, одитиращи доклади — настолно ориентираният подход не е просто предпочитание, а изискване за съответствие. В комбинация с модела на еднократна покупка (без повтарящ се абонамент), той предлага едновременно поверителност и предвидимост на разходите.