Перш ніж розпочати будь-який аналіз на плагіат, програмне забезпечення має витягти з надісланого документа чистий, придатний для пошуку текст. Це складніша проблема, ніж здається, оскільки документи надходять у найрізноманітніших форматах — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT та HTML, серед інших — кожен зі своєю внутрішньою структурою форматування, метаданих, вбудованих об'єктів та кодування. Надійний конвеєр вилучення тексту повинен послідовно обробляти всі ці формати, створюючи нормалізований простий текст, придатний для порівняння.
Детектор плагіату використовує 5-рівневу архітектуру вилучення тексту для максимальної надійності. Для файлів DOCX перший рівень аналізує безпосередньо рідну структуру XML DocX. Якщо це не вдається (через пошкодження або нестандартне форматування), система повертається до інтерфейсу Microsoft iFilter, потім до розбору необробленого OpenXML і, нарешті, до Apache Tika як універсального засобу вилучення в крайньому випадку. Такий каскадний підхід означає, що навіть пошкоджені або нестандартні документи дають придатний для використання текст. Той самий багаторівневий принцип застосовується до всіх 12+ підтримуваних форматів, гарантуючи, що жоден документ не залишиться необробленим.
Процес вилучення також виконує нормалізацію кодування — перетворення тексту з різних кодувань символів (UTF-8, UTF-16, варіанти Windows-1252, ISO-8859) в єдине внутрішнє представлення. Це критично важливо, оскільки невідповідності кодувань можуть спричинити те, що ідентичний текст виглядатиме по-різному на байтовому рівні, що призведе до пропущених збігів плагіату. Правильне вилучення закладає основу для кожного наступного етапу виявлення.
Після вилучення чистого тексту механізм виявлення розбиває його на одиниці, які можна аналізувати, за допомогою процесу, який називається створенням цифрових відбитків тексту. Документ сегментується на перекриваючі послідовності слів (n-грами), і кожна послідовність перетворюється на компактний числовий хеш — відбиток. Ці відбитки служать ефективними ідентифікаторами, які можна швидко порівняти з відбитками з інших джерел без необхідності щоразу виконувати дорогі повнотекстові порівняння.
Алгоритм створення відбитків повинен збалансувати чутливість та ефективність. Короткі n-грами (3-4 слова) виявляють більше збігів, але дають надмірну кількість хибнопозитивних результатів для поширених фраз. Довші n-грами (8-10 слів) є більш конкретними, але можуть пропускати плагіат там, де було змінено кілька слів. Сучасні системи використовують відбитки змінної довжини в поєднанні з алгоритмами відсіювання, які вибирають репрезентативну підмножину відбитків, підтримуючи точність виявлення, зберігаючи при цьому керований простір порівняння для документів будь-якого розміру.
Після створення цифрових відбитків документа механізм виявлення має порівняти ці відбитки з існуючим контентом в Інтернеті. Детектор плагіату використовує особливий підхід: замість того, щоб покладатися на єдину власну базу даних, він одночасно надсилає запити до чотирьох основних пошукових систем — Google, Bing, Yahoo та DuckDuckGo — отримуючи доступ до їхнього сукупного індексу з понад 4 мільярдів веб-сторінок. Ця багатосистемна стратегія значно збільшує охоплення джерел, оскільки кожна пошукова система індексує різні частини Інтернету та по-різному ранжує результати.
Процес запитів використовує інтелектуальну ротацію та вибір фрагментів тексту для подання як пошукових запитів. Не кожен відбиток запитується — механізм вибирає найхарактерніші уривки з документа, ті, що найімовірніше повернуть змістовні збіги, а не загальні фрази. Планування запитів керує обмеженнями швидкості та розподіляє запити між пошуковими системами для підтримки пропускної здатності. Результатом є всебічний огляд загальнодоступного інтернет-контенту, який жоден окремий підхід не може відтворити, охоплюючи академічні репозиторії, архіви новин, контент-ферми, фабрики есе та загальні веб-сторінки.
Коли пошукові запити повертають потенційно збігаючі URL-адреси, система виявлення переходить у фазу пошуку та порівняння джерел. Кожна сторінка-кандидат завантажується, її вміст витягується та нормалізується (видаляючи теги HTML, елементи навігації, заголовки та нижні колонтитули для ізоляції фактичного тексту статті), а потім вирівнюється відносно надісланого документа. Це вирівнювання використовує алгоритми зіставлення послідовностей, які визначають найдовші спільні підпослідовності між двома текстами, враховуючи незначні відмінності в пунктуації, пробілах та форматуванні.
Порівняння не обмежується точними збігами. Система виконує нечітке зіставлення, щоб виявити уривки, де окремі слова були замінені синонімами, порядок речень був переставлений або сполучні фрази були додані чи видалені. Це виявляє найпоширеніший метод ухилення: поверхневе переформулювання, яке зберігає оригінальне значення та структуру. Кожен сегмент, що збігається, записується разом з його вихідною URL-адресою, відсотком перекриття та конкретними фрагментами тексту, що відповідають, створюючи необроблені дані для звіту про оригінальність.
Після того, як усі джерела будуть знайдені та порівняні, механізм обчислює показник подібності — відсоток, що показує, наскільки поданий документ відповідає зовнішнім джерелам. Цей розрахунок є більш нюансованим, ніж просте співвідношення. Механізм розрізняє різні типи збігів: точні копії, майже збіги (перефразовані уривки), правильно цитований та процитований матеріал, а також поширені фрази або шаблонний текст, які не вказують на плагіат.
Система виявлення посилань Детектор плагіату автоматично ідентифікує цитати, посилання та бібліографічні посилання в документі та обробляє їх інакше, ніж посилання без зазначення авторства. Блок тексту, укладений у лапки та позначений цитатою, позначається як законне посилання, а не як плагіат. Це запобігає завищенню балів подібності, які в іншому випадку карали б добре досліджені статті за належне використання джерел. Остаточна оцінка відображає справжні проблеми з оригінальністю, надаючи рецензенту змістовний та практичний показник.
Оскільки текст, згенерований штучним інтелектом, стає все більш поширеним, виявлення плагіату має охоплювати контент, який не скопійований з жодного існуючого джерела, але все ж не є оригінальною роботою людини. Детектор плагіату включає вбудований модуль виявлення контенту на основі ШІ з чутливістю 0,98, здатний ідентифікувати текст, створений великими мовними моделями, включаючи ChatGPT, Gemini та HuggingChat. Виявлення працює шляхом аналізу статистичних властивостей тексту — розподілу частоти слів, перплексії на рівні речень, патернів варіативності (burstiness) та послідовностей ймовірностей токенів - які систематично відрізняються між людським та машинним письмом.
Людський текст, як правило, демонструє більшу мінливість у довжині речень, більш непередбачуваний вибір слів та нерегулярні моделі складності. Текст, згенерований штучним інтелектом, навпаки, тяжіє до статистично ймовірних послідовностей слів з більш однорідною структурою речень та характерною «плавністю» у розподілі ймовірностей. Модель виявлення навчена на великих корпусах як людського, так і ШІ-тексту, і вона працює на рівні абзаців, щоб надавати детальні результати. Цей аналіз виконується разом із традиційним виявленням плагіату в одному скануванні, тому рецензенти отримують єдиний звіт, що охоплює як скопійований контент, так і уривки, згенеровані штучним інтелектом, без потреби в окремих інструментах чи робочих процесах.
Досвідчені користувачі намагаються обійти виявлення плагіату за допомогою різних технічних хитрощів. Найпоширенішим методом ухилення є підміна символів Unicode — заміна латинських символів візуально ідентичними символами з інших письменностей Unicode. Наприклад, кирилична літера «a» (U+0430) виглядає ідентично латинській літері «a» (U+0061) на екрані, але на рівні кодової точки це різні символи. Наївне порівняння тексту розглядало б слово «academic», написане з кириличною «a», як зовсім інше слово, через що плагіатований уривок повністю уникав би виявлення.
Детектор плагіату вирішує цю проблему за допомогою свого Unicode Anti-Cheating Engine (UACE). Перед порівнянням UACE нормалізує весь текст, зіставляючи візуально еквівалентні символи в блоках Unicode — кирилиці, грецькій, вірменській та інших письменностях, що містять схожі символи — назад до їхніх латинських еквівалентів. Механізм підтримує комплексну таблицю підстановок, яка охоплює сотні пар символів. Ця нормалізація відбувається прозоро під час фази вилучення тексту, тому кожен наступний етап виявлення працює з чистим, канонічним текстом, незалежно від того, які трюки з символами були застосовані до вихідного документа.
Окрім підміни символів, UACE також виявляє інші методи ухилення, включаючи вставку невидимих символів Unicode (пробілів нульової ширини, з'єднувачів нульової ширини, м'яких дефісів) між словами або літерами, білий текст на білому тлі, прихований у документах, та мікрошрифтовий текст, вставлений для розбиття розпізнаваних фраз. Ці методи позначаються у звіті про оригінальність як навмисні спроби маніпуляції, що попереджає рецензента про те, що автор активно намагався обійти виявлення, що саме по собі є вагомим доказом наміру плагіату.
Завантажте безкоштовну демо-версію або придбайте ліцензію, щоб розпочати перевірку на плагіат та контент, створений штучним інтелектом.
Кульмінацією процесу виявлення є Звіт про оригінальність — детальний документ, який представляє всі результати в організованому, зручному для перегляду форматі. У звіті виділяються збіги у поданому тексті, позначені кольором за джерелом, причому кожен збіг пов’язаний з відповідною URL-адресою або записом у базі даних. У розділі зведення показано загальний бал подібності, кількість збігів джерел, відсоток виявленого контенту, згенерованого штучним інтелектом, та розподіл типів збігів (точні, перефразовані, цитовані).
Для установ Звіти про оригінальність можуть бути брендовані логотипом організації, що забезпечує професійний, стандартизований формат для записів про академічну доброчесність. Звіти розроблені як доказового рівня документи — придатні для використання у формальних процедурах перевірки, слуханнях щодо академічної доброчесності або в юридичному контексті. Кожне твердження у звіті можна перевірити незалежно: рецензенти можуть перейти до оригінального джерела, щоб на власні очі підтвердити збіг. Така прозорість гарантує, що висновки про плагіат є обґрунтованими та справедливими, захищаючи як чесність процесу перевірки, так і права особи, чия робота оцінюється.
Фундаментальний архітектурний вибір у виявленні плагіату полягає в тому, чи документи обробляються локально на комп’ютері користувача, чи завантажуються на віддалений хмарний сервер. Хмарні засоби перевірки на плагіат вимагають від користувачів завантаження своїх документів на сервери постачальника, де текст витягується, аналізується та часто зберігається в базі даних. Це викликає значні проблеми щодо конфіденційності, особливо для чутливих академічних досліджень, неопублікованих рукописів, юридичних документів та корпоративних матеріалів. Документи, завантажені в хмарні сервіси, можуть зберігатися, індексуватися або використовуватися для навчання моделей штучного інтелекту, а витоки даних можуть розкрити конфіденційний контент.
Детектор плагіату працює виключно на робочому столі. Документи відкриваються, розбираються та аналізуються локально — повний текст ніколи не передається на жодний зовнішній сервер. Лише вибрані фрагменти тексту (пошукові запити) надсилаються до пошукових систем для порівняння, так само, як людина вручну шукає фразу в браузері. Ця архітектура забезпечує фундаментальну гарантію конфіденційності: повний документ ніколи не залишає комп’ютер користувача. Для установ, що працюють із конфіденційними матеріалами — юридичних фірм, які перевіряють документи, медичних дослідників, які рецензують статті, державних установ, які аудитують звіти — цей десктопний підхід є не просто перевагою, а вимогою відповідності стандартам. У поєднанні з моделлю одноразової покупки (без повторюваної підписки) він пропонує як конфіденційність, так і передбачуваність витрат.