Zanim rozpocznie się jakakolwiek analiza pod kątem plagiatu, oprogramowanie musi wyodrębnić z przesłanego dokumentu czysty, możliwy do przeszukiwania tekst. Jest to problem bardziej złożony, niż się wydaje, ponieważ dokumenty docierają w szerokiej gamie formatów – między innymi DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT i HTML – z których każdy ma własną wewnętrzną strukturę formatowania, metadanych, osadzonych obiektów i kodowania. Niezawodny proces ekstrakcji tekstu musi obsługiwać wszystkie te formaty w sposób spójny, generując znormalizowany tekst, nadający się do porównania.
Wykrywacz plagiatów wykorzystuje 5-warstwową architekturę ekstrakcji tekstu, aby zmaksymalizować niezawodność. W przypadku plików DOCX, pierwsza warstwa bezpośrednio analizuje natywną strukturę DocX XML. Jeśli to się nie powiedzie (z powodu uszkodzenia lub niestandardowego formatowania), system powraca do interfejsu iFilter firmy Microsoft, następnie do analizy surowego OpenXML, a na końcu do Apache Tika jako uniwersalnego ekstraktora w ostateczności. To kaskadowe podejście oznacza, że nawet uszkodzone lub niestandardowe dokumenty generują użyteczny tekst. Ta sama zasada wielowarstwowości obowiązuje we wszystkich ponad 12 obsługiwanych formatach, gwarantując, że żaden dokument nie pozostanie nieprzetworzony.
Proces ekstrakcji obejmuje również normalizację kodowania - konwersję tekstu z różnych kodowań znaków (UTF-8, UTF-16, Windows-1252, warianty ISO-8859) do ujednoliconej reprezentacji wewnętrznej. Jest to kluczowe, ponieważ niezgodności kodowania mogą powodować, że identyczny tekst będzie wyglądał inaczej na poziomie bajtów, co prowadzi do pominięcia plagiatu. Prawidłowa ekstrakcja stanowi podstawę każdego kolejnego etapu wykrywania.
Po wyodrębnieniu czystego tekstu, moduł detekcji rozbija go na jednostki analityczne w procesie zwanym odciskiem palca tekstu. Dokument jest segmentowany na nakładające się sekwencje słów (n-gramów), a każda sekwencja jest konwertowana na zwarty skrót numeryczny - odcisk palca. Odciski te służą jako wydajne identyfikatory, które można szybko porównywać z odciskami palca z innych źródeł, bez konieczności przeprowadzania kosztownych porównań całego tekstu za każdym razem.
Algorytm odcisku palca musi równoważyć czułość z wydajnością. Krótkie n-gramy (3-4 słowa) wychwytują więcej dopasowań, ale generują nadmierne fałszywe alarmy dla popularnych fraz. Dłuższe n-gramy (8-10 słów) są bardziej szczegółowe, ale mogą pomijać plagiaty, gdy kilka słów zostało zmienionych. Zaawansowane systemy wykorzystują odciski palca o zmiennej długości w połączeniu z algorytmami selekcji, które wybierają reprezentatywny podzbiór odcisków palca, zachowując dokładność wykrywania, a jednocześnie utrzymując przestrzeń porównawczą na rozsądnym poziomie dla dokumentów o dowolnej wielkości.
Po odcisku dokumentu, moduł detekcji musi porównać te odciski z istniejącymi treściami w internecie. Program Wykrywacz plagiatów stosuje charakterystyczne podejście: zamiast polegać na jednej, zastrzeżonej bazie danych, przeszukuje jednocześnie cztery główne wyszukiwarki – Google, Bing, Yahoo i DuckDuckGo – uzyskując dostęp do ich łącznego indeksu ponad 4 miliardów stron internetowych. Ta strategia wielowyszukiwarkowa znacząco zwiększa zasięg źródeł, ponieważ każda wyszukiwarka indeksuje inne fragmenty sieci i inaczej klasyfikuje wyniki.
Proces wyszukiwania wykorzystuje inteligentną rotację i selekcję fragmentów tekstu, które są następnie przesyłane jako zapytania. Nie każdy odcisk palca jest uwzględniany - wyszukiwarka wybiera najbardziej charakterystyczne fragmenty dokumentu, te, które najprawdopodobniej zwrócą trafne dopasowania, a nie ogólne frazy. Harmonogramowanie zapytań zarządza limitami przepustowości i rozdziela żądania między wyszukiwarkami, aby utrzymać przepustowość. Rezultatem jest kompleksowy przegląd publicznie dostępnych treści internetowych, którego nie jest w stanie odtworzyć żadna pojedyncza wyszukiwarka, obejmujący zarówno repozytoria akademickie, archiwa wiadomości, farmy treści, fabryki esejów, jak i ogólne strony internetowe.
Gdy zapytania wyszukiwarki zwrócą potencjalnie pasujące adresy URL, moduł detekcji rozpoczyna fazę pobierania i porównywania źródeł. Każda potencjalna strona źródłowa jest pobierana, jej zawartość jest wyodrębniana i normalizowana (usuwanie tagów HTML, elementów nawigacyjnych, nagłówków i stopek w celu wyodrębnienia faktycznego tekstu artykułu), a następnie dopasowywana do przesłanego dokumentu. To dopasowanie wykorzystuje algorytmy dopasowywania sekwencji, które identyfikują najdłuższe wspólne podsekwencje między dwoma tekstami, uwzględniając drobne różnice w interpunkcji, odstępach między wierszami i formatowaniu.
Porównanie nie ogranicza się do dokładnych dopasowań. Silnik przeprowadza dopasowanie rozmyte, aby zidentyfikować fragmenty, w których poszczególne słowa zostały zastąpione synonimami, zmieniono kolejność zdań lub dodano lub usunięto frazy łączące. Wykrywa to najczęstszą technikę unikania: powierzchowne przeformułowania, które zachowują oryginalne znaczenie i strukturę. Każdy dopasowany segment jest rejestrowany wraz z adresem URL źródła, procentem nakładania się oraz konkretnymi fragmentami tekstu, które mu odpowiadają, tworząc surowe dane do raportu oryginalności.
Po pobraniu i porównaniu wszystkich źródeł, silnik oblicza wskaźnik podobieństwa – procent reprezentujący stopień zgodności przesłanego dokumentu ze źródłami zewnętrznymi. Obliczenie to jest bardziej szczegółowe niż prosty współczynnik. Silnik rozróżnia różne typy dopasowań: dokładne kopie, niemal identyczne fragmenty (parafrazy), poprawnie cytowany materiał oraz popularne frazy lub szablonowy tekst, który nie wskazuje na plagiat.
System wykrywania odniesień Wykrywacz plagiatów automatycznie identyfikuje cytowania, cytaty i odniesienia bibliograficzne w dokumencie i traktuje je inaczej niż nieautoryzowane odpowiedniki. Blok tekstu ujęty w cudzysłów, po którym następuje cytat, jest oznaczany jako legalne odniesienie, a nie jako plagiat. Zapobiega to zawyżaniu wskaźników podobieństwa, które w przeciwnym razie karałyby dobrze udokumentowane prace za prawidłowe wykorzystanie źródeł. Ostateczny wynik odzwierciedla rzeczywiste obawy dotyczące oryginalności, dając recenzentowi miarodajny i praktyczny wskaźnik.
Wraz ze wzrostem popularności tekstów generowanych przez sztuczną inteligencję, wykrywanie plagiatu musi uwzględniać treści, które nie są kopiowane z żadnego istniejącego źródła, ale mimo to nie są oryginalnym dziełem człowieka. Wykrywacz plagiatów zawiera zintegrowany moduł wykrywania treści AI o czułości 0,98, umożliwiający identyfikację tekstów generowanych przez duże modele językowe, takie jak ChatGPT, Gemini i HuggingChat. Wykrywanie działa poprzez analizę statystycznych właściwości tekstu – rozkładów częstotliwości słów, perpleksywności na poziomie zdań, wzorców zmienności (burstiness) i sekwencji prawdopodobieństwa tokenów – które różnią się systematycznie między tekstem ludzkim a maszynowym.
Tekst pisany przez człowieka charakteryzuje się większą zmiennością długości zdań, bardziej nieprzewidywalnym doborem słów i nieregularnymi wzorcami złożoności. Tekst generowany przez sztuczną inteligencję, z kolei, skłania się ku statystycznie prawdopodobnym sekwencjom słów, charakteryzującym się bardziej jednolitą strukturą zdań i charakterystyczną „płynnością” rozkładu prawdopodobieństwa. Model wykrywania jest trenowany na dużych korpusach tekstów tworzonych zarówno przez ludzi, jak i przez sztuczną inteligencję, i działa na poziomie akapitu, aby zapewnić szczegółowe wyniki. Analiza ta jest przeprowadzana równolegle z tradycyjnym wykrywaniem plagiatu w ramach jednego skanowania, dzięki czemu recenzenci otrzymują ujednolicony raport obejmujący zarówno skopiowane treści, jak i fragmenty wygenerowane przez sztuczną inteligencję, bez konieczności stosowania oddzielnych narzędzi ani procedur.
Doświadczeni użytkownicy próbują ominąć wykrywanie plagiatu, stosując różne sztuczki techniczne. Najczęstszą techniką jest podstawianie znaków Unicode – zastępowanie znaków łacińskich identycznymi wizualnie znakami z innych skryptów Unicode. Na przykład, cyrylica „a” (U+0430) wygląda identycznie jak łacińska litera „a” (U+0061) na ekranie, ale na poziomie punktu kodowego są to różne znaki. Naiwne porównanie tekstu potraktowałoby słowo „academic” zapisane cyrylicą „a” jako zupełnie inne słowo, co spowodowałoby, że splagiatowany fragment całkowicie uniknąłby wykrycia.
Program Wykrywacz plagiatów rozwiązuje ten problem dzięki silnikowi Unicode Anti-Cheating Engine (UACE). Przed porównaniem UACE normalizuje cały tekst, mapując wizualnie równoważne znaki w blokach Unicode – cyrylicy, greckim, ormiańskim i innych pismach zawierających podobne znaki – z powrotem na ich łacińskie odpowiedniki. Silnik utrzymuje kompleksową tabelę substytucji obejmującą setki par znaków. Normalizacja ta odbywa się transparentnie na etapie ekstrakcji tekstu, dzięki czemu każdy kolejny etap wykrywania działa na czystym, kanonicznym tekście, niezależnie od zastosowanych sztuczek znakowych w dokumencie źródłowym.
Poza podmianą znaków, UACE wykrywa również inne metody omijania zabezpieczeń, w tym wstawianie niewidocznych znaków Unicode (spacji o zerowej szerokości, łączników o zerowej szerokości, myślników miękkich) między wyrazami lub literami, tekst biały na białym tle ukryty w dokumentach oraz mikrotekst wstawiany w celu rozbicia rozpoznawalnych fraz. Techniki te są oznaczane w raporcie oryginalności jako celowe próby manipulacji, co ostrzega recenzenta, że autor aktywnie próbował obejść mechanizm wykrywania – co samo w sobie stanowi mocny dowód na zamiar plagiatu.
Pobierz bezpłatną wersję demonstracyjną lub kup licencję, aby rozpocząć sprawdzanie treści pod kątem plagiatu i treści generowanych przez sztuczną inteligencję.
Zwieńczeniem procesu wykrywania jest Raport Oryginalności – szczegółowy dokument, który przedstawia wszystkie ustalenia w uporządkowanym, łatwym do przejrzenia formacie. Raport wyróżnia pasujące fragmenty w przesłanym tekście, oznaczone kolorami według źródła, a każde dopasowanie jest powiązane z odpowiadającym mu adresem URL lub wpisem w bazie danych. Sekcja podsumowująca zawiera ogólny wynik podobieństwa, liczbę dopasowanych źródeł, odsetek wykrytych treści generowanych przez sztuczną inteligencję oraz podział na typy dopasowań (dokładne, parafrazowanie, cytowanie).
W przypadku instytucji, Raporty Oryginalności mogą być opatrzone logo organizacji, co zapewnia profesjonalny, ujednolicony format dokumentacji dotyczącej rzetelności akademickiej. Raporty są zaprojektowane tak, aby były wiarygodne – nadają się do wykorzystania w formalnych postępowaniach recenzyjnych, przesłuchaniach w sprawie rzetelności akademickiej lub w kontekście prawnym. Każde stwierdzenie w raporcie jest niezależnie weryfikowalne: recenzenci mogą kliknąć, aby przejść do oryginalnego źródła i osobiście potwierdzić zgodność. Ta transparentność gwarantuje, że ustalenia dotyczące plagiatu są uzasadnione i uczciwe, chroniąc zarówno rzetelność procesu recenzyjnego, jak i prawa osoby, której praca jest oceniana.
Podstawowym wyborem architektonicznym w wykrywaniu plagiatów jest to, czy dokumenty są przetwarzane lokalnie na komputerze użytkownika, czy przesyłane na zdalny serwer w chmurze. Chmurowe systemy sprawdzania plagiatu wymagają od użytkowników przesyłania dokumentów na serwery dostawcy, gdzie tekst jest wyodrębniany, analizowany i często przechowywany w bazie danych. Rodzi to poważne obawy dotyczące prywatności i poufności – szczególnie w przypadku wrażliwych badań naukowych, niepublikowanych rękopisów, dokumentów prawnych i materiałów korporacyjnych. Dokumenty przesyłane do usług w chmurze mogą być przechowywane, indeksowane lub wykorzystywane do trenowania modeli sztucznej inteligencji, a naruszenia bezpieczeństwa danych mogą ujawnić poufne treści.
Wykrywacz plagiatów działa wyłącznie jako aplikacja desktopowa. Dokumenty są otwierane, parsowane i analizowane lokalnie - pełny tekst nigdy nie jest przesyłany na żaden serwer zewnętrzny. Tylko wybrane fragmenty tekstu (zapytania) są wysyłane do wyszukiwarek w celu porównania, tak jak człowiek ręcznie wyszukiwałby frazę w przeglądarce. Taka architektura zapewnia fundamentalną gwarancję prywatności: cały dokument nigdy nie opuszcza komputera użytkownika. Dla instytucji przetwarzających materiały wrażliwe - kancelarii prawnych sprawdzających akta, badaczy medycznych recenzujących artykuły, agencji rządowych audytujących raporty - takie podejście „desktop first” jest nie tylko preferencją, ale również wymogiem zgodności. W połączeniu z modelem jednorazowego zakupu (bez cyklicznej subskrypcji) oferuje ono zarówno prywatność, jak i przewidywalność kosztów.