Пре него что било која анализа плагијаризма може да почне, софтвер мора да извуче чист, претражив текст из предатог документа. Ово је сложенији проблем него что изгледа, јер документи пристижу у широком разнолику формата — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT и HTML, међу осталима — сваки са сопственом унутрашњом структуром форматирања, метаподатака, уграђених објеката и кодовања. Поуздан цевовод за екстракцију текста мора доследно да рукује свим овим форматима, производећи нормализован обичан текст прикладан за поређење.
Детектор плагијата користи петостепену архитектуру екстракције текста ради максималне поузданости. За DOCX датотеке, прво степениште директно парсира изворну DocX XML структуру. Ако то не успе (услед оштећења или нестандардног форматирања), систем прелази на Microsoft-ov iFilter интерфејс, затим на сирово OpenXML парсирање и коначно на Apache Tiku као универзални екстрактор у крајњем случају. Овај каскадни приступ значи да чак и оштећени или нестандардни документи дају употребљив текст. Исти вишестепени принцип примењује се на свих 12+ подржаних формата, осигуравајући да ниједан документ не остане необрађен.
Процес екстракције такође рукује нормализацијом кодовања — конвертујући текст из различитих кодовања знакова (UTF-8, UTF-16, Windows-1252, варијанте ISO-8859) у унифицирану интерну репрезентацију. Ово је критично јер неусклађеност кодовања може учинити да идентичан текст изгледа другачије на нивоу бајта, доводећи до пропуштених подударања плагијаризма. Правилна екстракција поставља темеље за сваку наредну фазу откривања.
Чим је чист текст извучен, мотор за откривање разбија га на аналитичке јединице кроз процес зван отисак прстом текста. Документ је сегментиран у преклапајуће низове речи (n-граме), а сваки низ конвертује се у компактни нумерички хеш — отисак прстом. Ови отисци служе као ефикасни идентификатори koji могу бити брзо упоређени са отисцима из других извора без извршавања скупих поređења пуног текста сваки пут.
Алгоритам за отисак прстом мора балансирати осетљивост насупрам ефикасности. Кратки n-грами (3-4 речи) хватају више подударања, али производе претеране лажне позитиве из уобичајених фраза. Дужи n-грами (8-10 речи) су специфичнији, али могу пропустити плагијаризам где је неколико речи промењено. Напредни системи користе n-граме промењиве дужине у комбинацији са алгоритмима просеjавања koji бирају репрезентативни подскуп отисака, одржавајући тачност откривања уз управљивост простора поређења за документе bilo koje величине.
Са документом у форми отиска прстом, мотор за откривање мора упоредити те отиске са постојећим садржајем на интернету. Детектор плагијата заузима препознатљив приступ: уместо да се ослања на јединствену власничку базу података, истовремено упитује четири главна претраживача — Google, Bing, Yahoo и DuckDuckGo — приступајући њиховом комбинованом индексу од преко 4 милијарде веб-страница. Ова стратегија вишеструких мотора драматично повећава покривеност извора, јер сваки претраживач индексира различите делове веба и рангира резултате другачије.
Процес упитивања користи интелигентну ротацију и избор фрагмената текста за подношење као упити претраживачима. Нису сви отисци упитани — мотор бира најпрепознатљивије пасусе из документа, оне koji највероватније враћају смислена подударања радије него генеричке фразе. Распоређивање упита управља ограничењима брзине и дистрибуира захтеве по моторима ради одржавања протока. Резултат је свеобухватан преглед јавно доступног интернет садржаја koji ниједан приступ са јединственим мотором не може реплицирати, покривајући академска спремишта, архиве вести, фабрике садржаја, млинове за есеје и опште веб-странице.
Када упити претраживача врате потенцијално одговарајуће URL-ове, мотор за откривање улази у фазу преузимања извора и поређења. Свака страница кандидат извора преузима се, њен садржај се извлачи и нормализује (уклањање HTML ознака, елемената навигације, заглавља и подножја ради изолације стварног текста чланка), а затим се поравнава са предатим документом. Ово поравнање користи алгоритме за подударање редоследа koji идентификују најдуже уобичајене подредоследе između два текста, узимајући у обзир мање варијације у интерпункцији, белинама и форматирању.
Поређење није ограничено на тачна подударања. Мотор врши нечисто подударање ради идентификовања пасуса где је поједине речи замените синонимима, редослед реченица је преуређен или везне фразе додате или уклоњене. Ово хвата најчешћу технику избегавања: површинско преформулисање koje чува оригинално значење и структуру. Сваки подударени сегмент бележи се са URL-ом извора, процентом преклапања и специфичним фрагментима текста koji одговарају, градећи сирове податке за извештај о оригиналности.
Након преузимања и поређења свих извора, мотор израчунава оцену сличности — проценат koji представља колико предатог документа одговара спољним изворима. Ово израчунавање је нијансираније него простог односа. Мотор разликује između различитих типова подударања: тачне копије, блиска подударања (парафразирани пасуси), правилно наведен и цитиран материјал и уобичајене фразе или типски текст koji не указују на плагијаризам.
Систем откривања референци Детектора плагијата аутоматски идентификује цитате, наводе и библиографске референце унутар документа и третира их другачије него неприписана подударања. Блок текста у наводницима праћен цитатом означен је као легитимна референца, а не плагијаризам. Ово спречава надувене оцене сличности koje би иначе казниле добро истражене радове за правилну употребу извора. Финална оцена одражава истинске забринутости у вези са оригиналношћу, пружајући рецензенту смислену и делотворну метрику.
Са све већом распрострањеношћу текста генерисаног вештачком интелигенцијом, откривање плагијаризма мора адресирати садржај koji није копиран из ниједног постојећег извора, али упркос томе није оригинални људски рад. Детектор плагијата укључује интегрисани модул за откривање садржаја вештачке интелигенције са осетљивошћу 0,98, способан да идентификује текст произведен великим језичким моделима укључујући ChatGPT, Gemini и HuggingChat. Откривање функционише анализом статистичких особина текста — дистрибуција учесталости речи, перплексност на нивоу реченице, обрасци порасности и низови вероватноће токена — koji се систематски разликују između људског и машинског писања.
Људско писање има тенденцију да показује веће варијације у дужини реченице, непредвидљивije изборе речи и нередовне обрасце сложености. Текст генерисан вештачком интелигенцијом, насупрот томе, гравитира ка статистички вероватним низовима речи са уједначенијом структуром реченице и карактеристичном глаткоћом у дистрибуцији вероватноће. Модел за откривање је обучен на великим корпусима и људског и текста вештачке интелигенције, и ради на нивоу пасуса ради пружања прецизних резултата. Ова анализа одвија се упоредо са традиционалним откривањем плагијаризма у јединственом скенирању, тако да рецензенти добијају јединствен извештај koji покрива и копирани садржај и пасусе генерисане вештачком интелигенцијом без потребе за засебним алатима или радним токовима.
Софистицирани корисници покушавају да поразе откривање плагијаризма кроз различите техничке трикове. Најчешћа техника избегавања је замена Unicode знакова — замена латиничних знакова визуелно идентичним знаковима из других Unicode писама. На пример, ћириличко слово a (U+0430) изгледа идентично латиничком слову a (U+0061) на екрану, али су то различити знакови на нивоу кодне тачке. Наивно поређење текста третирало би реч написану ћириличким a као потпуно другу реч, узрокујући да плагирани пасус потпуно избегне откривање.
Детектор плагијата адресира ово са Unicode мотором против варања (UACE). Пре поређења, UACE нормализује сав текст пресликавајући визуелно еквивалентне знакове из Unicode блокова — ћирилица, грчки, јерменски и друга писма koja садрже знакове nalik латиничним — назад на латиничне еквиваленте. Мотор одржава свеобухватну табелу замене koja покрива стотине парова знакова. Ова нормализација одвија се транспарентно током фазе екстракције текста, тако да свака наредна фаза откривања ради на чистом, каноничном тексту без обзира на то какви су трикови са знаковима примењени на изворни документ.
Осим замене знакова, UACE такође открива и друге методе избегавања укључујући уметање невидљивих Unicode знакова (размаци нулте ширине, спојници нулте ширине, меки цртице) između речи или слова, белу на белу позадину текст скривен унутар докумената и текст у микро-фонту уметнут ради разбијања препознатљивих фраза. Ове технике означавају се у извештају о оригиналности као намерни покушаји манипулације, упозоравајући рецензента да је аутор активно покушао да заобиђе откривање — što је само по себи снажан доказ намере да плагира.
Преузмите бесплатну демо верзију или купите лиценцу да бисте започели проверу плагијата и садржаја генерисаног вештачком интелигенцијом.
Кулминација процеса откривања је Извештај о оригиналности — детаљни документ koji представља све налазе у организованом, прегледном формату. Извештај истиче подударене пасусе у предатом тексту, кодиране бојом по извору, са сваким подударањем повезаним са одговарајућим URL-ом или уносом базе података. Одељак са резимеом приказује укупну оцену сличности, број подударених извора, проценат откривеног садржаја вештачке интелигенције и преглед типова подударања (тачно, парафразирано, цитирано).
За институције, Извештаји о оригиналности могу носити лого организације, пружајући професионалан, стандардизовани формат за записе академског интегритета. Извештаји су дизајнирани да буду доказног нивоа — прикладни за употребу у формалним поступцима прегледа, саслушањима о академском интегритету или правним контекстима. Сваки захтев у извештају независно је верификабилан: рецензенти могу да кликну на оригинални извор ради потврде подударања сопственим очима. Ова транспарентност осигурава да налази плагијаризма буду одбрањиви и праведни, штитећи и интегритет процеса прегледа и права особе чији рад се оцењује.
Темељни архитектонски избор у откривању плагијаризма је да ли се документи обрађују локално на машини корисника или отпремљују на удаљени облак сервер. Облак-засновани детектори плагијаризма захтевају да корисници отпремају своје документе на сервере пружаоца, где се текст извлачи, анализира и често складишти у бази података. Ово поставља значајне бриге о приватности и поверљивости — посебно за осетљива академска истраживања, необјављене рукописе, правне документе и корпоративне материјале. Документи отпремљени на облак услуге могу бити задржани, индексирани или коришћени за обучавање модела вештачке интелигенције, а кршења података могу изложити поверљиви садржај.
Детектор плагијата ради потпуно на радној површини. Документи се отварају, парсирају и анализирају локално — пун текст никада не преноси на спољни сервер. Само изабрани фрагменти текста (упити претраживача) шаљу се претраживачима ради поређења, на исти начин на koji би човек ручно тражио фразу у прегледачу. Ова архитектура пружа фундаменталну гаранцију приватности: комплетан документ никада не напушта машину корисника. За институције koje рукују осетљивим материјалима — правне фирме koje проверавају поднеске, медицински истраживачи koji прегледају радове, владине агенције koje ревидирају извештаје — овај приступ усмерен ка радној површини није просто преференција, већ захтев усклађености. У комбинацији са моделом единственог куповине (без периодичне претплате), нуди и приватност и предвидљивост трошкова.