قبل از شروع هر تحلیل سرقت ادبی، نرمافزار باید متن پاک و قابلجستجو را از سند ارائهشده استخراج کند. این مشکل پیچیدهتر از آنی است که به نظر میرسد، زیرا اسناد در انواع گستردهای از فرمتها، DOC، DOCX، PDF، RTF، PPT، PPTX، TXT، ODT و HTML، هر کدام با ساختار داخلی خود از قالببندی، فراداده، اشیاء جاسازیشده و کدگذاری، میرسند. یک خط لوله استخراج متن قابل اعتماد باید همه این فرمتها را بهطور یکنواخت مدیریت کند.
ردیاب سرقت ادبی از یک معماری استخراج متن ۵ لایه برای به حداکثر رساندن قابلیت اطمینان استفاده میکند. برای فایلهای DOCX، لایه اول مستقیماً ساختار DocX XML بومی را تجزیه میکند. در صورت شکست، سیستم به رابط iFilter مایکروسافت، سپس به تجزیه خام OpenXML و در نهایت به Apache Tika به عنوان استخراجکننده جهانی آخرین چاره برمیگردد. این رویکرد آبشاری به این معناست که حتی اسناد آسیبدیده یا غیراستاندارد متن قابل استفاده تولید میکنند.
فرآیند استخراج همچنین نرمالسازی کدگذاری را مدیریت میکند، که متن را از کدگذاریهای مختلف کاراکتر (UTF-8، UTF-16، Windows-1252، انواع ISO-8859) به یک نمایش داخلی یکپارچه تبدیل میکند. این امر حیاتی است زیرا عدم تطابق کدگذاری میتواند باعث شود متنهای یکسان در سطح بایت متفاوت به نظر برسند و منجر به از دست دادن تطابقهای سرقت ادبی شوند.
پس از استخراج متن پاک، موتور تشخیص آن را از طریق فرآیندی به نام اثرانگشتگیری متن به واحدهای قابل تحلیل تبدیل میکند. سند به دنبالههای همپوشان کلمات (n-gram) تقسیم میشود و هر دنباله به یک هش عددی فشرده، یعنی اثرانگشت، تبدیل میشود. این اثرانگشتها به عنوان شناسههای کارآمدی عمل میکنند که میتوانند به سرعت در برابر اثرانگشتهای منابع دیگر مقایسه شوند.
الگوریتم اثرانگشتگیری باید بین حساسیت و کارایی تعادل برقرار کند. n-gramهای کوتاه (۳-۴ کلمه) تطابقهای بیشتری را شناسایی میکنند اما مثبتهای کاذب بیش از حد از عبارات رایج تولید میکنند. n-gramهای طولانیتر (۸-۱۰ کلمه) اختصاصیتر هستند اما ممکن است سرقت ادبی را که چند کلمهاش تغییر کرده از دست بدهند. سیستمهای پیشرفته از اثرانگشتگیری با طول متغیر همراه با الگوریتمهای غربال استفاده میکنند.
با اثرانگشتگیری سند، موتور تشخیص باید آن اثرانگشتها را با محتوای موجود در سراسر اینترنت مقایسه کند. ردیاب سرقت ادبی رویکرد متمایزی دارد: به جای تکیه بر یک پایگاه داده اختصاصی، چهار موتور جستجوی اصلی یعنی Google، Bing، Yahoo و DuckDuckGo را بهطور همزمان جستجو میکند و به فهرست ترکیبی آنها از بیش از ۴ میلیارد صفحه وب دسترسی دارد.
فرآیند جستجو از چرخش هوشمند و انتخاب قطعات متنی برای ارسال به عنوان جستجو استفاده میکند. همه اثرانگشتها جستجو نمیشوند؛ موتور مشخصترین پاراگرافها را از سند انتخاب میکند. نتیجه یک پوشش جامع از محتوای اینترنتی عمومی است که هیچ رویکرد تکموتوری نمیتواند تکرار کند.
وقتی جستجوی موتورهای جستجو URLهای بالقوه مطابق را برمیگرداند، موتور تشخیص وارد مرحله بازیابی و مقایسه منابع میشود. هر صفحه نامزد واکشی میشود، محتوایش استخراج و نرمالسازی میشود و سپس با سند ارائهشده همتراز میشود. این همترازی از الگوریتمهای تطابق دنباله استفاده میکند که طولانیترین زیردنبالههای مشترک بین دو متن را شناسایی میکنند.
مقایسه محدود به تطابقهای دقیق نیست. موتور تطابق فازی را برای شناسایی پاراگرافهایی که کلمات فردی با مترادف جایگزین شدهاند، ترتیب جملات تغییر کرده یا عبارات اتصالدهنده اضافه یا حذف شدهاند انجام میدهد. هر بخش مطابقشده با URL منبع، درصد همپوشانی و قطعات متنی خاص ثبت میشود.
پس از بازیابی و مقایسه همه منابع، موتور یک امتیاز تشابه محاسبه میکند، یعنی درصدی که نشان میدهد چقدر از سند ارائهشده با منابع خارجی مطابقت دارد. این محاسبه پیچیدهتر از یک نسبت ساده است. موتور بین انواع مختلف تطابق تمایز قائل میشود: نسخههای دقیق، تطابقهای نزدیک (پاراگرافهای بازنویسیشده)، مواد به درستی نقلقول و استنادشده، و عبارات رایج.
سیستم تشخیص مرجع ردیاب سرقت ادبی بهطور خودکار نقلقولها، گیومهها و مراجع کتابشناختی را در سند شناسایی میکند و آنها را با تطابقهای بدون استناد متفاوت مدیریت میکند. یک بلوک متن داخل علامتهای نقلقول همراه با استناد به عنوان مرجع مشروع علامتگذاری میشود، نه سرقت ادبی. امتیاز نهایی نگرانیهای واقعی اصالت را منعکس میکند.
با شیوع بیشتر متنهای تولیدشده توسط هوش مصنوعی، تشخیص سرقت ادبی باید به محتوایی که از هیچ منبع موجودی کپی نشده اما همچنان کار اصیل انسانی نیست بپردازد. ردیاب سرقت ادبی شامل یک ماژول یکپارچه تشخیص محتوای هوش مصنوعی با حساسیت ۰.۹۸ است که قادر به شناسایی متن تولیدشده توسط مدلهای زبانی بزرگ از جمله ChatGPT، Gemini و HuggingChat است.
نوشتار انسانی تمایل دارد تنوع بیشتری در طول جمله، انتخابهای کلمهای کمتر قابل پیشبینی و الگوهای نامنظم پیچیدگی نشان دهد. متن تولیدشده توسط هوش مصنوعی، در مقابل، به سمت دنبالههای کلمهای با احتمال آماری بالا با ساختار جملهبندی یکنواختتر گرایش دارد. مدل تشخیص بر روی مجموعههای بزرگ متن انسانی و هوش مصنوعی آموزش دیده است.
کاربران پیشرفته از ترفندهای فنی مختلف برای فرار از تشخیص سرقت ادبی استفاده میکنند. رایجترین تکنیک فرار جایگزینی کاراکتر یونیکد است؛ جایگزینی کاراکترهای لاتین با کاراکترهای بصری مشابه از الفباهای یونیکد دیگر. UACE (موتور ضد تقلب یونیکد) همه متن را قبل از مقایسه نرمال میکند.
ردیاب سرقت ادبی با موتور ضد تقلب یونیکد (UACE) به این موضوع میپردازد. قبل از مقایسه، UACE همه متن را با نگاشت کاراکترهای بصری معادل در بلوکهای یونیکد، سیریلیک، یونانی، ارمنی و الفباهای دیگری که کاراکترهای شبیه به هم دارند، به معادلهای لاتینشان نرمال میکند. این نرمالسازی بهطور شفاف در طول مرحله استخراج متن انجام میشود.
فراتر از جایگزینی کاراکتر، UACE همچنین روشهای فرار دیگر از جمله درج کاراکترهای یونیکد نامرئی (فضاهای عرضصفر)، متن سفید روی پسزمینه سفید پنهانشده در اسناد، و متن با فونت ریز را تشخیص میدهد. این تکنیکها در گزارش اصالت به عنوان تلاشهای دستکاری عمدی علامتگذاری میشوند.
یک نسخه آزمایشی رایگان دانلود کنید یا مجوز خریداری کنید تا بررسی سرقت ادبی و محتوای تولید شده توسط هوش مصنوعی را شروع کنید.
اوج فرآیند تشخیص گزارش اصالت است، یعنی سندی تفصیلی که همه یافتهها را در یک قالب سازمانیافته و قابل مرور ارائه میدهد. گزارش پاراگرافهای مطابقشده در متن ارائهشده را با رنگبندی بر اساس منبع برجسته میکند. یک بخش خلاصه امتیاز کلی تشابه، تعداد منابع مطابقشده، درصد محتوای هوش مصنوعی شناساییشده و تفکیک انواع تطابق را نشان میدهد.
برای موسسات، گزارشهای اصالت میتوانند با لوگوی سازمان برند شوند. گزارشها بهگونهای طراحی شدهاند که در سطح شواهد باشند و برای استفاده در رسیدگیهای رسمی مناسب باشند. هر ادعا در گزارش بهطور مستقل قابل تأیید است: بررسیکنندگان میتوانند به منبع اصلی مراجعه کنند تا تطابق را با چشمان خود تأیید کنند.
یک انتخاب معماری اساسی در تشخیص سرقت ادبی این است که آیا اسناد بهصورت محلی روی دستگاه کاربر پردازش شوند یا به یک سرور ابری راه دور آپلود شوند. ابزارهای بررسی سرقت ادبی مبتنی بر ابر کاربران را ملزم میکنند اسناد خود را به سرورهای ارائهدهنده آپلود کنند، جایی که متن استخراج، تجزیهوتحلیل و اغلب در یک پایگاه داده ذخیره میشود. این نگرانیهای جدی حریم خصوصی ایجاد میکند.
ردیاب سرقت ادبی بهطور کامل روی دسکتاپ کار میکند. اسناد بهصورت محلی روی رایانه شما پردازش میشوند و هرگز به سرورهای خارجی آپلود نمیشوند. فقط قطعات متنی جستجو به موتورهای جستجو ارسال میشوند، مشابه اینکه اگر یک عبارت را بهصورت دستی در Google تایپ میکردید. سند کامل شما در هر زمان روی رایانهتان باقی میماند.