به بالا بروید
صفحه اصلی چگونه تشخیص سرقت ادبی کار می‌کند: توضیح فناوری

چگونه تشخیص سرقت ادبی کار می‌کند: توضیح فناوری

2025-02-15 · Plagiarism Detector Team

استخراج متن و تجزیه اسناد

قبل از شروع هر تحلیل سرقت ادبی، نرم‌افزار باید متن پاک و قابل‌جستجو را از سند ارائه‌شده استخراج کند. این مشکل پیچیده‌تر از آنی است که به نظر می‌رسد، زیرا اسناد در انواع گسترده‌ای از فرمت‌ها، DOC، DOCX، PDF، RTF، PPT، PPTX، TXT، ODT و HTML، هر کدام با ساختار داخلی خود از قالب‌بندی، فراداده، اشیاء جاسازی‌شده و کدگذاری، می‌رسند. یک خط لوله استخراج متن قابل اعتماد باید همه این فرمت‌ها را به‌طور یکنواخت مدیریت کند.

ردیاب سرقت ادبی از یک معماری استخراج متن ۵ لایه برای به حداکثر رساندن قابلیت اطمینان استفاده می‌کند. برای فایل‌های DOCX، لایه اول مستقیماً ساختار DocX XML بومی را تجزیه می‌کند. در صورت شکست، سیستم به رابط iFilter مایکروسافت، سپس به تجزیه خام OpenXML و در نهایت به Apache Tika به عنوان استخراج‌کننده جهانی آخرین چاره برمی‌گردد. این رویکرد آبشاری به این معناست که حتی اسناد آسیب‌دیده یا غیراستاندارد متن قابل استفاده تولید می‌کنند.

فرآیند استخراج همچنین نرمال‌سازی کدگذاری را مدیریت می‌کند، که متن را از کدگذاری‌های مختلف کاراکتر (UTF-8، UTF-16، Windows-1252، انواع ISO-8859) به یک نمایش داخلی یکپارچه تبدیل می‌کند. این امر حیاتی است زیرا عدم تطابق کدگذاری می‌تواند باعث شود متن‌های یکسان در سطح بایت متفاوت به نظر برسند و منجر به از دست دادن تطابق‌های سرقت ادبی شوند.

استخراج متن و تجزیه اسناد

اثرانگشت متن

پس از استخراج متن پاک، موتور تشخیص آن را از طریق فرآیندی به نام اثرانگشت‌گیری متن به واحدهای قابل تحلیل تبدیل می‌کند. سند به دنباله‌های همپوشان کلمات (n-gram) تقسیم می‌شود و هر دنباله به یک هش عددی فشرده، یعنی اثرانگشت، تبدیل می‌شود. این اثرانگشت‌ها به عنوان شناسه‌های کارآمدی عمل می‌کنند که می‌توانند به سرعت در برابر اثرانگشت‌های منابع دیگر مقایسه شوند.

الگوریتم اثرانگشت‌گیری باید بین حساسیت و کارایی تعادل برقرار کند. n-gram‌های کوتاه (۳-۴ کلمه) تطابق‌های بیشتری را شناسایی می‌کنند اما مثبت‌های کاذب بیش از حد از عبارات رایج تولید می‌کنند. n-gram‌های طولانی‌تر (۸-۱۰ کلمه) اختصاصی‌تر هستند اما ممکن است سرقت ادبی را که چند کلمه‌اش تغییر کرده از دست بدهند. سیستم‌های پیشرفته از اثرانگشت‌گیری با طول متغیر همراه با الگوریتم‌های غربال استفاده می‌کنند.

جستجو در موتورهای جستجو

با اثرانگشت‌گیری سند، موتور تشخیص باید آن اثرانگشت‌ها را با محتوای موجود در سراسر اینترنت مقایسه کند. ردیاب سرقت ادبی رویکرد متمایزی دارد: به جای تکیه بر یک پایگاه داده اختصاصی، چهار موتور جستجوی اصلی یعنی Google، Bing، Yahoo و DuckDuckGo را به‌طور همزمان جستجو می‌کند و به فهرست ترکیبی آن‌ها از بیش از ۴ میلیارد صفحه وب دسترسی دارد.

فرآیند جستجو از چرخش هوشمند و انتخاب قطعات متنی برای ارسال به عنوان جستجو استفاده می‌کند. همه اثرانگشت‌ها جستجو نمی‌شوند؛ موتور مشخص‌ترین پاراگراف‌ها را از سند انتخاب می‌کند. نتیجه یک پوشش جامع از محتوای اینترنتی عمومی است که هیچ رویکرد تک‌موتوری نمی‌تواند تکرار کند.

بازیابی و مقایسه منابع

وقتی جستجوی موتورهای جستجو URLهای بالقوه مطابق را برمی‌گرداند، موتور تشخیص وارد مرحله بازیابی و مقایسه منابع می‌شود. هر صفحه نامزد واکشی می‌شود، محتوایش استخراج و نرمال‌سازی می‌شود و سپس با سند ارائه‌شده همتراز می‌شود. این همترازی از الگوریتم‌های تطابق دنباله استفاده می‌کند که طولانی‌ترین زیردنباله‌های مشترک بین دو متن را شناسایی می‌کنند.

مقایسه محدود به تطابق‌های دقیق نیست. موتور تطابق فازی را برای شناسایی پاراگراف‌هایی که کلمات فردی با مترادف جایگزین شده‌اند، ترتیب جملات تغییر کرده یا عبارات اتصال‌دهنده اضافه یا حذف شده‌اند انجام می‌دهد. هر بخش مطابق‌شده با URL منبع، درصد همپوشانی و قطعات متنی خاص ثبت می‌شود.

امتیازدهی تشابه

پس از بازیابی و مقایسه همه منابع، موتور یک امتیاز تشابه محاسبه می‌کند، یعنی درصدی که نشان می‌دهد چقدر از سند ارائه‌شده با منابع خارجی مطابقت دارد. این محاسبه پیچیده‌تر از یک نسبت ساده است. موتور بین انواع مختلف تطابق تمایز قائل می‌شود: نسخه‌های دقیق، تطابق‌های نزدیک (پاراگراف‌های بازنویسی‌شده)، مواد به درستی نقل‌قول و استناد‌شده، و عبارات رایج.

سیستم تشخیص مرجع ردیاب سرقت ادبی به‌طور خودکار نقل‌قول‌ها، گیومه‌ها و مراجع کتاب‌شناختی را در سند شناسایی می‌کند و آن‌ها را با تطابق‌های بدون استناد متفاوت مدیریت می‌کند. یک بلوک متن داخل علامت‌های نقل‌قول همراه با استناد به عنوان مرجع مشروع علامت‌گذاری می‌شود، نه سرقت ادبی. امتیاز نهایی نگرانی‌های واقعی اصالت را منعکس می‌کند.

تشخیص محتوای هوش مصنوعی

با شیوع بیشتر متن‌های تولیدشده توسط هوش مصنوعی، تشخیص سرقت ادبی باید به محتوایی که از هیچ منبع موجودی کپی نشده اما همچنان کار اصیل انسانی نیست بپردازد. ردیاب سرقت ادبی شامل یک ماژول یکپارچه تشخیص محتوای هوش مصنوعی با حساسیت ۰.۹۸ است که قادر به شناسایی متن تولیدشده توسط مدل‌های زبانی بزرگ از جمله ChatGPT، Gemini و HuggingChat است.

نوشتار انسانی تمایل دارد تنوع بیشتری در طول جمله، انتخاب‌های کلمه‌ای کمتر قابل پیش‌بینی و الگوهای نامنظم پیچیدگی نشان دهد. متن تولیدشده توسط هوش مصنوعی، در مقابل، به سمت دنباله‌های کلمه‌ای با احتمال آماری بالا با ساختار جمله‌بندی یکنواخت‌تر گرایش دارد. مدل تشخیص بر روی مجموعه‌های بزرگ متن انسانی و هوش مصنوعی آموزش دیده است.

فناوری ضد تقلب

کاربران پیشرفته از ترفندهای فنی مختلف برای فرار از تشخیص سرقت ادبی استفاده می‌کنند. رایج‌ترین تکنیک فرار جایگزینی کاراکتر یونیکد است؛ جایگزینی کاراکترهای لاتین با کاراکترهای بصری مشابه از الفباهای یونیکد دیگر. UACE (موتور ضد تقلب یونیکد) همه متن را قبل از مقایسه نرمال می‌کند.

ردیاب سرقت ادبی با موتور ضد تقلب یونیکد (UACE) به این موضوع می‌پردازد. قبل از مقایسه، UACE همه متن را با نگاشت کاراکترهای بصری معادل در بلوک‌های یونیکد، سیریلیک، یونانی، ارمنی و الفباهای دیگری که کاراکترهای شبیه به هم دارند، به معادل‌های لاتین‌شان نرمال می‌کند. این نرمال‌سازی به‌طور شفاف در طول مرحله استخراج متن انجام می‌شود.

فراتر از جایگزینی کاراکتر، UACE همچنین روش‌های فرار دیگر از جمله درج کاراکترهای یونیکد نامرئی (فضاهای عرض‌صفر)، متن سفید روی پس‌زمینه سفید پنهان‌شده در اسناد، و متن با فونت ریز را تشخیص می‌دهد. این تکنیک‌ها در گزارش اصالت به عنوان تلاش‌های دستکاری عمدی علامت‌گذاری می‌شوند.

متن خود را با دزدی ادبی بررسی کنید

یک نسخه آزمایشی رایگان دانلود کنید یا مجوز خریداری کنید تا بررسی سرقت ادبی و محتوای تولید شده توسط هوش مصنوعی را شروع کنید.

گزارش‌های اصالت

اوج فرآیند تشخیص گزارش اصالت است، یعنی سندی تفصیلی که همه یافته‌ها را در یک قالب سازمان‌یافته و قابل مرور ارائه می‌دهد. گزارش پاراگراف‌های مطابق‌شده در متن ارائه‌شده را با رنگ‌بندی بر اساس منبع برجسته می‌کند. یک بخش خلاصه امتیاز کلی تشابه، تعداد منابع مطابق‌شده، درصد محتوای هوش مصنوعی شناسایی‌شده و تفکیک انواع تطابق را نشان می‌دهد.

برای موسسات، گزارش‌های اصالت می‌توانند با لوگوی سازمان برند شوند. گزارش‌ها به‌گونه‌ای طراحی شده‌اند که در سطح شواهد باشند و برای استفاده در رسیدگی‌های رسمی مناسب باشند. هر ادعا در گزارش به‌طور مستقل قابل تأیید است: بررسی‌کنندگان می‌توانند به منبع اصلی مراجعه کنند تا تطابق را با چشمان خود تأیید کنند.

پردازش دسکتاپ در مقابل ابر

یک انتخاب معماری اساسی در تشخیص سرقت ادبی این است که آیا اسناد به‌صورت محلی روی دستگاه کاربر پردازش شوند یا به یک سرور ابری راه دور آپلود شوند. ابزارهای بررسی سرقت ادبی مبتنی بر ابر کاربران را ملزم می‌کنند اسناد خود را به سرورهای ارائه‌دهنده آپلود کنند، جایی که متن استخراج، تجزیه‌وتحلیل و اغلب در یک پایگاه داده ذخیره می‌شود. این نگرانی‌های جدی حریم خصوصی ایجاد می‌کند.

ردیاب سرقت ادبی به‌طور کامل روی دسکتاپ کار می‌کند. اسناد به‌صورت محلی روی رایانه شما پردازش می‌شوند و هرگز به سرورهای خارجی آپلود نمی‌شوند. فقط قطعات متنی جستجو به موتورهای جستجو ارسال می‌شوند، مشابه اینکه اگر یک عبارت را به‌صورت دستی در Google تایپ می‌کردید. سند کامل شما در هر زمان روی رایانه‌تان باقی می‌ماند.

سؤالات متداول

یک ابزار بررسی سرقت ادبی چه تعداد منبع را جستجو می‌کند؟
دزدی ادبی در میان فهرست‌های ترکیبی چهار موتور جستجوی اصلی — Google، Bing، Yahoo و DuckDuckGo — که در مجموع بیش از ۴ میلیارد صفحه وب را پوشش می‌دهند، جستجو می‌کند. این شامل مخازن علمی، آرشیو خبری، وبلاگ‌ها، پلتفرم‌های محتوا و وب عمومی می‌شود. علاوه بر این، مؤسساتی که از ویژگی PDAS استفاده می‌کنند می‌توانند در برابر پایگاه‌داده‌های اسناد خصوصی خود جستجو کنند. رویکرد چندموتوره پوشش بسیار بیشتری نسبت به ابزارهایی که به یک موتور جستجو یا پایگاه‌داده اختصاصی وابسته هستند، تضمین می‌کند.
آیا تشخیص سرقت ادبی می‌تواند محتوای بازنویسی‌شده را شناسایی کند؟
بله. تشخیص مدرن سرقت ادبی فراتر از مقایسه تطابق دقیق می‌رود. دزدی ادبی از فناوری تشخیص بازنویسی استفاده می‌کند که تحلیل معنایی انجام می‌دهد تا بندهایی را که کلمات تغییر یافته‌اند اما معنا و ساختار اصلی از منبع اصلی حفظ شده است، شناسایی کند. این رایج‌ترین شکل سرقت ادبی عمدی را که کلمات دیگران به اندازه کافی بازنویسی می‌شود تا از تطابق کلمه به کلمه جلوگیری شود، بدون اضافه کردن ارجاع مناسب، شناسایی می‌کند.
ابزارهای تشخیص سرقت ادبی چه قالب‌های فایلی را پردازش می‌کنند؟
دزدی ادبی بیش از ۱۲ قالب سند شامل DOC، DOCX، PDF، RTF، PPT، PPTX، TXT، ODT و HTML را پشتیبانی می‌کند. خط لوله استخراج متن ۵ مرحله‌ای آن تجزیه قابل اعتماد را حتی برای فایل‌های آسیب‌دیده، پیچیده یا غیراستاندارد تضمین می‌کند. برای هر قالب، سیستم از روش‌های استخراج آبشاری استفاده می‌کند — از تجزیه قالب بومی تا استخراج‌کننده‌های پشتیبان جهانی — بنابراین تقریباً هر سندی که در قالب پشتیبانی‌شده ارائه شود با موفقیت پردازش و تحلیل خواهد شد.
آیا هنگام استفاده از ابزار بررسی سرقت ادبی، سند من ذخیره یا به اشتراک گذاشته می‌شود؟
با دزدی ادبی، پاسخ منفی است. چون این یک برنامه دسکتاپ است، سند شما کاملاً روی رایانه محلی شما باز و پردازش می‌شود. متن کامل سند هرگز به هیچ سروری آپلود نمی‌شود. تنها قطعات کوتاهی از متن به عنوان پرس‌وجوی جستجو به موتورهای جستجوی عمومی ارسال می‌شوند — دقیقاً مانند آنچه به صورت دستی در مرورگر وب انجام می‌دهید. این تفاوت اصلی با ابزارهای بررسی سرقت ادبی مبتنی بر ابر است که نیاز به آپلود کامل سند دارند و ممکن است محتوای شما را ذخیره، فهرست‌بندی یا استفاده کنند. پردازش دسکتاپ یک تضمین قابل تأیید حریم خصوصی ارائه می‌دهد.
تشخیص محتوای هوش مصنوعی چگونه در کنار تشخیص سرقت ادبی کار می‌کند؟
دزدی ادبی تشخیص محتوای هوش مصنوعی و تشخیص سرقت ادبی سنتی را در یک اسکن یکپارچه اجرا می‌کند. موتور سرقت ادبی متن را در برابر منابع اینترنتی برای محتوای کپی‌شده یا بازنویسی‌شده بررسی می‌کند، در حالی که ماژول تشخیص هوش مصنوعی به طور همزمان ویژگی‌های آماری متن — پیچیدگی، تکانشی بودن و الگوهای احتمال توکن — را برای شناسایی بندهای احتمالاً تولیدشده توسط مدل‌هایی مانند ChatGPT، Gemini یا HuggingChat تحلیل می‌کند. نتایج در یک گزارش اصالت ترکیب می‌شوند که هم تطابق‌های شباهت و هم پرچم‌های محتوای تولیدشده توسط هوش مصنوعی را نشان می‌دهد و به بررسی‌کنندگان تصویر کاملی از صحت سند بدون اجرای ابزارهای جداگانه می‌دهد.