به بالا بروید
صفحه اصلی چرا تشخیص متن هوش مصنوعی دشوار است: مسابقه تسلیحاتی حمله-دفاع | آشکارساز سرقت ادبی

چرا تشخیص متن هوش مصنوعی دشوار است: درون مسابقه تسلیحاتی

تشخیص و تولید در یک مسابقه گربه و موش قفل شده‌اند. هر نسخه مدل جدید شکاف آماری که آشکارسازها به آن متکی هستند را می‌بندد — و هر پیشرفت تشخیصی با یک ابزار انسانی‌ساز جدید پاسخ می‌گیرد. این چیزی است که واقعاً در پس پرده اتفاق می‌افتد.

2026-04-17 · Plagiarism Detector Team

پایه آماری تشخیص

هر آشکارساز متن هوش مصنوعی در نهایت یک تمیزدهنده آماری است — ویژگی‌های متن (احتمال‌های توکن، شگفتی، پرجنب‌وجوشی، قاعده‌مندی نحوی) را بررسی می‌کند و تلاش می‌کند سیگنال‌هایی بیابد که محتوای تولیدشده توسط ماشین را از محتوای نوشته‌شده توسط انسان متمایز می‌کنند. روش بینوکولارز (ICML 2024) از نسبت cross-perplexity بین دو مدل زبانی به عنوان سیگنال استفاده می‌کند. رویکرد نظارت‌شده ModernBERT سیگنال را مستقیماً از مثال‌های برچسب‌گذاری‌شده می‌آموزد.

هر دو رویکرد یک آسیب‌پذیری بنیادی مشترک دارند: سیگنال‌هایی که به آن‌ها متکی هستند اثرات جانبی نحوه تولید متن توسط مدل‌ها هستند، نه ویژگی‌های اساسی ماشین‌نویس بودن. با بهبود مدل‌های مولد، آن اثرات جانبی کوچک‌تر می‌شوند. مدلی که برای نوشتن بیشتر شبیه انسان آموزش دیده — به تعریف — سخت‌تر قابل تشخیص خواهد بود.

این یک شکست پژوهشی نیست. یک حقیقت ساختاری درباره مسئله است. تشخیص روی یک هدف متحرک عمل می‌کند: هر نسخه اصلی LLM شکاف را می‌بندد، هر ابزار انسانی‌ساز به‌صراحت در برابر خروجی‌های آشکارساز آموزش می‌بیند. سوال این نیست که ‘آیا می‌توانیم برای همیشه ۱۰۰٪ تشخیص داشته باشیم’ — این امکان‌پذیر نیست — بلکه ‘آیا می‌توانیم به اندازه کافی از نسل فعلی جلوتر بمانیم تا در عمل مفید باشیم.’

آنچه شمشیر انجام می‌دهد — بهبود تولید

سه روند تولید تشخیص را دشوارتر می‌کنند. اندازه: مدل‌های بزرگ‌تر از لحاظ آماری متن متنوع‌تری تولید می‌کنند زیرا توزیع‌های داخلی غنی‌تری دارند. یک مدل ۷۰ میلیارد پارامتری طیف گسترده‌تری از خروجی شبیه انسان نسبت به مدل ۷ میلیارد پارامتری دارد. تنظیم دستورالعمل: RLHF و روش‌های اساسنامه‌ای به مدل‌ها می‌آموزند از الگوهای تکراری، مبهم و کسالت‌آوری که GPT-3 را آسان برای تشخیص می‌کرد اجتناب کنند. دما و نمونه‌برداری: رابط‌های گپ به سمت nucleus sampling و تصادفی‌سازی حرکت کرده‌اند که برخی از الگوهای کم‌واریانسی را که آشکارسازهای کلاسیک به عنوان لنگرگاه استفاده می‌کردند می‌شکنند.

GPT-5، Claude 4.5 و Gemini 2.5 همه به‌طور قابل توجهی نسبت به نسل‌های قبلی‌شان سخت‌تر برای تشخیص هستند. اعتبارسنجی داخلی ما این را تأیید می‌کند: هر نسل مدل AUC ما روی آن خانواده را ۵–۱۰ درصد نسبت به نسل قبلی کاهش می‌دهد. برای اعداد به‌ازای هر مدل، به معیارسنجی دقت ما مراجعه کنید.

ابزارهای انسانی‌ساز — Undetectable AI، StealthWriter، Humanbeing، و فهرستی رو به رشد — دشمنان صریح هستند. خروجی هوش مصنوعی را می‌گیرند و به‌طور خاص برای شکست دادن آشکارسازها پارافریز، بازنویسی یا انتقال سبک می‌کنند. آن‌ها در برابر آشکارسازهای عمومی (از جمله ما، هرچند ما وزن‌های مدل را هرگز به اشتراک نمی‌گذاریم) آموزش می‌بینند و با هر به‌روزرسانی به‌طور قابل اندازه‌گیری بهتر می‌شوند.

آنچه سپر انجام می‌دهد — پاسخ تشخیص

آشکارسازها سه پاسخ به مسابقه تسلیحاتی تولید دارند. ترکیب‌بندی: ترکیب چندین سیگنال تشخیصی به‌طوری که هیچ تاکتیک فرار منفردی کافی نباشد. ترکیب ما از بینوکولارز zero-shot با ModernBERT نظارت‌شده از این بهره می‌برد: یک انسانی‌ساز که یک مؤلفه را شکست می‌دهد اغلب در برابر مؤلفه دیگر شکست می‌خورد، و امتیاز ترکیبی هر دو را ضبط می‌کند.

بازآموزی مستمر: ما ظرف ۴ هفته از عرضه، نمونه‌هایی از هر نسخه مولد جدید اصلی اضافه می‌کنیم. اگر GPT-6 فردا عرضه شود، مجموعه آموزشی ما تا اواسط ماه بعد آن را در بر خواهد گرفت. این هزینه‌بر است — محاسبه، حاشیه‌نویسی، اعتبارسنجی مجدد — اما تنها راه برای به‌روز نگه داشتن تشخیص است. آشکارسازهایی که سالانه یا کمتر بازآموزی می‌کنند در یک سال به‌طور مؤثر موزه‌ای می‌شوند.

آموزش خصمانه: ما عمداً روی نمونه‌های هوش مصنوعی انسانی‌سازی‌شده و خروجی‌های پارافریزشده آموزش می‌دهیم و به مدل می‌آموزیم فراتر از انتقال سبک سطحی را ببیند. این حداقل کاری را که یک انسانی‌ساز باید برای فرار از ما انجام دهد بالا می‌برد، که به نوبه خود مسابقه تسلیحاتی را کند می‌کند.

درون چشم‌انداز فرار

ابزارهای انسانی‌ساز واقعاً چگونه کار می‌کنند؟ سه دسته گسترده. پارافریز: متن را کلمه به کلمه یا جمله به جمله با یک LLM ثانویه بازنویسی کنید. در برابر آشکارسازهای ساده‌ای که به دنباله‌های توکن دقیق متکی هستند مؤثر است؛ در برابر روش‌های آماری تا حدی مؤثر است. انتقال سبک: متن را برای تقلید از نویسنده یا سبک خاصی تبدیل کنید. مؤثرتر — AUC آشکارساز ما روی متن هوش مصنوعی منتقل‌شده سبک حدود ۸ درصد کاهش می‌یابد.

ویرایش ترکیبی انسان-هوش مصنوعی: نویسنده یک پیش‌نویس می‌نویسد، آن را از طریق یک LLM برای تصفیه اجرا می‌کند، سپس نسخه تصفیه‌شده را به‌صورت دستی ویرایش می‌کند. این سخت‌ترین حالت است — کار همکاری مشروع که سیگنال‌های انسانی و ماشینی را در سطح جمله ترکیب می‌کند. هیچ آشکارسازی، از جمله ما، نمی‌تواند بدون فراداده تاریخچه ویرایشی که آشکارساز نمی‌تواند ببیند این‌ها را به‌طور قابل اطمینان حل کند.

یک مدل ذهنی مفید: یک انسانی‌ساز یک آشکارسازشکن نیست، بلکه یک ضریب هزینه برای فرارکننده است. زمان می‌برد، گاهی پول، و همیشه خطر معرفی خطاها را اضافه می‌کند. اکثر تلاش‌های تقلب دانشگاهی از انسانی‌سازها استفاده نمی‌کنند زیرا اصطکاک بیشتر از سود است. جایی که انسانی‌سازها غلبه دارند کشاورزی محتوای حرفه‌ای و هرزنامه SEO تولیدشده توسط هوش مصنوعی است — موارد استفاده که در آن‌ها توان عملیاتی مهم است و کنترل کیفیت ضعیف است.

ببینید آشکارساز ما الان چه امتیازی می‌دهد

هر سندی را جایگذاری کنید و حکم به‌ازای هر جمله را در زمان واقعی تماشا کنید. منطق ترکیبی توصیف‌شده در بالا روی متن شما در زیر ۳۰ ثانیه اجرا می‌شود.

چرا ترکیب‌بندی بیشتر از هر معیار منفرد اهمیت دارد

یک آشکارساز تک‌سیگنال یک حالت شکست منفرد دارد. اگر فقط به شگفتی متکی باشید، یک خروجی پارافریزشده با احتمال‌های توکن تغییریافته شما را شکست می‌دهد. اگر فقط به یک طبقه‌بند نظارت‌شده متکی باشید، متن خارج از توزیع (یک خانواده مدل جدید، یک حوزه نوشتاری جدید) شما را شکست می‌دهد. یک ترکیب ضعف‌ها را میانگین می‌کند: پارافریزی که شگفتی را شکست می‌دهد احتمالاً هنوز سر نظارت‌شده را به دام می‌اندازد، و بالعکس.

آشکارساز تولید ما به‌صراحت ترکیب شده است: ۳۵٪ بینوکولارز (zero-shot، مستقل از مدل، مقاوم در برابر خارج از توزیع) + ۶۵٪ ModernBERT (نظارت‌شده، دامنه‌خاص، دقت بالا روی متن داخل توزیع). وزن‌ها به‌صورت تجربی انتخاب شدند — AUC ترکیبی زمانی بیشینه شد که ModernBERT غالب بود اما بینوکولارز حق وتو روی موارد حاشیه‌ای را حفظ می‌کرد.

پیامد: یک ابزار انسانی‌ساز اکنون باید دو معماری تشخیص کاملاً متفاوت را به‌طور همزمان شکست دهد تا از حکم ما فرار کند. انسانی‌سازهای عمومی معمولاً در برابر یک آشکارساز هدف آموزش می‌بینند، به این معنی که اغلب در برابر آن آشکارساز خاص موفق می‌شوند اما در برابر یک ترکیب شکست می‌خورند. این مزیت ساختاری اصلی تشخیص در مسابقه تسلیحاتی فعلی است.

انتظارات واقع‌بینانه برای ۱۲ ماه آینده

چه انتظاری باید از سال‌های ۲۰۲۶–۲۰۲۷ داشته باشیم؟ GPT-6 و Claude 5 احتمالاً نسخه‌های اواسط سال هستند؛ هر دو شکاف را بیشتر کاهش خواهند داد. مدل‌های open-weights — Llama 4، Qwen 4 — تولید با کیفیت بالا را همچنان کالایی‌تر خواهند کرد و انسانی‌سازها را در مقیاس ارزان‌تر اجرا خواهند کرد. AUC تشخیص روی مدل‌های مرزی احتمالاً برای اولین سال پس از انتشار به باند ۰.۸۰–۰.۹۰ کاهش می‌یابد قبل از اینکه بازآموزی آن را تصحیح کند.

در طرف دفاعی: سیگنال‌های چندوجهی (پویایی تایپ، تاریخچه ویرایش، تأیید نویسندگی در برابر یک مجموعه شناخته‌شده) احتمالاً ظرف ۲۴ ماه بیشتر از تشخیص صرف مبتنی بر متن اهمیت خواهند داشت. آشکارساز متن‌محور ما اولین فیلتر باقی خواهد ماند اما به‌طور فزاینده یک عضو رأی‌دهنده در یک پشته شواهد غنی‌تر خواهد بود.

نتیجه‌گیری صادقانه: تشخیص مبتنی بر متن خالص هرگز به ۱۰۰٪ نخواهد رسید. در حدود ۹۰–۹۵٪ AUC روی متن داخل توزیع و ۷۵–۸۵٪ روی مدل‌های مرزی به سطحی خواهد رسید. اگر جریان کاری شما به قطعیت نیاز دارد، به شواهدی فراتر از امتیاز نیاز دارید. اگر جریان کاری شما به یک سیگنال قوی برای اولویت‌بندی بررسی انسانی نیاز دارد، تشخیص مبتنی بر متن مفید باقی می‌ماند و به‌طور قابل اندازه‌گیری بهتر از انجام ندادن هیچ‌کار است.

سؤالات متداول

اگر تشخیص هوش مصنوعی هرگز کامل نخواهد بود، آیا ارزش استفاده دارد؟
بله — سوال این نیست که ‘آیا کامل است’ بلکه ‘آیا بهتر از عدم غربالگری است.’ یک آشکارساز AUC 90٪ روی بار کاری شما یک بهبود عظیم نسبت‌ سیگنال به نویز است. افرادی که بیشترین صدا را درباره محدودیت‌های آشکارساز دارند اغلب کسانی هستند که تلاش می‌کنند آن‌ها را شکست دهند؛ این استدلالی برای کنار گذاشتن ابزار نیست.
آیا واترمارکینگ می‌تواند جایگزین تشخیص آماری شود؟
واترمارکینگ یک امضای آماری پنهان را در متن تولیدشده جاسازی می‌کند که یک آشکارساز بعداً می‌تواند بازیابی کند. زمانی کار می‌کند که مدل‌های مولد همکاری کنند (OpenAI آن را به‌صورت آزمایشی پیاده‌سازی کرده) اما کاملاً روی مدل‌های open-weights که بدون واترمارک تولید می‌کنند شکست می‌خورد. تشخیص آماری برای آینده قابل پیش‌بینی ضروری باقی خواهد ماند زیرا حتی وقتی مدل مولد از همکاری امتناع می‌کند کار می‌کند.
سخت‌ترین چیز برای تشخیص امروز چیست؟
ویرایش ترکیبی انسان-هوش مصنوعی — یک قطعه متن پیش‌نویس‌شده توسط هوش مصنوعی و تصفیه‌شده توسط انسان در سطح جمله. هیچ آشکارساز فعلی بدون دسترسی به فراداده تاریخچه ویرایش این‌ها را به‌طور قابل اطمینان حل نمی‌کند. اگر این مورد استفاده شماست، تشخیص مبتنی بر متن ابزار اشتباهی است — به ابزارسازی جریان کاری نیاز دارید.
یک مدل مولد جدید چقدر AUC شما را کاهش می‌دهد؟
هر نسخه اصلی، تقریباً هر ۳–۶ ماه، AUC را روی آن خانواده ۵–۱۰ درصد کاهش می‌دهد تا زمانی که بازآموزی کنیم. بازآموزی حدود ۴ هفته پس از داشتن نمونه‌های کافی طول می‌کشد. نتیجه عملی: همیشه یک پنجره ۲–۸ هفته‌ای پس از یک عرضه جدید وجود دارد که AUC ما روی آن خانواده پایین‌تر از میانگین است. این شکاف‌ها را در صفحه معیارسنجی افشا می‌کنیم.
آیا ترکیب‌بندی در برابر انسانی‌سازها کمک می‌کند؟
به‌طور قابل توجهی — این اصلی‌ترین دفاع ساختاری ما است. انسانی‌سازها در برابر یک آشکارساز هدف آموزش می‌بینند. وقتی آن هدف یک ترکیب از دو آشکارساز با معماری‌های کاملاً متفاوت است، انسانی‌ساز باید هر دو را به‌طور همزمان شکست دهد، که به‌طور معناداری دشوارتر از شکست دادن هرکدام به‌تنهایی است. به همین دلیل است که ما از ترکیب در محیط تولید استفاده می‌کنیم حتی زمانی که اجرای یک مؤلفه منفرد ارزان‌تر بود.

این مقاله ویژگی‌های ساختاری تشخیص متن هوش مصنوعی را توصیف می‌کند. اعداد خاص به اعتبارسنجی داخلی ما اشاره دارند و ممکن است قابل تعمیم نباشند. این صفحه را با توجیه پژوهش جدید و عرضه مدل‌های مولد به‌روز می‌کنیم.