صفحه اصلی › کدام هوش مصنوعی سخت‌ترین برای تشخیص است؟ GPT در برابر Claude در برابر Gemini | آشکارساز سرقت ادبی

کدام هوش مصنوعی سخت‌ترین برای تشخیص است؟ GPT در برابر Claude در برابر Gemini در برابر Llama

Q: اگر برخی مدلها سختتر برای تشخیص هستند، آیا باید کلاً از استفاده از آشکارسازها خودداری کنم؟

خیر — حتی روی سختترین خانوادههای مدل AUC ما بالای ۰.۸۵ است که یک سیگنال قوی است. سوال این است که چگونه از این سیگنال استفاده میکنید. برای مدلهای سختتر برای تشخیص، امتیاز را با شواهد تأییدکننده (تاریخچه ویرایش، کار درون کلاسی، مکالمه دانشجویی) ترکیب کنید. برای مدلهای آسانتر، امتیاز بهتنهایی اغلب کافی است.

Q: از کدام مدل استفاده کنم اگر میخواهم از تشخیص اجتناب کنم؟

ما مستقیماً به این سوال پاسخ نمیدهیم — ما یک ابزار تشخیص اجرا میکنیم، نه یک راهنمای فرار. آنچه میگوییم این است: قابل تشخیص در برابر غیرقابل تشخیص محور درستی برای انتخاب مدل نیست. کیفیت، هزینه و تناسب با هدف بسیار مهمتر از دشواری تشخیص هستند. اگر با کمک هوش مصنوعی بهصورت مشروع مینویسید، افشاگری و جریان کاری شفاف مهمتر از پنهان کردن ابزار است.

Q: آیا انواع مدل open-weights پروفایلهای تشخیص متفاوتی دارند؟

بله، و بهطور معناداری. یک نوع Llama 3.3 تنظیمدقیقشده توسط جامعه که برای یک سبک نوشتاری خاص آموزش دیده میتواند متنی تولید کند که بهطور متفاوتی از Llama 3.3 استاندارد امتیاز میگیرد. معیارسنجی ما نقطه تفتیش استاندارد را پوشش میدهد؛ تنظیمدقیقهای سفارشی ممکن است آسانتر (اگر توزیع خروجی را محدود کنند) یا سختتر (اگر صریحاً در برابر تشخیص آموزش خصمانه ببینند) باشند.

Q: دما و نمونهبرداری چگونه بر قابلیت تشخیص تأثیر میگذارند؟

دمای بالاتر و نمونهبرداری متنوعتر بهطور کلی قابلیت تشخیص را کاهش میدهند زیرا توزیع خروجی را گسترش میدهند. رمزگشایی حریصانه با دمای پایین آسانترین برای تشخیص است. اکثر رابطهای گپ تولید با t≈0.7–1.0 با nucleus sampling اجرا میشوند که آنها را در یک رژیم با قابلیت تشخیص متوسط قرار میدهد — ترکیب ما در بازه پیشفرض عملکرد مشابهی دارد.

Q: GPT-6 یا Claude 5 کی میآیند و چه انتظاری باید داشته باشم؟

اواسط سال ۲۰۲۶ اجماع پیشبینی برای هر دو است. انتظار داشته باشید AUC تشخیص روی خانوادههای جدید برای ۴–۸ هفته اول پس از عرضه به بازه ۰.۸۰–۰.۸۵ کاهش یابد در حالی که نمونهها جمعآوری شده و بازآموزی انجام میشود. نسخههای تاریخی نشان میدهند بازیابی کامل ظرف ۸–۱۲ هفته در صورت در دسترس بودن گسترده مدل صورت میگیرد؛ طولانیتر برای مدلهای نادر یا با دسترسی محدود.

همه متن‌های هوش مصنوعی به یک اندازه قابل تشخیص نیستند. این نتایج معیارسنجی به‌ازای هر مدل ما است — کدام خانواده‌های مدل آشکارساز ما با دقت نزدیک به کامل می‌گیرد، کدام‌ها با آن‌ها دست و پنجه نرم می‌کند، و این به شما در انتخاب یک جریان کاری تشخیص چه می‌گوید.

2026-04-17 · Plagiarism Detector Team

پاسخ کوتاه — جدول رتبه‌بندی

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

مرتب‌شده از آسان‌ترین تا سخت‌ترین برای تشخیص در مجموعه اعتبارسنجی ما. دامنه گسترده است — AUC روی برخی خانواده‌های مدل از ۰.۹۹ تجاوز می‌کند در حالی که برخی دیگر به ۰.۸۰ کاهش می‌یابند. دشواری تشخیص با اندازه مدل، پیچیدگی تنظیم دستورالعمل و واریانس خروجی ارتباط دارد.

برای روش‌شناسی کامل تفکیک به‌ازای هر مدل، به صفحه معیارسنجی دقت ما مراجعه کنید. این مقاله مفاهیم عملی آن داده را برای کاربرانی که انتخاب می‌کنند به کدام آشکارساز اعتماد کنند و از کدام مدل استفاده کنند خلاصه می‌کند.

خانواده OpenAI — GPT

GPT-3.5 آسان‌ترین مدل مدرن برای تشخیص است — AUC [AUC: ?] روی مجموعه ما. مصنوعات تولید قدیمی (تکرار، مبهم‌گویی، سبک کسالت‌آور) همچنان به وضوح حضور دارند. GPT-4 به AUC [AUC: ?] کاهش می‌یابد، GPT-4o به [AUC: ?]، که کالیبراسیون بهتر تدریجی را نشان می‌دهد. GPT-5.x سخت‌ترین خانواده است — AUC [AUC: ?] — زیرا تیم تنظیم دستورالعمل صریحاً حذف مصنوعات تشخیص را هدف گرفته است.

مفهوم عملی: جریان‌های کاری دانشگاهی نگران تقلب در دوره GPT-3.5 می‌توانند به‌شدت به تشخیص به‌تنهایی متکی باشند. جریان‌های کاری نگران GPT-5 باید تشخیص را با شواهد متنی ترکیب کنند، همان‌طور که در راهنمای جریان کاری مربیان ما توصیف شده است.

تنظیمات دما اهمیت دارند. خروجی‌های دمای پایین (t≤0.5) آسان‌تر قابل تشخیص هستند زیرا جرم احتمال را روی واژگان محدودتری متمرکز می‌کنند. اکثر رابط‌های گپ به‌طور پیش‌فرض روی t≈0.7 هستند و متن را در یک منطقه با قابلیت تشخیص متوسط قرار می‌دهند. کاربران خصمانه دما را صریحاً بالا می‌برند یا از رمزگشایی متنوع استفاده می‌کنند تا دامنه را گسترش دهند و از تشخیص فرار کنند — ترکیب ما این را تا حدی تصحیح می‌کند اما نه کاملاً.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. خانواده Claude به‌طور مستمر متنی کمتر تکراری و از نظر سبکی متنوع‌تر از مدل‌های GPT هم‌نسل تولید می‌کند که تشخیص آن از طریق روش‌های آماری را سخت‌تر می‌کند.

آموزش هوش مصنوعی اساسنامه‌ای Claude به‌طور خاص “نشانه‌های ماشینی” را که طبقه‌بند نظارت‌شده ما از آن‌ها یاد می‌گیرد هدف قرار می‌دهد — الگوهای مبهم‌گویی، استفاده بیش از حد از ربطگرهای خاص، ساختار پیش‌بینی‌پذیر پاراگراف. این یک رابطه خصمانه مستقیم است: مدل مولد در برابر ویژگی‌هایی که آشکارساز به آن‌ها متکی است آموزش می‌بیند.

Claude 4.5 Sonnet و GPT-5.x از نظر دشواری نزدیک به هم هستند. توزیع‌های امتیاز آن‌ها بیشترین همپوشانی را با خط پایه انسانی در داده‌های اعتبارسنجی ما دارند. اگر جریان کاری شما هر یک از این مدل‌ها را هدف قرار می‌دهد، انتظار بازخوانی کاهش‌یافته در آستانه پیش‌فرض را داشته باشید و برای غربالگری با حساسیت بالا کاهش به بهینه F1 را در نظر بگیرید.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini متنوع‌ترین عملکرد تشخیص را در بین نسخه‌ها نشان داده — برخی نسخه‌های میانی موقتاً قبل از رسیدن پیشرفت‌ها پسرفت کردند.

آموزش چندوجهی Gemini به این معنی است که خروجی‌های فقط متن گاهی الگوهای باقیمانده از حوزه‌های توضیح تصویر یا توضیح کد را حمل می‌کنند. آشکارساز ما این‌ها را تشخیص می‌دهد، که توضیح می‌دهد قابلیت تشخیص کمی بالاتر Gemini روی سوالات مختلط حوزه نسبت به نثر خالص.

برای کاربران Google Workspace که دانشجویان یا کارمندانشان از Gemini از طریق Docs استفاده می‌کنند، سیگنال تشخیص مشابه خروجی API خام است. ما الگوهای فرار خاص ادغام فضای کاری متمایز از استفاده مستقیم از API Gemini را مشاهده نکرده‌ایم.

یک نمونه از هر مدل بررسی کنید

خروجی هر LLM را جایگذاری کنید و حکم به‌ازای هر جمله را ببینید. آشکارساز ما همه ۲۲ خانواده مدل را به عنوان یک بررسی ترکیبی واحد تلقی می‌کند.

Meta و مدل‌های Open-Weights

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. مدل‌های open-weights طیف گسترده‌تری نسبت به مدل‌های بسته دارند — انواع تنظیم‌دقیق‌شده جامعه، پیاده‌سازی‌های کوانتیزه‌شده و نقاط تفتیش اصلاح‌شده جامعه همه خروجی‌های کاملاً متفاوتی تولید می‌کنند.

تشخیص روی open-weights از نظر استراتژیک مهم است زیرا ابزارهای انسانی‌ساز معمولاً روی مدل‌های open-weights ساخته می‌شوند — مشتقات Llama و Mistral به‌صورت محلی با هزینه کم اجرا می‌شوند، به همین دلیل است که سرویس‌های پارافریز و انتقال سبک آن‌ها را قیمت‌گذاری می‌کنند. اگر نگرانی شما هوش مصنوعی انسانی‌سازی‌شده است، در نهایت از تولید خانواده Llama دفاع می‌کنید.

DeepSeek R1 و o3-mini (مدل استدلال OpenAI) شایسته ذکر جداگانه هستند. هر دو متنی با مصنوعات زنجیره استدلال تولید می‌کنند — منطق گام به گام صریح قابل مشاهده در خروجی — که آشکارساز ما یاد گرفته آن را تشخیص دهد. مدل‌های استدلالی در حال حاضر نسبت به همتایان گپ پایه‌شان آسان‌تر قابل تشخیص هستند.

این تفاوت‌ها برای شما چه معنایی دارند

اگر مدلی برای نوشتن انتخاب می‌کنید و تشخیص نگرانی شما نیست، Claude 4.5 Sonnet و GPT-5 سخت‌ترین برای تشخیص هستند. اگر یک جریان کاری تشخیص می‌سازید، برای مدل‌هایی که واقعاً می‌بینید اولویت‌بندی کنید: اکثر سوءاستفاده‌های دانشگاهی همچنان روی GPT-4/5 از طریق رابط‌های رایگان اجرا می‌شوند؛ اکثر کشاورزی محتوا روی انسانی‌سازهای مشتق از Llama اجرا می‌شوند.

یک آشکارساز آموزش‌دیده روی یک خانواده مدل منفرد روی سایرین بدترین عملکرد را خواهد داشت. رویکرد ترکیبی ما روی نمونه‌هایی از همه ۲۲ مدل آموزش می‌بیند، به همین دلیل است که AUC به‌ازای هر مدل روی موارد سخت (Claude 4.5، GPT-5) همچنان بالای ۰.۹۰ است در حالی که هر آشکارساز آموزش‌دیده روی یک مدل منفرد به زیر ۰.۸۰ کاهش می‌یافت.

روند زیربنایی: دشواری تشخیص سریع‌تر از سرعت انتشار مدل‌های مولد در حال افزایش است. هر پرچم‌دار جدید سخت‌تر از قبلی قابل تشخیص است، بازآموزی شکاف را می‌بندد اما نه کاملاً. انتظار داشته باشید خط پایه ۲۰۲۶–۲۰۲۷ روی مدل‌های مرزی AUC پایین‌تر و روی مدل‌های قدیمی تقریباً ثابت باشد.

سؤالات متداول

اگر برخی مدل‌ها سخت‌تر برای تشخیص هستند، آیا باید کلاً از استفاده از آشکارسازها خودداری کنم؟

خیر — حتی روی سخت‌ترین خانواده‌های مدل AUC ما بالای ۰.۸۵ است که یک سیگنال قوی است. سوال این است که چگونه از این سیگنال استفاده می‌کنید. برای مدل‌های سخت‌تر برای تشخیص، امتیاز را با شواهد تأییدکننده (تاریخچه ویرایش، کار درون کلاسی، مکالمه دانشجویی) ترکیب کنید. برای مدل‌های آسان‌تر، امتیاز به‌تنهایی اغلب کافی است.

از کدام مدل استفاده کنم اگر می‌خواهم از تشخیص اجتناب کنم؟

ما مستقیماً به این سوال پاسخ نمی‌دهیم — ما یک ابزار تشخیص اجرا می‌کنیم، نه یک راهنمای فرار. آنچه می‌گوییم این است: قابل تشخیص در برابر غیرقابل تشخیص محور درستی برای انتخاب مدل نیست. کیفیت، هزینه و تناسب با هدف بسیار مهم‌تر از دشواری تشخیص هستند. اگر با کمک هوش مصنوعی به‌صورت مشروع می‌نویسید، افشاگری و جریان کاری شفاف مهم‌تر از پنهان کردن ابزار است.

آیا انواع مدل open-weights پروفایل‌های تشخیص متفاوتی دارند؟

بله، و به‌طور معناداری. یک نوع Llama 3.3 تنظیم‌دقیق‌شده توسط جامعه که برای یک سبک نوشتاری خاص آموزش دیده می‌تواند متنی تولید کند که به‌طور متفاوتی از Llama 3.3 استاندارد امتیاز می‌گیرد. معیارسنجی ما نقطه تفتیش استاندارد را پوشش می‌دهد؛ تنظیم‌دقیق‌های سفارشی ممکن است آسان‌تر (اگر توزیع خروجی را محدود کنند) یا سخت‌تر (اگر صریحاً در برابر تشخیص آموزش خصمانه ببینند) باشند.

دما و نمونه‌برداری چگونه بر قابلیت تشخیص تأثیر می‌گذارند؟

دمای بالاتر و نمونه‌برداری متنوع‌تر به‌طور کلی قابلیت تشخیص را کاهش می‌دهند زیرا توزیع خروجی را گسترش می‌دهند. رمزگشایی حریصانه با دمای پایین آسان‌ترین برای تشخیص است. اکثر رابط‌های گپ تولید با t≈0.7–1.0 با nucleus sampling اجرا می‌شوند که آن‌ها را در یک رژیم با قابلیت تشخیص متوسط قرار می‌دهد — ترکیب ما در بازه پیش‌فرض عملکرد مشابهی دارد.

GPT-6 یا Claude 5 کی می‌آیند و چه انتظاری باید داشته باشم؟

اواسط سال ۲۰۲۶ اجماع پیش‌بینی برای هر دو است. انتظار داشته باشید AUC تشخیص روی خانواده‌های جدید برای ۴–۸ هفته اول پس از عرضه به بازه ۰.۸۰–۰.۸۵ کاهش یابد در حالی که نمونه‌ها جمع‌آوری شده و بازآموزی انجام می‌شود. نسخه‌های تاریخی نشان می‌دهند بازیابی کامل ظرف ۸–۱۲ هفته در صورت در دسترس بودن گسترده مدل صورت می‌گیرد؛ طولانی‌تر برای مدل‌های نادر یا با دسترسی محدود.

اعداد AUC به‌ازای هر مدل از اعتبارسنجی داخلی ما استخراج شده‌اند و ممکن است قابل تعمیم نباشند. دشواری هر مدل با تکامل هم مدل مولد و هم مجموعه آموزشی ما در طول زمان تغییر می‌کند. داده‌های فعلی نتایج اجرای معیارسنجی ۲۰۲۶-۰۴ را نشان می‌دهند.