همه متنهای هوش مصنوعی به یک اندازه قابل تشخیص نیستند. این نتایج معیارسنجی بهازای هر مدل ما است — کدام خانوادههای مدل آشکارساز ما با دقت نزدیک به کامل میگیرد، کدامها با آنها دست و پنجه نرم میکند، و این به شما در انتخاب یک جریان کاری تشخیص چه میگوید.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
مرتبشده از آسانترین تا سختترین برای تشخیص در مجموعه اعتبارسنجی ما. دامنه گسترده است — AUC روی برخی خانوادههای مدل از ۰.۹۹ تجاوز میکند در حالی که برخی دیگر به ۰.۸۰ کاهش مییابند. دشواری تشخیص با اندازه مدل، پیچیدگی تنظیم دستورالعمل و واریانس خروجی ارتباط دارد.
برای روششناسی کامل تفکیک بهازای هر مدل، به صفحه معیارسنجی دقت ما مراجعه کنید. این مقاله مفاهیم عملی آن داده را برای کاربرانی که انتخاب میکنند به کدام آشکارساز اعتماد کنند و از کدام مدل استفاده کنند خلاصه میکند.
GPT-3.5 آسانترین مدل مدرن برای تشخیص است — AUC [AUC: ?] روی مجموعه ما. مصنوعات تولید قدیمی (تکرار، مبهمگویی، سبک کسالتآور) همچنان به وضوح حضور دارند. GPT-4 به AUC [AUC: ?] کاهش مییابد، GPT-4o به [AUC: ?]، که کالیبراسیون بهتر تدریجی را نشان میدهد. GPT-5.x سختترین خانواده است — AUC [AUC: ?] — زیرا تیم تنظیم دستورالعمل صریحاً حذف مصنوعات تشخیص را هدف گرفته است.
مفهوم عملی: جریانهای کاری دانشگاهی نگران تقلب در دوره GPT-3.5 میتوانند بهشدت به تشخیص بهتنهایی متکی باشند. جریانهای کاری نگران GPT-5 باید تشخیص را با شواهد متنی ترکیب کنند، همانطور که در راهنمای جریان کاری مربیان ما توصیف شده است.
تنظیمات دما اهمیت دارند. خروجیهای دمای پایین (t≤0.5) آسانتر قابل تشخیص هستند زیرا جرم احتمال را روی واژگان محدودتری متمرکز میکنند. اکثر رابطهای گپ بهطور پیشفرض روی t≈0.7 هستند و متن را در یک منطقه با قابلیت تشخیص متوسط قرار میدهند. کاربران خصمانه دما را صریحاً بالا میبرند یا از رمزگشایی متنوع استفاده میکنند تا دامنه را گسترش دهند و از تشخیص فرار کنند — ترکیب ما این را تا حدی تصحیح میکند اما نه کاملاً.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. خانواده Claude بهطور مستمر متنی کمتر تکراری و از نظر سبکی متنوعتر از مدلهای GPT همنسل تولید میکند که تشخیص آن از طریق روشهای آماری را سختتر میکند.
آموزش هوش مصنوعی اساسنامهای Claude بهطور خاص “نشانههای ماشینی” را که طبقهبند نظارتشده ما از آنها یاد میگیرد هدف قرار میدهد — الگوهای مبهمگویی، استفاده بیش از حد از ربطگرهای خاص، ساختار پیشبینیپذیر پاراگراف. این یک رابطه خصمانه مستقیم است: مدل مولد در برابر ویژگیهایی که آشکارساز به آنها متکی است آموزش میبیند.
Claude 4.5 Sonnet و GPT-5.x از نظر دشواری نزدیک به هم هستند. توزیعهای امتیاز آنها بیشترین همپوشانی را با خط پایه انسانی در دادههای اعتبارسنجی ما دارند. اگر جریان کاری شما هر یک از این مدلها را هدف قرار میدهد، انتظار بازخوانی کاهشیافته در آستانه پیشفرض را داشته باشید و برای غربالگری با حساسیت بالا کاهش به بهینه F1 را در نظر بگیرید.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini متنوعترین عملکرد تشخیص را در بین نسخهها نشان داده — برخی نسخههای میانی موقتاً قبل از رسیدن پیشرفتها پسرفت کردند.
آموزش چندوجهی Gemini به این معنی است که خروجیهای فقط متن گاهی الگوهای باقیمانده از حوزههای توضیح تصویر یا توضیح کد را حمل میکنند. آشکارساز ما اینها را تشخیص میدهد، که توضیح میدهد قابلیت تشخیص کمی بالاتر Gemini روی سوالات مختلط حوزه نسبت به نثر خالص.
برای کاربران Google Workspace که دانشجویان یا کارمندانشان از Gemini از طریق Docs استفاده میکنند، سیگنال تشخیص مشابه خروجی API خام است. ما الگوهای فرار خاص ادغام فضای کاری متمایز از استفاده مستقیم از API Gemini را مشاهده نکردهایم.
خروجی هر LLM را جایگذاری کنید و حکم بهازای هر جمله را ببینید. آشکارساز ما همه ۲۲ خانواده مدل را به عنوان یک بررسی ترکیبی واحد تلقی میکند.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. مدلهای open-weights طیف گستردهتری نسبت به مدلهای بسته دارند — انواع تنظیمدقیقشده جامعه، پیادهسازیهای کوانتیزهشده و نقاط تفتیش اصلاحشده جامعه همه خروجیهای کاملاً متفاوتی تولید میکنند.
تشخیص روی open-weights از نظر استراتژیک مهم است زیرا ابزارهای انسانیساز معمولاً روی مدلهای open-weights ساخته میشوند — مشتقات Llama و Mistral بهصورت محلی با هزینه کم اجرا میشوند، به همین دلیل است که سرویسهای پارافریز و انتقال سبک آنها را قیمتگذاری میکنند. اگر نگرانی شما هوش مصنوعی انسانیسازیشده است، در نهایت از تولید خانواده Llama دفاع میکنید.
DeepSeek R1 و o3-mini (مدل استدلال OpenAI) شایسته ذکر جداگانه هستند. هر دو متنی با مصنوعات زنجیره استدلال تولید میکنند — منطق گام به گام صریح قابل مشاهده در خروجی — که آشکارساز ما یاد گرفته آن را تشخیص دهد. مدلهای استدلالی در حال حاضر نسبت به همتایان گپ پایهشان آسانتر قابل تشخیص هستند.
اگر مدلی برای نوشتن انتخاب میکنید و تشخیص نگرانی شما نیست، Claude 4.5 Sonnet و GPT-5 سختترین برای تشخیص هستند. اگر یک جریان کاری تشخیص میسازید، برای مدلهایی که واقعاً میبینید اولویتبندی کنید: اکثر سوءاستفادههای دانشگاهی همچنان روی GPT-4/5 از طریق رابطهای رایگان اجرا میشوند؛ اکثر کشاورزی محتوا روی انسانیسازهای مشتق از Llama اجرا میشوند.
یک آشکارساز آموزشدیده روی یک خانواده مدل منفرد روی سایرین بدترین عملکرد را خواهد داشت. رویکرد ترکیبی ما روی نمونههایی از همه ۲۲ مدل آموزش میبیند، به همین دلیل است که AUC بهازای هر مدل روی موارد سخت (Claude 4.5، GPT-5) همچنان بالای ۰.۹۰ است در حالی که هر آشکارساز آموزشدیده روی یک مدل منفرد به زیر ۰.۸۰ کاهش مییافت.
روند زیربنایی: دشواری تشخیص سریعتر از سرعت انتشار مدلهای مولد در حال افزایش است. هر پرچمدار جدید سختتر از قبلی قابل تشخیص است، بازآموزی شکاف را میبندد اما نه کاملاً. انتظار داشته باشید خط پایه ۲۰۲۶–۲۰۲۷ روی مدلهای مرزی AUC پایینتر و روی مدلهای قدیمی تقریباً ثابت باشد.
اعداد AUC بهازای هر مدل از اعتبارسنجی داخلی ما استخراج شدهاند و ممکن است قابل تعمیم نباشند. دشواری هر مدل با تکامل هم مدل مولد و هم مجموعه آموزشی ما در طول زمان تغییر میکند. دادههای فعلی نتایج اجرای معیارسنجی ۲۰۲۶-۰۴ را نشان میدهند.