আমরা GPT-5, Claude 4, Gemini 2 এবং Llama 3 সহ ২২টি জেনারেটিভ মডেলের বিপরীতে আমাদের AI ডিটেক্টরের বাস্তব-জগত নির্ভুলতা প্রকাশ করি। প্রতি-মডেল টেবিল, সৎ সীমাবদ্ধতা এবং গবেষকদের জন্য ডাউনলোডযোগ্য ডেটাসেট।
বেশিরভাগ AI সনাক্তকরণ সরঞ্জাম আপনাকে একটি একক অস্বচ্ছ স্কোর বিশ্বাস করতে বলে। আমরা মনে করি আপনি প্রমাণ পাওয়ার যোগ্য। এই পৃষ্ঠায় আমরা আমাদের অভ্যন্তরীণ ভ্যালিডেশন রানের সম্পূর্ণ ফলাফল শেয়ার করি — আমরা যে প্রতিটি জেনারেটর পরীক্ষা করেছি, প্রতিটিতে AUC-ROC স্কোর, যে প্রবন্ধের ধরনগুলো আমাদের সবচেয়ে বেশি সমস্যা দিয়েছে, এবং আমরা প্রোডাকশনে যে ডিসিশন থ্রেশহোল্ড ব্যবহার করি।
স্বচ্ছতার এই স্তরটি AI-সনাক্তকরণ ক্ষেত্রে অস্বাভাবিক। বেশিরভাগ প্রতিযোগী — plagiarism-checker বিক্রেতা, বিশেষজ্ঞ AI-সনাক্তকরণ পরিষেবা, সাধারণ SaaS সরঞ্জাম — হয় কোনো নির্ভুলতার ডেটা প্রকাশ করে না বা একটি একক বাছাইকৃত সংখ্যা প্রকাশ করে। এই প্যাটার্নটি টেকসই নয়: শিক্ষাবিদ, প্রকাশক এবং গবেষকদের কোনো সরঞ্জামে নির্ভর করার আগে পুনরুৎপাদনযোগ্য বেঞ্চমার্ক প্রয়োজন।
আমাদের সংখ্যাগুলো আমাদের ModernBERT ডিটেক্টর প্রশিক্ষণে ব্যবহৃত ক্যালিব্রেশন কর্পাসের ১,০০০-স্যাম্পলের ভ্যালিডেশন স্প্লিট থেকে এসেছে। এই বেঞ্চমার্ককে চালিত করে একই পদ্ধতি আমাদের সরঞ্জামের মাধ্যমে আপনি যে প্রতিটি নথি জমা দেন তাতে চলে। ডেমোর জন্য কিছু আড়াল করা হয়নি।
ভ্যালিডেশন সেটে ১,২০০-স্যাম্পলের ক্যালিব্রেশন কর্পাস থেকে নেওয়া ১,০০০টি প্রবন্ধ রয়েছে: ৬০০টি মানব-লিখিত প্রবন্ধ (PAN25 শেয়ার্ড-টাস্ক ডেটা এবং PERSUADE আর্গুমেন্টেটিভ প্রবন্ধ ডেটাসেট থেকে) এবং ৬০০টি AI-উৎপন্ন প্রবন্ধ (নিয়ন্ত্রিত প্রম্পটিংয়ের অধীনে ২২টি স্বতন্ত্র বৃহৎ ভাষা মডেল দ্বারা তৈরি)। ৮০/২০ ট্রেনিং-ভ্যালিডেশন স্প্লিট স্থির এবং পুনরাবৃত্তিযোগ্য।
প্রতিটি স্যাম্পল বিচ্ছিন্নভাবে স্কোর করা হয়, কোনো মেটাডেটায় প্রবেশাধিকার নেই যা গ্রাউন্ড ট্রুথ ফাঁস করতে পারে। ডিটেক্টর [০, ১০০] পরিসরে একটি সম্ভাবনা ফেরত দেয় যা স্যাম্পলটি AI-উৎপন্ন হওয়ার সম্ভাবনা প্রতিনিধিত্ব করে। আমরা তারপর জেনারেটর প্রতি এবং প্রবন্ধ-ধরনের স্তরে রিসিভার-অপারেটিং-ক্যারেক্টারিস্টিক কার্ভের অধীনে এলাকা (AUC-ROC) গণনা করি।
সমস্ত থ্রেশহোল্ড, ট্রেনিং হাইপারপ্যারামিটার এবং কাঁচা সম্ভাবনার আউটপুট লগ করা হয়। ডেটাসেটটি নিজেই এই পৃষ্ঠার নীচে ডাউনলোডের জন্য উপলব্ধ — CSV ফরম্যাট, প্রতি স্যাম্পলে একটি সারি, জেনারেটর পরিচয়, প্রবন্ধ-ধরনের লেবেল, কাঁচা স্কোর এবং চূড়ান্ত বাইনারি রায় সহ।
সম্পূর্ণ ১,০০০-স্যাম্পলের সেট জুড়ে, আমাদের এনসেম্বল ডিটেক্টর AUC-ROC [AUC: 0.9884] অর্জন করে। আমরা প্রোডাকশনে যে ৫০% ডিসিশন থ্রেশহোল্ড ব্যবহার করি সেখানে: ভ্যালিডেশন সেটে মানব প্রবন্ধে ০টি মিথ্যা পজিটিভ, এবং AI প্রবন্ধে ৬০% রিকল। ২৬.৫৬% এর F1-সর্বোত্তম থ্রেশহোল্ডে, রিকল ২% মিথ্যা পজিটিভের বিনিময়ে ৯০%-এ ওঠে — এই ট্রেডঅফটি উচ্চ-সংবেদনশীলতার স্ক্রিনিং ওয়ার্কফ্লোর জন্য আরও উপযুক্ত।
আমাদের পাবলিক টুলে ডকুমেন্ট-স্তরের রায় রক্ষণশীল ৫০% থ্রেশহোল্ড ব্যবহার করে, সর্বোচ্চ রিকলের চেয়ে শূন্য মিথ্যা পজিটিভকে অগ্রাধিকার দেয়। শিক্ষক, প্রকাশক এবং গবেষকরা যখন আরও আক্রমণাত্মক ফ্ল্যাগিং চান তখন উইজেটের সংবেদনশীলতা স্লাইডারের মাধ্যমে এটি ওভাররাইড করতে পারেন।
তুলনার জন্য, Binoculars জিরো-শট কম্পোনেন্ট একা (একটি ২× Llama-3.1-8B সেটআপ) একাকী AUC [AUC: 0.8509] স্কোর করে। ফাইন-টিউনড ModernBERT কম্পোনেন্ট একা ইন-ডিস্ট্রিবিউশন প্রবন্ধে [AUC: 1.0000] এবং আউট-অফ-ডিস্ট্রিবিউশন টেক্সটে [AUC: 0.9069] স্কোর করে। এনসেম্বলটি যেকোনো একটি অক্ষে উভয়ের মাঝে বসে কিন্তু গড়ে উভয়কে ছাড়িয়ে যায় কারণ এটি তাদের পরিপূরক দুর্বলতা সংশোধন করে।
এখানে প্রতি-মডেল AUC-ROC টেবিল। মডেলগুলো আমাদের ভ্যালিডেশন সেটে সবচেয়ে সহজ থেকে সবচেয়ে কঠিনে সনাক্ত করার ক্রমে সাজানো হয়েছে। [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI মডেল: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]। Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]। Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]। Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]। অন্যান্য: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?]।
শিরোনামের প্যাটার্ন: নতুন, বড়, ইনস্ট্রাকশন-টিউনড মডেলগুলো এমন টেক্সট তৈরি করতে থাকে যা যেকোনো পরিসংখ্যানগত ডিটেক্টরের কাছে বেশি মানবিক দেখায়, আমাদের সহ। Claude 4.5 Sonnet এবং GPT-5.x হল সেই দুটি পরিবার যেখানে আমাদের স্কোর বিতরণ মানব বেসলাইনের সাথে সবচেয়ে বেশি ওভারল্যাপ করে। এটি ২০২৫ সালে প্রকাশিত প্রতিটি স্বাধীন গবেষণার সাথে মেলে — অস্ত্র প্রতিযোগিতা বাস্তব এবং মডেল আকার সনাক্তকরণের জন্য একটি সরাসরি বাধা।
সব টেক্সট সমানভাবে সনাক্তযোগ্য নয়। আমরা প্রবন্ধের ধরন অনুযায়ী ফলাফল ভেঙে দেই — প্রতিটি PERSUADE প্রম্পট বিভাগ — এবং সেরা এবং সবচেয়ে খারাপের মধ্যে ব্যবধান ব্যাপক। [PER-TYPE TABLE]
আর্গুমেন্টেটিভ, পার্সুয়েসিভ এবং এক্সপোজিটরি প্রবন্ধ: ডিটেক্টরের শক্তিশালী ডোমেইন। AUC সাধারণত ০.৯৭–১.০০ কারণ ট্রেনিং কর্পাসগুলো এই স্টাইলগুলোকে বেশি গুরুত্ব দেয়। এখানেই বেশিরভাগ একাডেমিক-ইন্টিগ্রিটি ব্যবহারের ক্ষেত্রে পড়ে।
সৃজনশীল লেখা এবং সাহিত্যিক বিশ্লেষণ: আমাদের দুর্বলতম ডোমেইন। literary_analysis-এর জন্য AUC ০.৬৯-এ নেমে আসে — কল্পকাহিনীতে মানব শৈলী LLM আউটপুটের সাথে মিলে যায় এবং আমাদের সুপারভাইজড বা জিরো-শট কম্পোনেন্ট কেউই নির্ভরযোগ্যভাবে তাদের আলাদা করতে পারে না। কল্পকাহিনীতে উচ্চ AI স্কোরকে সন্দেহের সাথে দেখুন।
যেকোনো নথি পেস্ট করুন এবং এই বেঞ্চমার্ক সংখ্যার জন্য আমরা যে একই প্রতি-বাক্য রায় এবং ডিসিশন থ্রেশহোল্ড ব্যবহার করি তা দেখুন। বিনামূল্যে, সাইনআপ ছাড়া।
তিন শ্রেণির টেক্সট আমাদের ভ্যালিডেশন সেট যা পরামর্শ দেয় তার চেয়ে বেশি ঘন ঘন আমাদের ডিটেক্টর এড়িয়ে যায়। হিউম্যানাইজড AI টেক্সট — একটি বিরোধিতামূলক প্যারাফ্রেজিং বা স্টাইল-ট্রান্সফার টুলের মাধ্যমে পাস করা আউটপুট — প্রায়শই মানব হিসেবে স্কোর করে এমনকি যখন অন্তর্নিহিত টেক্সটটি সম্পূর্ণভাবে উৎপন্ন হয়েছিল। সংক্ষিপ্ত টেক্সট (১০০ শব্দের কম) মোটেই শ্রেণিবদ্ধ করা কঠিন কারণ পর্যাপ্ত পরিসংখ্যানগত সংকেত নেই। অ-নেটিভ ইংরেজি লেখা AI-উৎপন্ন হিসেবে স্কোর করতে পারে কারণ LLM এবং ESL লেখকরা নির্দিষ্ট লেক্সিক্যাল এবং সিনট্যাকটিক পছন্দ শেয়ার করেন।
আমাদের ডিটেক্টর সম্ভাব্য, প্রমাণমূলক নয়। একটি উচ্চ AI স্কোর আরও তদন্ত করার জন্য একটি সংকেত, অসদাচরণের প্রমাণ নয়। আমরা দৃঢ়ভাবে প্রেক্ষাপটের সাথে স্কোর যুক্ত করার পরামর্শ দিই: সাম্প্রতিক সম্পাদনা ইতিহাস, সংস্করণ খসড়া, একই লেখকের লেখার নমুনা এবং — যেখানে অনুমোদিত — লেখকের সাথে একটি সংক্ষিপ্ত ফলো-আপ কথোপকথন।
আমরা সর্বশেষ জেনারেটর আউটপুটে ক্রমাগত পুনরায় প্রশিক্ষণ দিই, কিন্তু সবসময় একটি পিছিয়ে থাকা থাকে: গত সপ্তাহে প্রকাশিত একটি মডেল ট্রেনিং ডেটায় ভালোভাবে প্রতিনিধিত্ব নাও পেতে পারে। যদি আপনার ওয়ার্কফ্লো সর্বশেষ মডেলগুলো ধরার উপর নির্ভর করে, আপডেট করা সংখ্যার জন্য ত্রৈমাসিকভাবে আমাদের বেঞ্চমার্ক পৃষ্ঠা পুনরায় পরীক্ষা করুন।
আমরা কাঁচা ভ্যালিডেশন ফলাফল প্রকাশ করি যাতে গবেষক, সাংবাদিক এবং শিক্ষাবিদরা স্বাধীনভাবে আমাদের দাবি যাচাই করতে পারেন। CSV-তে রয়েছে: স্যাম্পল আইডি, জেনারেটর পরিচয় (বা 'human'), প্রবন্ধ-ধরনের লেবেল, কাঁচা সম্ভাবনার আউটপুট, ৫০% থ্রেশহোল্ডে বাইনারি রায়, ২৬.৫৬% থ্রেশহোল্ডে বাইনারি রায়।
ডাউনলোড: ai-detector-benchmark-2026-04.csv (ত্রৈমাসিকভাবে আপডেট)। একাডেমিক ব্যবহার অনিয়ন্ত্রিত; বাণিজ্যিক পুনঃপ্রকাশের জন্য অ্যাট্রিবিউশন প্রয়োজন: “চৌর্যবৃত্তি শনাক্তকারী — AI Detection Benchmark 2026-04”।
একই পদ্ধতির একটি ইন্টারেক্টিভ সংস্করণের জন্য আপনার নিজের টেক্সটে, আমাদের AI & Plagiarism Checker টুলটি ব্যবহার করে দেখুন — যেকোনো নথি পেস্ট করুন এবং প্রতি-বাক্য রায়, একই ডিসিশন থ্রেশহোল্ড এবং আমরা এই প্রকাশিত সংখ্যার জন্য যে একই কনফিডেন্স ইন্টারভাল ব্যবহার করি তা দেখুন।
বেঞ্চমার্ক ফলাফল আমাদের অভ্যন্তরীণ ভ্যালিডেশন সেট থেকে প্রাপ্ত এবং আউট-অফ-ডিস্ট্রিবিউশন টেক্সটে সাধারণীকৃত নাও হতে পারে। প্রকাশিত সংখ্যাগুলো ১,০০০ স্যাম্পলে গড় পারফরম্যান্স প্রতিনিধিত্ব করে; আপনার নথি ভিন্নভাবে স্কোর করতে পারে। AI সনাক্তকরণের ফলাফলগুলো লেখকত্বের একমাত্র প্রমাণ হিসেবে নয়, অনেক ইনপুটের মধ্যে একটি ইনপুট হিসেবে ব্যবহার করুন।