ছয় বছর আগে জেনারেটিভ পাঠ্য একটি নতুনত্ব ছিল। আজ এটি শিক্ষার্থীদের প্রবন্ধ, সংবাদ নিবন্ধ, বিপণন কপি, এবং সামাজিক-মিডিয়া থ্রেড মানব-অপ্রতিষ্ঠিত গুণমানে লেখে। এটি সংক্ষিপ্ত ইতিহাস যে কীভাবে আমরা এখানে পৌঁছলাম — এবং কেন শনাক্তকরণ একাডেমিক গবেষণা থেকে দৈনন্দিন অনুশীলনে পরিণত হয়েছে।
প্রি-GPT-3 জেনারেটিভ পাঠ্য বেশিরভাগ একটি গবেষণা কৌতূহল ছিল। মার্কভ চেইন, পুনরাবৃত্তিমূলক নিউরাল নেটওয়ার্ক, এবং প্রথম দিকের ট্রান্সফর্মার-ভিত্তিক মডেলগুলি সুসংগত বাক্য তৈরি করতে পারত কিন্তু অনুচ্ছেদ দৈর্ঘ্যে ভেঙে পড়ত। একটি ছোট নমুনা অমনোযোগী পাঠককে বোকা বানাতে পারত; একটি সম্পূর্ণ নথি কখনই পারেনি।
AI শনাক্তকরণ গবেষণা বিদ্যমান ছিল কিন্তু কুলুঙ্গিমূলক ছিল। Zellers et al.-এর Grover (২০১৯) এর মতো কাগজ GPT-2-যুগের ভুয়া সংবাদের জন্য ডিটেক্টর তৈরি করেছিল কিন্তু ব্যবহারিক চাহিদা কম ছিল — প্রচলনে মেশিন-তৈরি পাঠ্যের পরিমাণ ন্যূনতম ছিল। শনাক্তকরণ একটি সমাধান ছিল একটি সমস্যার সন্ধানে।
২০২০-২০২১ সালে তিনটি জিনিস একসাথে পরিবর্তিত হয়েছিল: মডেল স্কেল বিলিয়ন-প্যারামিটার থ্রেশহোল্ড অতিক্রম করেছিল (GPT-3 ১৭৫B-তে), প্রশিক্ষণ ডেটা ট্রিলিয়ন-টোকেন থ্রেশহোল্ড অতিক্রম করেছিল, এবং OpenAI সহজ, মানব-পাঠযোগ্য প্রম্পট ইন্টারফেসের সাথে API অ্যাক্সেস খুলে দিয়েছিল। পাঠ্য জেনারেশন গবেষণাগার থেকে ক্রেডিট কার্ডসহ যে কারও কাছে চলে গেছে।
ChatGPT ২০২২ সালের নভেম্বরে GPT-3.5-এর উপরে চালু হয়েছিল এবং দুই মাসের মধ্যে ১০০ মিলিয়ন ব্যবহারকারী অর্জন করেছিল — ইতিহাসের দ্রুততম ভোক্তা-পণ্য গ্রহণ। ছয় মাসের মধ্যে, শিক্ষার্থীদের জমা, বিপণন কপি, এবং গ্রাহক-সেবা স্ক্রিপ্ট LLM-তৈরি বিষয়বস্তুর দিকে পরিমাপযোগ্যভাবে পরিবর্তিত হয়েছিল।
শিক্ষাবিদরা প্রথম লক্ষ্য করেছিলেন। ২০২৩ সালের বসন্তের মধ্যে, প্রতিটি বড় বিশ্ববিদ্যালয়ে জরুরি AI নীতি বৈঠক হয়েছিল এবং অনেকে অস্থায়ী AI-মুক্ত মূল্যায়ন ফর্ম্যাট (ইন-ক্লাস পরীক্ষা, মৌখিক প্রতিরক্ষা) বাধ্যতামূলক করেছিল। শনাক্তকরণ টুল বাজার বিস্ফোরিত হয়েছিল — ChatGPT-এর রিলিজের ১২ মাসের মধ্যে Originality.ai, GPTZero, Copyleaks AI, এবং আরো ডজনখানেক চালু হয়েছিল।
প্রকাশনায় প্যাটার্নটি পুনরাবৃত্তি হয়েছিল। AI-তৈরি নিবন্ধ কন্টেন্ট ফার্মে প্লাবিত হয়েছিল এবং র্যাংকিং অ্যালগরিদম দ্বারা শনাক্ত করা হয়েছিল; Google কম-গুণমানের AI আউটপুটকে অগ্রাহ্য করতে বিশেষভাবে সহায়ক-বিষয়বস্তু আপডেট চালু করেছিল; সংবাদ প্রকাশকরা লেখক-প্রকাশ নীতি জারি করেছিলেন; একাডেমিক জার্নালগুলি লেখকের বিবৃতিতে AI-ব্যবহার প্রকাশ প্রয়োজন করেছিল।
প্রথম AI-শনাক্তকরণ টুলগুলি GPT-3.5 আউটপুটে মাঝারি নির্ভুলতা অর্জন করেছিল। বিক্রেতারা স্ট্যান্ডার্ড বেঞ্চমার্কে ০.৮৫–০.৯৫ পরিসরে AUC সংখ্যা প্রকাশ করেছিলেন। ছয় মাসের মধ্যে, হিউম্যানাইজার টুলগুলি স্পষ্টভাবে এই ডিটেক্টরগুলিকে লক্ষ্য করে উদ্ভূত হয়েছিল — Undetectable AI (অক্টোবর ২০২৩), StealthWriter, Humanbeing — প্রতি ১০০০ শব্দে প্যারাফ্রেজিং পরিষেবা অফার করে।
শনাক্তকরণ বিক্রেতারা হিউম্যানাইজড নমুনায় পুনরায় প্রশিক্ষণের মাধ্যমে সাড়া দিয়েছিলেন। হিউম্যানাইজার বিক্রেতারা নতুন ডিটেক্টরগুলির বিরুদ্ধে প্রশিক্ষণ দিয়ে সাড়া দিয়েছিলেন। অস্ত্র প্রতিযোগিতার চক্র মাস থেকে সপ্তাহে সংকুচিত হয়েছিল। ২০২৪ সালের মাঝামাঝি, কোনো সর্বজনীনভাবে-মোতায়েন করা ডিটেক্টর সৎভাবে হিউম্যানাইজার আউটপুটের বিরুদ্ধে ক্রমাগত পুনরায় প্রশিক্ষণ ছাড়া স্থিতিশীল নির্ভুলতার দাবি করতে পারেনি।
এর মধ্যে, জেনারেটর পরিশীলতা ত্বরান্বিত হয়েছিল। GPT-4 (মার্চ ২০২৩), Claude 3 (মার্চ ২০২৪), Gemini 1.5 (ফেব্রুয়ারি ২০২৪), Llama 2/3 (জুলাই ২০২৩ / এপ্রিল ২০২৪), Mistral রিলিজ — প্রতিটি প্রজন্ম পূর্ববর্তীটির চেয়ে পরিমাপযোগ্যভাবে শনাক্ত করা কঠিন ছিল। শনাক্তকরণ একটি চলমান-বেসলাইন সমস্যায় পরিণত হয়েছিল।
২০২৬-০৪ অনুযায়ী, শনাক্তকরণ ল্যান্ডস্কেপ একটি মোটামুটি স্থির অবস্থায় পৌঁছেছে। প্রোডাকশন ডিটেক্টর — আমাদের সহ — ইন-ডিস্ট্রিবিউশন একাডেমিক পাঠ্যে ০.৯৫–০.৯৯ পরিসরে AUC অর্জন করে, ফ্রন্টিয়ার মডেলে (GPT-5, Claude 4.5, Gemini 2.5) পুনরায় প্রশিক্ষণ ধরা না পড়া পর্যন্ত ০.৮৫–০.৯২-তে নেমে আসে। বর্তমান প্রতি-জেনারেটর সংখ্যার জন্য আমাদের নির্ভুলতা বেঞ্চমার্ক দেখুন।
যে টুলগুলি ২০২৩–২০২৪ ঝাঁকুনিতে টিকে ছিল সেগুলি হলো যেগুলি প্রথম দিন থেকে শনাক্তকরণকে একটি ক্রমাগত-পুনরায়-প্রশিক্ষণের সমস্যা হিসেবে বিবেচনা করেছিল। বিক্রেতারা যারা একটি এককালীন মডেল পাঠিয়েছিলেন এবং এটিকে সম্পন্ন বলেছিলেন তারা নীরবে বিবর্ণ হয়ে গেছেন। বাজার চলমান গবেষণা বিনিয়োগ সহ কয়েকটি প্রদানকারীর চারপাশে একত্রিত হয়েছে — আমরা, অল্প সংখ্যক বিশেষজ্ঞ বিক্রেতা, এবং প্রধান চৌর্যবৃত্তি-শনাক্তকরণ প্ল্যাটফর্মে এমবেডেড শনাক্তকরণ বৈশিষ্ট্য।
ব্যবহারকারী ল্যান্ডস্কেপও স্থিতিশীল হয়েছে। শিক্ষাবিদরা নীতি প্রকাশ করেছেন; প্রকাশকদের প্রকাশ প্রয়োজনীয়তা আছে; সার্চ ইঞ্জিন কম-গুণমানের AI অগ্রাহ্য করে; সামাজিক প্ল্যাটফর্ম AI-তৈরি বিষয়বস্তু লেবেল করে। শনাক্তকরণ এখন রুটিন, ব্যতিক্রমী নয় — কর্মপ্রবাহে এমবেডেড বরং অ্যাড-হক চালিত।
যেকোনো পাঠ্যে আমাদের AI & চৌর্যবৃত্তি পরীক্ষক ব্যবহার করে দেখুন। বাস্তব সংখ্যা, বাস্তব প্রতি-বাক্য রায়, কোনো সাইনআপ নেই।
দুটি প্রবণতা ২০২৬–২০২৭ দৃষ্টিভঙ্গিতে আধিপত্য করছে। মাল্টি-মোডাল প্রমাণ: শুধুমাত্র-পাঠ্য শনাক্তকরণে টাইপিং-ডায়নামিক্স বিশ্লেষণ, সম্পাদনা-ইতিহাস যাচাইকরণ, এবং একটি পরিচিত লেখার কর্পাসের বিরুদ্ধে লেখকত্ব-সামঞ্জস্যতা পরীক্ষা যোগ দেওয়া হবে। বিশুদ্ধ-পাঠ্য স্কোর একটি সমৃদ্ধ সিদ্ধান্তে একটি ভোটিং সদস্য হয়ে যায়।
জেনারেশন সময়ে ওয়াটারমার্কিং: OpenAI কিছু GPT ইন্টারফেসে পরীক্ষামূলক পাঠ্য-ওয়াটারমার্কিং স্থাপন করেছে। যদি ওয়াটারমার্কিং প্রধান প্রদানকারীদের মধ্যে স্ট্যান্ডার্ড হয়ে যায়, শনাক্তকরণ সম্ভাব্য অনুমান থেকে ক্রিপ্টোগ্রাফিক যাচাইকরণে স্থানান্তরিত হয়। এটি একটি মৌলিক আর্কিটেকচারাল পরিবর্তন এবং ওয়াটারমার্ক করা মডেলগুলির জন্য পরিসংখ্যানগত শনাক্তকরণের মূল হ্রাস করবে — যখন ওপেন-ওয়েটস মডেলগুলি সম্পূর্ণরূপে পরিসংখ্যানগত অঞ্চলে থাকবে।
কোনো পরিবর্তনই পাঠ্য-ভিত্তিক পরিসংখ্যানগত শনাক্তকরণের প্রয়োজনীয়তা দূর করে না। ওপেন-ওয়েটস মডেলগুলি অ-ওয়াটারমার্কড পাঠ্য তৈরি করতে থাকবে। মাল্টি-মোডাল প্রমাণের জন্য এমন ডেটা প্রয়োজন যা অনেক কর্মপ্রবাহ সংগ্রহ করে না। পরিসংখ্যানগত পাঠ্য শনাক্তকরণ দৃশ্যমান ভবিষ্যতের জন্য প্রথম-সারির প্রতিরক্ষা হয়ে থাকবে — আমাদের প্রতিশ্রুতি হলো সেই সীমাটি সৎ ও বর্তমান রাখা।
এটি বর্তমান AI-শনাক্তকরণ অনুশীলন স্থাপনের জন্য একটি ঐতিহাসিক ওভারভিউ। নির্দিষ্ট তারিখ এবং পণ্য উল্লেখ ক্ষেত্রের ২০২৬-০৪ অবস্থা প্রতিফলিত করে। কর্তৃত্বপূর্ণ টাইমলাইন ডেটার জন্য পৃথক টুল এবং জেনারেটর বিক্রেতাদের সাথে পরামর্শ করুন।