যেকোনো চৌর্যবৃত্তি বিশ্লেষণ শুরু হওয়ার আগে, সফটওয়্যারটিকে জমা দেওয়া নথি থেকে পরিষ্কার, অনুসন্ধানযোগ্য পাঠ্য বের করতে হবে। এটি যতটা মনে হয় তার চেয়ে আরও জটিল সমস্যা, কারণ নথিগুলি বিস্তৃত বিভিন্ন ফরম্যাটে আসে — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT এবং HTML, অন্যদের মধ্যে — প্রতিটির ফর্ম্যাটিং, মেটাডেটা, এমবেড করা বস্তু এবং এনকোডিংয়ের নিজস্ব অভ্যন্তরীণ কাঠামো। একটি নির্ভরযোগ্য পাঠ্য নিষ্কাশন পাইপলাইন অবশ্যই এই সমস্ত ফরম্যাটগুলি ধারাবাহিকভাবে পরিচালনা করতে হবে, তুলনার জন্য উপযুক্ত স্বাভাবিক সরল পাঠ্য তৈরি করে।
চৌর্যবৃত্তি সনাক্তকারী নির্ভরযোগ্যতা সর্বাধিক করতে একটি ৫-স্তরীয় পাঠ্য নিষ্কাশন আর্কিটেকচার ব্যবহার করে। DOCX ফাইলের জন্য, প্রথম স্তর সরাসরি নেটিভ DocX XML কাঠামো পার্স করে। যদি এটি ব্যর্থ হয় (দুর্নীতি বা অ-মানক ফর্ম্যাটিংয়ের কারণে), সিস্টেম Microsoft-এর iFilter ইন্টারফেসে ফলব্যাক করে, তারপর কাঁচা OpenXML পার্সিংয়ে, এবং অবশেষে শেষ-অবলম্বন সার্বজনীন এক্সট্র্যাক্টর হিসাবে Apache Tika-তে। এই ক্যাসকেডিং পদ্ধতির অর্থ হলো এমনকি ক্ষতিগ্রস্ত বা অ-মানক নথিও ব্যবহারযোগ্য পাঠ্য তৈরি করে। একই মাল্টি-টায়ার নীতি সমস্ত ১২+ সমর্থিত ফরম্যাট জুড়ে প্রযোজ্য, নিশ্চিত করে যে কোনো নথি অপ্রক্রিয়াকৃত থাকে না।
নিষ্কাশন প্রক্রিয়া এনকোডিং নর্মালাইজেশনও পরিচালনা করে — বিভিন্ন ক্যারেক্টার এনকোডিং (UTF-8, UTF-16, Windows-1252, ISO-8859 ভেরিয়েন্ট) থেকে পাঠ্যকে একটি একীভূত অভ্যন্তরীণ উপস্থাপনায় রূপান্তরিত করে। এটি গুরুত্বপূর্ণ কারণ এনকোডিং অমিল বাইট স্তরে অভিন্ন পাঠ্যকে ভিন্ন দেখাতে পারে, চৌর্যবৃত্তির মিল মিসড হওয়ার দিকে নিয়ে যায়। সঠিক নিষ্কাশন প্রতিটি পরবর্তী সনাক্তকরণ পর্যায়ের ভিত্তি স্থাপন করে।
পরিষ্কার পাঠ্য নিষ্কাশিত হলে, সনাক্তকরণ ইঞ্জিন পাঠ্য ফিঙ্গারপ্রিন্টিং নামক একটি প্রক্রিয়ার মাধ্যমে এটিকে বিশ্লেষণযোগ্য এককগুলিতে ভাঙে। নথিটি শব্দগুলির ওভারল্যাপিং সিকোয়েন্সে (n-gram) বিভক্ত হয় এবং প্রতিটি সিকোয়েন্স একটি কম্প্যাক্ট সংখ্যাগত হ্যাশে রূপান্তরিত হয় — একটি ফিঙ্গারপ্রিন্ট। এই ফিঙ্গারপ্রিন্টগুলি দক্ষ পরিচয়কারী হিসাবে কাজ করে যা প্রতিবার ব্যয়বহুল পূর্ণ-পাঠ্য তুলনা না করে অন্যান্য উৎস থেকে ফিঙ্গারপ্রিন্টের বিপরীতে দ্রুত তুলনা করা যায়।
ফিঙ্গারপ্রিন্টিং অ্যালগরিদমকে দক্ষতার বিপরীতে সংবেদনশীলতার ভারসাম্য করতে হবে। সংক্ষিপ্ত n-gram (৩-৪ শব্দ) আরও মিল ধরে কিন্তু সাধারণ বাক্যাংশ থেকে অতিরিক্ত মিথ্যা ইতিবাচক তৈরি করে। দীর্ঘতর n-gram (৮-১০ শব্দ) আরও নির্দিষ্ট কিন্তু কয়েকটি শব্দ পরিবর্তন করা হলে চৌর্যবৃত্তি মিস করতে পারে। উন্নত সিস্টেমগুলি উইনোয়িং অ্যালগরিদমের সাথে মিলিয়ে পরিবর্তনশীল-দৈর্ঘ্য ফিঙ্গারপ্রিন্টিং ব্যবহার করে যা ফিঙ্গারপ্রিন্টের একটি প্রতিনিধি উপসেট নির্বাচন করে, যেকোনো আকারের নথির জন্য তুলনার স্থান পরিচালনাযোগ্য রেখে সনাক্তকরণের নির্ভুলতা বজায় রাখে।
নথি ফিঙ্গারপ্রিন্ট করার পরে, সনাক্তকরণ ইঞ্জিনকে ইন্টারনেট জুড়ে বিদ্যমান বিষয়বস্তুর বিপরীতে সেই ফিঙ্গারপ্রিন্টগুলি তুলনা করতে হবে। চৌর্যবৃত্তি সনাক্তকারী একটি বৈশিষ্ট্যমূলক পদ্ধতি গ্রহণ করে: একটি একক মালিকানাধীন ডেটাবেসের উপর নির্ভর করার পরিবর্তে, এটি চারটি প্রধান সার্চ ইঞ্জিন একসাথে — Google, Bing, Yahoo এবং DuckDuckGo — কোয়েরি করে — ৪ বিলিয়নেরও বেশি ওয়েব পেজের তাদের সম্মিলিত সূচকে অ্যাক্সেস করে। এই মাল্টি-ইঞ্জিন কৌশল উৎসের কভারেজ নাটকীয়ভাবে বৃদ্ধি করে, কারণ প্রতিটি সার্চ ইঞ্জিন ওয়েবের বিভিন্ন অংশ সূচিকৃত করে এবং ফলাফল ভিন্নভাবে র্যাঙ্ক করে।
কোয়েরি প্রক্রিয়াটি সার্চ কোয়েরি হিসাবে জমা দেওয়ার জন্য পাঠ্য টুকরোগুলির বুদ্ধিমান ঘূর্ণন ও নির্বাচন ব্যবহার করে। প্রতিটি ফিঙ্গারপ্রিন্ট কোয়েরি করা হয় না — ইঞ্জিন নথি থেকে সবচেয়ে বিশিষ্ট অনুচ্ছেদগুলি নির্বাচন করে, যেগুলি সাধারণ বাক্যাংশের পরিবর্তে অর্থবহ মিল ফেরত দেওয়ার সবচেয়ে বেশি সম্ভাবনা রাখে। কোয়েরি শিডিউলিং রেট সীমা পরিচালনা করে এবং থ্রুপুট বজায় রাখতে ইঞ্জিন জুড়ে অনুরোধ বিতরণ করে। ফলাফলটি সর্বজনীনভাবে উপলব্ধ ইন্টারনেট বিষয়বস্তুর একটি ব্যাপক সুইপ যা কোনো একক-ইঞ্জিন পদ্ধতি পুনরাবৃত্তি করতে পারে না, একাডেমিক রিপোজিটরি, সংবাদ আর্কাইভ, বিষয়বস্তু খামার, প্রবন্ধ মিল এবং সাধারণ ওয়েব পেজ একইভাবে কভার করে।
যখন সার্চ ইঞ্জিন কোয়েরিগুলি সম্ভাব্য মেলে যাওয়া URL ফেরত দেয়, সনাক্তকরণ ইঞ্জিন উৎস পুনরুদ্ধার এবং তুলনা পর্যায়ে প্রবেশ করে। প্রতিটি প্রার্থী উৎস পেজ আনা হয়, এর বিষয়বস্তু নিষ্কাশিত ও স্বাভাবিক করা হয় (প্রকৃত নিবন্ধ পাঠ্যকে বিচ্ছিন্ন করতে HTML ট্যাগ, নেভিগেশন উপাদান, হেডার এবং ফুটার স্ট্রিপ করে) এবং তারপর জমা দেওয়া নথির বিপরীতে সারিবদ্ধ করা হয়। এই সারিবদ্ধতা সিকোয়েন্স মিলন অ্যালগরিদম ব্যবহার করে যা দুটি পাঠ্যের মধ্যে দীর্ঘতম সাধারণ সাবসিকোয়েন্সগুলি সনাক্ত করে, বিরামচিহ্ন, হোয়াইটস্পেস এবং ফর্ম্যাটিংয়ের সামান্য বিভিন্নতার জন্য হিসাব করে।
তুলনা সঠিক মিলের মধ্যে সীমাবদ্ধ নয়। ইঞ্জিন ফাজি মিলন সম্পাদন করে সেই অনুচ্ছেদগুলি সনাক্ত করতে যেখানে পৃথক শব্দগুলি প্রতিশব্দ দিয়ে প্রতিস্থাপিত হয়েছে, বাক্যের ক্রম পুনর্বিন্যাস করা হয়েছে, বা সংযোগকারী বাক্যাংশ যোগ করা বা সরানো হয়েছে। এটি সবচেয়ে সাধারণ ফাঁকি দেওয়ার কৌশল ধরে: সুপারফিশিয়াল পুনর্শব্দায়ন যা মূল অর্থ ও গঠন সংরক্ষণ করে। প্রতিটি মেলে যাওয়া অংশ তার উৎস URL, ওভারল্যাপের শতাংশ এবং সংশ্লিষ্ট নির্দিষ্ট পাঠ্য টুকরো সহ রেকর্ড করা হয়, মৌলিকতা প্রতিবেদনের জন্য কাঁচা ডেটা তৈরি করে।
সমস্ত উৎস পুনরুদ্ধার ও তুলনা করার পরে, ইঞ্জিন একটি মিল স্কোর গণনা করে — একটি শতাংশ যা জমা দেওয়া নথি বাহ্যিক উৎসের সাথে কতটা মেলে তা প্রতিনিধিত্ব করে। এই গণনা একটি সাধারণ অনুপাতের চেয়ে আরও সূক্ষ্ম। ইঞ্জিন বিভিন্ন ধরনের মিলের মধ্যে পার্থক্য করে: সঠিক অনুলিপি, নিকট-মিল (প্যারাফ্রেজড অনুচ্ছেদ), সঠিকভাবে উদ্ধৃত ও উল্লেখিত উপাদান, এবং সাধারণ বাক্যাংশ বা বয়লারপ্লেট পাঠ্য যা চৌর্যবৃত্তি নির্দেশ করে না।
চৌর্যবৃত্তি সনাক্তকারীর রেফারেন্স সনাক্তকরণ সিস্টেম স্বয়ংক্রিয়ভাবে নথির মধ্যে উদ্ধৃতি, কোটেশন এবং গ্রন্থপঞ্জীগত রেফারেন্স সনাক্ত করে এবং অনুদ্ধৃত মিল থেকে আলাদাভাবে তাদের সাথে আচরণ করে। উদ্ধৃতি চিহ্নে আবদ্ধ এবং একটি উদ্ধৃতির পরে থাকা পাঠ্যের একটি ব্লক একটি বৈধ রেফারেন্স হিসাবে চিহ্নিত হয়, চৌর্যবৃত্তি হিসাবে নয়। এটি স্ফীত মিল স্কোর প্রতিরোধ করে যা অন্যথায় সুপরিকল্পিত কাগজগুলিকে উৎসের সঠিক ব্যবহারের জন্য জরিমানা করবে। চূড়ান্ত স্কোর প্রকৃত মৌলিকতার উদ্বেগগুলি প্রতিফলিত করে, পর্যালোচকদের একটি অর্থপূর্ণ ও কার্যকর মেট্রিক দেয়।
AI-উৎপন্ন পাঠ্য আরও প্রচলিত হওয়ার সাথে সাথে, চৌর্যবৃত্তি সনাক্তকরণকে এমন বিষয়বস্তুর সমাধান করতে হবে যা কোনো বিদ্যমান উৎস থেকে অনুলিপি করা হয়নি কিন্তু তবুও মূল মানব কাজ নয়। চৌর্যবৃত্তি সনাক্তকারী ০.৯৮ সংবেদনশীলতার সাথে একটি সমন্বিত AI বিষয়বস্তু সনাক্তকরণ মডিউল অন্তর্ভুক্ত করে, ChatGPT, Gemini এবং HuggingChat সহ বড় ভাষা মডেল দ্বারা তৈরি পাঠ্য সনাক্ত করতে সক্ষম। সনাক্তকরণ পাঠ্যের পরিসংখ্যানগত বৈশিষ্ট্য বিশ্লেষণ করে কাজ করে — শব্দ ফ্রিকোয়েন্সি বিতরণ, বাক্য-স্তরের পার্প্লেক্সিটি, বার্স্টিনেস নিদর্শন এবং টোকেন সম্ভাবনা সিকোয়েন্স — যা মানব ও মেশিন লেখার মধ্যে পদ্ধতিগতভাবে পার্থক্য করে।
মানব লেখা বাক্যের দৈর্ঘ্যে আরও বেশি পরিবর্তনশীলতা, আরও অনির্ভরযোগ্য শব্দ পছন্দ এবং জটিলতার অনিয়মিত নিদর্শন প্রদর্শন করে। AI-উৎপন্ন পাঠ্য, বিপরীতে, আরও অভিন্ন বাক্য গঠন ও এর সম্ভাবনা বিতরণে একটি বৈশিষ্ট্যমূলক "মসৃণতা" সহ পরিসংখ্যানগতভাবে সম্ভাব্য শব্দ সিকোয়েন্সের দিকে মাধ্যাকর্ষণ করে। সনাক্তকরণ মডেলটি মানব ও AI পাঠ্য উভয়ের বৃহৎ কর্পোরায় প্রশিক্ষিত এবং দানাদার ফলাফল প্রদান করতে অনুচ্ছেদ স্তরে পরিচালনা করে। এই বিশ্লেষণ একটি একক স্ক্যানে ঐতিহ্যবাহী চৌর্যবৃত্তি সনাক্তকরণের পাশাপাশি চলে, তাই পর্যালোচকরা পৃথক সরঞ্জাম বা ওয়ার্কফ্লো প্রয়োজন ছাড়াই অনুলিপিকৃত বিষয়বস্তু এবং AI-উৎপন্ন অনুচ্ছেদ উভয় কভার করা একটি একীভূত প্রতিবেদন পান।
পরিশীলিত ব্যবহারকারীরা বিভিন্ন প্রযুক্তিগত কৌশলের মাধ্যমে চৌর্যবৃত্তি সনাক্তকরণকে পরাজিত করার চেষ্টা করে। সবচেয়ে সাধারণ ফাঁকি দেওয়ার কৌশল হলো Unicode ক্যারেক্টার প্রতিস্থাপন — অন্যান্য Unicode স্ক্রিপ্ট থেকে দৃশ্যত অভিন্ন অক্ষর দিয়ে লাতিন অক্ষর প্রতিস্থাপন করা। উদাহরণস্বরূপ, সিরিলিক অক্ষর "a" (U+0430) স্ক্রিনে লাতিন অক্ষর "a" (U+0061)-এর মতো দেখতে কিন্তু কোড পয়েন্ট স্তরে এরা আলাদা অক্ষর। একটি ন্যায়সঙ্গত পাঠ্য তুলনা সিরিলিক "a" দিয়ে বানান করা "academic"-কে সম্পূর্ণ ভিন্ন শব্দ হিসাবে বিবেচনা করবে, যার ফলে চুরি করা অনুচ্ছেদ সনাক্তকরণ এড়িয়ে যাবে।
চৌর্যবৃত্তি সনাক্তকারী এটি তার Unicode Anti-Cheating Engine (UACE) দিয়ে সমাধান করে। তুলনার আগে, UACE Unicode ব্লক জুড়ে দৃশ্যত সমতুল্য অক্ষরগুলি ম্যাপ করে — সিরিলিক, গ্রিক, আর্মেনীয় এবং লুকালিকে অক্ষরযুক্ত অন্যান্য স্ক্রিপ্ট — তাদের লাতিন সমতুল্যে ফিরিয়ে দিয়ে সমস্ত পাঠ্য স্বাভাবিক করে। ইঞ্জিন শত শত ক্যারেক্টার জোড়া কভার করে একটি ব্যাপক প্রতিস্থাপন টেবিল বজায় রাখে। এই নর্মালাইজেশন পাঠ্য নিষ্কাশন পর্যায়ে স্বচ্ছভাবে ঘটে, তাই উৎস নথিতে যে অক্ষর কৌশলই প্রয়োগ করা হোক না কেন প্রতিটি পরবর্তী সনাক্তকরণ পর্যায় পরিষ্কার, ক্যানোনিকাল পাঠ্যে পরিচালনা করে।
ক্যারেক্টার প্রতিস্থাপনের বাইরেও, UACE অন্যান্য ফাঁকি দেওয়ার পদ্ধতিও সনাক্ত করে যার মধ্যে শব্দ বা অক্ষরের মধ্যে অদৃশ্য Unicode অক্ষরের সন্নিবেশ (শূন্য-প্রস্থ স্পেস, শূন্য-প্রস্থ জয়নার, সফট হাইফেন), নথির মধ্যে লুকানো সাদার-উপর-সাদা পাঠ্য, এবং চেনা বাক্যাংশ ভেঙে দেওয়ার জন্য সন্নিবেশ করা মাইক্রো-ফন্ট পাঠ্য অন্তর্ভুক্ত। এই কৌশলগুলি মৌলিকতা প্রতিবেদনে ইচ্ছাকৃত কারসাজির প্রচেষ্টা হিসাবে চিহ্নিত হয়, পর্যালোচককে সতর্ক করে যে লেখক সক্রিয়ভাবে সনাক্তকরণ এড়িয়ে যাওয়ার চেষ্টা করেছে — যা নিজেই চৌর্যবৃত্তির ইচ্ছার শক্তিশালী প্রমাণ।
চৌর্যবৃত্তি এবং AI-উৎপন্ন বিষয়বস্তু পরীক্ষা শুরু করতে একটি বিনামূল্যে ডেমো ডাউনলোড করুন বা লাইসেন্স কিনুন।
সনাক্তকরণ প্রক্রিয়ার পরিণতি হলো মৌলিকতা প্রতিবেদন — একটি বিস্তারিত নথি যা সমস্ত ফলাফল একটি সংগঠিত, পর্যালোচনাযোগ্য ফরম্যাটে উপস্থাপন করে। প্রতিবেদন জমা দেওয়া পাঠ্যে মেলে যাওয়া অনুচ্ছেদগুলি হাইলাইট করে, উৎস দ্বারা রঙ-কোড করা, প্রতিটি মিল তার সংশ্লিষ্ট URL বা ডেটাবেস এন্ট্রির সাথে সংযুক্ত। একটি সারসংক্ষেপ বিভাগ সামগ্রিক মিল স্কোর, মেলে যাওয়া উৎসের সংখ্যা, সনাক্ত AI-উৎপন্ন বিষয়বস্তুর শতাংশ এবং মিলের ধরনের বিভাজন (সঠিক, প্যারাফ্রেজড, উদ্ধৃত) দেখায়।
প্রতিষ্ঠানগুলির জন্য, মৌলিকতা প্রতিবেদনগুলি সংস্থার লোগো দিয়ে ব্র্যান্ড করা যায়, একাডেমিক সততার রেকর্ডের জন্য একটি পেশাদার, মানসম্মত ফরম্যাট প্রদান করে। প্রতিবেদনগুলি প্রমাণ-গ্রেড হওয়ার জন্য ডিজাইন করা হয়েছে — আনুষ্ঠানিক পর্যালোচনা কার্যক্রম, একাডেমিক সততার শুনানি বা আইনি প্রসঙ্গে ব্যবহারের জন্য উপযুক্ত। প্রতিবেদনের প্রতিটি দাবি স্বাধীনভাবে যাচাইযোগ্য: পর্যালোচকরা নিজেদের চোখে মিল নিশ্চিত করতে মূল উৎসে ক্লিক করতে পারেন। এই স্বচ্ছতা নিশ্চিত করে যে চৌর্যবৃত্তির ফলাফলগুলি প্রতিরক্ষাযোগ্য ও ন্যায্য, পর্যালোচনা প্রক্রিয়ার অখণ্ডতা এবং যার কাজ মূল্যায়ন করা হচ্ছে তার অধিকার উভয়ই সুরক্ষিত করে।
চৌর্যবৃত্তি সনাক্তকরণে একটি মৌলিক আর্কিটেকচারাল পছন্দ হলো নথিগুলি স্থানীয়ভাবে ব্যবহারকারীর মেশিনে প্রক্রিয়া করা হয় নাকি একটি দূরবর্তী ক্লাউড সার্ভারে আপলোড করা হয়। ক্লাউড-ভিত্তিক চৌর্যবৃত্তি পরীক্ষকরা ব্যবহারকারীদের প্রদানকারীর সার্ভারে তাদের নথি আপলোড করতে প্রয়োজন, যেখানে পাঠ্য নিষ্কাশিত, বিশ্লেষণ করা এবং প্রায়ই একটি ডেটাবেসে সংরক্ষণ করা হয়। এটি উল্লেখযোগ্য গোপনীয়তা ও গোপনীয়তার উদ্বেগ উত্থাপন করে — বিশেষত সংবেদনশীল একাডেমিক গবেষণা, অপ্রকাশিত পাণ্ডুলিপি, আইনি নথি এবং কর্পোরেট উপকরণের জন্য। ক্লাউড সার্ভিসে আপলোড করা নথিগুলি সংরক্ষিত, সূচিকৃত বা AI মডেল প্রশিক্ষণে ব্যবহৃত হতে পারে, এবং ডেটা লঙ্ঘন গোপনীয় বিষয়বস্তু প্রকাশ করতে পারে।
চৌর্যবৃত্তি সনাক্তকারী সম্পূর্ণরূপে ডেস্কটপে পরিচালিত হয়। নথিগুলি স্থানীয়ভাবে খোলা, পার্স এবং বিশ্লেষণ করা হয় — সম্পূর্ণ পাঠ্য কখনও কোনো বাহ্যিক সার্ভারে প্রেরণ করা হয় না। শুধুমাত্র নির্বাচিত পাঠ্য টুকরো (সার্চ কোয়েরি) তুলনার জন্য সার্চ ইঞ্জিনে পাঠানো হয়, ঠিক যেমন একজন মানুষ একটি ব্রাউজারে ম্যানুয়ালি একটি বাক্যাংশ অনুসন্ধান করবেন। এই আর্কিটেকচার একটি মৌলিক গোপনীয়তা গ্যারান্টি প্রদান করে: সম্পূর্ণ নথি কখনও ব্যবহারকারীর মেশিন ছেড়ে যায় না। সংবেদনশীল উপকরণ পরিচালনাকারী প্রতিষ্ঠানগুলির জন্য — সংক্ষিপ্তসার পরীক্ষাকারী আইন সংস্থা, কাগজ পর্যালোচনাকারী চিকিৎসা গবেষক, প্রতিবেদন নিরীক্ষাকারী সরকারি সংস্থা — এই ডেস্কটপ-প্রথম পদ্ধতি শুধু একটি পছন্দ নয় বরং একটি সম্মতির প্রয়োজনীয়তা। একটি এক-বার ক্রয় মডেলের (কোনো পুনরাবৃত্তি সাবস্ক্রিপশন নেই) সাথে মিলিয়ে, এটি গোপনীয়তা ও ব্যয়ের পূর্বাভাসযোগ্যতা উভয়ই অফার করে।