বাড়ি › চৌর্যবৃত্তি সনাক্তকরণ কীভাবে কাজ করে: প্রযুক্তির ব্যাখ্যা

চৌর্যবৃত্তি সনাক্তকরণ কীভাবে কাজ করে: প্রযুক্তির ব্যাখ্যা

2025-02-15 · Plagiarism Detector Team

পাঠ্য নিষ্কাশন ও নথি পার্সিং

যেকোনো চৌর্যবৃত্তি বিশ্লেষণ শুরু হওয়ার আগে, সফটওয়্যারটিকে জমা দেওয়া নথি থেকে পরিষ্কার, অনুসন্ধানযোগ্য পাঠ্য বের করতে হবে। এটি যতটা মনে হয় তার চেয়ে আরও জটিল সমস্যা, কারণ নথিগুলি বিস্তৃত বিভিন্ন ফরম্যাটে আসে — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT এবং HTML, অন্যদের মধ্যে — প্রতিটির ফর্ম্যাটিং, মেটাডেটা, এমবেড করা বস্তু এবং এনকোডিংয়ের নিজস্ব অভ্যন্তরীণ কাঠামো। একটি নির্ভরযোগ্য পাঠ্য নিষ্কাশন পাইপলাইন অবশ্যই এই সমস্ত ফরম্যাটগুলি ধারাবাহিকভাবে পরিচালনা করতে হবে, তুলনার জন্য উপযুক্ত স্বাভাবিক সরল পাঠ্য তৈরি করে।

চৌর্যবৃত্তি সনাক্তকারী নির্ভরযোগ্যতা সর্বাধিক করতে একটি ৫-স্তরীয় পাঠ্য নিষ্কাশন আর্কিটেকচার ব্যবহার করে। DOCX ফাইলের জন্য, প্রথম স্তর সরাসরি নেটিভ DocX XML কাঠামো পার্স করে। যদি এটি ব্যর্থ হয় (দুর্নীতি বা অ-মানক ফর্ম্যাটিংয়ের কারণে), সিস্টেম Microsoft-এর iFilter ইন্টারফেসে ফলব্যাক করে, তারপর কাঁচা OpenXML পার্সিংয়ে, এবং অবশেষে শেষ-অবলম্বন সার্বজনীন এক্সট্র্যাক্টর হিসাবে Apache Tika-তে। এই ক্যাসকেডিং পদ্ধতির অর্থ হলো এমনকি ক্ষতিগ্রস্ত বা অ-মানক নথিও ব্যবহারযোগ্য পাঠ্য তৈরি করে। একই মাল্টি-টায়ার নীতি সমস্ত ১২+ সমর্থিত ফরম্যাট জুড়ে প্রযোজ্য, নিশ্চিত করে যে কোনো নথি অপ্রক্রিয়াকৃত থাকে না।

নিষ্কাশন প্রক্রিয়া এনকোডিং নর্মালাইজেশনও পরিচালনা করে — বিভিন্ন ক্যারেক্টার এনকোডিং (UTF-8, UTF-16, Windows-1252, ISO-8859 ভেরিয়েন্ট) থেকে পাঠ্যকে একটি একীভূত অভ্যন্তরীণ উপস্থাপনায় রূপান্তরিত করে। এটি গুরুত্বপূর্ণ কারণ এনকোডিং অমিল বাইট স্তরে অভিন্ন পাঠ্যকে ভিন্ন দেখাতে পারে, চৌর্যবৃত্তির মিল মিসড হওয়ার দিকে নিয়ে যায়। সঠিক নিষ্কাশন প্রতিটি পরবর্তী সনাক্তকরণ পর্যায়ের ভিত্তি স্থাপন করে।

পাঠ্য ফিঙ্গারপ্রিন্টিং

পরিষ্কার পাঠ্য নিষ্কাশিত হলে, সনাক্তকরণ ইঞ্জিন পাঠ্য ফিঙ্গারপ্রিন্টিং নামক একটি প্রক্রিয়ার মাধ্যমে এটিকে বিশ্লেষণযোগ্য এককগুলিতে ভাঙে। নথিটি শব্দগুলির ওভারল্যাপিং সিকোয়েন্সে (n-gram) বিভক্ত হয় এবং প্রতিটি সিকোয়েন্স একটি কম্প্যাক্ট সংখ্যাগত হ্যাশে রূপান্তরিত হয় — একটি ফিঙ্গারপ্রিন্ট। এই ফিঙ্গারপ্রিন্টগুলি দক্ষ পরিচয়কারী হিসাবে কাজ করে যা প্রতিবার ব্যয়বহুল পূর্ণ-পাঠ্য তুলনা না করে অন্যান্য উৎস থেকে ফিঙ্গারপ্রিন্টের বিপরীতে দ্রুত তুলনা করা যায়।

ফিঙ্গারপ্রিন্টিং অ্যালগরিদমকে দক্ষতার বিপরীতে সংবেদনশীলতার ভারসাম্য করতে হবে। সংক্ষিপ্ত n-gram (৩-৪ শব্দ) আরও মিল ধরে কিন্তু সাধারণ বাক্যাংশ থেকে অতিরিক্ত মিথ্যা ইতিবাচক তৈরি করে। দীর্ঘতর n-gram (৮-১০ শব্দ) আরও নির্দিষ্ট কিন্তু কয়েকটি শব্দ পরিবর্তন করা হলে চৌর্যবৃত্তি মিস করতে পারে। উন্নত সিস্টেমগুলি উইনোয়িং অ্যালগরিদমের সাথে মিলিয়ে পরিবর্তনশীল-দৈর্ঘ্য ফিঙ্গারপ্রিন্টিং ব্যবহার করে যা ফিঙ্গারপ্রিন্টের একটি প্রতিনিধি উপসেট নির্বাচন করে, যেকোনো আকারের নথির জন্য তুলনার স্থান পরিচালনাযোগ্য রেখে সনাক্তকরণের নির্ভুলতা বজায় রাখে।

সার্চ ইঞ্জিন কোয়েরি

নথি ফিঙ্গারপ্রিন্ট করার পরে, সনাক্তকরণ ইঞ্জিনকে ইন্টারনেট জুড়ে বিদ্যমান বিষয়বস্তুর বিপরীতে সেই ফিঙ্গারপ্রিন্টগুলি তুলনা করতে হবে। চৌর্যবৃত্তি সনাক্তকারী একটি বৈশিষ্ট্যমূলক পদ্ধতি গ্রহণ করে: একটি একক মালিকানাধীন ডেটাবেসের উপর নির্ভর করার পরিবর্তে, এটি চারটি প্রধান সার্চ ইঞ্জিন একসাথে — Google, Bing, Yahoo এবং DuckDuckGo — কোয়েরি করে — ৪ বিলিয়নেরও বেশি ওয়েব পেজের তাদের সম্মিলিত সূচকে অ্যাক্সেস করে। এই মাল্টি-ইঞ্জিন কৌশল উৎসের কভারেজ নাটকীয়ভাবে বৃদ্ধি করে, কারণ প্রতিটি সার্চ ইঞ্জিন ওয়েবের বিভিন্ন অংশ সূচিকৃত করে এবং ফলাফল ভিন্নভাবে র্যাঙ্ক করে।

কোয়েরি প্রক্রিয়াটি সার্চ কোয়েরি হিসাবে জমা দেওয়ার জন্য পাঠ্য টুকরোগুলির বুদ্ধিমান ঘূর্ণন ও নির্বাচন ব্যবহার করে। প্রতিটি ফিঙ্গারপ্রিন্ট কোয়েরি করা হয় না — ইঞ্জিন নথি থেকে সবচেয়ে বিশিষ্ট অনুচ্ছেদগুলি নির্বাচন করে, যেগুলি সাধারণ বাক্যাংশের পরিবর্তে অর্থবহ মিল ফেরত দেওয়ার সবচেয়ে বেশি সম্ভাবনা রাখে। কোয়েরি শিডিউলিং রেট সীমা পরিচালনা করে এবং থ্রুপুট বজায় রাখতে ইঞ্জিন জুড়ে অনুরোধ বিতরণ করে। ফলাফলটি সর্বজনীনভাবে উপলব্ধ ইন্টারনেট বিষয়বস্তুর একটি ব্যাপক সুইপ যা কোনো একক-ইঞ্জিন পদ্ধতি পুনরাবৃত্তি করতে পারে না, একাডেমিক রিপোজিটরি, সংবাদ আর্কাইভ, বিষয়বস্তু খামার, প্রবন্ধ মিল এবং সাধারণ ওয়েব পেজ একইভাবে কভার করে।

উৎস পুনরুদ্ধার এবং তুলনা

যখন সার্চ ইঞ্জিন কোয়েরিগুলি সম্ভাব্য মেলে যাওয়া URL ফেরত দেয়, সনাক্তকরণ ইঞ্জিন উৎস পুনরুদ্ধার এবং তুলনা পর্যায়ে প্রবেশ করে। প্রতিটি প্রার্থী উৎস পেজ আনা হয়, এর বিষয়বস্তু নিষ্কাশিত ও স্বাভাবিক করা হয় (প্রকৃত নিবন্ধ পাঠ্যকে বিচ্ছিন্ন করতে HTML ট্যাগ, নেভিগেশন উপাদান, হেডার এবং ফুটার স্ট্রিপ করে) এবং তারপর জমা দেওয়া নথির বিপরীতে সারিবদ্ধ করা হয়। এই সারিবদ্ধতা সিকোয়েন্স মিলন অ্যালগরিদম ব্যবহার করে যা দুটি পাঠ্যের মধ্যে দীর্ঘতম সাধারণ সাবসিকোয়েন্সগুলি সনাক্ত করে, বিরামচিহ্ন, হোয়াইটস্পেস এবং ফর্ম্যাটিংয়ের সামান্য বিভিন্নতার জন্য হিসাব করে।

তুলনা সঠিক মিলের মধ্যে সীমাবদ্ধ নয়। ইঞ্জিন ফাজি মিলন সম্পাদন করে সেই অনুচ্ছেদগুলি সনাক্ত করতে যেখানে পৃথক শব্দগুলি প্রতিশব্দ দিয়ে প্রতিস্থাপিত হয়েছে, বাক্যের ক্রম পুনর্বিন্যাস করা হয়েছে, বা সংযোগকারী বাক্যাংশ যোগ করা বা সরানো হয়েছে। এটি সবচেয়ে সাধারণ ফাঁকি দেওয়ার কৌশল ধরে: সুপারফিশিয়াল পুনর্শব্দায়ন যা মূল অর্থ ও গঠন সংরক্ষণ করে। প্রতিটি মেলে যাওয়া অংশ তার উৎস URL, ওভারল্যাপের শতাংশ এবং সংশ্লিষ্ট নির্দিষ্ট পাঠ্য টুকরো সহ রেকর্ড করা হয়, মৌলিকতা প্রতিবেদনের জন্য কাঁচা ডেটা তৈরি করে।

মিল স্কোরিং

সমস্ত উৎস পুনরুদ্ধার ও তুলনা করার পরে, ইঞ্জিন একটি মিল স্কোর গণনা করে — একটি শতাংশ যা জমা দেওয়া নথি বাহ্যিক উৎসের সাথে কতটা মেলে তা প্রতিনিধিত্ব করে। এই গণনা একটি সাধারণ অনুপাতের চেয়ে আরও সূক্ষ্ম। ইঞ্জিন বিভিন্ন ধরনের মিলের মধ্যে পার্থক্য করে: সঠিক অনুলিপি, নিকট-মিল (প্যারাফ্রেজড অনুচ্ছেদ), সঠিকভাবে উদ্ধৃত ও উল্লেখিত উপাদান, এবং সাধারণ বাক্যাংশ বা বয়লারপ্লেট পাঠ্য যা চৌর্যবৃত্তি নির্দেশ করে না।

চৌর্যবৃত্তি সনাক্তকারীর রেফারেন্স সনাক্তকরণ সিস্টেম স্বয়ংক্রিয়ভাবে নথির মধ্যে উদ্ধৃতি, কোটেশন এবং গ্রন্থপঞ্জীগত রেফারেন্স সনাক্ত করে এবং অনুদ্ধৃত মিল থেকে আলাদাভাবে তাদের সাথে আচরণ করে। উদ্ধৃতি চিহ্নে আবদ্ধ এবং একটি উদ্ধৃতির পরে থাকা পাঠ্যের একটি ব্লক একটি বৈধ রেফারেন্স হিসাবে চিহ্নিত হয়, চৌর্যবৃত্তি হিসাবে নয়। এটি স্ফীত মিল স্কোর প্রতিরোধ করে যা অন্যথায় সুপরিকল্পিত কাগজগুলিকে উৎসের সঠিক ব্যবহারের জন্য জরিমানা করবে। চূড়ান্ত স্কোর প্রকৃত মৌলিকতার উদ্বেগগুলি প্রতিফলিত করে, পর্যালোচকদের একটি অর্থপূর্ণ ও কার্যকর মেট্রিক দেয়।

AI বিষয়বস্তু সনাক্তকরণ

AI-উৎপন্ন পাঠ্য আরও প্রচলিত হওয়ার সাথে সাথে, চৌর্যবৃত্তি সনাক্তকরণকে এমন বিষয়বস্তুর সমাধান করতে হবে যা কোনো বিদ্যমান উৎস থেকে অনুলিপি করা হয়নি কিন্তু তবুও মূল মানব কাজ নয়। চৌর্যবৃত্তি সনাক্তকারী ০.৯৮ সংবেদনশীলতার সাথে একটি সমন্বিত AI বিষয়বস্তু সনাক্তকরণ মডিউল অন্তর্ভুক্ত করে, ChatGPT, Gemini এবং HuggingChat সহ বড় ভাষা মডেল দ্বারা তৈরি পাঠ্য সনাক্ত করতে সক্ষম। সনাক্তকরণ পাঠ্যের পরিসংখ্যানগত বৈশিষ্ট্য বিশ্লেষণ করে কাজ করে — শব্দ ফ্রিকোয়েন্সি বিতরণ, বাক্য-স্তরের পার্প্লেক্সিটি, বার্স্টিনেস নিদর্শন এবং টোকেন সম্ভাবনা সিকোয়েন্স — যা মানব ও মেশিন লেখার মধ্যে পদ্ধতিগতভাবে পার্থক্য করে।

মানব লেখা বাক্যের দৈর্ঘ্যে আরও বেশি পরিবর্তনশীলতা, আরও অনির্ভরযোগ্য শব্দ পছন্দ এবং জটিলতার অনিয়মিত নিদর্শন প্রদর্শন করে। AI-উৎপন্ন পাঠ্য, বিপরীতে, আরও অভিন্ন বাক্য গঠন ও এর সম্ভাবনা বিতরণে একটি বৈশিষ্ট্যমূলক "মসৃণতা" সহ পরিসংখ্যানগতভাবে সম্ভাব্য শব্দ সিকোয়েন্সের দিকে মাধ্যাকর্ষণ করে। সনাক্তকরণ মডেলটি মানব ও AI পাঠ্য উভয়ের বৃহৎ কর্পোরায় প্রশিক্ষিত এবং দানাদার ফলাফল প্রদান করতে অনুচ্ছেদ স্তরে পরিচালনা করে। এই বিশ্লেষণ একটি একক স্ক্যানে ঐতিহ্যবাহী চৌর্যবৃত্তি সনাক্তকরণের পাশাপাশি চলে, তাই পর্যালোচকরা পৃথক সরঞ্জাম বা ওয়ার্কফ্লো প্রয়োজন ছাড়াই অনুলিপিকৃত বিষয়বস্তু এবং AI-উৎপন্ন অনুচ্ছেদ উভয় কভার করা একটি একীভূত প্রতিবেদন পান।

অ্যান্টি-চিটিং প্রযুক্তি

পরিশীলিত ব্যবহারকারীরা বিভিন্ন প্রযুক্তিগত কৌশলের মাধ্যমে চৌর্যবৃত্তি সনাক্তকরণকে পরাজিত করার চেষ্টা করে। সবচেয়ে সাধারণ ফাঁকি দেওয়ার কৌশল হলো Unicode ক্যারেক্টার প্রতিস্থাপন — অন্যান্য Unicode স্ক্রিপ্ট থেকে দৃশ্যত অভিন্ন অক্ষর দিয়ে লাতিন অক্ষর প্রতিস্থাপন করা। উদাহরণস্বরূপ, সিরিলিক অক্ষর "a" (U+0430) স্ক্রিনে লাতিন অক্ষর "a" (U+0061)-এর মতো দেখতে কিন্তু কোড পয়েন্ট স্তরে এরা আলাদা অক্ষর। একটি ন্যায়সঙ্গত পাঠ্য তুলনা সিরিলিক "a" দিয়ে বানান করা "academic"-কে সম্পূর্ণ ভিন্ন শব্দ হিসাবে বিবেচনা করবে, যার ফলে চুরি করা অনুচ্ছেদ সনাক্তকরণ এড়িয়ে যাবে।

চৌর্যবৃত্তি সনাক্তকারী এটি তার Unicode Anti-Cheating Engine (UACE) দিয়ে সমাধান করে। তুলনার আগে, UACE Unicode ব্লক জুড়ে দৃশ্যত সমতুল্য অক্ষরগুলি ম্যাপ করে — সিরিলিক, গ্রিক, আর্মেনীয় এবং লুকালিকে অক্ষরযুক্ত অন্যান্য স্ক্রিপ্ট — তাদের লাতিন সমতুল্যে ফিরিয়ে দিয়ে সমস্ত পাঠ্য স্বাভাবিক করে। ইঞ্জিন শত শত ক্যারেক্টার জোড়া কভার করে একটি ব্যাপক প্রতিস্থাপন টেবিল বজায় রাখে। এই নর্মালাইজেশন পাঠ্য নিষ্কাশন পর্যায়ে স্বচ্ছভাবে ঘটে, তাই উৎস নথিতে যে অক্ষর কৌশলই প্রয়োগ করা হোক না কেন প্রতিটি পরবর্তী সনাক্তকরণ পর্যায় পরিষ্কার, ক্যানোনিকাল পাঠ্যে পরিচালনা করে।

ক্যারেক্টার প্রতিস্থাপনের বাইরেও, UACE অন্যান্য ফাঁকি দেওয়ার পদ্ধতিও সনাক্ত করে যার মধ্যে শব্দ বা অক্ষরের মধ্যে অদৃশ্য Unicode অক্ষরের সন্নিবেশ (শূন্য-প্রস্থ স্পেস, শূন্য-প্রস্থ জয়নার, সফট হাইফেন), নথির মধ্যে লুকানো সাদার-উপর-সাদা পাঠ্য, এবং চেনা বাক্যাংশ ভেঙে দেওয়ার জন্য সন্নিবেশ করা মাইক্রো-ফন্ট পাঠ্য অন্তর্ভুক্ত। এই কৌশলগুলি মৌলিকতা প্রতিবেদনে ইচ্ছাকৃত কারসাজির প্রচেষ্টা হিসাবে চিহ্নিত হয়, পর্যালোচককে সতর্ক করে যে লেখক সক্রিয়ভাবে সনাক্তকরণ এড়িয়ে যাওয়ার চেষ্টা করেছে — যা নিজেই চৌর্যবৃত্তির ইচ্ছার শক্তিশালী প্রমাণ।

চৌর্যবৃত্তি সনাক্তকারী দিয়ে আপনার পাঠ্য পরীক্ষা করুন

চৌর্যবৃত্তি এবং AI-উৎপন্ন বিষয়বস্তু পরীক্ষা শুরু করতে একটি বিনামূল্যে ডেমো ডাউনলোড করুন বা লাইসেন্স কিনুন।

মৌলিকতা প্রতিবেদন

সনাক্তকরণ প্রক্রিয়ার পরিণতি হলো মৌলিকতা প্রতিবেদন — একটি বিস্তারিত নথি যা সমস্ত ফলাফল একটি সংগঠিত, পর্যালোচনাযোগ্য ফরম্যাটে উপস্থাপন করে। প্রতিবেদন জমা দেওয়া পাঠ্যে মেলে যাওয়া অনুচ্ছেদগুলি হাইলাইট করে, উৎস দ্বারা রঙ-কোড করা, প্রতিটি মিল তার সংশ্লিষ্ট URL বা ডেটাবেস এন্ট্রির সাথে সংযুক্ত। একটি সারসংক্ষেপ বিভাগ সামগ্রিক মিল স্কোর, মেলে যাওয়া উৎসের সংখ্যা, সনাক্ত AI-উৎপন্ন বিষয়বস্তুর শতাংশ এবং মিলের ধরনের বিভাজন (সঠিক, প্যারাফ্রেজড, উদ্ধৃত) দেখায়।

প্রতিষ্ঠানগুলির জন্য, মৌলিকতা প্রতিবেদনগুলি সংস্থার লোগো দিয়ে ব্র্যান্ড করা যায়, একাডেমিক সততার রেকর্ডের জন্য একটি পেশাদার, মানসম্মত ফরম্যাট প্রদান করে। প্রতিবেদনগুলি প্রমাণ-গ্রেড হওয়ার জন্য ডিজাইন করা হয়েছে — আনুষ্ঠানিক পর্যালোচনা কার্যক্রম, একাডেমিক সততার শুনানি বা আইনি প্রসঙ্গে ব্যবহারের জন্য উপযুক্ত। প্রতিবেদনের প্রতিটি দাবি স্বাধীনভাবে যাচাইযোগ্য: পর্যালোচকরা নিজেদের চোখে মিল নিশ্চিত করতে মূল উৎসে ক্লিক করতে পারেন। এই স্বচ্ছতা নিশ্চিত করে যে চৌর্যবৃত্তির ফলাফলগুলি প্রতিরক্ষাযোগ্য ও ন্যায্য, পর্যালোচনা প্রক্রিয়ার অখণ্ডতা এবং যার কাজ মূল্যায়ন করা হচ্ছে তার অধিকার উভয়ই সুরক্ষিত করে।

ডেস্কটপ বনাম ক্লাউড প্রসেসিং

চৌর্যবৃত্তি সনাক্তকরণে একটি মৌলিক আর্কিটেকচারাল পছন্দ হলো নথিগুলি স্থানীয়ভাবে ব্যবহারকারীর মেশিনে প্রক্রিয়া করা হয় নাকি একটি দূরবর্তী ক্লাউড সার্ভারে আপলোড করা হয়। ক্লাউড-ভিত্তিক চৌর্যবৃত্তি পরীক্ষকরা ব্যবহারকারীদের প্রদানকারীর সার্ভারে তাদের নথি আপলোড করতে প্রয়োজন, যেখানে পাঠ্য নিষ্কাশিত, বিশ্লেষণ করা এবং প্রায়ই একটি ডেটাবেসে সংরক্ষণ করা হয়। এটি উল্লেখযোগ্য গোপনীয়তা ও গোপনীয়তার উদ্বেগ উত্থাপন করে — বিশেষত সংবেদনশীল একাডেমিক গবেষণা, অপ্রকাশিত পাণ্ডুলিপি, আইনি নথি এবং কর্পোরেট উপকরণের জন্য। ক্লাউড সার্ভিসে আপলোড করা নথিগুলি সংরক্ষিত, সূচিকৃত বা AI মডেল প্রশিক্ষণে ব্যবহৃত হতে পারে, এবং ডেটা লঙ্ঘন গোপনীয় বিষয়বস্তু প্রকাশ করতে পারে।

চৌর্যবৃত্তি সনাক্তকারী সম্পূর্ণরূপে ডেস্কটপে পরিচালিত হয়। নথিগুলি স্থানীয়ভাবে খোলা, পার্স এবং বিশ্লেষণ করা হয় — সম্পূর্ণ পাঠ্য কখনও কোনো বাহ্যিক সার্ভারে প্রেরণ করা হয় না। শুধুমাত্র নির্বাচিত পাঠ্য টুকরো (সার্চ কোয়েরি) তুলনার জন্য সার্চ ইঞ্জিনে পাঠানো হয়, ঠিক যেমন একজন মানুষ একটি ব্রাউজারে ম্যানুয়ালি একটি বাক্যাংশ অনুসন্ধান করবেন। এই আর্কিটেকচার একটি মৌলিক গোপনীয়তা গ্যারান্টি প্রদান করে: সম্পূর্ণ নথি কখনও ব্যবহারকারীর মেশিন ছেড়ে যায় না। সংবেদনশীল উপকরণ পরিচালনাকারী প্রতিষ্ঠানগুলির জন্য — সংক্ষিপ্তসার পরীক্ষাকারী আইন সংস্থা, কাগজ পর্যালোচনাকারী চিকিৎসা গবেষক, প্রতিবেদন নিরীক্ষাকারী সরকারি সংস্থা — এই ডেস্কটপ-প্রথম পদ্ধতি শুধু একটি পছন্দ নয় বরং একটি সম্মতির প্রয়োজনীয়তা। একটি এক-বার ক্রয় মডেলের (কোনো পুনরাবৃত্তি সাবস্ক্রিপশন নেই) সাথে মিলিয়ে, এটি গোপনীয়তা ও ব্যয়ের পূর্বাভাসযোগ্যতা উভয়ই অফার করে।

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

একটি চৌর্যবৃত্তি পরীক্ষক কতগুলি উৎস অনুসন্ধান করে?

চৌর্যবৃত্তি সনাক্তকারী চারটি প্রধান সার্চ ইঞ্জিনের সম্মিলিত সূচক জুড়ে অনুসন্ধান করে — Google, Bing, Yahoo এবং DuckDuckGo — যা সম্মিলিতভাবে ৪ বিলিয়নেরও বেশি ওয়েব পেজ কভার করে। এর মধ্যে রয়েছে একাডেমিক রিপোজিটরি, সংবাদ আর্কাইভ, ব্লগ, বিষয়বস্তু প্ল্যাটফর্ম এবং সাধারণ ওয়েব। উপরন্তু, PDAS বৈশিষ্ট্য ব্যবহারকারী প্রতিষ্ঠানগুলি তাদের নিজস্ব ব্যক্তিগত নথি ডেটাবেসের বিপরীতে অনুসন্ধান করতে পারে। মাল্টি-ইঞ্জিন পদ্ধতি একটি একক সার্চ ইঞ্জিন বা একটি মালিকানাধীন ডেটাবেসের উপর নির্ভরকারী সরঞ্জামগুলির চেয়ে অনেক বেশি কভারেজ নিশ্চিত করে।

চৌর্যবৃত্তি সনাক্তকরণ কি প্যারাফ্রেজড বিষয়বস্তু ধরতে পারে?

হ্যাঁ। আধুনিক চৌর্যবৃত্তি সনাক্তকরণ সঠিক-মিলন তুলনার বাইরে যায়। চৌর্যবৃত্তি সনাক্তকারী পুনর্লিখন সনাক্তকরণ প্রযুক্তি ব্যবহার করে যা অর্থগত বিশ্লেষণ সম্পাদন করে সেই অনুচ্ছেদগুলি সনাক্ত করতে যেখানে শব্দায়ন পরিবর্তন করা হয়েছে কিন্তু অন্তর্নিহিত অর্থ ও গঠন একটি মূল উৎস থেকে সংরক্ষিত। এটি ইচ্ছাকৃত চৌর্যবৃত্তির সবচেয়ে সাধারণ রূপ ধরে — শব্দ-প্রতি-শব্দ মিল এড়াতে যথেষ্ট অন্য কারো ধারণা পুনর্শব্দায়ন করা যখন সঠিক স্বীকৃতি যোগ করতে ব্যর্থ হওয়া।

চৌর্যবৃত্তি সনাক্তকরণ সরঞ্জামগুলি কী কী ফাইল ফরম্যাট প্রক্রিয়া করতে পারে?

চৌর্যবৃত্তি সনাক্তকারী DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT এবং HTML সহ ১২+ নথি ফরম্যাট সমর্থন করে। এর ৫-স্তরীয় পাঠ্য নিষ্কাশন পাইপলাইন ক্ষতিগ্রস্ত, জটিল বা অ-মানক ফাইলগুলির সাথেও নির্ভরযোগ্য পার্সিং নিশ্চিত করে। প্রতিটি ফরম্যাটের জন্য, সিস্টেম ক্যাসকেডিং নিষ্কাশন পদ্ধতি ব্যবহার করে — নেটিভ ফরম্যাট পার্সিং থেকে সার্বজনীন ফলব্যাক এক্সট্র্যাক্টর পর্যন্ত — যাতে একটি সমর্থিত ফরম্যাটে জমা দেওয়া প্রায় যেকোনো নথি সফলভাবে প্রক্রিয়া ও বিশ্লেষণ করা যায়।

আমি একটি চৌর্যবৃত্তি পরীক্ষক ব্যবহার করলে কি আমার নথি সংরক্ষিত বা শেয়ার করা হয়?

চৌর্যবৃত্তি সনাক্তকারীর সাথে, উত্তর না। যেহেতু এটি একটি ডেস্কটপ অ্যাপ্লিকেশন, আপনার নথি সম্পূর্ণরূপে আপনার স্থানীয় মেশিনে খোলা ও প্রক্রিয়া করা হয়। সম্পূর্ণ নথি পাঠ্য কখনও কোনো সার্ভারে আপলোড করা হয় না। শুধুমাত্র সংক্ষিপ্ত পাঠ্য টুকরো সর্বজনীন সার্চ ইঞ্জিনে সার্চ কোয়েরি হিসাবে পাঠানো হয় — ঠিক একজন ওয়েব ব্রাউজারে ম্যানুয়ালি কী করবেন তার মতো। এটি ক্লাউড-ভিত্তিক চৌর্যবৃত্তি পরীক্ষকগুলির সাথে একটি মূল পার্থক্য, যার জন্য সম্পূর্ণ নথি আপলোড প্রয়োজন এবং আপনার বিষয়বস্তু সংরক্ষণ, সূচিকৃত বা ব্যবহার করতে পারে। ডেস্কটপ প্রসেসিং একটি যাচাইযোগ্য গোপনীয়তা গ্যারান্টি প্রদান করে।

AI বিষয়বস্তু সনাক্তকরণ চৌর্যবৃত্তি সনাক্তকরণের পাশাপাশি কীভাবে কাজ করে?

চৌর্যবৃত্তি সনাক্তকারী একটি একক সমন্বিত স্ক্যানে AI বিষয়বস্তু সনাক্তকরণ এবং ঐতিহ্যবাহী চৌর্যবৃত্তি সনাক্তকরণ চালায়। চৌর্যবৃত্তি ইঞ্জিন অনুলিপিকৃত বা প্যারাফ্রেজড বিষয়বস্তুর জন্য ইন্টারনেট উৎসের বিপরীতে পাঠ্য পরীক্ষা করে, যেখানে AI সনাক্তকরণ মডিউল একই সাথে পাঠ্যের পরিসংখ্যানগত বৈশিষ্ট্য বিশ্লেষণ করে — পার্প্লেক্সিটি, বার্স্টিনেস এবং টোকেন সম্ভাবনার নিদর্শন — ChatGPT, Gemini বা HuggingChat-এর মতো মডেল দ্বারা উৎপন্ন হওয়ার সম্ভাবনাযুক্ত অনুচ্ছেদ সনাক্ত করতে। ফলাফলগুলি একটি মৌলিকতা প্রতিবেদনে একত্রিত হয় যা মিলের মিল ও AI-উৎপন্ন বিষয়বস্তুর উভয় ফ্ল্যাগ দেখায়, পর্যালোচকদের পৃথক সরঞ্জাম না চালিয়ে নথির সত্যতার একটি সম্পূর্ণ চিত্র দেয়।