לפני שניתן להתחיל בניתוח פלגיאט כלשהו, התוכנה חייבת לחלץ טקסט נקי וניתן לחיפוש מהמסמך שהוגש. זוהי בעיה מורכבת יותר ממה שנראה, מכיוון שמסמכים מגיעים במגוון רחב של פורמטים — DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT ו-HTML, בין היתר — כל אחד עם המבנה הפנימי שלו של עיצוב, מטא-נתונים, אובייקטים מוטמעים וקידוד. צינור חילוץ טקסט אמין חייב לטפל בכל הפורמטים הללו באופן עקבי, ולייצר טקסט רגיל מנורמל המתאים להשוואה.
גלאי פלגיאט משתמש בארכיטקטורת חילוץ טקסט 5 שכבות למקסום האמינות. עבור קבצי DOCX, השכבה הראשונה מנתחת את מבנה ה-DocX XML המקורי ישירות. אם זה נכשל (עקב שחיתות או עיצוב לא סטנדרטי), המערכת נסוגה לממשק iFilter של Microsoft, ואחר כך לניתוח OpenXML גולמי, ולבסוף ל-Apache Tika כמחלץ אוניברסלי של מוצא אחרון. גישה מדורגת זו פירושה שאפילו מסמכים פגומים או לא סטנדרטיים מניבים טקסט שמיש. אותו עיקרון רב-שכבתי חל על כל 12 הפורמטים הנתמכים ויותר, ומבטיח שאף מסמך לא ייוותר ללא עיבוד.
תהליך החילוץ מטפל גם בנורמליזציה של קידוד — המרת טקסט מקידודי תווים שונים (UTF-8, UTF-16, Windows-1252, גרסאות ISO-8859) לייצוג פנימי מאוחד. זה קריטי מכיוון שאי-התאמות קידוד יכולות לגרום לטקסטים זהים להיראות שונים ברמת הבית, ולהוביל להחמצת התאמות פלגיאט. חילוץ נאות מניח את הבסיס לכל שלב גילוי עוקב.
לאחר חילוץ טקסט נקי, מנוע הגילוי שובר אותו ליחידות ניתנות לניתוח דרך תהליך הנקרא טביעות אצבע טקסט. המסמך מפוצל לרצפים חופפים של מילים (n-גרמות), וכל רצף מומר לחשיש מספרי קומפקטי — טביעת אצבע. טביעות אצבע אלה משמשות כמזהים יעילים שניתן להשוות במהירות מול טביעות אצבע ממקורות אחרים מבלי לבצע כל פעם השוואות טקסט מלאות יקרות.
אלגוריתם טביעת האצבע חייב לאזן בין רגישות ליעילות. n-גרמות קצרות (3-4 מילים) תופסות יותר התאמות אך מייצרות חיוביים כוזבים מוגזמים מביטויים נפוצים. n-גרמות ארוכות יותר (8-10 מילים) הן ספציפיות יותר אך עשויות להחמיץ פלגיאט שבו מספר מילים שונו. מערכות מתקדמות משתמשות בטביעות אצבע בשורה משתנה בשילוב עם אלגוריתמי winnowing הבוחרים תת-קבוצה ייצוגית של טביעות אצבע, תוך שמירה על דיוק הגילוי תוך שמירת מרחב ההשוואה ניהולי עבור מסמכים בכל גודל.
עם טביעת האצבע של המסמך, מנוע הגילוי חייב להשוות טביעות אצבע אלה מול תוכן קיים ברחבי האינטרנט. גלאי פלגיאט נוקט בגישה ייחודית: במקום להסתמך על מסד נתונים קנייני יחיד, הוא שולח שאילתות לארבעה מנועי חיפוש עיקריים בו-זמנית — Google, Bing, Yahoo ו-DuckDuckGo — ומגיע לאינדקס המשולב שלהם של יותר מ-4 מיליארד דפי אינטרנט. אסטרטגיית ריבוי-מנועים זו מגדילה דרמטית את כיסוי המקורות, מכיוון שכל מנוע חיפוש מאנדקס חלקים שונים של האינטרנט ומדרג תוצאות שונות.
תהליך השאילתות משתמש בסיבוב חכם ובחירה של קטעי טקסט להגשה כשאילתות חיפוש. לא כל טביעת אצבע נשאלת — המנוע בוחר את הקטעים המובהקים ביותר מהמסמך, אלה הסבירים ביותר להחזיר התאמות משמעותיות ולא ביטויים גנריים. תזמון שאילתות מנהל מגבלות קצב ומפזר בקשות בין מנועים לשמירה על תפוקה. התוצאה היא סריקה מקיפה של תוכן אינטרנט זמין לציבור שאף גישה של מנוע יחיד אינה יכולה לשכפל, המכסה מאגרי אקדמיה, ארכיוני חדשות, חוות תוכן, מפעלי חיבורים ודפי אינטרנט כלליים כאחד.
כאשר שאילתות מנוע חיפוש מחזירות כתובות URL תואמות פוטנציאליות, מנוע הגילוי נכנס לשלב אחזור המקורות וההשוואה. כל דף מקור מועמד נאסף, תוכנו מחולץ ומנורמל (שלילת תגיות HTML, אלמנטי ניווט, כותרות ותחתיות לבידוד טקסט המאמר בפועל), ואז מוצב לעומת המסמך שהוגש. יישור זה משתמש באלגוריתמי התאמת רצפים המזהים את תתי-הרצפים המשותפים הארוכים ביותר בין שני הטקסטים, תוך התחשבות בשינויים קלים בפיסוק, בריכוז ובעיצוב.
ההשוואה אינה מוגבלת להתאמות מדויקות. המנוע מבצע התאמה עמומה לזיהוי קטעים שבהם מילים בודדות הוחלפו במילים נרדפות, סדר המשפטים שונה, או ביטויים מחברים נוספו או הוסרו. זה תופס את טכניקת ההתחמקות הנפוצה ביותר: ניסוח חוזר שטחי השומר על המשמעות והמבנה המקוריים. כל קטע תואם מתועד עם כתובת ה-URL של מקורו, אחוז החפיפה וקטעי הטקסט הספציפיים שמתאימים, ובונה את הנתונים הגולמיים לדוח המקוריות.
לאחר אחזור והשוואת כל המקורות, המנוע מחשב ציון דמיון — אחוז המייצג כמה מהמסמך שהוגש תואם למקורות חיצוניים. חישוב זה דק יותר מיחס פשוט. המנוע מבחין בין סוגי התאמות שונים: עותקים מדויקים, כמעט-התאמות (קטעים שנוסחו מחדש), חומר מצוטט ומיוחס כראוי, וביטויים נפוצים או טקסט תבניתי שאינו מצביע על פלגיאט.
מערכת גילוי ההפניות של גלאי פלגיאט מזהה אוטומטית ציטוטים, מרכאות ועיסוק ביבליוגרפי בתוך המסמך ומתייחסת אליהם שונה מהתאמות ללא ייחוס. בלוק טקסט מוקף בסימני מרכאות ואחריו ציטוט מסומן כהפניה לגיטימית, לא כפלגיאט. זה מונע ציוני דמיון מנופחים שאחרת היו מעניישים עבודות מחקר מוצלחות על שימוש נאות במקורות. הציון הסופי משקף דאגות מקוריות אמיתיות, ומעניק לסוקר מדד משמעותי וניתן לפעולה.
ככל שטקסט שנוצר על ידי בינה מלאכותית הופך נפוץ יותר, גילוי פלגיאט חייב לטפל בתוכן שאינו מועתק ממקור קיים כלשהו אך אינו עבודה אנושית מקורית. גלאי פלגיאט כולל מודול גילוי תוכן בינה מלאכותית משולב עם רגישות 0.98, המסוגל לזהות טקסט שנוצר על ידי מודלי שפה גדולים כולל ChatGPT, Gemini ו-HuggingChat. הגילוי פועל על ידי ניתוח מאפיינים סטטיסטיים של הטקסט — התפלגות תדרי מילים, מבוכה ברמת המשפט, דפוסי פריצות, ורצפי הסתברות אסימון — השונים באופן שיטתי בין כתיבה אנושית ומכונה.
כתיבה אנושית נוטה להציג שונות גדולה יותר באורך המשפט, בחירות מילים בלתי צפויות יותר ודפוסים לא סדירים של מורכבות. טקסט שנוצר על ידי בינה מלאכותית, לעומת זאת, נוטה לרצפי מילים סטטיסטית סבירות עם מבנה משפטים אחיד יותר ו"חלקות" אופיינית בהתפלגות ההסתברות שלו. מודל הגילוי מאומן על קורפוסים גדולים של טקסט אנושי ובינה מלאכותית, והוא פועל ברמת הפסקאות כדי לספק תוצאות גרנולריות. ניתוח זה פועל לצד גילוי פלגיאט מסורתי בסריקה אחת, כך שסוקרים מקבלים דוח מאוחד המכסה הן תוכן מועתק והן קטעים שנוצרו על ידי בינה מלאכותית מבלי לצורך בכלים נפרדים או תהליכי עבודה.
משתמשים מתוחכמים מנסים לנצח את גילוי הפלגיאט דרך טריקים טכניים שונים. טכניקת ההתחמקות הנפוצה ביותר היא החלפת תווי Unicode — החלפת תווים לטיניים בתווים זהים חזותית מסקריפטים Unicode אחרים. לדוגמה, האות הקירילית "а" (U+0430) נראית זהה לאות הלטינית "a" (U+0061) על המסך, אך הן תווים שונים ברמת קוד הנקודה. השוואת טקסט תמימה תתייחס ל-"academic" שנכתב עם "а" קירילית כמילה שונה לחלוטין, מה שגורם לקטע המפולגט להתחמק מהגילוי לחלוטין.
גלאי פלגיאט מטפל בזה עם מנוע האנטי-רמאות Unicode (UACE) שלו. לפני ההשוואה, UACE מנרמל את כל הטקסט על ידי מיפוי תווים שקולים חזותית על פני בלוקי Unicode — קירילי, יווני, ארמני וסקריפטים אחרים המכילים תווים זהים ללטינית — חזרה לשקיליהם הלטיניים. המנוע שומר טבלת החלפה מקיפה המכסה מאות זוגות תווים. נורמליזציה זו מתרחשת בשקיפות בשלב חילוץ הטקסט, כך שכל שלב גילוי עוקב פועל על טקסט נקי וקנוני ללא קשר לטריקי תווים שהוחלו על מסמך המקור.
מעבר להחלפת תווים, UACE גם מגלה שיטות התחמקות אחרות כולל הכנסת תווי Unicode בלתי נראים (רווחים ברוחב אפס, מחברים ברוחב אפס, מקפים רכים) בין מילים או אותיות, טקסט לבן על לבן מוסתר בתוך מסמכים, וטקסט בגופן מיקרו שהוכנס כדי לשבור ביטויים מזוהים. טכניקות אלה מסומנות בדוח המקוריות כניסיונות מניפולציה מכוונים, המתריעים לסוקר שהמחבר ניסה באופן פעיל להתחמק מהגילוי — שזה עצמו ראיה חזקה לכוונת פלגיאט.
הורד הדגמה חינמית או רכוש רישיון כדי להתחיל לבדוק פלגיאט ותכנים שנוצרו על ידי בינה מלאכותית.
שיא תהליך הגילוי הוא דוח המקוריות — מסמך מפורט המציג את כל הממצאים בפורמט מאורגן וניתן לסקירה. הדוח מדגיש קטעים תואמים בטקסט שהוגש, עם הערות מקודדות בצבע לפי מקור, כאשר כל התאמה מקושרת לכתובת ה-URL המקורית שלה או לרשומת מסד הנתונים. חלק סיכום מציג את ציון הדמיון הכולל, מספר המקורות שנמצאו, אחוז תוכן הבינה המלאכותית שזוהה ופירוט סוגי ההתאמות (מדויק, שנוסח מחדש, מצוטט).
עבור מוסדות, ניתן לתייג דוחות מקוריות עם לוגו הארגון, ולספק פורמט מקצועי ומתוקנן לרשומות יושרה אקדמית. הדוחות מעוצבים להיות בדרגת ראיה — מתאימים לשימוש בהליכי סקירה פורמליים, דיוני יושרה אקדמית, או הקשרים משפטיים. כל טענה בדוח ניתנת לאימות עצמאי: סוקרים יכולים ללחוץ דרך למקור המקורי כדי לאשר את ההתאמה בעיניהם. שקיפות זו מבטיחה שממצאי פלגיאט ניתנים להגנה והוגנים, ומגנה הן על יושרת תהליך הסקירה והן על זכויות האדם שעבודתו נמצאת תחת הערכה.
בחירה ארכיטקטורית יסודית בגילוי פלגיאט היא האם מסמכים מעובדים מקומית במחשב המשתמש או מועלים לשרת ענן מרוחק. בודקי פלגיאט מבוססי ענן דורשים מהמשתמשים להעלות מסמכיהם לשרתי הספק, שם הטקסט מחולץ, מנותח ולעתים קרובות מאוחסן במסד נתונים. זה מעלה דאגות פרטיות וסודיות משמעותיות — במיוחד עבור מחקר אקדמי רגיש, כתבי יד שלא פורסמו, מסמכים משפטיים וחומרים ארגוניים. מסמכים המועלים לשירותי ענן עשויים להישמר, לאנדקס, או לשמש לאימון מודלי בינה מלאכותית, ופרצות נתונים יכולות לחשוף תוכן סודי.
גלאי פלגיאט פועל לחלוטין בשולחן העבודה. מסמכים נפתחים, מנותחים ומנותחים מקומית — הטקסט המלא לעולם אינו מועבר לכל שרת חיצוני. רק קטעי טקסט נבחרים (שאילתות חיפוש) נשלחים למנועי חיפוש להשוואה, באותה הדרך שאדם היה מחפש ידנית ביטוי בדפדפן. ארכיטקטורה זו מספקת ערובת פרטיות יסודית: המסמך המלא לעולם לא עוזב את מחשב המשתמש. עבור מוסדות המטפלים בחומרים רגישים — משרדי עורכי דין הבודקים תדרישים, חוקרים רפואיים הבוחנים עבודות, סוכנויות ממשלתיות המבקרות דוחות — גישה ראשונה-לשולחן עבודה זו אינה רק העדפה אלא דרישת ציות. בשילוב עם מודל רכישה חד-פעמית (ללא מנוי חוזר), היא מציעה הן פרטיות והן צפיות עלויות.