剽窃分析を開始する前に、ソフトウェアは提出された文書から検索可能なクリーンなテキストを抽出する必要があります。これは見た目よりも複雑な問題です。なぜなら、文書はDOC、DOCX、PDF、RTF、PPT、PPTX、TXT、ODT、HTMLなど、さまざまな形式で届き、それぞれが独自の書式、メタデータ、埋め込みオブジェクト、エンコードの内部構造を持っているからです。信頼できるテキスト抽出パイプラインは、これらすべての形式を一貫して処理し、比較に適した正規化されたプレーンテキストを生成する必要があります。
盗作検出ツールは信頼性を最大化するために5段階のテキスト抽出アーキテクチャを使用しています。DOCXファイルの場合、最初の段階はネイティブのDocX XML構造を直接解析します。それが失敗した場合(破損または非標準書式のため)、システムはMicrosoftのiFilterインターフェース、次に生のOpenXML解析、最後に最後の手段の汎用抽出器としてApache Tikaにフォールバックします。このカスケードアプローチは、損傷したまたは非標準の文書でも使用可能なテキストが得られることを意味します。同じマルチティアの原則が12以上のサポートされているすべての形式に適用され、未処理の文書が残らないことを保証します。
抽出プロセスはエンコーディングの正規化も処理します——さまざまな文字エンコーディング(UTF-8、UTF-16、Windows-1252、ISO-8859バリアント)からテキストを統一された内部表現に変換します。これはエンコーディングの不一致により、同一のテキストがバイトレベルで異なって見える可能性があり、剽窃マッチングが見逃される可能性があるため重要です。適切な抽出は、その後のすべての検出段階の基盤となります。
クリーンなテキストが抽出されると、検出エンジンはテキストフィンガープリンティングと呼ばれるプロセスを通じてそれを分析可能な単位に分割します。文書は単語の重複するシーケンス(n-gram)にセグメント化され、各シーケンスはコンパクトな数値ハッシュ——フィンガープリント——に変換されます。これらのフィンガープリントは効率的な識別子として機能し、毎回高価なフルテキスト比較を実行せずに他のソースのフィンガープリントと迅速に比較できます。
フィンガープリンティングアルゴリズムは、感度と効率のバランスを取る必要があります。短いn-gram(3〜4語)はより多くの一致を検出しますが、一般的なフレーズからの偽陽性が多くなります。長いn-gram(8〜10語)はより具体的ですが、いくつかの単語が変更された剽窃を見逃す可能性があります。高度なシステムは可変長フィンガープリンティングとウィニングアルゴリズムを組み合わせて使用し、フィンガープリントの代表的なサブセットを選択することで、あらゆるサイズの文書に対して比較スペースを管理可能に保ちながら検出精度を維持します。
文書がフィンガープリントされると、検出エンジンはそれらのフィンガープリントをインターネット全体の既存のコンテンツと比較する必要があります。盗作検出ツールは独自のアプローチを取ります:単一の独自データベースに依存するのではなく、4つの主要な検索エンジンを同時に——Google、Bing、Yahoo、DuckDuckGo——クエリし、40億以上のウェブページの合計インデックスにアクセスします。このマルチエンジン戦略は、各検索エンジンがウェブの異なる部分をインデックス化し、結果を異なるようにランク付けするため、ソースカバレッジを劇的に増加させます。
クエリプロセスは、検索クエリとして送信するテキストフラグメントのインテリジェントな回転と選択を使用します。すべてのフィンガープリントがクエリされるわけではありません——エンジンは、一般的なフレーズよりも意味のある一致を返す可能性が最も高い、文書から最も独自のパッセージを選択します。クエリスケジューリングはレート制限を管理し、スループットを維持するためにエンジン間でリクエストを分散させます。結果は、単一エンジンのアプローチでは再現できない、学術リポジトリ、ニュースアーカイブ、コンテンツファーム、エッセイミル、一般ウェブページをカバーする公開インターネットコンテンツの包括的なスイープです。
検索エンジンクエリが潜在的に一致するURLを返すと、検出エンジンはソース取得と比較フェーズに入ります。各候補ソースページが取得され、そのコンテンツが抽出および正規化され(HTMLタグ、ナビゲーション要素、ヘッダー、フッターを削除して実際の記事テキストを分離)、次に提出された文書に対して整列されます。この整列には、句読点、空白、書式のわずかな変動を考慮しながら、2つのテキスト間の最長共通部分列を識別するシーケンスマッチングアルゴリズムが使用されます。
比較は完全一致に限定されません。エンジンは、個々の単語が同義語に置き換えられ、文の順序が変更され、または接続フレーズが追加または削除されたパッセージを識別するためにファジーマッチングを実行します。これは最も一般的な回避技術を検出します:元の意味と構造を保持しながら表面的に言い換えることです。一致した各セグメントは、そのソースURL、重複の割合、および対応する特定のテキストフラグメントとともに記録され、オリジナリティレポートの生データを構築します。
すべてのソースが取得および比較された後、エンジンは類似度スコアを計算します——提出された文書がどれだけ外部ソースと一致するかを表すパーセンテージです。この計算は単純な比率よりも複雑です。エンジンは異なる種類の一致を区別します:完全コピー、近似一致(言い換えられたパッセージ)、適切に引用および引用された素材、そして剽窃を示さない一般的なフレーズやボイラープレートテキスト。
盗作検出ツールの参照検出システムは、文書内の引用、引用符、および参考文献リストを自動的に識別し、帰属表示されていない一致とは異なる方法で扱います。引用符で囲まれ、引用に続くテキストのブロックは剽窃としてではなく、正当な参照としてフラグが立てられます。これにより、十分に調査された論文が適切なソースの使用に対してペナルティを受けることになる、膨れ上がった類似度スコアを防ぎます。最終スコアは真のオリジナリティの懸念を反映し、レビュアーに意味のある実行可能な指標を提供します。
AI生成テキストがより一般的になるにつれ、剽窃検出は既存のソースからコピーされていないが、それでも独自の人間の著作物ではないコンテンツに対応する必要があります。盗作検出ツールには、ChatGPT、Gemini、HuggingChatを含む大規模言語モデルによって生成されたテキストを識別できる0.98の感度の統合AIコンテンツ検出モジュールが含まれています。検出は、テキストの統計的特性——人間と機械の執筆の間で体系的に異なる語句頻度分布、文レベルのパープレキシティ、バースティネスパターン、トークン確率シーケンス——を分析することで機能します。
人間の執筆は文の長さにより大きな変動性を示し、より予測できない語句選択と複雑さの不規則なパターンを持つ傾向があります。対照的に、AI生成テキストは、より均一な文章構造と確率分布における特徴的な「滑らかさ」を持つ統計的に確率の高い語句シーケンスに傾向があります。検出モデルは人間とAIのテキストの大きなコーパスで訓練されており、段落レベルで詳細な結果を提供するために機能します。この分析は単一のスキャンで従来の剽窃検出とともに実行されるため、レビュアーは別のツールやワークフローを必要とせずにコピーされたコンテンツとAI生成パッセージの両方をカバーする統合レポートを受け取ります。
高度なユーザーはさまざまな技術的なトリックを通じて剽窃検出を無効にしようとします。最も一般的な回避技術はUnicode文字置換です——ラテン文字を他のUnicodeスクリプトから視覚的に同一の文字に置き換えることです。例えば、キリル文字「a」(U+0430)はラテン文字「a」(U+0061)と画面上では同一に見えますが、コードポイントレベルでは異なる文字です。ナイーブなテキスト比較は、キリル文字「a」でスペルされた「academic」を全く異なる言葉として扱い、剽窃されたパッセージが検出を完全に回避することを引き起こします。
盗作検出ツールはそのUnicode不正行為防止エンジン(UACE)でこれに対処します。比較の前に、UACEはUnicodeブロック全体——キリル、ギリシャ、アルメニア、およびラテン文字と同一に見える文字を含む他のスクリプト——をラテン文字同等物にマッピングすることで、すべてのテキストを正規化します。エンジンは数百の文字ペアをカバーする包括的な置換テーブルを維持しています。この正規化はテキスト抽出フェーズ中に透明に行われるため、すべての後続の検出段階は、ソース文書にどのような文字トリックが適用されていたとしても、クリーンな正規テキストで動作します。
文字置換を超えて、UACEは単語または文字の間に見えないUnicode文字(ゼロ幅スペース、ゼロ幅ジョイナー、ソフトハイフン)を挿入すること、文書内に隠された白地に白いテキスト、および認識可能なフレーズを分断するために挿入されたマイクロフォントテキストなど、他の回避方法も検出します。これらの技術はオリジナリティレポートで意図的な操作の試みとしてフラグが立てられ、著者が検出を回避しようとしていた証拠を警告します——これ自体が剽窃の意図の強力な証拠です。
無料デモをダウンロードするか、ライセンスを購入して、剽窃およびAI生成コンテンツのチェックを開始しましょう。
検出プロセスの頂点はオリジナリティレポートです——すべての発見を整理されたレビュー可能な形式で提示する詳細な文書です。レポートは提出されたテキスト内の一致するパッセージをソースごとに色分けでハイライトし、各一致を対応するURLまたはデータベースエントリにリンクします。要約セクションには、全体的な類似度スコア、一致したソースの数、検出されたAI生成コンテンツの割合、および一致タイプの内訳(完全、言い換え、引用)が表示されます。
機関にとって、オリジナリティレポートには機関のロゴをブランディングできます。これにより、学術的誠実性の記録に適した専門的で標準化された形式が提供されます。レポートは証拠グレードになるように設計されています——正式な審査手続き、学術的誠実性審議会、または法的文脈での使用に適しています。レポートの各主張は独立して検証可能です:レビュアーはリンクを元のソースにクリックして、一致を自分の目で確認できます。この透明性は剽窃の発見が弁護可能かつ公正であることを確保し、審査プロセスの誠実性と評価される人の著作物の権利の両方を保護します。
剽窃検出における基本的なアーキテクチャの選択は、文書がユーザーのマシンでローカルに処理されるか、リモートクラウドサーバーにアップロードされるかです。クラウドベースの剽窃チェッカーは、ユーザーが文書をプロバイダーのサーバーにアップロードする必要があり、そこでテキストが抽出、分析され、多くの場合データベースに保存されます。これにより、機密の学術研究、未公開の原稿、法的文書、および企業素材に対して重大なプライバシーと機密性の懸念が生じます。クラウドサービスにアップロードされた文書は保持、インデックス化、またはAIモデルのトレーニングに使用される可能性があり、データ漏洩により機密コンテンツが露出する可能性があります。
盗作検出ツールはデスクトップ上で完全に動作します。文書はローカルで開かれ、解析され、分析されます——フルテキストは外部サーバーに送信されることはありません。選択されたテキストフラグメント(検索クエリ)のみが比較のために検索エンジンに送信されます。これはブラウザでフレーズを手動で検索する場合と同じです。このアーキテクチャは基本的なプライバシー保証を提供します:完全な文書はユーザーのマシンを離れることはありません。機密素材を扱う機関——法律事務所が概要書を確認する場合、医学研究者が論文をレビューする場合、政府機関が報告書を監査する場合——にとって、このデスクトップファーストのアプローチは単なる好みではなく、コンプライアンス要件です。一回購入モデル(定期サブスクリプションなし)と組み合わせることで、プライバシーとコストの予測可能性の両方が提供されます。