집 › 표절 탐지의 작동 원리: 기술 설명

표절 탐지의 작동 원리: 기술 설명

2025-02-15 · Plagiarism Detector Team

텍스트 추출 및 문서 파싱

표절 분석이 시작되기 전에, 소프트웨어는 제출된 문서에서 검색 가능한 깨끗한 텍스트를 추출해야 합니다. 이것은 보기보다 더 복잡한 문제입니다. 문서는 DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT, HTML 등 다양한 형식으로 도착하며, 각각 자체 서식, 메타데이터, 포함된 객체 및 인코딩의 내부 구조를 가지고 있습니다. 신뢰할 수 있는 텍스트 추출 파이프라인은 이러한 모든 형식을 일관되게 처리하여 비교에 적합한 정규화된 일반 텍스트를 생성해야 합니다.

표절 탐지기는 신뢰성을 극대화하기 위해 5단계 텍스트 추출 아키텍처를 사용합니다. DOCX 파일의 경우, 첫 번째 단계는 네이티브 DocX XML 구조를 직접 파싱합니다. 실패하면(손상 또는 비표준 서식으로 인해) 시스템은 Microsoft의 iFilter 인터페이스로 폴백하고, 그 다음 원시 OpenXML 파싱으로, 마지막으로 최후 수단 범용 추출기로 Apache Tika를 사용합니다. 이 계단식 접근 방식은 손상되거나 비표준 문서도 사용 가능한 텍스트를 생성하도록 합니다. 동일한 다단계 원칙이 12가지 이상의 지원 형식 전반에 걸쳐 적용되어 어떤 문서도 처리되지 않고 남겨지지 않도록 합니다.

추출 과정은 인코딩 정규화도 처리합니다. 다양한 문자 인코딩(UTF-8, UTF-16, Windows-1252, ISO-8859 변형)의 텍스트를 통합 내부 표현으로 변환합니다. 인코딩 불일치로 인해 바이트 수준에서 다르게 보이는 동일한 텍스트가 발생하여 표절 일치 항목을 놓칠 수 있기 때문에 이것이 중요합니다. 적절한 추출은 모든 후속 탐지 단계의 토대를 마련합니다.

텍스트 핑거프린팅

깨끗한 텍스트가 추출되면, 탐지 엔진은 텍스트 핑거프린팅이라는 과정을 통해 분석 가능한 단위로 분해합니다. 문서는 겹치는 단어 시퀀스(n-그램)로 분할되고, 각 시퀀스는 핑거프린트라는 컴팩트한 수치 해시로 변환됩니다. 이러한 핑거프린트는 매번 비용이 많이 드는 전체 텍스트 비교를 수행하지 않고도 다른 출처의 핑거프린트와 빠르게 비교할 수 있는 효율적인 식별자로 작용합니다.

핑거프린팅 알고리즘은 감도와 효율성 사이의 균형을 유지해야 합니다. 짧은 n-그램(3-4 단어)은 더 많은 일치 항목을 포착하지만 일반적인 구문에서 과도한 오탐지를 생성합니다. 더 긴 n-그램(8-10 단어)은 더 구체적이지만 몇 단어가 변경된 경우 표절을 놓칠 수 있습니다. 고급 시스템은 핑거프린트의 대표 하위 집합을 선택하는 winnowing 알고리즘과 결합된 가변 길이 핑거프린팅을 사용하여 모든 크기의 문서에 대해 비교 공간을 관리 가능하게 유지하면서 탐지 정확도를 유지합니다.

검색 엔진 쿼리

문서가 핑거프린팅되면, 탐지 엔진은 그 핑거프린트를 인터넷 전체의 기존 콘텐츠와 비교해야 합니다. 표절 탐지기는 독특한 접근 방식을 취합니다. 단일 독점 데이터베이스에 의존하는 대신, 네 개의 주요 검색 엔진을 동시에 쿼리합니다. Google, Bing, Yahoo, DuckDuckGo입니다. 40억 개 이상의 웹 페이지의 결합 색인에 접근합니다. 이 다중 엔진 전략은 각 검색 엔진이 웹의 다른 부분을 색인화하고 결과를 다르게 순위 매기기 때문에 소스 커버리지를 극적으로 증가시킵니다.

쿼리 프로세스는 검색 쿼리로 제출할 텍스트 단편의 지능적인 순환과 선택을 사용합니다. 모든 핑거프린트가 쿼리되는 것은 아닙니다. 엔진은 문서에서 가장 독특한 단락, 즉 일반 구문보다 의미 있는 일치 항목을 반환할 가능성이 가장 높은 것들을 선택합니다. 쿼리 스케줄링은 속도 제한을 관리하고 엔진 전반에 걸쳐 요청을 분산하여 처리량을 유지합니다. 결과는 단일 엔진 접근 방식이 복제할 수 없는 공개적으로 사용 가능한 인터넷 콘텐츠의 포괄적인 스윕입니다. 학술 저장소, 뉴스 아카이브, 콘텐츠 팜, 에세이 밀 및 일반 웹 페이지를 모두 커버합니다.

소스 검색 및 비교

검색 엔진 쿼리가 잠재적으로 일치하는 URL을 반환하면, 탐지 엔진은 소스 검색 및 비교 단계로 들어갑니다. 각 후보 소스 페이지를 가져와 내용을 추출하고 정규화한 다음(HTML 태그, 탐색 요소, 헤더 및 푸터를 제거하여 실제 기사 텍스트를 분리), 제출된 문서에 대해 정렬합니다. 이 정렬은 구두점, 공백 및 서식의 사소한 변화를 고려하여 두 텍스트 사이의 가장 긴 공통 부분 시퀀스를 식별하는 시퀀스 매칭 알고리즘을 사용합니다.

비교는 정확한 일치에만 국한되지 않습니다. 엔진은 동의어로 개별 단어가 대체된 단락, 문장 순서가 재배열된 단락, 또는 연결 구문이 추가되거나 제거된 단락을 식별하기 위한 퍼지 매칭을 수행합니다. 이것은 원래 의미와 구조를 보존하는 피상적인 재작성이라는 가장 일반적인 회피 기술을 포착합니다. 각 일치된 세그먼트는 소스 URL, 겹침 비율 및 일치하는 특정 텍스트 단편과 함께 기록되어 독창성 보고서의 원시 데이터를 구축합니다.

유사도 점수 계산

모든 소스가 검색되고 비교된 후, 엔진은 유사도 점수를 계산합니다. 제출된 문서가 외부 소스와 얼마나 일치하는지를 나타내는 비율입니다. 이 계산은 단순한 비율보다 더 미묘합니다. 엔진은 다양한 유형의 일치를 구분합니다. 정확한 복사본, 근접 일치(패러프레이징된 단락), 올바르게 인용되고 인용된 자료, 그리고 표절을 나타내지 않는 일반적인 구문이나 상용구 텍스트입니다.

표절 탐지기의 참조 탐지 시스템은 문서 내의 인용, 따옴표 및 서지 참조를 자동으로 식별하고 귀속되지 않은 일치와 다르게 처리합니다. 따옴표로 묶이고 인용으로 이어지는 텍스트 블록은 표절이 아닌 합법적인 참조로 표시됩니다. 이는 제대로 연구된 논문이 출처를 올바르게 사용하는 것에 대해 처벌을 받을 수 있는 부풀려진 유사도 점수를 방지합니다. 최종 점수는 진정한 독창성 우려를 반영하여 검토자에게 의미 있고 실행 가능한 지표를 제공합니다.

AI 콘텐츠 탐지

AI 생성 텍스트가 더 널리 퍼짐에 따라, 표절 탐지는 기존 출처에서 복사되지는 않았지만 그럼에도 불구하고 원본 인간 저작물이 아닌 콘텐츠를 처리해야 합니다. 표절 탐지기는 0.98 감도의 통합된 AI 콘텐츠 탐지 모듈을 포함하여 ChatGPT, Gemini 및 HuggingChat을 포함한 대형 언어 모델에 의해 생성된 텍스트를 식별할 수 있습니다. 탐지는 단어 빈도 분포, 문장 수준의 혼란도, 폭발성 패턴 및 토큰 확률 시퀀스와 같은 텍스트의 통계적 속성을 분석하여 작동합니다. 이러한 속성은 인간 글쓰기와 기계 글쓰기 사이에 체계적으로 다릅니다.

인간 글쓰기는 문장 길이의 더 큰 변동성, 더 예측할 수 없는 단어 선택 및 복잡성의 불규칙한 패턴을 나타내는 경향이 있습니다. AI 생성 텍스트는 반대로, 더 균일한 문장 구조와 확률 분포의 특징적인 "부드러움"으로 통계적으로 가능성이 높은 단어 시퀀스로 이끌립니다. 탐지 모델은 인간 및 AI 텍스트의 대규모 말뭉치에서 훈련되었으며, 세부적인 결과를 제공하기 위해 단락 수준에서 작동합니다. 이 분석은 단일 스캔에서 전통적인 표절 탐지와 함께 실행되므로 검토자는 별도의 도구나 워크플로우 없이 복사된 콘텐츠와 AI 생성 단락 모두를 커버하는 통합 보고서를 받습니다.

부정행위 방지 기술

정교한 사용자들은 다양한 기술 트릭을 통해 표절 탐지를 무력화하려 시도합니다. 가장 일반적인 회피 기술은 유니코드 문자 대체입니다. 라틴 문자를 다른 유니코드 스크립트의 시각적으로 동일한 문자로 교체하는 것입니다. 예를 들어, 키릴 문자 "a"(U+0430)는 화면에서 라틴 문자 "a"(U+0061)와 동일하게 보이지만, 코드 포인트 수준에서는 다른 문자입니다. 순진한 텍스트 비교는 키릴 문자 "a"로 쓰인 "academic"을 완전히 다른 단어로 취급하여 표절된 단락이 탐지를 완전히 피할 수 있게 합니다.

표절 탐지기는 UACE(유니코드 부정행위 방지 엔진)로 이를 처리합니다. 비교 전에, UACE는 유니코드 블록 전반에 걸쳐 시각적으로 동일한 문자를 매핑하여 모든 텍스트를 정규화합니다. 키릴, 그리스, 아르메니아 및 비슷하게 생긴 문자를 포함하는 기타 스크립트를 라틴 동등어로 다시 매핑합니다. 엔진은 수백 가지 문자 쌍을 커버하는 포괄적인 대체 테이블을 유지합니다. 이 정규화는 텍스트 추출 단계에서 투명하게 발생하므로 모든 후속 탐지 단계는 소스 문서에 어떤 문자 트릭이 적용되었든 간에 깨끗하고 표준적인 텍스트에서 작동합니다.

문자 대체를 넘어, UACE는 단어나 글자 사이의 보이지 않는 유니코드 문자(제로 폭 공백, 제로 폭 결합자, 소프트 하이픈) 삽입, 문서 내에 숨겨진 흰색 배경의 흰색 텍스트, 인식 가능한 구문을 분리하기 위해 삽입된 마이크로 폰트 텍스트 등 다른 회피 방법도 탐지합니다. 이러한 기술은 독창성 보고서에서 의도적인 조작 시도로 표시되어 검토자에게 저자가 탐지를 적극적으로 회피하려 했다는 것을 알립니다. 이는 자체적으로 표절 의도의 강력한 증거가 됩니다.

표절 탐지기로 텍스트 확인하기

무료 데모를 다운로드하거나 라이선스를 구매하여 표절 및 AI 생성 콘텐츠 검사를 시작하세요.

독창성 보고서

탐지 과정의 절정은 독창성 보고서입니다. 모든 발견 사항을 체계적이고 검토 가능한 형식으로 제시하는 상세한 문서입니다. 보고서는 제출된 텍스트에서 일치된 단락을 강조 표시하며, 소스별로 색상 코드가 지정되고, 각 일치 항목은 해당 URL 또는 데이터베이스 항목에 연결됩니다. 요약 섹션에는 전체 유사도 점수, 일치된 소스 수, 탐지된 AI 생성 콘텐츠의 비율, 일치 유형 분류(정확, 패러프레이징, 인용)가 표시됩니다.

기관의 경우, 독창성 보고서에 기관의 로고를 브랜드화하여 공식 검토 절차, 학문적 성실성 청문회 또는 법적 맥락에서 사용하기에 적합한 전문적인 표준화된 형식을 제공할 수 있습니다. 보고서는 증거 수준으로 설계되어 있습니다. 보고서의 각 주장은 독립적으로 검증 가능합니다. 검토자는 원래 소스를 클릭하여 자신의 눈으로 일치를 확인할 수 있습니다. 이 투명성은 표절 발견이 방어 가능하고 공정하도록 보장하며, 검토 과정의 성실성과 평가 대상 저작물의 권리 모두를 보호합니다.

데스크톱 대 클라우드 처리

표절 탐지에서 근본적인 아키텍처 선택은 문서가 사용자 기기에서 로컬로 처리되는지 아니면 원격 클라우드 서버에 업로드되는지입니다. 클라우드 기반 표절 검사기는 사용자가 문서를 제공업체의 서버에 업로드해야 합니다. 텍스트가 추출되고 분석되며 종종 데이터베이스에 저장됩니다. 이는 특히 민감한 학문적 연구, 미출판 원고, 법적 문서 및 기업 자료에 대해 중요한 개인 정보 및 기밀 우려를 제기합니다. 클라우드 서비스에 업로드된 문서는 보존, 색인화되거나 AI 모델 훈련에 사용될 수 있으며, 데이터 침해로 기밀 콘텐츠가 노출될 수 있습니다.

표절 탐지기는 완전히 데스크톱에서 작동합니다. 문서는 로컬에서 열리고 파싱되며 분석됩니다. 전체 텍스트는 어떤 외부 서버에도 전송되지 않습니다. 선택된 텍스트 단편(검색 쿼리)만 비교를 위해 검색 엔진에 전송됩니다. 브라우저에서 수동으로 구문을 검색하는 것과 동일합니다. 이 아키텍처는 근본적인 개인 정보 보장을 제공합니다. 완전한 문서가 사용자 기기를 절대 떠나지 않습니다. 민감한 자료를 처리하는 기관(소장을 확인하는 법률 회사, 논문을 검토하는 의학 연구자, 보고서를 감사하는 정부 기관)의 경우, 이 데스크톱 우선 접근 방식은 단순한 선호가 아니라 규정 준수 요구 사항입니다. 일회성 구매 모델(구독 없음)과 결합하여 개인 정보 보호와 비용 예측 가능성을 모두 제공합니다.

자주 묻는 질문

표절 검사기는 몇 개의 소스를 검색합니까?

표절 탐지기는 네 개의 주요 검색 엔진(Google, Bing, Yahoo, DuckDuckGo)의 결합 색인을 검색합니다. 총 40억 개 이상의 웹 페이지를 커버합니다. 여기에는 학술 저장소, 뉴스 아카이브, 블로그, 콘텐츠 플랫폼 및 일반 웹이 포함됩니다. 또한, PDAS 기능을 사용하는 기관은 자체 개인 문서 데이터베이스에 대해 검색할 수 있습니다. 다중 엔진 접근 방식은 단일 검색 엔진이나 독점 데이터베이스에만 의존하는 도구보다 훨씬 더 큰 커버리지를 보장합니다.

표절 탐지가 패러프레이징된 콘텐츠를 포착할 수 있습니까?

예. 현대적인 표절 탐지는 정확 일치 비교를 넘어섭니다. 표절 탐지기는 표현이 변경되었지만 원래 출처의 근본적인 의미와 구조가 보존된 단락을 식별하기 위해 의미 분석을 수행하는 재작성 탐지 기술을 사용합니다. 이는 적절한 귀속을 추가하지 않으면서 다른 사람의 아이디어를 단어 대 단어 일치를 피할 만큼만 다시 표현하는 가장 일반적인 의도적 표절 형태를 포착합니다.

표절 탐지 도구는 어떤 파일 형식을 처리할 수 있습니까?

표절 탐지기는 DOC, DOCX, PDF, RTF, PPT, PPTX, TXT, ODT, HTML을 포함한 12가지 이상의 문서 형식을 지원합니다. 5단계 텍스트 추출 파이프라인은 손상된, 복잡한 또는 비표준 파일에서도 신뢰할 수 있는 파싱을 보장합니다. 각 형식에 대해 시스템은 네이티브 형식 파싱에서 범용 폴백 추출기까지 계단식 추출 방법을 사용하여 지원 형식으로 제출된 거의 모든 문서가 성공적으로 처리되고 분석될 수 있도록 합니다.

표절 검사기를 사용할 때 내 문서가 저장되거나 공유됩니까?

표절 탐지기의 경우, 답은 아니오입니다. 데스크톱 애플리케이션이기 때문에 문서는 로컬 기기에서 완전히 열리고 처리됩니다. 전체 문서 텍스트는 어떤 서버에도 업로드되지 않습니다. 짧은 텍스트 단편만 공개 검색 엔진에 검색 쿼리로 전송됩니다. 이는 웹 브라우저에서 수동으로 구문을 검색하는 것과 동일합니다. 이것은 전체 문서 업로드가 필요하고 콘텐츠를 저장, 색인화 또는 사용할 수 있는 클라우드 기반 표절 검사기와의 주요 차이점입니다. 데스크톱 처리는 검증 가능한 개인 정보 보장을 제공합니다.

AI 콘텐츠 탐지는 표절 탐지와 함께 어떻게 작동합니까?

표절 탐지기는 단일 통합 스캔에서 AI 콘텐츠 탐지와 전통적인 표절 탐지를 실행합니다. 표절 엔진은 복사되거나 패러프레이징된 콘텐츠에 대해 인터넷 소스에 대해 텍스트를 확인하는 동시에, AI 탐지 모듈은 텍스트의 통계적 속성(혼란도, 폭발성 및 토큰 확률 패턴)을 동시에 분석하여 ChatGPT, Gemini 또는 HuggingChat과 같은 모델에 의해 생성될 가능성이 있는 단락을 식별합니다. 결과는 유사도 일치 항목과 AI 생성 콘텐츠 플래그를 모두 보여주는 하나의 독창성 보고서로 결합되어, 검토자에게 별도의 도구를 실행하지 않고도 문서 진정성에 대한 완전한 그림을 제공합니다.