집 › AI 탐지 정확도는? 22개 LLM 벤치마크 | 표절 검사기

AI 탐지 정확도는? 22개 LLM에 걸친 자체 벤치마크

저희 AI 탐지기의 실제 정확도를 GPT-5, Claude 4, Gemini 2, Llama 3을 포함한 22개 생성 모델에 대해 공개합니다. 모델별 표, 솔직한 한계 설명, 그리고 연구자를 위한 다운로드 가능한 데이터셋을 제공합니다.

2026-04-17 · Plagiarism Detector Team

정확도 수치를 공개하는 이유

대부분의 AI 탐지 도구는 단일한 불투명한 점수를 신뢰하도록 요구합니다. 저희는 여러분이 근거를 알 권리가 있다고 생각합니다. 이 페이지에서는 내부 검증 결과 전체를 공유합니다 — 테스트한 모든 생성 모델, 각각의 AUC-ROC 점수, 가장 어려움을 겪은 에세이 유형, 그리고 실제 운영에 사용하는 판정 임계값입니다.

이 수준의 투명성은 AI 탐지 분야에서 드문 일입니다. 대부분의 경쟁사 — 표절 검사기 벤더, 전문 AI 탐지 서비스, 일반 SaaS 도구 — 는 정확도 데이터를 전혀 공개하지 않거나 선별된 단일 수치만 공개합니다. 이러한 관행은 지속 불가능합니다: 교육자, 출판사, 연구자는 어떤 도구를 신뢰하기 전에 재현 가능한 벤치마크가 필요합니다.

저희 수치는 ModernBERT 탐지기 훈련에 사용된 교정 말뭉치의 1,000개 샘플 검증 분할에서 도출됩니다. 이 벤치마크를 이끄는 동일한 방법론이 여러분이 제출하는 모든 문서에 적용됩니다. 데모를 위해 숨겨두는 것은 없습니다.

테스트 말뭉치 및 방법론

검증 세트는 1,200개 샘플 교정 말뭉치에서 추출한 1,000개의 에세이로 구성됩니다: 인간이 작성한 에세이 600개(PAN25 공유 과제 데이터 및 PERSUADE 논증적 에세이 데이터셋에서)와 AI가 생성한 에세이 600개(통제된 프롬프트 하에 22개의 서로 다른 대규모 언어 모델이 생성). 80/20 훈련-검증 분할은 고정되어 있고 반복 가능합니다.

각 샘플은 실제 레이블을 유출할 수 있는 메타데이터 접근 없이 독립적으로 점수가 매겨집니다. 탐지기는 샘플이 AI 생성일 가능성을 나타내는 [0, 100] 범위의 확률을 반환합니다. 그런 다음 생성 모델별 및 에세이 유형별로 수신자 조작 특성 곡선 아래 면적(AUC-ROC)을 계산합니다.

모든 임계값, 훈련 하이퍼파라미터, 원시 확률 출력이 기록됩니다. 데이터셋 자체는 이 페이지 하단에서 다운로드할 수 있습니다 — CSV 형식, 샘플당 한 행, 생성 모델 식별자, 에세이 유형 레이블, 원시 점수, 최종 이진 판정 포함.

주요 결과

전체 1,000개 샘플 세트에서 저희 앙상블 탐지기는 AUC-ROC [AUC: 0.9884]를 달성합니다. 실제 운영에 사용하는 50% 판정 임계값에서: 검증 세트의 인간 에세이에서 거짓 양성 0건, AI 에세이에서 재현율 60%. F1 최적 임계값인 26.56%에서는 재현율이 2% 거짓 양성 비용으로 90%까지 상승합니다 — 고민감도 선별 워크플로에 더 적합한 트레이드오프입니다.

공개 도구의 문서 수준 판정은 거짓 양성 제로를 최대 재현율보다 우선시하는 보수적인 50% 임계값을 사용합니다. 교사, 출판사, 연구자는 더 적극적인 표시를 원할 때 위젯의 민감도 슬라이더를 통해 이를 재정의할 수 있습니다.

비교를 위해, Binoculars 제로샷 구성 요소 단독(2× Llama-3.1-8B 설정)은 독립적으로 AUC [AUC: 0.8509]를 기록합니다. 미세 조정된 ModernBERT 구성 요소 단독은 분포 내 에세이에서 [AUC: 1.0000], 분포 외 텍스트에서 [AUC: 0.9069]를 기록합니다. 앙상블은 단일 축에서는 두 구성 요소 사이에 위치하지만 서로 보완적인 약점을 수정하기 때문에 평균적으로 두 구성 요소보다 우수합니다.

생성 모델별 분석

다음은 모델별 AUC-ROC 표입니다. 모델은 검증 세트에서 탐지하기 쉬운 순서부터 어려운 순서로 정렬되어 있습니다. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI 모델: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. 기타: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

주요 패턴: 더 새롭고, 더 크고, 지시 조정된 모델은 통계적 탐지기에 더 인간적으로 보이는 텍스트를 생성하는 경향이 있으며 저희 탐지기도 마찬가지입니다. Claude 4.5 Sonnet과 GPT-5.x가 점수 분포가 인간 기준과 가장 많이 겹치는 두 모델 군입니다. 이는 2025년에 발표된 모든 독립적인 연구와 일치합니다 — 군비 경쟁은 현실이며 모델 크기는 탐지에 직접적인 역풍입니다.

탐지기가 어려움을 겪는 부분

모든 텍스트가 동등하게 탐지 가능한 것은 아닙니다. 저희는 에세이 유형별로 — 각 PERSUADE 프롬프트 범주별로 — 결과를 분류하며, 최고와 최저 사이의 격차는 큽니다. [PER-TYPE TABLE]

논증적, 설득적, 설명적 에세이: 탐지기의 가장 강한 영역. 훈련 말뭉치가 이러한 스타일에 치우쳐 있어 AUC는 일반적으로 0.97–1.00입니다. 이곳이 대부분의 학문적 무결성 사용 사례가 해당하는 영역입니다.

창작 글쓰기와 문학 분석: 저희의 가장 약한 영역. literary_analysis의 경우 AUC가 0.69로 떨어집니다 — 소설의 인간 스타일이 LLM 출력과 수렴하여 저희의 지도 학습 및 제로샷 구성 요소 모두 이를 신뢰할 수 있게 구별할 수 없습니다. 소설에서 높은 AI 점수에 대해서는 회의적으로 접근하세요.

직접 텍스트로 탐지기 테스트하기

문서를 붙여넣고 이 벤치마크 수치에 사용하는 동일한 문장별 판정과 판정 임계값을 확인하세요. 무료, 회원가입 불필요.

한계와 실패 사례

검증 세트가 시사하는 것보다 더 자주 저희 탐지기를 피하는 세 가지 유형의 텍스트가 있습니다. 인간화된 AI 텍스트 — 적대적 패러프레이징 또는 스타일 변환 도구를 통과한 출력 — 는 기저 텍스트가 완전히 생성된 경우에도 종종 인간적인 것으로 점수가 매겨집니다. 짧은 텍스트(100단어 미만)는 충분한 통계적 신호가 없어 전혀 분류하기 어렵습니다. 비원어민 영어 글쓰기는 LLM과 ESL 작성자가 특정 어휘 및 구문적 선호도를 공유하기 때문에 AI 생성으로 점수가 매겨질 수 있습니다.

저희 탐지기는 확률론적이며 증거 기반이 아닙니다. 높은 AI 점수는 추가 조사를 위한 신호이지 비위의 증거가 아닙니다. 점수와 맥락을 함께 사용할 것을 강력히 권장합니다: 최근 편집 내역, 버전 초안, 동일 저자의 글쓰기 샘플, 그리고 허용되는 경우 저자와의 짧은 후속 대화.

저희는 최신 생성 모델 출력에 대해 지속적으로 재훈련하지만 항상 지연이 있습니다: 지난 주에 출시된 모델은 훈련 데이터에 잘 표현되지 않을 수 있습니다. 워크플로가 최신 모델을 잡는 것에 의존한다면, 업데이트된 수치를 위해 분기별로 저희 벤치마크 페이지를 다시 확인하세요.

전체 데이터셋 다운로드

저희는 연구자, 기자, 교육자가 저희의 주장을 독립적으로 검증할 수 있도록 원시 검증 결과를 공개합니다. CSV에는 다음이 포함됩니다: 샘플 ID, 생성 모델 식별자(또는 'human'), 에세이 유형 레이블, 원시 확률 출력, 50% 임계값에서의 이진 판정, 26.56% 임계값에서의 이진 판정.

다운로드: ai-detector-benchmark-2026-04.csv (분기별 업데이트). 학문적 사용은 무제한입니다; 상업적 재출판은 다음의 출처 표기가 필요합니다: “표절 검사기 — AI 탐지 벤치마크 2026-04”.

동일한 방법론의 인터랙티브 버전을 자신의 텍스트에 사용하려면 저희의 AI & 표절 검사기 도구를 사용해 보세요 — 문서를 붙여넣고 문장별 판정, 동일한 판정 임계값, 그리고 이 공개 수치에 사용하는 동일한 신뢰 구간을 확인하세요.

자주 묻는 질문

이 벤치마크는 얼마나 자주 업데이트되나요?

매 분기. GPT-6, Claude 5, Gemini 3과 같은 주요 생성 모델이 출시되면 4주 이내에 테스트 말뭉치에 추가하고 업데이트된 표를 재공개합니다. 이전 버전은 날짜가 포함된 파일명으로 보관됩니다 — 2026-04 에디션이 현재 안정 릴리스입니다.

샘플별 확률 출력을 공개하지 않는 이유는 무엇인가요?

공개합니다 — 다운로드 가능한 CSV에 원시 확률이 포함되어 있습니다. 공개하지 않는 것은 원본 에세이 텍스트인데, PAN25 말뭉치와 PERSUADE 데이터셋에 재배포 제한이 있기 때문입니다. 텍스트가 필요하다면 해당 소스에서 직접 데이터셋을 가져오세요(링크는 CSV 문서에 있습니다).

AUC가 1.0 미만이면 탐지기를 신뢰할 수 있나요?

어떤 탐지기도 모든 생성 모델에서 AUC 1.0을 달성하지 못합니다. 따라서 문제는 ‘완벽한가’가 아니라 ‘투명한가’입니다. AUC 0.95를 공개하고 어디서 어려움을 겪는지 알려주는 탐지기는 수치 없이 ‘업계 최고의 정확도’만 공개하는 것보다 더 신뢰할 수 있습니다. 저희 AUC [AUC: 0.9884]는 정직한 평균 성능입니다; 구매 결정을 내려야 할 곳은 생성 모델별 및 에세이 유형별 분석입니다.

AI 탐지기가 학문 출판 준비가 되어 있나요?

기반 방법론은 그렇습니다 — Binoculars(ICML 2024)와 ModernBERT는 모두 동료 검토된 아키텍처입니다. 저희의 특정 미세 조정 말뭉치와 임계값은 독점적이지만 벤치마크 방법론은 완전히 재현 가능합니다.

무료 온라인 도구가 데스크톱 제품과 어떻게 비교되나요?

동일한 엔진, 동일한 정확도 수치, 동일한 문장별 판정 로직입니다. 데스크톱 제품은 무제한 문서 길이, 오프라인 스캔, 40억 웹 페이지에 대한 통합 표절 대조, 그리고 전체 폴더의 일괄 처리를 추가합니다. 일회성 검사에는 온라인 도구로 충분합니다; 일상적인 워크플로에는 데스크톱이 올바른 도구입니다.