탐지와 생성은 고양이와 쥐의 경쟁에 갇혀 있습니다. 새로운 모델 출시마다 탐지기가 의존하는 통계적 격차가 좁아지고 — 각각의 탐지 개선은 새로운 인간화 도구로 답해집니다. 실제로 어떤 일이 일어나고 있는지 살펴봅니다.
모든 AI 텍스트 탐지기는 궁극적으로 통계적 판별기입니다 — 텍스트의 특징(토큰 확률, 퍼플렉시티, 버스티니스, 구문 규칙성)을 살펴보고 기계 생성과 인간 작성 콘텐츠를 구별하는 신호를 찾으려고 합니다. Binoculars 방법(ICML 2024)은 두 언어 모델 간의 교차 퍼플렉시티 비율을 신호로 사용합니다. ModernBERT 지도 학습 접근법은 레이블이 지정된 예시에서 직접 신호를 학습합니다.
두 접근법은 근본적인 취약점을 공유합니다: 이들이 의존하는 신호는 모델이 텍스트를 생성하는 방식의 부작용이지 기계 작성의 근본적인 특징이 아닙니다. 생성 모델이 향상될수록 이러한 부작용은 줄어듭니다. 더 인간적으로 쓰도록 훈련된 모델은 — 정의상 — 탐지하기 더 어려울 것입니다.
이것은 연구의 실패가 아닙니다. 이것은 문제에 대한 구조적 사실입니다. 탐지는 움직이는 표적에서 작동합니다: 모든 주요 LLM 출시는 격차를 좁히고, 모든 인간화 도구는 탐지기 출력에 대해 명시적으로 훈련합니다. 문제는 ‘영원히 100% 탐지를 달성할 수 있는가’ — 불가능합니다 — 가 아니라 ‘실제로 유용하기에 충분히 오래 현재 세대보다 앞서 있을 수 있는가’입니다.
탐지를 더 어렵게 만드는 세 가지 생성 트렌드가 있습니다. 규모: 더 큰 모델은 더 풍부한 내부 분포를 가지고 있어 통계적으로 더 다양한 텍스트를 생성합니다. 700억 파라미터 모델은 70억 파라미터 모델보다 더 넓은 범위의 인간 유사 출력을 가집니다. 지시 조정: RLHF와 헌법적 방법은 GPT-3를 쉽게 식별하게 만들었던 반복적이고 회피적이며 단조로운 패턴을 피하도록 모델을 훈련합니다. 온도와 샘플링: 채팅 인터페이스는 핵 샘플링과 무작위성으로 이동했으며, 이는 고전적인 탐지기가 앵커로 사용하던 저분산 패턴 일부를 깨뜨립니다.
GPT-5, Claude 4.5, Gemini 2.5는 모두 이전 세대보다 탐지하기 상당히 더 어렵습니다. 내부 검증이 이를 확인합니다: 각 모델 세대는 이전 세대에 비해 해당 군에 대한 저희 AUC를 5–10 퍼센트포인트 떨어뜨립니다. 모델별 수치는 저희의 정확도 벤치마크를 참조하세요.
인간화 도구 — Undetectable AI, StealthWriter, Humanbeing, 그리고 늘어나는 목록 — 는 명시적인 적들입니다. 이들은 AI 출력을 가져와 탐지기를 무력화하기 위해 특별히 패러프레이징하거나 다시 쓰거나 스타일을 변환합니다. 이들은 공개 탐지기(저희 포함이지만 모델 가중치는 절대 공유하지 않습니다)에 대해 훈련되며 각 업데이트마다 측정 가능하게 더 나아집니다.
탐지기는 생성 군비 경쟁에 세 가지로 대응합니다. 앙상블링: 여러 탐지 신호를 결합하여 단일 회피 전술로는 충분하지 않도록 합니다. 지도 학습 ModernBERT와 결합된 제로샷 Binoculars 앙상블이 이를 활용합니다: 한 구성 요소를 무력화하는 인간화 도구는 종종 다른 구성 요소에 실패하고, 앙상블 점수는 둘 다 포착합니다.
지속적 재훈련: 모든 주요 새 생성 모델 출시 후 4주 이내에 샘플을 추가합니다. 내일 GPT-6이 나온다면, 다음 달 중순까지 훈련 말뭉치에 포함됩니다. 이것은 비용이 많이 듭니다 — 컴퓨팅, 주석, 재검증 — 하지만 탐지를 최신 상태로 유지하는 유일한 방법입니다. 연간 또는 더 드물게 재훈련하는 탐지기는 1년 내에 사실상 구식이 됩니다.
적대적 훈련: 저희는 인간화된 AI 샘플과 패러프레이징된 출력에 대해 의도적으로 훈련하여 표면적인 스타일 변환을 넘어 볼 수 있도록 모델을 가르칩니다. 이는 인간화 도구가 저희를 피하기 위해 해야 하는 것의 하한선을 높여 군비 경쟁을 늦춥니다.
인간화 도구는 실제로 어떻게 작동하나요? 세 가지 광범위한 범주가 있습니다. 패러프레이징: 보조 LLM을 사용하여 단어별 또는 문장별로 텍스트를 다시 씁니다. 정확한 토큰 시퀀스에 의존하는 단순한 탐지기에 효과적; 통계적 방법에 대해서는 보통 효과적입니다. 스타일 변환: 특정 저자 또는 레지스터를 모방하도록 텍스트를 변환합니다. 더 효과적입니다 — 스타일 변환된 AI 텍스트에서 저희 탐지기의 AUC는 약 8포인트 떨어집니다.
하이브리드 인간-AI 편집: 저자가 초안을 작성하고 LLM을 통해 다듬은 후 다듬어진 버전을 수동으로 편집합니다. 이것이 가장 어려운 경우입니다 — 문장 수준에서 인간과 기계 신호가 혼합된 합법적으로 협업된 작업입니다. 저희를 포함한 어떤 탐지기도 탐지기가 볼 수 없는 편집 내역 메타데이터 없이는 이를 신뢰할 수 있게 해결할 수 없습니다.
유용한 정신적 모델: 인간화 도구는 탐지기를 깨뜨리는 것이 아니라 회피자를 위한 비용 배수기입니다. 시간이 걸리고, 때로는 돈이 들며, 항상 오류 도입 위험을 추가합니다. 대부분의 학문적 부정행위 시도는 마찰이 이점을 능가하기 때문에 인간화 도구를 사용하지 않습니다. 인간화 도구가 지배하는 곳은 전문적인 콘텐츠 팜과 AI 생성 SEO 스팸입니다 — 처리량이 중요하고 품질 관리가 약한 사용 사례.
문서를 붙여넣고 실시간으로 문장별 판정을 확인하세요. 위에 설명된 앙상블 로직이 30초 이내에 텍스트에 적용됩니다.
단일 신호 탐지기는 단일 실패 모드를 가집니다. 퍼플렉시티에만 의존한다면, 토큰 확률이 변경된 패러프레이징된 출력이 여러분을 무력화합니다. 지도 학습 분류기에만 의존한다면, 분포 외 텍스트(새 모델 군, 새 글쓰기 도메인)가 여러분을 무력화합니다. 앙상블은 약점을 평균화합니다: 퍼플렉시티를 무력화하는 패러프레이즈는 아마도 여전히 지도 학습 헤드에 걸릴 것이고, 그 반대도 마찬가지입니다.
저희 운영 탐지기는 명시적으로 앙상블링됩니다: 35% Binoculars(제로샷, 모델 불가지론적, 분포 외에 견고함) + 65% ModernBERT(지도 학습, 도메인 특정, 분포 내 텍스트에서 높은 정밀도). 가중치는 경험적으로 선택되었습니다 — ModernBERT가 지배하지만 Binoculars가 엣지 케이스에서 거부권을 유지할 때 앙상블 AUC가 최대화되었습니다.
결과: 인간화 도구는 이제 저희 판정을 피하기 위해 근본적으로 다른 두 탐지 아키텍처를 동시에 무력화해야 합니다. 공개 인간화 도구는 일반적으로 단일 목표 탐지기에 대해 훈련되는데, 이는 특정 탐지기에 대해서는 종종 성공하지만 앙상블에 대해서는 실패한다는 것을 의미합니다. 이것이 현재 군비 경쟁에서 탐지의 주요 구조적 이점입니다.
2026–2027년에 무엇을 기대해야 할까요? GPT-6과 Claude 5는 연중 출시 가능성이 높습니다; 둘 다 격차를 더 좁힐 것입니다. 오픈 가중치 모델 — Llama 4, Qwen 4 — 는 고품질 생성을 계속 상품화하고 인간화 도구를 대규모로 실행하는 것을 더 저렴하게 만들 것입니다. 프론티어 모델에서의 탐지 AUC는 재훈련이 수정하기 전 출시 첫 해에는 아마도 0.80–0.90 범위로 떨어질 것입니다.
방어 측에서: 다중 모달 신호(타이핑 역학, 편집 내역, 알려진 말뭉치에 대한 저작권 검증)는 24개월 이내에 순수 텍스트 기반 탐지보다 더 중요해질 가능성이 높습니다. 저희의 텍스트 전용 탐지기는 여전히 첫 번째 필터로 남아 있겠지만 점점 더 풍부한 증거 스택의 투표 멤버가 될 것입니다.
솔직한 결론: 순수 텍스트 기반 탐지는 결코 100%에 도달하지 못할 것입니다. 분포 내 텍스트에서는 약 90–95% AUC, 프론티어 모델에서는 75–85%에서 안정될 것입니다. 워크플로가 확실성을 요구한다면 점수 이상의 증거가 필요합니다. 워크플로가 인간 검토를 우선시하기 위한 강력한 신호를 요구한다면 텍스트 기반 탐지는 유용하고 아무것도 하지 않는 것보다 측정 가능하게 더 낫습니다.
이 글은 AI 텍스트 탐지의 구조적 특성을 설명합니다. 특정 수치는 내부 검증을 참조하며 일반화되지 않을 수 있습니다. 새로운 연구 및 생성 모델 출시에 따라 이 페이지를 업데이트합니다.