AI 환각률 벤치마크 — DeepSeek V3 3.9%로 최저 기록

AI 환각(hallucination) 벤치마크에서 딥시크(DeepSeek) V3가 3.9%로 최저 환각률을 기록했다. Vectara 데이터셋의 요약(grounded summarization) 작업 기준이다.

환각은 AI가 사실이 아닌 정보를 마치 사실처럼 생성하는 현상이다. 특히 요약 작업에서 원문에 없는 내용을 추가하거나 수치를 변형하는 것이 대표적이다. DeepSeek V3는 이 영역에서 GPT-5.5, 클로드, 제미나이 등 주요 모델을 앞섰다.

다만 환각률은 작업 유형과 벤치마크에 따라 크게 달라진다. 요약에서 강한 모델이 코딩이나 추론에서도 환각이 적다고 단정할 수 없다. 스타벅스가 AI 재고 관리를 9개월 만에 중단한 사례처럼 실제 환경에서의 오류율은 벤치마크와 다를 수 있다.

FAQ

AI 환각(hallucination)이란?

AI 모델이 사실이 아닌 정보를 마치 사실인 것처럼 생성하는 현상이다.

3.9%는 어떤 수준인가?

Vectara 데이터셋의 요약(grounded summarization) 작업에서 측정한 수치로, 100개 답변 중 약 4개만 환각이라는 뜻이다.

다른 모델은?

GPT-5.5는 이전 버전 대비 개선됐고, 클로드와 제미나이도 경쟁적 수준이다. 환각률은 작업 유형과 벤치마크에 따라 크게 달라진다.

FAQ