AI 환각(hallucination) 벤치마크에서 딥시크(DeepSeek) V3가 3.9%로 최저 환각률을 기록했다. Vectara 데이터셋의 요약(grounded summarization) 작업 기준이다.
환각은 AI가 사실이 아닌 정보를 마치 사실처럼 생성하는 현상이다. 특히 요약 작업에서 원문에 없는 내용을 추가하거나 수치를 변형하는 것이 대표적이다. DeepSeek V3는 이 영역에서 GPT-5.5, 클로드, 제미나이 등 주요 모델을 앞섰다.
다만 환각률은 작업 유형과 벤치마크에 따라 크게 달라진다. 요약에서 강한 모델이 코딩이나 추론에서도 환각이 적다고 단정할 수 없다. 스타벅스가 AI 재고 관리를 9개월 만에 중단한 사례처럼 실제 환경에서의 오류율은 벤치마크와 다를 수 있다.