미국 국립표준기술연구소(NIST) 산하 AI 표준혁신센터(CAISI)가 중국 딥시크(DeepSeek)의 최신 모델 V4 프로를 독립 평가한 결과를 공개했다. 문항반응이론(IRT)을 적용해 산출한 종합 점수에서 GPT-5.5가 1,260점으로 1위를 차지했고, 앤스로픽(Anthropic) 오퍼스(Opus) 4.6이 999점, 딥시크 V4가 800점, GPT-5.4 미니가 749점으로 뒤를 이었다. NIST는 딥시크 V4 프로가 미국 프론티어 모델 대비 약 8개월의 격차를 보인다고 평가했다.
개별 벤치마크에서도 격차는 뚜렷하다. 사이버보안 CTF에서 딥시크는 32%를 기록한 반면 GPT-5.5는 71%에 달했고, 소프트웨어 엔지니어링(SWE-Bench)에서도 74% 대 81%로 차이를 보였다. 추상 추론 능력을 측정하는 ARC-AGI-2에서는 46% 대 79%로 가장 큰 격차가 나타났다. 반면 수학(OTIS-AIME)에서는 딥시크가 97%로 GPT-5.5의 100%에 근접하며 강점을 드러냈다. NIST는 딥시크가 자체 발표한 성능 수치가 독립 평가 결과보다 부풀려져 있다는 점도 지적했다.
성능에서는 뒤처지지만 비용 효율성은 딥시크의 확실한 무기다. 입력 토큰 가격이 100만 토큰당 0.0145달러로, GPT의 0.075달러 대비 80% 이상 저렴하다. 7개 주요 벤치마크 중 5개에서 GPT-5.4 미니보다 저렴하게 동등 이상의 성능을 냈으며, 최대 53%까지 비용을 절감할 수 있는 것으로 나타났다. 절대 성능에서는 미국 모델들이 앞서지만, 가격 대비 성능이라는 기준으로 보면 딥시크가 시장에서 경쟁력을 유지할 근거는 충분하다.