NIST 평가, 딥시크 V4는 미국 모델에 8개월 뒤처져

미국 국립표준기술연구소(NIST) 산하 AI 표준혁신센터(CAISI)가 중국 딥시크(DeepSeek)의 최신 모델 V4 프로를 독립 평가한 결과를 공개했다. 문항반응이론(IRT)을 적용해 산출한 종합 점수에서 GPT-5.5가 1,260점으로 1위를 차지했고, 앤스로픽(Anthropic) 오퍼스(Opus) 4.6이 999점, 딥시크 V4가 800점, GPT-5.4 미니가 749점으로 뒤를 이었다. NIST는 딥시크 V4 프로가 미국 프론티어 모델 대비 약 8개월의 격차를 보인다고 평가했다.

개별 벤치마크에서도 격차는 뚜렷하다. 사이버보안 CTF에서 딥시크는 32%를 기록한 반면 GPT-5.5는 71%에 달했고, 소프트웨어 엔지니어링(SWE-Bench)에서도 74% 대 81%로 차이를 보였다. 추상 추론 능력을 측정하는 ARC-AGI-2에서는 46% 대 79%로 가장 큰 격차가 나타났다. 반면 수학(OTIS-AIME)에서는 딥시크가 97%로 GPT-5.5의 100%에 근접하며 강점을 드러냈다. NIST는 딥시크가 자체 발표한 성능 수치가 독립 평가 결과보다 부풀려져 있다는 점도 지적했다.

성능에서는 뒤처지지만 비용 효율성은 딥시크의 확실한 무기다. 입력 토큰 가격이 100만 토큰당 0.0145달러로, GPT의 0.075달러 대비 80% 이상 저렴하다. 7개 주요 벤치마크 중 5개에서 GPT-5.4 미니보다 저렴하게 동등 이상의 성능을 냈으며, 최대 53%까지 비용을 절감할 수 있는 것으로 나타났다. 절대 성능에서는 미국 모델들이 앞서지만, 가격 대비 성능이라는 기준으로 보면 딥시크가 시장에서 경쟁력을 유지할 근거는 충분하다.

FAQ

CAISI란 무엇인가

미국 국립표준기술연구소(NIST) 산하 AI 표준혁신센터(Center for AI Standards and Innovation)다. AI 모델의 성능과 안전성을 독립적으로 평가하는 역할을 한다.

IRT 기반 종합 점수란 무엇인가

문항반응이론(Item Response Theory)을 적용해 여러 벤치마크 결과를 하나의 척도로 환산한 점수다. 개별 벤치마크의 난이도 차이를 보정해 모델 간 공정한 비교를 가능하게 한다.

딥시크 V4 프로의 강점은 무엇인가

수학(OTIS-AIME 97%)과 코딩(SWE-Bench 74%)에서 상위권 성능을 보이며, 입력 토큰 가격이 GPT 대비 80% 이상 저렴하다. 7개 벤치마크 중 5개에서 GPT-5.4 미니보다 비용 효율이 높다.

딥시크의 자체 평가와 NIST 평가가 다른 이유는 무엇인가

딥시크가 자체 발표한 성능 수치는 독립 평가보다 높게 나타났다. 자체 평가는 유리한 조건에서 측정될 수 있고, 독립 기관은 표준화된 환경에서 테스트하기 때문에 차이가 발생한다.

NIST 평가, 딥시크 V4는 미국 모델에 8개월 뒤처져

FAQ

댓글