르쿤이 LLM을 비판하는 핵심 이유는?

LLM은 확률 분포에서 한 토큰씩 골라 생성하기 때문에 초반 실수가 기하급수적으로 누적된다. 세상에 대한 모델이 없어 진정한 추론이나 계획이 불가능하다는 것이 르쿤의 주장이다.

원본 데이터를 압축한 추상적 표현 공간이다. 픽셀이나 단어 같은 원시 데이터가 아니라, 의미 수준에서 정보를 표현하고 처리한다.

월드 모델의 구체적 활용 분야는?

로봇이 시뮬레이션에서 물리 법칙을 학습한 뒤 실제 환경에 배치되거나, 자율주행차가 도로 상황을 예측하거나, 의료 시뮬레이션에서 수술 결과를 미리 추정하는 데 쓰인다.

구글 딥마인드의 제니 3가 실시간 3D 세계를 24fps로 생성하고, 페이페이 리 교수의 월드 랩스가 50억 달러 기업가치에 10억 달러를 유치했다. 엔비디아도 2,000만 시간 분량의 데이터로 학습한 코스모스 플랫폼을 운영 중이다.

AMI Labs의 월드 모델, LLM과 뭐가 다른가

AMI 랩스가 만들려는 것은 ‘월드 모델(world model)‘이다. 현재 AI 업계를 지배하는 대규모 언어 모델(LLM)과 근본적으로 다른 접근이다. LLM은 다음 토큰, 즉 다음 단어나 픽셀을 예측한다. 순차적으로 한 토큰씩 생성하며, 확률 분포에서 하나를 골라 출력하는 방식이다. 초반에 하나를 잘못 고르면 오류가 기하급수적으로 불어난다. 르쿤은 “자기회귀 LLM은 인간 수준 AI로 가는 길에서 막다른 골목”이라고 단언한다. “진정한 추론이나 계획이 불가능한 이유는 세상에 대한 모델이 없기 때문”이라는 것이다.

AMI 랩스의 핵심 아키텍처는 JEPA(Joint-Embedding Predictive Architecture)다. LLM이 데이터 공간(픽셀, 단어)에서 예측하는 반면, JEPA는 잠재 공간(latent space)이라는 압축된 추상 표현 공간에서 예측한다. 예측할 수 없는 노이즈를 무시하고 의미 수준에서 미래를 추론하는 방식이어서, 동일 모델 크기 기준 MAE 대비 10배 효율적이고 iBOT 대비 2.5배 빠르다. 순차 생성이 아니라 병렬 예측이 가능하다는 점도 구조적 이점이다. 월드 모델은 물리 세계가 어떻게 변하는지, 즉 물체의 움직임, 인과관계, 상호작용을 예측한다. 로봇이 시뮬레이션에서 학습한 뒤 실제 환경에 배치되거나, 자율주행차가 도로 위 상황을 예측하는 데 핵심이 되는 기술이다.

월드 모델 경쟁은 이미 뜨겁다. 구글 딥마인드(Google DeepMind)는 실시간 3D 세계를 24fps로 생성하는 제니 3(Genie 3)를 내놨고, 스탠퍼드 페이페이 리(Fei-Fei Li) 교수의 월드 랩스(World Labs)는 50억 달러 기업가치에 5억 달러를 유치했다. 엔비디아도 2,000만 시간 분량의 학습 데이터를 투입한 코스모스(Cosmos) 플랫폼을 운영 중이다. CEO 르브룅은 “6개월 안에 모든 회사가 월드 모델이라고 자칭할 것”이라고 예측했다. AMI 랩스의 10.3억 달러 시드 유치가 보여주듯, AI 업계의 다음 전장은 언어에서 물리 세계로 옮겨가고 있다. 첫 제품은 약 1년 뒤 나올 예정이며, 첫 파트너는 르브룅이 창업했던 헬스케어 스타트업 나블라(Nabla)다.

AMI Labs의 월드 모델, LLM과 뭐가 다른가

FAQ

댓글