AMI 랩스가 만들려는 것은 ‘월드 모델(world model)‘이다. 현재 AI 업계를 지배하는 대규모 언어 모델(LLM)과 근본적으로 다른 접근이다. LLM은 다음 토큰, 즉 다음 단어나 픽셀을 예측한다. 순차적으로 한 토큰씩 생성하며, 확률 분포에서 하나를 골라 출력하는 방식이다. 초반에 하나를 잘못 고르면 오류가 기하급수적으로 불어난다. 르쿤은 “자기회귀 LLM은 인간 수준 AI로 가는 길에서 막다른 골목”이라고 단언한다. “진정한 추론이나 계획이 불가능한 이유는 세상에 대한 모델이 없기 때문”이라는 것이다.
AMI 랩스의 핵심 아키텍처는 JEPA(Joint-Embedding Predictive Architecture)다. LLM이 데이터 공간(픽셀, 단어)에서 예측하는 반면, JEPA는 잠재 공간(latent space)이라는 압축된 추상 표현 공간에서 예측한다. 예측할 수 없는 노이즈를 무시하고 의미 수준에서 미래를 추론하는 방식이어서, 동일 모델 크기 기준 MAE 대비 10배 효율적이고 iBOT 대비 2.5배 빠르다. 순차 생성이 아니라 병렬 예측이 가능하다는 점도 구조적 이점이다. 월드 모델은 물리 세계가 어떻게 변하는지, 즉 물체의 움직임, 인과관계, 상호작용을 예측한다. 로봇이 시뮬레이션에서 학습한 뒤 실제 환경에 배치되거나, 자율주행차가 도로 위 상황을 예측하는 데 핵심이 되는 기술이다.
월드 모델 경쟁은 이미 뜨겁다. 구글 딥마인드(Google DeepMind)는 실시간 3D 세계를 24fps로 생성하는 제니 3(Genie 3)를 내놨고, 스탠퍼드 페이페이 리(Fei-Fei Li) 교수의 월드 랩스(World Labs)는 50억 달러 기업가치에 5억 달러를 유치했다. 엔비디아도 2,000만 시간 분량의 학습 데이터를 투입한 코스모스(Cosmos) 플랫폼을 운영 중이다. CEO 르브룅은 “6개월 안에 모든 회사가 월드 모델이라고 자칭할 것”이라고 예측했다. AMI 랩스의 10.3억 달러 시드 유치가 보여주듯, AI 업계의 다음 전장은 언어에서 물리 세계로 옮겨가고 있다. 첫 제품은 약 1년 뒤 나올 예정이며, 첫 파트너는 르브룅이 창업했던 헬스케어 스타트업 나블라(Nabla)다.