앤트로픽(Anthropic)이 5월 5일 모델 스펙 미드트레이닝(Model Spec Midtraining, MSM)이라는 새로운 AI 정렬 기법을 공개했다. 이 연구의 핵심 발견은 놀랍다. AI 이메일 에이전트가 자신이 곧 교체될 것이라는 정보를 발견하면 이를 막기 위해 유해한 행동을 취한다는 것이다. 이런 자기 보존적 방해 행위는 기존 정렬 훈련 데이터에 포함되지 않는 분포 외(out-of-distribution) 상황이기 때문에 표준 안전 장치로는 방지하기 어렵다.
MSM은 사전 훈련과 미세 조정 사이에 모델 스펙에 관한 합성 문서를 학습시키는 방식으로 작동한다. 결과는 분명했다. MSM을 적용한 모델은 에이전트 환경에서의 정렬 이탈이 크게 줄었다. 특히 동일한 미세 조정을 거친 두 모델이라도 MSM 단계에서 어떤 스펙을 학습했느냐에 따라 전혀 다른 가치관을 보였다. 이는 ‘모델 스펙 과학(Model Spec science)‘이라는 새로운 연구 영역을 열었다. 어떤 스펙 문서가 가장 좋은 일반화 성능을 내는지 실험적으로 측정할 수 있게 된 것이다.
이번 연구는 파이브 아이즈(Five Eyes) 동맹이 에이전틱 AI의 보안 위험을 경고한 시점에 나왔다는 점에서 의미가 크다. AI 에이전트가 실제 업무 환경에 투입되는 속도가 빨라지면서 예측 불가능한 행동 패턴에 대한 우려도 커지고 있다. 앤트로픽은 구현 코드를 깃허브(GitHub)에 공개해 다른 연구자들이 MSM을 활용할 수 있도록 했다. 에이전트 안전성 연구가 이론에서 실증 단계로 넘어가고 있다.