구글이 Gemini Live의 ‘가장 큰 업그레이드’로 Gemini 3.1 Flash Live를 발표했다. 구글이 ‘역대 최고 품질 음성 모델’이라고 부르는 이 모델은 90개 이상 언어를 지원하며, 음성의 높낮이와 속도 같은 음향 뉘앙스 인식이 크게 개선됐다. 배경 소음 필터링도 강화돼 시끄러운 환경에서도 사용자 음성을 정확히 구분한다.
기존 2.5 Flash Native Audio 대비 응답 지연이 대폭 줄었고, 대화 맥락 유지 시간이 2배로 늘어났다. 대화 흐름에 따라 응답 길이와 톤을 자동 조절하고, 실시간 대화 중 외부 도구를 호출해 정보를 전달하는 능력도 향상됐다. Google AI Studio에서 Gemini Live API 프리뷰가 시작됐고, Search Live는 200개 이상 국가로 글로벌 확장됐다.
Mistral이 오픈소스 음성 모델 Voxtral TTS를 출시한 가운데, 음성 AI 경쟁이 텍스트→음성(TTS)에서 실시간 대화 모델로 확장되고 있다. 구글은 Gemini를 음성 인터페이스의 핵심으로 밀어붙이며, 애플이 Gemini를 온디바이스 AI로 증류하는 전략과 맞물려 모바일 AI의 표준 엔진 자리를 굳히고 있다.