구글, Gemini 3.1 Flash Live 출시 — '역대 최고 품질 음성 모델'

구글이 Gemini Live의 ‘가장 큰 업그레이드’로 Gemini 3.1 Flash Live를 발표했다. 구글이 ‘역대 최고 품질 음성 모델’이라고 부르는 이 모델은 90개 이상 언어를 지원하며, 음성의 높낮이와 속도 같은 음향 뉘앙스 인식이 크게 개선됐다. 배경 소음 필터링도 강화돼 시끄러운 환경에서도 사용자 음성을 정확히 구분한다.

기존 2.5 Flash Native Audio 대비 응답 지연이 대폭 줄었고, 대화 맥락 유지 시간이 2배로 늘어났다. 대화 흐름에 따라 응답 길이와 톤을 자동 조절하고, 실시간 대화 중 외부 도구를 호출해 정보를 전달하는 능력도 향상됐다. Google AI Studio에서 Gemini Live API 프리뷰가 시작됐고, Search Live는 200개 이상 국가로 글로벌 확장됐다.

Mistral이 오픈소스 음성 모델 Voxtral TTS를 출시한 가운데, 음성 AI 경쟁이 텍스트→음성(TTS)에서 실시간 대화 모델로 확장되고 있다. 구글은 Gemini를 음성 인터페이스의 핵심으로 밀어붙이며, 애플이 Gemini를 온디바이스 AI로 증류하는 전략과 맞물려 모바일 AI의 표준 엔진 자리를 굳히고 있다.

FAQ

기존 모델과 뭐가 다른가?

이전 2.5 Flash Native Audio 대비 응답 지연이 크게 줄었고, 대화 맥락을 2배 더 오래 유지한다. 음성의 높낮이와 속도 같은 음향 뉘앙스 인식이 개선됐고, 대화 흐름에 맞춰 응답 길이와 톤을 자동 조절한다.

Search Live란?

구글 검색에서 음성으로 대화하며 검색하는 기능이다. Gemini 3.1 Flash Live를 기반으로 200개 이상 국가에서 글로벌 확장됐다.

개발자는 어떻게 쓸 수 있나?

Google AI Studio에서 Gemini Live API 프리뷰로 바로 사용할 수 있다. 외부 도구 호출과 복잡한 시스템 프롬프트 처리 성능도 향상됐다.

구글, Gemini 3.1 Flash Live 출시 — '역대 최고 품질 음성 모델'

FAQ

댓글