Gemini 3.1 Flash TTS: новое поколение выразительного AI-синтеза речи

Прослушать статью

Сегодня мы представляем Gemini 3.1 Flash TTS — новейшую модель text-to-speech, которая обеспечивает улучшенные управляемость, выразительность и качество, помогая разработчикам, компаниям и обычным пользователям создавать приложения нового поколения для AI-голоса.

Начиная с сегодняшнего дня Gemini 3.1 Flash TTS постепенно становится доступной:

  • для разработчиков в preview через Gemini API и Google AI Studio
  • для компаний в preview на Vertex AI
  • для пользователей Workspace через Google Vids

Улучшенное качество речи и управляемость

Мы улучшили общее качество речи Gemini 3.1 Flash TTS, сделав его нашей самой естественной и выразительной моделью на сегодняшний день. В рейтинге Artificial Analysis TTS, который отражает тысячи слепых предпочтений людей, 3.1 Flash TTS получила впечатляющий Elo-рейтинг 1 211.

a gif showing artificial analysis text to speech arena quality elo

Artificial Analysis также отнесла Gemini 3.1 Flash TTS к своему «наиболее привлекательному квадрату» благодаря удачному сочетанию высокого качества генерации речи и низкой стоимости. Дополнительные преимущества модели — нативные диалоги с несколькими спикерами, поддержка более 70 языков и детализированный творческий контроль с помощью естественного языка.

Новые audio tags для более выразительной генерации речи

3.1 Flash TTS также добавляет audio tags — интуитивный способ управлять вокальным стилем, темпом и подачей. Встраивая команды на естественном языке прямо в текстовый ввод, можно задавать AI-речи более тонкие и точные параметры.

Пробовать audio tags и другие обновления опыта разработчика в Google AI Studio можно с конфигурируемыми настройками, которые дают разработчику место в «кресле режиссера»:

  • Режиссура сцены: задайте сцену, описав окружение и предоставив конкретные инструкции для диалога. Такой контекст помогает персонажам оставаться «в образе» и естественно реагировать друг на друга на протяжении нескольких реплик.
  • Точность на уровне говорящего: подбирайте персонажей с помощью уникальных Audio Profiles, а затем задавайте Director’s Notes, чтобы переключать темп, тон и акцент. С помощью inline tags говорящие могут отходить от этих общих настроек и менять выражение даже посреди предложения.
  • Бесшовный экспорт: после того как исполнение доведено до нужного уровня, эти же параметры можно экспортировать в виде кода Gemini API, чтобы обеспечить стабильные и узнаваемые голоса в разных проектах и на разных платформах.

С этими новыми настройками разработчики могут повысить точность для конкретных сценариев и создавать запоминающихся персонажей и иммерсивные аудиоэффекты.

Начните работу с высокоточной генерацией речи в песочнице Google AI Studio.

Рассчитано на глобальный масштаб

Gemini 3.1 Flash TTS обеспечивает высокую точность речи и более тонкий контроль более чем на 70 языках. Эти ключевые улучшения дают расширенный контроль над стилем, темпом и акцентом для крупных рынков, помогая разработчикам создавать локализованные выразительные речевые сценарии для пользователей по всему миру.

Первые тестировщики среди разработчиков и компаний уже видят эффект от 3.1 Flash TTS, отмечая впечатляющие управляемость и выразительность. По их словам, audio tags дают новый уровень творческой точности, превращая обычный текст в высококачественное вокальное исполнение.

Quote from Jay of StyleUAI
Quote from CTO of AIM Intelligence
Quote from Idan Yonas of Artlist
Quote from Lydia Xu of Sierra
Quote from Shivam Rastogi of Invideo AI
Quote from Fernanda Bejarano of biia
Quote from John Wu of HeyGen
Quote from Soami Kapadia of You learn.AI
Quote from Angel Wen of Sylph.ai
Quote from Artugrul Cavusoglu of Mindlid

С водяным знаком SynthID

Весь аудиоконтент, созданный Gemini 3.1 Flash TTS, снабжается водяным знаком SynthID. Этот незаметный водяной знак встроен непосредственно в аудиовыход и позволяет надежно определять AI-сгенерированный контент, помогая предотвращать дезинформацию.


Материал — перевод статьи с английского.

Оригинал: Gemini 3.1 Flash TTS: the next generation of expressive AI speech