Сегодня мы представляем Gemini 3.1 Flash TTS — новейшую модель text-to-speech, которая обеспечивает улучшенные управляемость, выразительность и качество, помогая разработчикам, компаниям и обычным пользователям создавать приложения нового поколения для AI-голоса.
Начиная с сегодняшнего дня Gemini 3.1 Flash TTS постепенно становится доступной:
- для разработчиков в preview через Gemini API и Google AI Studio
- для компаний в preview на Vertex AI
- для пользователей Workspace через Google Vids
Улучшенное качество речи и управляемость
Мы улучшили общее качество речи Gemini 3.1 Flash TTS, сделав его нашей самой естественной и выразительной моделью на сегодняшний день. В рейтинге Artificial Analysis TTS, который отражает тысячи слепых предпочтений людей, 3.1 Flash TTS получила впечатляющий Elo-рейтинг 1 211.

Artificial Analysis также отнесла Gemini 3.1 Flash TTS к своему «наиболее привлекательному квадрату» благодаря удачному сочетанию высокого качества генерации речи и низкой стоимости. Дополнительные преимущества модели — нативные диалоги с несколькими спикерами, поддержка более 70 языков и детализированный творческий контроль с помощью естественного языка.
Новые audio tags для более выразительной генерации речи
3.1 Flash TTS также добавляет audio tags — интуитивный способ управлять вокальным стилем, темпом и подачей. Встраивая команды на естественном языке прямо в текстовый ввод, можно задавать AI-речи более тонкие и точные параметры.
Пробовать audio tags и другие обновления опыта разработчика в Google AI Studio можно с конфигурируемыми настройками, которые дают разработчику место в «кресле режиссера»:
- Режиссура сцены: задайте сцену, описав окружение и предоставив конкретные инструкции для диалога. Такой контекст помогает персонажам оставаться «в образе» и естественно реагировать друг на друга на протяжении нескольких реплик.
- Точность на уровне говорящего: подбирайте персонажей с помощью уникальных Audio Profiles, а затем задавайте Director’s Notes, чтобы переключать темп, тон и акцент. С помощью inline tags говорящие могут отходить от этих общих настроек и менять выражение даже посреди предложения.
- Бесшовный экспорт: после того как исполнение доведено до нужного уровня, эти же параметры можно экспортировать в виде кода Gemini API, чтобы обеспечить стабильные и узнаваемые голоса в разных проектах и на разных платформах.
С этими новыми настройками разработчики могут повысить точность для конкретных сценариев и создавать запоминающихся персонажей и иммерсивные аудиоэффекты.
Начните работу с высокоточной генерацией речи в песочнице Google AI Studio.
Рассчитано на глобальный масштаб
Gemini 3.1 Flash TTS обеспечивает высокую точность речи и более тонкий контроль более чем на 70 языках. Эти ключевые улучшения дают расширенный контроль над стилем, темпом и акцентом для крупных рынков, помогая разработчикам создавать локализованные выразительные речевые сценарии для пользователей по всему миру.
Первые тестировщики среди разработчиков и компаний уже видят эффект от 3.1 Flash TTS, отмечая впечатляющие управляемость и выразительность. По их словам, audio tags дают новый уровень творческой точности, превращая обычный текст в высококачественное вокальное исполнение.










С водяным знаком SynthID
Весь аудиоконтент, созданный Gemini 3.1 Flash TTS, снабжается водяным знаком SynthID. Этот незаметный водяной знак встроен непосредственно в аудиовыход и позволяет надежно определять AI-сгенерированный контент, помогая предотвращать дезинформацию.
Материал — перевод статьи с английского.
Оригинал: Gemini 3.1 Flash TTS: the next generation of expressive AI speech
