Gemini 3.1 Flash TTS: новое поколение выразительного AI-синтеза речи

Прослушать статью

Сегодня мы представляем Gemini 3.1 Flash TTS — новейшую модель text-to-speech, которая обеспечивает улучшенные управляемость, выразительность и качество, помогая разработчикам, компаниям и обычным пользователям создавать приложения нового поколения для AI-голоса.

Начиная с сегодняшнего дня Gemini 3.1 Flash TTS постепенно становится доступной:

для разработчиков в preview через Gemini API и Google AI Studio
для компаний в preview на Vertex AI
для пользователей Workspace через Google Vids

Улучшенное качество речи и управляемость

Мы улучшили общее качество речи Gemini 3.1 Flash TTS, сделав его нашей самой естественной и выразительной моделью на сегодняшний день. В рейтинге Artificial Analysis TTS, который отражает тысячи слепых предпочтений людей, 3.1 Flash TTS получила впечатляющий Elo-рейтинг 1 211.

a gif showing artificial analysis text to speech arena quality elo

Artificial Analysis также отнесла Gemini 3.1 Flash TTS к своему «наиболее привлекательному квадрату» благодаря удачному сочетанию высокого качества генерации речи и низкой стоимости. Дополнительные преимущества модели — нативные диалоги с несколькими спикерами, поддержка более 70 языков и детализированный творческий контроль с помощью естественного языка.

Новые audio tags для более выразительной генерации речи

3.1 Flash TTS также добавляет audio tags — интуитивный способ управлять вокальным стилем, темпом и подачей. Встраивая команды на естественном языке прямо в текстовый ввод, можно задавать AI-речи более тонкие и точные параметры.

Пробовать audio tags и другие обновления опыта разработчика в Google AI Studio можно с конфигурируемыми настройками, которые дают разработчику место в «кресле режиссера»:

Режиссура сцены: задайте сцену, описав окружение и предоставив конкретные инструкции для диалога. Такой контекст помогает персонажам оставаться «в образе» и естественно реагировать друг на друга на протяжении нескольких реплик.
Точность на уровне говорящего: подбирайте персонажей с помощью уникальных Audio Profiles, а затем задавайте Director’s Notes, чтобы переключать темп, тон и акцент. С помощью inline tags говорящие могут отходить от этих общих настроек и менять выражение даже посреди предложения.
Бесшовный экспорт: после того как исполнение доведено до нужного уровня, эти же параметры можно экспортировать в виде кода Gemini API, чтобы обеспечить стабильные и узнаваемые голоса в разных проектах и на разных платформах.

С этими новыми настройками разработчики могут повысить точность для конкретных сценариев и создавать запоминающихся персонажей и иммерсивные аудиоэффекты.

Начните работу с высокоточной генерацией речи в песочнице Google AI Studio.

Рассчитано на глобальный масштаб

Gemini 3.1 Flash TTS обеспечивает высокую точность речи и более тонкий контроль более чем на 70 языках. Эти ключевые улучшения дают расширенный контроль над стилем, темпом и акцентом для крупных рынков, помогая разработчикам создавать локализованные выразительные речевые сценарии для пользователей по всему миру.

Первые тестировщики среди разработчиков и компаний уже видят эффект от 3.1 Flash TTS, отмечая впечатляющие управляемость и выразительность. По их словам, audio tags дают новый уровень творческой точности, превращая обычный текст в высококачественное вокальное исполнение.

Quote from Soami Kapadia of You learn.AI

Quote from Artugrul Cavusoglu of Mindlid

С водяным знаком SynthID

Весь аудиоконтент, созданный Gemini 3.1 Flash TTS, снабжается водяным знаком SynthID. Этот незаметный водяной знак встроен непосредственно в аудиовыход и позволяет надежно определять AI-сгенерированный контент, помогая предотвращать дезинформацию.

Материал — перевод статьи с английского.

Оригинал: Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Подписаться на новости в Telegram