OpenAI добавила в API три аудиомодели: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper

Прослушать статью

OpenAI представляет три аудиомодели в API, которые открывают для разработчиков новый класс голосовых приложений. С их помощью можно создавать голосовые сценарии, которые звучат естественнее, отвечают умнее и выполняют действия в реальном времени:

GPT‑Realtime‑2 — первая голосовая модель компании с рассуждением уровня GPT‑5, способная справляться со сложными запросами и естественно вести диалог дальше.
GPT‑Realtime‑Translate — новая модель живого перевода, которая переводит речь с более чем 70 входных языков на 13 выходных языков, сохраняя темп говорящего.
GPT‑Realtime‑Whisper — новая потоковая speech-to-text-модель, которая транскрибирует речь вживую по мере того, как человек говорит.

Попробовать GPT-Realtime-2

Начните сеанс, а затем говорите с GPT-Realtime-2 естественным образом.

Что можно попросить?

После запуска сеанса попробуйте сказать одну из этих фраз:

Я устраиваю спонтанный ужин сегодня вечером. У меня 30 минут, два друга-вегетарианца, один человек не любит грибы и очень маленькая кухня. Помоги составить простое меню.
Я приветствую гостей на живом мероприятии в Японии. Скажи теплое, естественное приветствие на японском — как ведущий, который открывает что-то особенное.
Номер моего заказа Orbit-742Q. Повтори его четко, чтобы я мог убедиться, что он верный.
Помоги мне потренироваться сказать команде, что мы достигли важной вехи запуска. Сначала скажи это спокойно и уверенно, а потом — с большим воодушевлением.
Я готовлю викторину для поездки. Дай мне три коварных вопроса, которые звучат обманчиво просто, а затем объясни каждый ответ в одном предложении.

Голос становится одним из самых естественных способов пользоваться программным обеспечением. С его помощью человек может попросить о помощи за рулем, изменить план поездки, проходя через аэропорт, получить поддержку на предпочитаемом языке или пройти шаг задачи, не отвлекаясь на набор текста.

Но создание полезных голосовых продуктов требует большего, чем быстрая смена реплик или приятный голос. Голосовому агенту нужно понимать смысл запроса, удерживать контекст, восстанавливаться при изменении просьбы, использовать инструменты, пока разговор продолжается, и отвечать так, чтобы это соответствовало ситуации.

Вместе запускаемые модели переводят realtime-аудио от простого обмена репликами к голосовым интерфейсам, которые действительно могут выполнять работу: слушать, рассуждать, переводить, транскрибировать и действовать по мере развития разговора.

Голос как интерфейс между людьми и продуктами

По мере того как голос становится более естественным способом пользоваться софтом, разработчики выстраивают решения вокруг трех новых паттернов в voice AI:

Voice-to-action, когда человек описывает, что ему нужно, а система способна рассуждать о запросе, использовать инструменты и завершать задачу. Например, Zillow создает ассистента, который может слушать, рассуждать и действовать на основе запросов вроде: «найди дома в рамках моего BuyAbility, избегай загруженных улиц и запланируй просмотр на субботу».
Systems-to-voice, когда софт превращает контекст в живые голосовые подсказки. Например, туристическое приложение может заранее сказать путешественнику: «Ваш входящий рейс задерживается, но вы все еще успеете на пересадку. Я нашел новый выход, проложил самый быстрый маршрут через терминал, а багаж по-прежнему должен быть перегружен».
Voice-to-voice, когда AI помогает вести живые разговоры на разных языках, в разных задачах или при изменяющемся контексте. Например, Deutsche Telekom строит голосовые сервисы поддержки, где клиенты могут говорить на языке, на котором им удобнее, а модель будет переводить разговор в реальном времени.

Эти паттерны могут работать и вместе. Priceline стремится к будущему, где путешественники смогут управлять всей поездкой голосом: искать авиабилеты и отели в разговорном формате, обрабатывать изменения вроде корректировки брони отеля после задержки рейса или получать обновления в реальном времени о времени ожидания на контрольно-пропускных пунктах TSA, а также переводить разговоры уже на месте.

Realtime voice: как помочь голосовым моделям рассуждать и действовать

GPT‑Realtime‑2 создана для живых голосовых взаимодействий, где модель удерживает ход разговора, одновременно рассуждает над запросом, вызывает инструменты, обрабатывает исправления или прерывания и отвечает так, как уместно в моменте.

Преамбулы: разработчики могут включить короткие фразы перед основным ответом, например «сейчас проверю» или «минуту, я посмотрю», чтобы пользователи понимали, что агент уже работает над запросом.
Параллельные вызовы инструментов и прозрачность действий: модель может вызывать несколько инструментов одновременно и озвучивать эти действия фразами вроде «проверяю ваш календарь» или «сейчас посмотрю», помогая агентам оставаться отзывчивыми во время выполнения задач.
Лучшее восстановление после сбоев: модель может корректнее выходить из затруднений, говоря, например, «Сейчас у меня с этим трудности», вместо тихого провала или разрыва разговора.
Более длинный контекст для agentic workflows: мы увеличиваем окно контекста с 32K до 128K, чтобы поддерживать более длинные, цельные сеансы и более сложные цепочки задач.
Лучшее понимание доменной области: модель лучше сохраняет специализированную терминологию, имена собственные, медицинские термины и другой словарь, важный в production-сценариях.
Более управляемые тон и подача: модель лучше подстраивает тон — говорит спокойно при решении проблемы, сочувственно, когда пользователь раздражен, или бодро, когда подтверждает успешное действие.
Настраиваемые усилия рассуждения: теперь разработчики могут выбирать уровни minimal, low, medium, high и xhigh, где low используется по умолчанию, балансируя меньшую задержку для простых взаимодействий и более вдумчивое рассуждение для сложных запросов.

Улучшения заметны в аудиотестах, близких к production-голосовым агентам: GPT‑Realtime‑2 (high) показывает результат на 15,2% выше в Big Bench Audio по audio intelligence, чем GPT‑Realtime‑1.5. GPT‑Realtime‑2 (xhigh) показывает результат на 13,8% выше в Audio MultiChallenge по следованию инструкциям, улучшая показатели GPT‑Realtime‑1.5 и демонстрируя более сильное рассуждение, управление контекстом и контроль в живых разговорах.

Потенциал GPT‑Realtime‑2 заметен в разных сценариях использования:

User

Я рассматриваю независимую кофейню площадью 900 квадратных футов рядом с пригородной железнодорожной станцией. Пешеходный поток достигает пика со вторника по четверг с 7:00 до 10:00; по понедельникам, пятницам и после полудня поток гораздо слабее. Аренда дорогая, но мне нравится идея уютных посадочных мест, медленных pour-over и локальной выпечки. Сделай стратегический pre-mortem: если через год это провалится, что, скорее всего, пошло не так? Затем предложи минимальную версию бизнеса, которую я должен проверить перед тем, как вкладываться в полноценное кафе.

0:00 1:04

0:00 0:51

На ранних тестах компании использовали GPT‑Realtime‑2 для создания голосовых агентов, которые помогают клиентам и сотрудникам решать задачи через естественный разговор:

«Больше всего в GPT-Realtime-2 нас впечатлили интеллект и надежность tool-calling в сложных голосовых взаимодействиях. На нашем самом сложном adversarial-бенчмарке это дает рост call success rate на 26 пунктов после оптимизации промпта (95% против 69%). GPT-Realtime-2 также существенно более устойчив в вопросах соблюдения Fair Housing, что критически важно для нашего бизнеса. Именно сочетание agentic competence и надежности guardrails делает его пригодным для production voice в Zillow».

— Josh Weisberg, SVP и руководитель AI в Zillow

Realtime translation: создание живых многоязычных голосовых интерфейсов

GPT‑Realtime‑Translate помогает разработчикам создавать живые многоязычные голосовые сценарии, в которых каждый может говорить на своем предпочитаемом языке и слышать перевод разговора в реальном времени, а также видеть транскрипцию в реальном времени. Модель поддерживает более 70 входных языков и 13 выходных языков, поэтому полезна для клиентской поддержки, трансграничных продаж, образования, мероприятий, медиа и creator-платформ, работающих с глобальной аудиторией.

Для разработчиков живой перевод должен сохранять смысл и при этом успевать за говорящим, даже когда люди говорят естественно, меняют тему или используют региональное произношение и предметную терминологию. Например, Deutsche Telekom тестирует модель для многоязычных голосовых взаимодействий, где меньшая задержка и более высокая беглость могут сделать межъязыковые разговоры более естественными.

В этом видео Vimeo показывает, как GPT‑Realtime‑Translate может переводить продуктовый обучающий ролик вживую по мере воспроизведения, чтобы глобальные клиенты могли слышать обновления на предпочитаемом языке, не дожидаясь отдельно подготовленной версии.

«Создание voice AI для Индии означает работу с разнообразной региональной фонетикой. В наших evals по хинди, тамильскому и телугу GPT-Realtime-Translate показала Word Error Rate на 12,5% ниже, чем любая другая модель, которую мы тестировали, а также меньшую долю fallback, более высокую завершенность задач и задержку, которая сохраняла естественный разговор. Это новый стандарт для многоязычного voice AI».

— Prateek Sachan, сооснователь и CTO в BolnaAI

Realtime transcription: создание низколатентных сценариев транскрибации

GPT‑Realtime‑Whisper — новая потоковая модель транскрибации, созданная для low-latency speech-to-text. Она транскрибирует аудио по мере речи, поэтому живые продукты могут ощущаться быстрее, отзывчивее и естественнее — от субтитров, которые появляются сразу, до заметок по встречам, которые успевают за разговором.

Модель делает живую речь пригодной для бизнес-процессов в моменте. Команды могут использовать ее для субтитров на встречах, в классах, трансляциях и на мероприятиях; для генерации заметок и кратких итогов, пока разговор еще продолжается; для создания голосовых агентов, которым нужно непрерывно понимать пользователей; а также для более быстрых последующих процессов в customer support, healthcare, sales, recruiting и других сценариях с большим объемом устных коммуникаций.

Безопасность

Наши политики использования запрещают перепрофилировать или распространять результаты наших сервисов для спама, обмана или других вредоносных целей. Разработчики также обязаны ясно показывать конечным пользователям, что они взаимодействуют с AI, если это не очевидно из контекста.

Цены и доступность

GPT‑Realtime‑2, GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper доступны в Realtime API. GPT‑Realtime‑2 стоит $32 за 1 млн audio input tokens ($0.40 за cached input tokens) и $64 за 1 млн audio output tokens. GPT‑Realtime‑Translate стоит $0.034 за минуту. GPT‑Realtime‑Whisper стоит $0.017 за минуту.

Начать работу

Чтобы начать разработку, откройте этот prompt в Codex, чтобы добавить GPT‑Realtime‑2 в существующее приложение или создать новое. Если у вас еще нет Codex, сначала скачайте приложение Codex app.

Материал — перевод статьи с английского.

Оригинал: Advancing voice intelligence with new models in the API

Подписаться на новости в Telegram