GPT-5.5 от OpenAI: самый сильный agentic AI-модельный релиз компании с ценой API вдвое выше GPT-5.4

Прослушать статью

OpenAI 23 апреля выпустила GPT-5.5, которую компания называет «новым классом интеллекта для реальной работы и для питания agents». Формулировка не случайна: OpenAI утверждает, что это самый способный agentic AI model на сегодняшний день, созданный с нуля, чтобы планировать действия, использовать инструменты, проверять собственные ответы и самостоятельно доводить задачи до конца.

GPT-5.5 — первая заново обученная базовая модель со времен GPT-4.5. Она совместно спроектирована с NVIDIA GB200 и GB300 NVL72 rack-scale systems. По словам компании, практическая разница в том, что задачи, которые раньше требовали нескольких prompts и человеческой «коррекции курса», теперь можно передавать модели более полно. Развертывание идет для пользователей Plus, Pro, Business и Enterprise в ChatGPT и Codex. Доступ к API появился 24 апреля.

Бенчмарки

Самый сильный результат OpenAI заявляет в Terminal-Bench 2.0 — бенчмарке, который проверяет командные workflow, требующие планирования и координации инструментов в изолированной среде. GPT-5.5 набирает 82,7% против 75,1% у GPT-5.4 и 69,4% у Claude Opus 4.7.

В SWE-Bench Pro, который оценивает решение задач GitHub issues, GPT-5.5 достигает 58,6% и решает больше задач за один проход, чем предыдущие версии. OpenAI также представила Expert-SWE — внутренний бенчмарк, где медианная расчетная трудоемкость задачи для человека составляет 20 часов. GPT-5.5 набирает 73,1% против 68,5% у GPT-5.4.

В длинноконтекстном reasoning на MRCR v2 с одним миллионом token, retrieval-бенчмарке, который проверяет, может ли модель найти конкретный ответ, спрятанный в большом документе, GPT-5.5 получает 74,0% против 36,6% у GPT-5.4.

Однако в MCP Atlas, tool-use бенчмарке Scale AI для Model Context Protocol, лидирует Claude Opus 4.7 с 79,1%, а у GPT-5.5 оценка не указана. OpenAI включила это отсутствие в собственную таблицу, что как минимум говорит об уверенности компании в общей картине.

Эффективность токенов и реальная цена

Доступ через API стоит US$5 за миллион input tokens и US$30 за миллион output tokens — ровно вдвое дороже, чем у GPT-5.4. Защита OpenAI состоит в том, что GPT-5.5 выполняет те же задачи в Codex с меньшим числом token, чем GPT-5.4, поэтому с учетом эффективности фактическая стоимость получается примерно на 20% выше; это утверждение подтвердили независимые тестировщики из Artificial Analysis.

GPT-5.5 Pro, доступная пользователям Pro, Business и Enterprise, стоит US$30 за миллион input tokens и US$180 за миллион output tokens. Она использует дополнительный parallel test-time compute на более сложных задачах и возглавляет список публично доступных моделей в BrowseComp — agentic benchmark для веб-браузинга от OpenAI — с результатом 90,1%.

Эффективность token стоит проверять на реальных рабочих нагрузках до перехода на новую модель. При 10 миллионах output tokens в месяц стандартный GPT-5.5 обойдется в US$300 против US$250 у Claude Opus 4.7 — разница в 20% окупается только в том случае, если более сильные agentic возможности модели действительно сокращают число итераций и повторных попыток; математика зависит от сценария использования.

На практике

OpenAI заявляет, что более 85% сотрудников теперь еженедельно используют Codex в своих подразделениях, включая engineering и marketing. В одном из примеров команда communications использовала GPT-5.5 для обработки данных за шесть месяцев по заявкам на выступления; модель смогла построить scoring and risk framework, чтобы помочь автоматизировать низкорисковые согласования.

Грег Брокман назвал релиз «реальным шагом вперед к тому типу вычислений, который мы ожидаем в будущем», а chief scientist Якуб Пахоцки отметил, что последние два года прогресса моделей ощущались «удивительно медленными».

OpenAI говорит, что GPT-5.5 в production serving совпадает с GPT-5.4 по per-token latency, но работает на более высоком уровне интеллектуальности; более крупные и способные модели часто обслуживаются медленнее, но здесь этого компромисса удалось избежать.

Переходят ли эти победы в бенчмарках в производственный выигрыш для команд, которые запускают реальные agentic pipelines, станет ясно в ближайшие недели. Результат Terminal-Bench выглядит обнадеживающе для автономных terminal agents и DevOps automation. Разрыв в MCP Atlas стоит отслеживать всем, кто сильно опирается на orchestration инструментов.

См. также: OpenAI добавляет GPT-5.5 в Codex для задач программирования

(Источник изображения: «The Agent» Fossil Watch, MarkGregory007, лицензия CC BY-NC-SA 2.0.)

Баннер AI & Big Data Expo от TechEx events.

Хотите узнать больше об AI и big data от лидеров отрасли? Посетите AI & Big Data Expo, которая пройдет в Амстердаме, Калифорнии и Лондоне. Это мероприятие входит в состав TechEx и проводится совместно с другими крупными технологическими событиями, включая Cyber Security & Cloud Expo. Для получения дополнительной информации нажмите здесь.

AI News работает на базе TechForge Media. Узнайте о других предстоящих корпоративных технологических мероприятиях и вебинарах здесь.

Материал — перевод статьи с английского.

Оригинал: GPT-5.5 is OpenAI’s most capable agentic AI model yet

Подписаться на новости в Telegram