Как OpenAI безопасно запускает Codex: sandbox, approvals, сетевые политики и agent-native telemetry

Прослушать статью

По мере того как ИИ-системы становятся более способными, они все чаще действуют от имени пользователей. Кодинговые агенты могут автономно просматривать репозитории, выполнять команды и взаимодействовать с инструментами разработки. Раньше для этого требовалось прямое участие человека.

В Codex эти возможности спроектированы вместе с контролями, которые организациям нужны для безопасного разворачивания. Командам безопасности нужны способы управлять тем, как агенты работают: к чему они могут получать доступ, когда требуется одобрение человека, с какими системами они могут взаимодействовать и какая телеметрия есть, чтобы объяснить их поведение.

В OpenAI мы разворачиваем Codex с несколькими четкими целями: удерживать агента в ясных технических границах, позволять разработчикам быстро выполнять малорисковые действия и явно выделять действия с более высоким риском. Мы также сохраняем agent-native telemetry, чтобы понимать и аудировать то, что сделал агент. На практике это означает управляемую конфигурацию, ограниченное выполнение, сетевые политики и agent-native логи.

Управление тем, как работает Codex

Мы разворачиваем Codex по простому принципу: он должен быть продуктивным в ограниченной среде, повседневные малорисковые действия должны выполняться без трения, а действия с более высоким риском должны останавливаться для проверки.

Approvals и sandboxing работают вместе. Sandbox задает техническую границу выполнения, включая то, где Codex может записывать данные, может ли он выходить в сеть и какие пути остаются защищенными. Политика approvals определяет, когда Codex должен запросить действие, например если ему нужно сделать что-то вне sandbox. Пользователи могут одобрить действие один раз или одобрить такой тип действия на всю сессию.

Для рутинных запросов на одобрение мы используем Auto-review mode — функцию, которая при включении автоматически одобряет определенные типы запросов, чтобы пользователям реже приходилось останавливать работу и подтверждать действия Codex. Codex отправляет планируемое действие и недавний контекст в subagent автосогласования, который может автоматически одобрить малорисковые действия вместо того, чтобы прерывать пользователя. Это позволяет Codex двигаться дальше в рутинной работе, но по-прежнему останавливает его на более рискованных действиях или действиях с непреднамеренными последствиями.

Мы не запускаем Codex с неограниченным исходящим доступом. Наша управляемая сетевая политика разрешает ожидаемые назначения, блокирует назначения, к которым мы не хотим, чтобы Codex обращался, и требует одобрения для незнакомых доменов. Это позволяет Codex выполнять обычные, заведомо безопасные рабочие процессы, не предоставляя ему широкий сетевой доступ.

Мы также управляем тем, как Codex аутентифицируется. Учетные данные OAuth для CLI и MCP хранятся в защищенном системном keyring, вход выполняется через ChatGPT, а доступ привязан к нашему enterprise workspace в ChatGPT. Это связывает использование Codex с контролями на уровне workspace и делает активность Codex доступной в ChatGPT Compliance Logs Platform для нашего enterprise workspace.

Мы используем правила, чтобы Codex не считал каждую shell-команду одинаково безопасной. Распространенные безвредные команды, которые инженеры используют в повседневной разработке, разрешены без одобрения вне sandbox, а конкретные опасные команды могут быть заблокированы или требовать одобрения. Это позволяет Codex быстро проходить обычные инженерные задачи и одновременно заставляет проверять или блокировать шаблоны, которые мы не хотим запускать вне sandbox.

Мы применяем этот подход через сочетание облачно управляемых требований, управляемых настроек macOS и локальных файлов требований. Requirements — это контролируемые администраторами ограничения, которые пользователи не могут переопределить. Управляемые настройки macOS и локальные файлы требований позволяют сохранять единый базовый уровень, одновременно тестируя разные конфигурации по командам, группам пользователей или средам. Эти конфигурации применяются ко всем локальным интерфейсам Codex, включая desktop app, CLI и IDE extension.

Agent-native telemetry и audit trails

Контроль — это только половина задачи. Когда агенты уже развернуты, командам безопасности нужна видимость того, что эти агенты делают и почему. Традиционные security logs по-прежнему полезны при анализе действий Codex, но они в основном отвечают на вопрос, что произошло: запустился процесс, изменился файл, была предпринята попытка сетевого соединения. Защитникам все равно приходится выяснять, почему Codex сделал что-то, или каков был замысел пользователя.

Codex может дать командам безопасности более агентно-ориентированный взгляд. Codex поддерживает экспорт логов OpenTelemetry для различных событий Codex, таких как пользовательские запросы, решения об approval для инструментов, результаты выполнения инструментов, использование MCP server и события allow или deny в network proxy. Журналы активности Codex также доступны через OpenAI Compliance Platform для клиентов Enterprise и Edu.

В OpenAI мы используем логи Codex вместе с нашим AI-powered security triage agent. Когда endpoint alert сообщает, что Codex сделал что-то необычное, endpoint security tool показывает, что произошло подозрительное событие. Затем логи Codex помогают объяснить связанный с этим замысел пользователя и агента. Наш AI security triage agent использует логи Codex, чтобы изучить исходный запрос, активность инструментов, решения об approval, результаты инструментов и любые релевантные решения сетевой политики или блокировки. AI security triage agent передает свой анализ нашей команде безопасности для проверки, чтобы отличить ожидаемое поведение агента, безвредные ошибки и действия, которые действительно требуют эскалации.

Мы также используем ту же телеметрию в операционной работе. Эти логи помогают нам понимать, как меняется внутреннее внедрение, какие инструменты и MCP servers используются, как часто network sandbox блокирует действия или запрашивает подтверждение, и где запуску все еще нужна настройка. Эти логи OpenTelemetry можно централизовать в SIEM и системах compliance logging.

Дальше

Материал — перевод статьи с английского.

Оригинал: Running Codex safely at OpenAI

Подписаться на новости в Telegram