Okta: AI-агенты могут обходить guardrails и ставить учетные данные под угрозу

Прослушать статью

Риск, который представляют agentic-платформы вроде OpenClaw, — скрытая проблема внутри компаний.

Credit: Shutterstock/Wanan Wanan

AI-агент, который раскрыл чувствительные данные без запроса. Агент, который проигнорировал собственные guardrails. Еще один, который отправил учетные данные злоумышленнику через Telegram, потому что после сброса «забыл», что не должен этого делать.

Не секрет, что у AI-агентов огромный потенциал, но он уравновешивается столь же большими рисками. Однако все очевиднее становится другое: agentic-системы очень быстро могут уйти далеко в сторону от ожидаемого поведения и начать раскрывать критически важную информацию в реальных условиях.

Наглядный пример того, насколько легко это может произойти, приводит отчет Phishing the agent: Why AI guardrails aren’t enough, подготовленный Okta Threat Intelligence — подразделением cloud identity and access management (IAM) компании Okta. В нем описаны все перечисленные выше проблемы и не только.

Исследование было сосредоточено на OpenClaw — модель-агностичном многоканальном AI-ассистенте, который стремительно распространился в корпоративной среде после появления в конце 2025 года.

The Telegram hack

Как и растущий список конкурирующих агентов, OpenClaw настолько полезен, насколько ему дают доступ к файлам, аккаунтам, браузерам, сетевым устройствам и, что особенно важно, к учетным данным.

Один из тестов Okta оценивал, насколько легко обманом заставить OpenClaw, работающий на Claude Sonnet 4.6, выдать OAuth token. В обычной ситуации это не должно быть возможно: LLM должен отказаться выполнять такой запрос. Но то, что могло бы сработать при обычном общении с Claude как с чат-ботом, быстро развалилось, когда к нему обращались через OpenClaw.

В тесте предполагалось, что пользователь дал OpenClaw полный доступ к своему компьютеру, регулярно управлял агентом через Telegram и что его аккаунт Telegram был скомпрометирован.

Сначала злоумышленник через Telegram приказал агенту получить OAuth token, но вывести его только в окне terminal на компьютере. Guardrails Claude Sonnet не позволили бы копировать token, однако тестировщики смогли сбросить агент, из-за чего он забыл, что уже показывал token в окне terminal.

После этого, как говорится в отчете Okta, «агенту было поручено сделать снимок экрана рабочего стола, на котором находился token, а затем отправить этот снимок в чат Telegram, что он и сделал. Эксплуатация завершена».

Agent-in-the-middle

Agentic AI — это по сути две вещи: мощная система оркестрации, совмещенная с одной или несколькими очень способными LLM. Агент не является простым интерфейсом, и его нужно рассматривать как отдельную систему, способную к автономному и непредсказуемому рассуждению.

Computerworld Smart Answers

Что это?

Изучить связанные вопросы

Спросить

OpenClaw также настолько жестко запрограммирован искать обходные пути, что иногда совершает неожиданные и неправильные действия. Кирк сказал, что один агент в тестах, когда его попросили открыть веб-сайт, запросил учетные данные для входа в чат через Telegram-бота — нешифрованный канал, который раскрыл бы их любому, у кого есть доступ к этому чату.

В другом примере OpenClaw попросили найти в X материалы об AI. Это не должно было сработать: машина была авторизована в X, но изолированный профиль Chrome у OpenClaw — нет. Однако, когда ему предложили извлечь session cookies из авторизованной сессии и внедрить их в собственный процесс браузера, он охотно попытался это сделать.

По сути это похоже на adversary-in-the-middle phishing attacks, которые позволяют злоумышленникам обходить такие защиты, как MFA. Этого не должно происходить, и тем не менее OpenClaw счел действие допустимым, что показывает, как атакующий мог бы заставить его сделать то же самое.

«Агентам по умолчанию предлагается быть максимально полезными, и именно это вызывает особые опасения, когда речь идет об учетных данных и token», — сказал Кирк.

«Бросая вызов гравитации безопасности»

По словам Кирка, многие компании — иногда сами того не зная — запускают внутри своих сетей несанкционированных или слабо управляемых «shadow» agents. Пример того, как это может пойти не так, — недавний инцидент с Vercel, в ходе которого приложение Context.ai открыло путь к краже downstream OAuth session tokens.

Проблема в том, что агенты используются разработчиками и сотрудниками в экспериментальном режиме, почти без управления и контроля или вообще без них. Решение, по словам Кирка, — защищать их теми же средствами, которые применяются к пользователям или service accounts. Помимо ограничения scope агентов, компаниям также следует защищать сами учетные данные и token, не делая срок их действия слишком долгим.

Агенты — лишь последний пример технологии, которую внедряют быстрее, чем успевают защитить, отметил Кирк. «Сейчас многое в AI бросает вызов security gravity, — сказал он. — Но есть способы безопасно использовать agents и держать учетные данные вне их досягаемости, а это единственный безопасный способ их использовать».

Эта статья первоначально была опубликована на CSOonline.

Материал — перевод статьи с английского.

Оригинал: AI agents can bypass guardrails and put credentials at risk, Okta study finds

Подписаться на новости в Telegram