В AgentCore появилась оптимизация качества агентов: рекомендации, batch evaluation и A/B testing в preview

Прослушать статью

Генерируйте рекомендации на основе производственных трассировок, проверяйте их с помощью batch evaluation и A/B testing и внедряйте изменения с уверенностью.

ИИ-агенты, которые хорошо работают на старте, не сохраняют это качество надолго. По мере того как модели развиваются, поведение пользователей меняется, а промпты переиспользуются в новых контекстах, для которых они не были изначально созданы, качество агентов незаметно деградирует. Во многих командах процесс улучшения по-прежнему выглядит одинаково: без автоматических циклов обратной связи, когда пользователь жалуется, разработчик просматривает трассировки, формулирует гипотезу, переписывает промпт, проверяет несколько случаев и выкатывает исправление. Затем цикл повторяется и часто создает новую проблему для другого пользователя. До сегодняшнего дня Amazon Bedrock AgentCore предоставлял набор инструментов, чтобы отлаживать это вручную или строить собственные реализации: проверять оценки, чтобы заметить падение качества, углубляться в трассировки, чтобы определить первопричину, и обновлять агента улучшенной конфигурацией. При этом именно разработчик становился «двигателем производительности», полагаясь на интуицию, а не на систематические данные. Специализированные исследовательские команды и большие централизованные бенчмарки помогают, но для большинства продуктовых команд это ни практичное, ни своевременное решение. Даже если такая инфраструктура есть, она обычно работает недельными или месячными циклами, тогда как агенты дрейфуют в продакшене каждый день.

AgentCore — это платформа для создания, подключения и оптимизации агентов в масштабе, с безопасностью, реализованной на уровне инфраструктуры. Тысячи разработчиков уже используют AgentCore для создания агентов, которые рассуждают, планируют и действуют в сложных рабочих процессах. Сегодня мы объявляем о новых возможностях в AgentCore, которые замыкают цикл observe, evaluate, improve для производительности и качества агентов: рекомендации и два способа их проверки.

Recommendations анализируют производственные трассировки и результаты оценок, чтобы оптимизировать ваш system prompt или описания инструментов для указанного вами evaluator. Batch evaluation помогает проверить рекомендацию на заранее подготовленном тестовом наборе данных и возвращает агрегированные оценки, выявляя регрессии на тех сценариях, которые вам действительно важны. Если вручную созданных сценариев недостаточно, можно также симулировать набор данных с помощью LLM-backed actor, который играет роль конечного пользователя. A/B testing выполняет контролируемое сравнение версий агента через AgentCore Gateway, деля живой производственный трафик в заданной вами пропорции и показывая результаты с доверительными интервалами и статистической значимостью. Recommendations предлагают изменения, batch evaluation и A/B testing их проверяют, и вместе они заменяют ручной цикл чтения трассировок, угадывания исправлений и слепого деплоя.

«Постоянная оценка и улучшение агентов необходимы для создания ценности на основе данных. Процессы, которые традиционно требовали недель ручной настройки промптов, с помощью AgentCore превратились в быстрые, повторяемые циклы. Получая рекомендации по улучшению из данных производственных трассировок и подтверждая их эффект с помощью A/B testing, организации могут оптимизировать производительность, сохраняя точность и эффективность. Такой подход обеспечивает непрерывное, высокоэффективное улучшение в масштабе». Yoshiharu Okuda, Head of Generative AI Business Strategy Department, NTT DATA

Как цикл работает на практике

Ниже показано, как цикл выглядит в сценарии обновления модели. Этот шаблон одинаков и для любых других изменений: рефакторинга промпта, обновления набора инструментов, апгрейда фреймворка.

Сквозная трассируемость в AgentCore фиксирует каждый вызов модели, каждый вызов инструмента и каждый шаг рассуждения в виде трассировок, совместимых с OpenTelemetry, которые управляются через AgentCore Observability. Оценки автоматически выставляют баллы этим трассировкам по таким измерениям, как процент успешного достижения цели, точность выбора инструмента, полезность и безопасность, используя встроенные evaluators, сравнение с эталонными данными или пользовательское scoring на основе LLM-as-judge.

Сгенерируйте рекомендацию. Укажите Recommendations API на CloudWatch Log group, куда ваш агент пишет трассировки. Выберите reward signal как evaluator, для которого вы хотите оптимизировать систему, — либо встроенный evaluator из AgentCore, либо созданный вами собственный evaluator, — и укажите, что оптимизировать: system prompt или описания инструментов. AgentCore анализирует трассировки, учитывая заданный reward signal, и формирует рекомендацию, направленную на улучшение показателя по этому signal. Для рекомендаций по описанию инструментов сервис уточняет только описание инструмента, не затрагивая его реализацию. Сервис предлагает изменение, а вы решаете, что передать на этап проверки.

Упакуйте изменение как configuration bundle. Конфигурации поставляются в виде bundles — неизменяемых, версионированных снимков конфигурации агента, привязанных к runtime ARN: model ID, system prompt, описания инструментов. Ваш агент динамически читает активную конфигурацию во время выполнения через AgentCore SDK, поэтому замена промпта или модели — это изменение конфигурации, а не кода. Создайте один bundle для текущей конфигурации и другой для рекомендации. Bundles необязательны. Для изменений, включающих код, разверните отдельную runtime endpoint.

Проверьте офлайн: batch evaluation. Запустите агента на curated data set с использованием нового bundle, затем выполните batch evaluation получившихся сессий и сравните агрегированные оценки с базовой линией. Это позволяет отлавливать регрессии в тех кейсах, которые вы уже определили. Команды обычно встраивают batch evaluation в CI/CD pipeline, чтобы ни одно изменение конфигурации не попадало в production, не пройдя проверку на known-good кейсах.

Проверьте на живом трафике: A/B testing. Настройте AgentCore Gateway так, чтобы он делил live production traffic между двумя вариантами, где текущая версия выступает control, а кандидат — treatment. Варианты могут быть разными версиями bundle на одном и том же runtime для изменений только в конфигурации или разными gateway targets, указывающими на отдельные runtime endpoints для изменений, включающих код. Онлайн-оценка выставляет баллы каждой сессии с помощью заданных evaluators. Результаты A/B test включают доверительные интервалы и p-values. Когда у вас наберется достаточно данных, чтобы быть уверенными в производительности новой версии, остановите тест и продвиньте новый вариант, сделав его default. Чтобы откатиться, приостановите тест, и агент вернется к своей текущей конфигурации.

«То, на что уходили недели ручных итераций промпта, теперь стало повторяемым циклом с AgentCore: сгенерировать рекомендацию на основе производственных трассировок, проверить ее на живом трафике со статистической значимостью и развернуть выигравшую конфигурацию. Каждый цикл создает базовые данные для следующего — процесс улучшения накапливается.» — Masashi Shimizu, Senior Managing Director, Nomura Research Institute, Ltd.

Куда мы движемся

Сегодняшний preview по замыслу инициируется разработчиком. Вы сами решаете, когда генерировать рекомендацию, какой evaluator выбрать и нужно ли продвигать результат. Наша цель — flywheel, в котором трассировки питают оценки, оценки выявляют drift, рекомендации превращают этот сигнал в конкретное изменение, а A/B testing доказывает, что оно работает. Выигравшая конфигурация становится новой baseline, а трассировки, которые она создает, становятся входом для следующего цикла. Со временем этот flywheel будет вращаться с меньшими затратами усилий. Recommendations будут учитывать сразу несколько evaluators, показывая trade-off на основе доказательств. Они также расширят область оптимизации до skills, предлагая новые навыки или улучшая существующие на основе использования в production. Анализ трассировок будет группировать сбои production в паттерны, которые можно исправить до того, как они начнут множиться. Monitor alarms будут запускать рекомендации и проверку самостоятельно, когда evaluator опустится ниже порога, помещая результат в очередь на review. Решать, что попадет в релиз, по-прежнему будете вы, а система сможет взять на себя основную тяжелую работу.

Посмотрите в действии

Пример Market Trends Agent sample на GitHub — это market intelligence agent, созданный для investment brokers и работающий с данными о котировках в реальном времени, отраслевым анализом, поиском новостей и персонализированными профилями брокеров. Для агента, обслуживающего брокеров с разными риск-профилями, отраслевыми интересами и стилями общения, деградацию качества трудно заметить и еще труднее исправить без правильных инструментов.

Пройдите полный цикл улучшения: сгенерируйте рекомендацию, которая покажет, где агент не персонализирует советы в соответствии с заявленной стратегией брокера или выбирает неправильный инструмент, когда запрос затрагивает несколько отраслей. Упакуйте изменение как новую версию configuration bundle. Проверьте исправление с помощью batch evaluation на curated наборе диалогов брокеров. Затем выполните A/B test конфигурации на реальных сессиях брокеров со статистической уверенностью, прежде чем продвигать ее в production.

Начните работу

Эти возможности уже доступны в preview через Amazon Bedrock AgentCore в AWS Regions, где доступен AgentCore Evaluations. В preview AgentCore Optimization работает с system prompts и описаниями инструментов для агентов, развернутых на AgentCore Runtime и использующих AgentCore Observability и Evaluations.

Начните через AgentCore Console или CLI. Ознакомьтесь с документацией и пройдите пошаговые туториалы здесь.

Материал — перевод статьи с английского.

Оригинал: Introducing agent quality optimization in AgentCore, now in preview

Подписаться на новости в Telegram