AgentCore Optimization в preview: рекомендации, batch evaluation и A/B testing для качества AI-агентов
Генерируйте рекомендации на основе производственных трасс, проверяйте их с помощью batch evaluation и A/B testing и выпускайте изменения с уверенностью.
AI-агенты, которые хорошо работают на запуске, не сохраняют этот уровень надолго. По мере развития моделей меняется поведение пользователей, а промпты начинают использоваться в новых контекстах, для которых они не были изначально предназначены. Качество агентов незаметно снижается. В большинстве команд процесс улучшения по-прежнему выглядит одинаково: без автоматических циклов обратной связи, когда пользователь жалуется, разработчик просматривает трассы, формулирует гипотезу, переписывает промпт, проверяет несколько случаев и выкатывает исправление. Затем цикл повторяется, часто создавая новую проблему для другого пользователя. До сегодняшнего дня Amazon Bedrock AgentCore давал набор инструментов, чтобы отлаживать это вручную или строить собственные реализации: смотреть на оценки, чтобы заметить падение качества, глубоко разбирать трассы, чтобы определить корневую причину, и обновлять агента улучшенной конфигурацией. При этом разработчик остается главным двигателем производительности, опираясь на интуицию, а не на систематические доказательства, основанные на данных. Специализированные science-команды и крупные централизованные бенчмарки помогают, но для большинства продуктовых команд это не практичное и не своевременное решение. Даже если такая инфраструктура есть, она обычно работает по недельным или месячным циклам, тогда как агенты дрейфуют в продакшене каждый день.
AgentCore — это платформа для создания, подключения и оптимизации агентов в масштабе, с безопасностью, обеспечиваемой на уровне инфраструктуры. Тысячи разработчиков уже используют AgentCore, чтобы строить агентов, которые рассуждают, планируют и действуют в сложных рабочих процессах. Сегодня мы объявляем о новых возможностях в AgentCore, которые замыкают цикл observe, evaluate, improve для производительности и качества агентов: рекомендации и два способа их проверки.
Recommendations анализируют производственные трассы и результаты оценок, чтобы оптимизировать системный промпт или описания инструментов для указанного вами evaluatora. Batch evaluation помогает проверить рекомендацию на заранее заданном тестовом наборе данных и возвращает агрегированные оценки, выявляя регрессии на кейсах, которые для вас важны. Если вручную написанных сценариев недостаточно, можно также симулировать набор данных с помощью LLM-backed actor, который играет роль конечного пользователя. A/B testing проводит контролируемое сравнение версий агента через AgentCore Gateway, разделяя живой продакшн-трафик в заданной вами пропорции и возвращая результаты с доверительными интервалами и статистической значимостью. Recommendations предлагают изменения, batch evaluation и A/B testing их валидируют, а вместе они заменяют ручной цикл чтения трасс, догадок о причинах и слепого деплоя.
«Непрерывная оценка и улучшение агентов необходимы для создания ценности на основе данных. Процессы, которые традиционно требовали недель ручной настройки промптов, превратились в быстрые, повторяемые циклы благодаря AgentCore. Получая рекомендации по улучшению из данных производственных трасс и подтверждая их эффект через A/B testing, организации могут оптимизировать производительность, сохраняя точность и эффективность. Такой подход обеспечивает непрерывное, высокоэффективное улучшение в масштабе». — Yoshiharu Okuda, Head of Generative AI Business Strategy Department, NTT DATA
Как работает цикл на практике
Вот как цикл выглядит в сценарии обновления модели. Та же схема применима к любому изменению: рефакторингу промпта, обновлению набора инструментов, апгрейду фреймворка.
Сквозная трассируемость в AgentCore фиксирует каждый вызов модели, вызов инструмента и шаг рассуждения в виде трасс, совместимых с OpenTelemetry, которые управляются через AgentCore Observability. Оценки автоматически выставляют баллы этим трассам по таким параметрам, как успешность достижения цели, точность выбора инструмента, полезность и безопасность, используя встроенные evaluators, сравнение с ground truth или собственное LLM-as-judge scoring.
Сгенерируйте рекомендацию. Укажите Recommendations API на CloudWatch Log group, куда ваш агент пишет трассы. Выберите reward signal как evaluator, под который вы хотите оптимизироваться, — встроенный evaluator из AgentCore или созданный вами собственный evaluator, — и решите, что оптимизировать: системный промпт или описания инструментов. AgentCore анализирует трассы, учитывая заданный reward signal, и формирует рекомендацию, нацеленную на улучшение результата по этому сигналу. Для рекомендаций по описанию инструментов сервис улучшает только текст описания, не затрагивая реализацию инструмента. Сервис предлагает, а вы решаете, что передать дальше на этапы валидации.
Упакуйте изменение в configuration bundle. Конфигурации поставляются в виде bundles — неизменяемых, версионированных снимков конфигурации агента, привязанных к runtime ARN: model ID, system prompt, tool descriptions. Ваш агент динамически читает активную конфигурацию во время выполнения через AgentCore SDK, поэтому замена промпта или модели — это изменение конфигурации, а не кода. Создайте один bundle для текущей конфигурации и второй для рекомендации. Bundles необязательны. Для изменений, которые включают код, разверните отдельную runtime endpoint.
Проверьте офлайн: batch evaluation. Запустите агента на curated data set с использованием нового bundle, затем оцените получившиеся сессии пакетно и сравните агрегированные оценки с базовой линией. Это позволяет отлавливать регрессии на уже определенных вами сценариях. Команды обычно встраивают batch evaluation в CI/CD pipelines, чтобы ни одно изменение конфигурации не попадало в продакшен, не пройдя известные хорошие кейсы.
Проверьте на живом трафике: A/B testing. Настройте AgentCore Gateway так, чтобы он разделял живой продакшн-трафик между двумя вариантами: текущая версия выступает control, а кандидат — treatment. Варианты могут быть разными версиями bundle на одном и том же runtime для изменений только в конфигурации или разными targets gateway, указывающими на отдельные runtime endpoints для изменений, включающих код. Online evaluation оценивает каждую сессию с помощью заданных вами evaluators. Результаты A/B test включают доверительные интервалы и p-values. Когда данных достаточно, чтобы быть уверенным в производительности новой версии, остановите тест и продвиньте новый вариант, сделав его значением по умолчанию. Чтобы откатиться, приостановите тест, и агент вернется к существующей конфигурации.
«То, что раньше занимало недели ручной итерации промптов, теперь стало повторяемым циклом с AgentCore: сгенерировать рекомендацию на основе production traces, проверить ее на live traffic со статистической значимостью и развернуть выигравшую конфигурацию. Каждый цикл создает базовые данные для следующего — процесс улучшения накапливается». — Masashi Shimizu, Senior Managing Director, Nomura Research Institute, Ltd.
Куда мы движемся
Сегодняшний preview по замыслу запускается разработчиком вручную. Вы сами выбираете, когда генерировать рекомендацию, какой evaluator использовать и продвигать ли результат дальше. Наша цель — flywheel, в котором трассы подпитывают оценки, оценки выявляют drift, рекомендации превращают этот сигнал в конкретное изменение, а A/B testing доказывает, что оно работает. Победившая конфигурация становится новой базовой линией, а трассы, которые она создает, становятся входом для следующего цикла. Со временем этот flywheel начинает вращаться с меньшими усилиями. Recommendations будут учитывать сразу несколько evaluators, показывая компромиссы с опорой на доказательства. Они также расширят поверхность оптимизации до skills, предлагая новые или дорабатывая существующие на основе использования в продакшене. Анализ трасс будет группировать производственные сбои в паттерны, которые можно устранить до того, как они размножатся. Monitor alarms смогут сами запускать рекомендацию и проверку, когда один из evaluators опустится ниже порога, отправляя результат в очередь на review. Вы решаете, что пойдет в продакшен, а система может взять на себя основную работу, чтобы довести это до результата.
Посмотрите в действии
Пример Market Trends Agent на GitHub — это агент рыночной аналитики для инвестиционных брокеров, работающий с данными о котировках в реальном времени, анализом секторов, поиском новостей и персонализированными профилями брокеров. Для агента, который обслуживает брокеров с разными профилями риска, интересами по секторам и стилями общения, деградацию качества трудно заметить и еще труднее исправить без правильного инструментария.
Пройдите полный цикл улучшения: сгенерируйте рекомендацию, которая покажет, где агент не персонализирует советы под заявленную стратегию брокера или выбирает неверный инструмент, когда запрос затрагивает несколько секторов. Упакуйте изменение в версию configuration bundle. Проверьте исправление с помощью batch evaluation на curated наборе диалогов с брокерами. Затем выполните A/B test конфигурации на реальных сессиях брокеров со статистической уверенностью, прежде чем продвигать ее в продакшен.
Начать работу
Эти возможности доступны в preview уже сегодня через Amazon Bedrock AgentCore в регионах AWS, где доступен AgentCore Evaluations. Во время preview AgentCore Optimization работает с системными промптами и описаниями инструментов для агентов, развернутых на AgentCore Runtime и использующих AgentCore Observability и Evaluations.
Начните через AgentCore Console или CLI. Прочитайте документацию и пройдите пошаговые руководства здесь.
Материал — перевод статьи с английского.
Оригинал: Introducing the agent quality loop: AgentCore Optimization now in preview