AgentCore Optimization в preview: рекомендации из production-traces, batch evaluation и A/B testing для агентов

Прослушать статью

Генерируйте рекомендации на основе production-traces, проверяйте их с помощью batch evaluation и A/B testing и выпускайте изменения с уверенностью.

AI-агенты, которые хорошо работают на старте, не сохраняют качество надолго. По мере развития моделей, изменения поведения пользователей и повторного использования промптов в новых контекстах, для которых они не были изначально предназначены, качество агентов постепенно снижается. Во многих командах процесс улучшения по-прежнему выглядит одинаково: без автоматических feedback loops, когда пользователь жалуется, разработчик просматривает traces, выдвигает гипотезу, переписывает prompt, проверяет несколько кейсов и выкатывает исправление. Затем цикл повторяется и нередко создает новую проблему для другого пользователя. До сегодняшнего дня Amazon Bedrock AgentCore предоставлял инструменты, чтобы вручную отлаживать это или строить собственные реализации: проверять evaluation scores, чтобы заметить падение качества, углубляться в traces, чтобы определить root cause, и обновлять агента улучшенной конфигурацией. Но в такой схеме разработчик сам становится «двигателем» производительности, опираясь скорее на интуицию, чем на систематические подтвержденные данными выводы. Специализированные science-команды и большие централизованные benchmarks помогают, но для большинства продуктовых команд это не практичное и не быстрое решение. Даже если такая инфраструктура есть, она обычно работает по недельным или месячным циклам, тогда как агенты дрейфуют в production каждый день.

AgentCore — это платформа для построения, подключения и оптимизации агентов в масштабе, с security, обеспечиваемой на уровне инфраструктуры. Тысячи разработчиков уже используют AgentCore для создания агентов, которые рассуждают, планируют и действуют в сложных рабочих процессах. Сегодня мы объявляем новые возможности в AgentCore, которые замыкают цикл observe, evaluate, improve для производительности и качества агентов: recommendations и два способа их валидации.

Recommendations анализируют production-traces и evaluation outputs, чтобы оптимизировать system prompt или tool descriptions для выбранного вами evaluator. Batch evaluation помогает проверить рекомендацию на заранее заданном тестовом наборе данных и выдает агрегированные оценки, отлавливая регрессии на тех сценариях, которые для вас действительно важны. Когда ручных сценариев недостаточно, можно симулировать набор данных с помощью LLM-backed actor, который играет роль конечного пользователя. A/B testing проводит контролируемое сравнение версий агента через AgentCore Gateway, разделяя живой production-трафик в проценте, который вы задаете, и показывая результаты с confidence intervals и statistical significance. Recommendations предлагают изменения, batch evaluation и A/B testing их подтверждают, и вместе они заменяют ручной цикл чтения traces, угадывания исправлений и blind deployment.

«Постоянная оценка и улучшение агентов критически важны для создания ценности на основе данных. Процессы, которые традиционно требовали недель ручной настройки prompt, с помощью AgentCore превратились в быстрые, повторяемые циклы. Формируя рекомендации по улучшению на основе production trace data и подтверждая их влияние через A/B testing, организации могут оптимизировать производительность, сохраняя точность и эффективность. Такой подход позволяет непрерывно и очень эффективно улучшать систему в масштабе». Yoshiharu Okuda, Head of Generative AI Business Strategy Department, NTT DATA

Как цикл работает на практике

Ниже показано, как цикл работает в сценарии обновления модели. Этот же паттерн подходит для любого изменения: рефакторинга prompt, обновления набора tools, апгрейда framework.

End-to-end traceability в AgentCore фиксирует каждый вызов модели, каждый вызов tool и каждый reasoning step в виде OpenTelemetry-compatible traces, которыми управляет AgentCore Observability. Evaluations автоматически оценивают эти traces по таким параметрам, как goal success rate, tool selection accuracy, helpfulness и safety, используя встроенные evaluators, сравнение с ground truth или custom LLM-as-judge scoring.

Сгенерируйте рекомендацию. Направьте Recommendations API на CloudWatch Log group, куда ваш агент пишет traces. Выберите reward signal в качестве evaluator, для которого вы хотите оптимизировать систему: встроенный evaluator из AgentCore или собственный evaluator, который вы создали, а затем укажите, что именно оптимизировать — system prompt или tool descriptions. AgentCore анализирует traces с учетом заданного reward signal и генерирует рекомендацию, направленную на улучшение показателей по этому reward signal. Для рекомендаций по tool descriptions сервис меняет только описание tool, не затрагивая его реализацию. Сервис предлагает изменение, а вы решаете, что из этого передавать на этапы валидации.

Упакуйте изменение в configuration bundle. Конфигурации поставляются в виде bundles — неизменяемых версионированных снимков конфигурации агента, привязанных к runtime ARN: model ID, system prompt, tool descriptions. Агент динамически читает активную конфигурацию во время выполнения через AgentCore SDK, поэтому замена prompt или модели — это изменение конфигурации, а не кода. Создайте один bundle для текущей конфигурации и другой для рекомендации. Bundles не обязательны. Для изменений, которые включают код, разверните отдельную runtime endpoint вместо этого.

Проверьте офлайн: batch evaluation. Запустите агента на curated data set с использованием нового bundle, затем выполните batch-оценку получившихся сессий и сравните агрегированные оценки с baseline. Это позволяет отловить регрессии на уже определенных вами сценариях использования. Команды обычно встраивают batch evaluation в CI/CD pipelines, чтобы ни одно изменение конфигурации не попадало в production, не пройдя проверенные кейсы.

Проверьте на живом трафике: A/B testing. Настройте AgentCore Gateway так, чтобы он делил live production traffic между двумя вариантами, где текущая версия выступает control, а кандидат — treatment. Варианты могут быть разными версиями bundle в одном runtime для изменений только в конфигурации или разными gateway targets, указывающими на отдельные runtime endpoints для изменений, включающих код. Online evaluation оценивает каждую сессию с использованием заданных evaluators. Результаты A/B-теста включают confidence intervals и p-values. Когда у вас есть достаточный объем данных, чтобы быть уверенными в работе новой версии, остановите тест и назначьте новый вариант default. Чтобы выполнить rollback, приостановите тест, и агент вернется к существующей конфигурации.

«То, что раньше занимало недели ручной итерации prompt, теперь стало повторяемым циклом с AgentCore: сгенерировать рекомендацию на основе production traces, проверить ее на живом трафике со statistical significance и развернуть выигравшую конфигурацию. Каждый цикл создает baseline data для следующего — процесс улучшения накапливает эффект». — Masashi Shimizu, Senior Managing Director, Nomura Research Institute, Ltd.

Куда мы движемся

Сегодняшний preview по дизайну запускается разработчиком. Вы сами выбираете, когда генерировать рекомендацию, какой evaluator использовать и нужно ли продвигать результат. Наша цель — flywheel, в котором traces питают evaluations, evaluations выявляют drift, recommendations превращают этот сигнал в конкретное изменение, а A/B testing доказывает, что оно работает. Выигравшая конфигурация становится новой baseline, а traces, которые она порождает, становятся входом для следующего цикла. Со временем этот flywheel требует все меньше усилий. Recommendations будут учитывать сразу несколько evaluators, показывая trade-offs с опорой на данные. Они также расширят область оптимизации до skills, предлагая новые skills или улучшая существующие на основе использования в production. Анализ traces будет группировать ошибки production в паттерны, которые можно устранить до того, как они начнут множиться. Monitor alarms будут сами запускать recommendation и validation, когда evaluator опускается ниже порога, а результат попадет в очередь на review. Вы решаете, что отправить в production, а система берет на себя основную работу, чтобы довести это до результата.

Посмотрите, как это работает

Пример Market Trends Agent на GitHub — это market intelligence agent для инвестиционных брокеров, который работает с данными о котировках в реальном времени, анализом секторов, поиском новостей и персонализированными профилями брокеров. Для агента, обслуживающего брокеров с разными risk profiles, интересами к секторам и стилями общения, падение качества трудно заметить и еще труднее исправить без подходящих инструментов.

Пройдите весь цикл улучшения: сгенерируйте рекомендацию, которая покажет, где агент не персонализирует совет с учетом заявленной стратегии брокера или выбирает неверный tool, когда запрос затрагивает несколько секторов. Упакуйте изменение в версию configuration bundle. Проверьте исправление через batch evaluation на curated set брокерских диалогов. Затем выполните A/B testing конфигурации на реальных broker sessions с statistical confidence, прежде чем продвигать ее в production.

Начать

Эти возможности доступны в preview уже сегодня через Amazon Bedrock AgentCore в AWS Regions, где доступен AgentCore Evaluations. Во время preview AgentCore Optimization работает с system prompts и tool descriptions для агентов, развернутых на AgentCore Runtime и использующих AgentCore Observability и Evaluations.

Начните через AgentCore Console или CLI. Ознакомьтесь с документацией и пройдите пошаговые туториалы здесь.

Материал — перевод статьи с английского.

Оригинал: Introducing the agent performance loop: AgentCore Optimization now in preview

Подписаться на новости в Telegram