Как ускорить агентный вызов инструментов с кастомизацией моделей в Amazon SageMaker AI без серверной инфраструктуры

Коротко: В блоге AWS рассказали, как дообучили Qwen 2.5 7B Instruct для tool calling с помощью RLVR в Amazon SageMaker AI и добились роста reward на 57% на сценариях, которых модель не видела в обучении.

Ключевые тезисы

  • AWS показала подход к agentic tool calling с использованием Serverless model customization в Amazon SageMaker AI.
  • Для обучения использовали Reinforcement Learning with Verifiable Rewards (RLVR), где качество ответа оценивается через проверяемый reward.
  • В материале описаны подготовка датасета, дизайн reward-функции с tiered scoring, конфигурация обучения и интерпретация результатов.
  • Модель проверяли на отложенных данных с неизвестными инструментами, после чего показали прирост tool call reward на 57% по сравнению с базовой моделью.

В AWS опубликовали разбор того, как ускорить agentic tool calling с помощью Serverless model customization в Amazon SageMaker AI. В центре материала — дообучение Qwen 2.5 7B Instruct для вызова инструментов с использованием Reinforcement Learning with Verifiable Rewards (RLVR).

Авторы подчеркивают, что вызов инструментов делает ИИ-агентов полезными в продакшене: они запрашивают базы данных, запускают рабочие процессы, получают данные в реальном времени и действуют от имени пользователя. При этом базовые модели нередко «галлюцинируют» инструменты, передают неверные параметры или пытаются выполнить действие вместо того, чтобы уточнить запрос. Именно такие ошибки мешают довести агента до промышленного использования.

Что предлагает AWS

По версии AWS, Serverless model customization позволяет решать эти задачи без управления инфраструктурой. Пользователь выбирает модель, задает технику обучения, указывает данные и reward function, а SageMaker AI берет на себя остальное. Такой подход особенно хорошо подходит для tool calling, потому что здесь результат можно проверить напрямую: вызвана ли правильная функция и корректны ли параметры.

В публикации отмечают, что при самостоятельном запуске RL возникают заметные операционные издержки: закупка GPU, распределение памяти между rollout и training, инфраструктура для reward-сигналов, checkpointing и настройка гиперпараметров. SageMaker AI, по словам авторов, снижает эту сложность и позволяет сосредоточиться на модели, данных и функции вознаграждения.

Что именно сделали в эксперименте

В статье описаны подготовка датасета для трех разных агентных поведения: вызов инструмента, запрос уточнения и отказ; дизайн reward-функции с tiered scoring; настройка обучения; разбор результатов; проверка на отложенных данных с неизвестными инструментами; а также деплой.

AWS также перечисляет поддерживаемые семейства моделей и техники: среди них Amazon Nova, GPT-OSS, Llama, Qwen и DeepSeek, а также Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR и Reinforcement Learning from AI Feedback (RLAIF). Для отслеживания метрик обучения и валидации используется интеграция с MLflow.

Результат

По итогам эксперимента дообученная модель улучшила tool call reward на 57% по сравнению с базовой моделью на сценариях, которые не встречались ей в процессе обучения. В AWS отмечают, что SFT полезен для примеров поведения, но может хуже обобщать решение, когда модель должна выбирать между несколькими вариантами действий. RLVR, напротив, лучше подходит для задач с проверяемым результатом.


Источник: Accelerate agentic tool calling with serverless model customization in Amazon SageMaker AI

Telegram-канал: https://t.me/no_glam_AI