SageMaker JumpStart optimized deployments: развертывание моделей по сценариям использования

Прослушать статью

Amazon SageMaker JumpStart предоставляет предварительно обученные модели для широкого спектра типов задач, чтобы помочь вам быстрее начать работу с AI-нагрузками. SageMaker JumpStart также дает доступ к решениям для ключевых сценариев использования, которые можно развернуть в SageMaker AI Managed Inference endpoints или в кластерах SageMaker HyperPod. Благодаря предустановленным вариантам развертывания клиенты могут быстро перейти от выбора модели к ее запуску.

Развертывание моделей через SageMaker JumpStart выполняется быстро и просто. Раньше клиенты могли выбирать параметры исходя из ожидаемого числа одновременных пользователей и видеть P50 latency, time-to-first token (TTFT) и throughput (token/second/user). Однако такие настройки подходят для общих сценариев, но не учитывают конкретную задачу. Мы понимаем, что SageMaker JumpStart используют для разных случаев — генерации контента, суммаризации или Q&A. Для каждого из них могут потребоваться свои конфигурации, чтобы улучшить производительность. Кроме того, под производительностью не всегда подразумевается только latency: для одних клиентов важнее throughput, для других — минимальная стоимость за токен.

На этой основе мы объявляем о запуске SageMaker JumpStart optimized deployments. Эти улучшенные развертывания решают задачу более гибкой и при этом простой настройки развертываний в SageMaker JumpStart, предлагая заранее определенные конфигурации, созданные под конкретные сценарии использования. При этом клиенты по-прежнему видят все детали предлагаемого развертывания, но теперь оно оптимизировано под конкретный use case и заданное ограничение по производительности.

Prerequisites

Чтобы начать использовать SageMaker JumpStart optimized deployments, клиентам как минимум нужны следующие элементы:

После того как эти компоненты настроены, клиенты могут сразу начинать использовать SageMaker JumpStart optimized deployments.

Getting started

Чтобы начать работу с SageMaker JumpStart optimized deployments, откройте SageMaker Studio и выберите Models. Затем выберите любую из моделей, поддерживающих optimized deployments (они перечислены в следующем разделе), и нажмите Deploy в правом верхнем углу. На открывшемся экране теперь доступно сворачиваемое окно Performance, в котором находятся параметры optimized deployments.

Показанные параметры сначала требуют выбрать use case. Для текстовых моделей такие варианты могут включать от generative writing до chat-style interactions; для изображений и видео после добавления поддержки этих типов входных данных появятся другие сценарии. После выбора use case клиент должен выбрать одну из трех оптимизаций ограничений: Cost optimized, Throughput optimized и Latency optimized. Также доступна опция Balanced для клиентов, которым нужна наилучшая средняя производительность по всем зарегистрированным метрикам.

После выбора параметров для endpoint автоматически задается предустановленная конфигурация. Клиенты могут дополнительно проверить и выбрать значения других настроек, например timeouts, имени endpoint и параметров безопасности. После завершения настройки нужно нажать Deploy в правом нижнем углу.

Available models

SageMaker JumpStart optimized deployments доступны для следующих моделей:

  • Meta
    • Llama-3.1-8B-Instruct
    • Llama-2-7b-hf
    • Llama-3.2-3B
    • Meta-Llama-3-8B
    • Llama-3.2-1B-Instruct
    • Llama-3.2-1B
    • Llama-3.1-70B-Instruct
    • Llama-3.2-3B-Instruct
    • Meta-Llama-3-8B
  • Microsoft
    • Phi-3-mini-4k-instruct
  • Mistral AI
    • Mistral-7B-Instruct-v0.2
    • Mistral-Small-24B-Instruct-2501
    • Mistral-7B-v0.1
    • Mistral-7B-Instruct-v0.3
    • Mixtral-8x7B-Instruct-v0.1
  • Qwen
    • Qwen3-8B
    • Qwen3-32B
    • Qwen3-0.6B
    • Qwen2.5-7B-Instruct
    • Qwen2.5-72B-Instruct
    • Qwen2-VL-7B-Instruct
    • Qwen2-1.5B-Instruct
    • Qwen2-7B
  • Google
    • gemma-7b
    • gemma-7b-it
    • gemma-2b
  • Tiiuae
    • Falcon3-1B-Instruct

Это стартовые модели для optimized deployments, и мы активно расширяем поддержку, добавляя новые модели.

Call to action

Клиенты могут начать работать с SageMaker JumpStart optimized deployments уже сейчас. Выберите одну из доступных моделей с optimized deployment в model hub SageMaker Studio и поэкспериментируйте с разными вариантами развертывания, чтобы подобрать подходящую конфигурацию для своего приложения.


Материал — перевод статьи с английского.

Оригинал: Use-case based deployments on SageMaker JumpStart