NVIDIA Nemotron 3 Nano Omni теперь доступна в Amazon SageMaker JumpStart

Прослушать статью

Сегодня мы рады объявить о доступности NVIDIA Nemotron 3 Nano Omni в Amazon SageMaker JumpStart в день релиза. Эта мультимодальная модель NVIDIA объединяет понимание видео, аудио, изображений и текста в единой эффективной архитектуре, позволяя корпоративным клиентам создавать интеллектуальные приложения, которые могут видеть, слышать и рассуждать по нескольким модальностям за один проход вывода. В этой статье мы рассмотрим архитектуру модели и ее ключевые возможности, разберем корпоративные сценарии использования и покажем, как развернуть модель и выполнить вывод с помощью Amazon SageMaker JumpStart.

Обзор NVIDIA Nemotron 3 Nano Omni

NVIDIA Nemotron 3 Nano Omni — это открытая мультимодальная большая языковая модель с 30 миллиардами параметров всего и 3 миллиардами активных параметров (30B A3B). Она построена на архитектуре Mamba2 Transformer Hybrid Mixture of Experts (MoE), объединяющей три ключевых компонента:

  1. Nemotron 3 Nano LLM в качестве языковой основы
  2. CRADIO v4-H в качестве визуального кодировщика для понимания изображений и видео
  3. Parakeet в качестве речевого кодировщика для транскрибации и понимания аудио

Эта единая архитектура принимает на вход видео, аудио, изображения и текст и генерирует текст на выходе. Она поддерживает контекст длиной 131K токенов, chain of thought reasoning, вызов инструментов, JSON-вывод и временные метки на уровне слов для задач транскрибации. Модель доступна в точности FP8 в SageMaker JumpStart, что обеспечивает оптимальный баланс точности и эффективности для корпоративных нагрузок. Она лицензируется по NVIDIA Open Model Agreement для коммерческого использования. Корпоративные агентные рабочие процессы по своей природе мультимодальны. Агентам нужно интерпретировать экраны, документы, аудио, видео и текст, часто в рамках одного и того же цикла рассуждения. Сегодня большинство agentic-систем собирают отдельные модели для зрения, речи и языка. Такой подход увеличивает задержку из-за повторных проходов вывода, усложняет оркестрацию и обработку ошибок, фрагментирует контекст между модальностями и со временем повышает стоимость и число отказов. Nemotron 3 Nano Omni решает эту задачу, выступая в роли мультимодального субагента восприятия и контекста в системе агентов. Она дает агентной системе глаза и уши: читает экраны, интерпретирует документы, транскрибирует речь и анализирует видео, при этом сохраняя единый мультимодальный контекст между циклами рассуждения. Nano Omni понимает экраны, документы, аудио и видео в одном цикле рассуждения. Это убирает фрагментированные стеки моделей и заметно упрощает проектирование агентных рабочих процессов. Для тех, кто строит agentic-архитектуры, это сокращает количество переходов вывода, логику оркестрации и накладные расходы на синхронизацию между моделями до одного вызова модели.

Тип входных данных Поддерживаемые форматы Ограничения
Видео mp4 До 2 минут, до 256 кадров
Аудио wav, mp3 До 1 часа, частота дискретизации 8kHz+
Изображение JPEG, PNG (RGB) Стандартное разрешение
Текст String До 131K контекста

Корпоративные сценарии использования

Мультимодальные возможности Nemotron 3 Nano Omni делают ее мощным и гибким выбором для корпоративных сценариев использования.

Агенты для работы с компьютером

Nemotron 3 Nano Omni обеспечивает цикл восприятия для агентов, работающих с графическими интерфейсами. Она читает экраны, понимает состояние UI во времени и проверяет результаты, тогда как агенты исполнения выполняют действия. Это объединяет зрение и рассуждение в один цикл, устраняя необходимость в разделенных конвейерах восприятия. Практические применения включают панели управления инцидентами, agentic search, автоматизацию браузера и агентов для почтовых рабочих процессов.

Интеллектуальная обработка документов

Модель интерпретирует документы, графики, таблицы, скриншоты и смешанные медиа-входы, позволяя агентам согласованно рассуждать о визуальной структуре и текстовом содержимом. Это критически важно для корпоративной аналитики и compliance-рабочих процессов, связанных с контрактами, statements of work, финансовыми документами и научной литературой.

Агенты для понимания аудио и видео

Для сценариев клиентского обслуживания, исследований и мониторинга Nemotron 3 Nano Omni сохраняет непрерывный контекст аудио и видео. Она связывает сказанное, показанное и задокументированное в один поток рассуждения вместо разрозненных сводок. Это позволяет создавать такие приложения, как анализ записей встреч, управление медиа-активами и активами индустрии развлечений, проверка заказов в drive-thru и видеообзор обращений в службу поддержки клиентов (например, проверка доставки посылки по указанному адресу через OCR).

Начало работы с SageMaker JumpStart

Развернуть Nemotron 3 Nano Omni через Amazon SageMaker JumpStart можно за несколько шагов. SageMaker JumpStart предоставляет развертывание foundation models в один клик с оптимизированными контейнерами вывода, избавляя от необходимости управлять инфраструктурой, настраивать фреймворки обслуживания или загружать артефакты модели вручную.

Требования

Перед началом убедитесь, что у вас есть:

Развертывание через SageMaker Studio

  1. Откройте Amazon SageMaker Studio
  2. В левой панели навигации выберите JumpStart
  3. Найдите Nemotron 3 Nano Omni
  4. Выберите карточку модели и нажмите Deploy
  5. Настройте тип инстанса и параметры развертывания
  6. Нажмите Deploy, чтобы создать endpoint

Развертывание с помощью SageMaker Python SDK

Вы также можете развернуть модель программно с помощью SageMaker Python SDK:

Формулы и расчет
from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
  model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
  role="<your_sagemaker_execution_role>",
)

predictor = model.deploy(
  accept_eula=True,
)

Выполнение вывода: понимание изображения

После развертывания вы можете отправлять мультимодальные запросы в endpoint. Следующий пример показывает, как отправить запрос на понимание изображения:

Формулы и расчет
import base64
def encode_image(image_path):
  with open(image_path, "rb") as f:
    return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("example.jpg")

payload = {
  "messages": [{ 
    "role": "user", 
    "content": [ 
      {"type": "text", "text": "Опишите это изображение подробно."},
      {"type": "image_url", 
       "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
    ],
  }],
  "max_tokens": 1024,
  "temperature": 0.2,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Выполнение вывода: понимание видео с рассуждением

Формулы и расчет
import base64
def encode_video(video_path):
  with open(video_path, "rb") as f:
    return base64.b64encode(f.read()).decode("utf-8")

video_b64 = encode_video("meeting_recording.mp4")

payload = { 
  "messages": [{ 
    "role": "user", 
    "content": [ 
      {"type": "video_url", 
       "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
      {"type": "text",
       "text": "Суммируйте ключевые темы обсуждения."},
    ],
  }],
  "max_tokens": 20480,
  "temperature": 0.6,
  "top_p": 0.95,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Выполнение вывода: транскрибация аудио

Формулы и расчет
import base64
def encode_audio(audio_path): 
  with open(audio_path, "rb") as f: 
    return base64.b64encode(f.read()).decode("utf-8")

audio_b64 = encode_audio("customer_call.wav")

payload = { 
  "messages": [{ 
    "role": "user", 
    "content": [ 
      {"type": "audio_url", 
       "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
      {"type": "text", 
       "text": "Транскрибируйте это аудио и выделите ключевые действия."},
    ],
  }],
  "max_tokens": 1024,
  "temperature": 0.2,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Рекомендуемые параметры вывода

В следующей таблице приведены рекомендуемые значения гиперпараметров для запросов вывода Omni. Значения меняются в зависимости от режима вывода.

Режим Temperature top_p max_tokens Сценарий использования
Thinking 0.6 0.95 20480 Сложное рассуждение
Instruct 0.2 N/A 1024 Общие задачи, ASR

Для задач, связанных с рассуждением и сложным пониманием, мы рекомендуем включать режим thinking. Для транскрибации и простых задач режим instruct (с отключенным thinking) обеспечивает более быстрые ответы.

Очистка ресурсов

Чтобы избежать ненужных расходов, удалите endpoint SageMaker после завершения работы:

predictor.delete_endpoint()

Заключение

NVIDIA Nemotron 3 Nano Omni выводит новый уровень мультимодального интеллекта в Amazon SageMaker JumpStart. Объединяя понимание видео, аудио, изображений и текста в одной эффективной модели, она упрощает разработку корпоративных agentic-приложений, обеспечивая при этом лидирующую точность и до 9x более высокую пропускную способность по сравнению с альтернативными открытыми omni-моделями. Независимо от того, строите ли вы computer use agents для навигации по GUI, конвейеры интеллектуальной обработки документов для compliance-рабочих процессов или системы анализа аудио и видео для клиентского обслуживания, Nemotron 3 Nano Omni предоставляет вашему агенту слой восприятия, необходимый в одном вызове модели.

Начните уже сегодня, развернув Nemotron 3 Nano Omni из Amazon SageMaker JumpStart. Для получения дополнительной информации о модели посетите страницу модели NVIDIA Nemotron на Hugging Face.


Материал — перевод статьи с английского.

Оригинал: NVIDIA Nemotron 3 Nano Omni model now available on Amazon SageMaker JumpStart