Сегодня мы рады объявить о доступности NVIDIA Nemotron 3 Nano Omni в Amazon SageMaker JumpStart в день релиза. Эта мультимодальная модель NVIDIA объединяет понимание видео, аудио, изображений и текста в единой эффективной архитектуре, позволяя корпоративным клиентам создавать интеллектуальные приложения, которые могут видеть, слышать и рассуждать по нескольким модальностям за один проход вывода. В этой статье мы рассмотрим архитектуру модели и ее ключевые возможности, разберем корпоративные сценарии использования и покажем, как развернуть модель и выполнить вывод с помощью Amazon SageMaker JumpStart.
Обзор NVIDIA Nemotron 3 Nano Omni
NVIDIA Nemotron 3 Nano Omni — это открытая мультимодальная большая языковая модель с 30 миллиардами параметров всего и 3 миллиардами активных параметров (30B A3B). Она построена на архитектуре Mamba2 Transformer Hybrid Mixture of Experts (MoE), объединяющей три ключевых компонента:
- Nemotron 3 Nano LLM в качестве языковой основы
- CRADIO v4-H в качестве визуального кодировщика для понимания изображений и видео
- Parakeet в качестве речевого кодировщика для транскрибации и понимания аудио
Эта единая архитектура принимает на вход видео, аудио, изображения и текст и генерирует текст на выходе. Она поддерживает контекст длиной 131K токенов, chain of thought reasoning, вызов инструментов, JSON-вывод и временные метки на уровне слов для задач транскрибации. Модель доступна в точности FP8 в SageMaker JumpStart, что обеспечивает оптимальный баланс точности и эффективности для корпоративных нагрузок. Она лицензируется по NVIDIA Open Model Agreement для коммерческого использования. Корпоративные агентные рабочие процессы по своей природе мультимодальны. Агентам нужно интерпретировать экраны, документы, аудио, видео и текст, часто в рамках одного и того же цикла рассуждения. Сегодня большинство agentic-систем собирают отдельные модели для зрения, речи и языка. Такой подход увеличивает задержку из-за повторных проходов вывода, усложняет оркестрацию и обработку ошибок, фрагментирует контекст между модальностями и со временем повышает стоимость и число отказов. Nemotron 3 Nano Omni решает эту задачу, выступая в роли мультимодального субагента восприятия и контекста в системе агентов. Она дает агентной системе глаза и уши: читает экраны, интерпретирует документы, транскрибирует речь и анализирует видео, при этом сохраняя единый мультимодальный контекст между циклами рассуждения. Nano Omni понимает экраны, документы, аудио и видео в одном цикле рассуждения. Это убирает фрагментированные стеки моделей и заметно упрощает проектирование агентных рабочих процессов. Для тех, кто строит agentic-архитектуры, это сокращает количество переходов вывода, логику оркестрации и накладные расходы на синхронизацию между моделями до одного вызова модели.
| Тип входных данных | Поддерживаемые форматы | Ограничения |
| Видео | mp4 | До 2 минут, до 256 кадров |
| Аудио | wav, mp3 | До 1 часа, частота дискретизации 8kHz+ |
| Изображение | JPEG, PNG (RGB) | Стандартное разрешение |
| Текст | String | До 131K контекста |
Корпоративные сценарии использования
Мультимодальные возможности Nemotron 3 Nano Omni делают ее мощным и гибким выбором для корпоративных сценариев использования.
Агенты для работы с компьютером
Nemotron 3 Nano Omni обеспечивает цикл восприятия для агентов, работающих с графическими интерфейсами. Она читает экраны, понимает состояние UI во времени и проверяет результаты, тогда как агенты исполнения выполняют действия. Это объединяет зрение и рассуждение в один цикл, устраняя необходимость в разделенных конвейерах восприятия. Практические применения включают панели управления инцидентами, agentic search, автоматизацию браузера и агентов для почтовых рабочих процессов.
Интеллектуальная обработка документов
Модель интерпретирует документы, графики, таблицы, скриншоты и смешанные медиа-входы, позволяя агентам согласованно рассуждать о визуальной структуре и текстовом содержимом. Это критически важно для корпоративной аналитики и compliance-рабочих процессов, связанных с контрактами, statements of work, финансовыми документами и научной литературой.
Агенты для понимания аудио и видео
Для сценариев клиентского обслуживания, исследований и мониторинга Nemotron 3 Nano Omni сохраняет непрерывный контекст аудио и видео. Она связывает сказанное, показанное и задокументированное в один поток рассуждения вместо разрозненных сводок. Это позволяет создавать такие приложения, как анализ записей встреч, управление медиа-активами и активами индустрии развлечений, проверка заказов в drive-thru и видеообзор обращений в службу поддержки клиентов (например, проверка доставки посылки по указанному адресу через OCR).
Начало работы с SageMaker JumpStart
Развернуть Nemotron 3 Nano Omni через Amazon SageMaker JumpStart можно за несколько шагов. SageMaker JumpStart предоставляет развертывание foundation models в один клик с оптимизированными контейнерами вывода, избавляя от необходимости управлять инфраструктурой, настраивать фреймворки обслуживания или загружать артефакты модели вручную.
Требования
Перед началом убедитесь, что у вас есть:
- Аккаунт AWS
- Соответствующие разрешения для SageMaker JumpStart
- Достаточная квота сервиса для GPU-инстансов, например ml.p4d.24xlarge или ml.p5.48xlarge
Развертывание через SageMaker Studio
- Откройте Amazon SageMaker Studio
- В левой панели навигации выберите JumpStart
- Найдите Nemotron 3 Nano Omni
- Выберите карточку модели и нажмите Deploy
- Настройте тип инстанса и параметры развертывания
- Нажмите Deploy, чтобы создать endpoint
Развертывание с помощью SageMaker Python SDK
Вы также можете развернуть модель программно с помощью SageMaker Python SDK:
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
role="<your_sagemaker_execution_role>",
)
predictor = model.deploy(
accept_eula=True,
)
Выполнение вывода: понимание изображения
После развертывания вы можете отправлять мультимодальные запросы в endpoint. Следующий пример показывает, как отправить запрос на понимание изображения:
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_b64 = encode_image("example.jpg")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Опишите это изображение подробно."},
{"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Выполнение вывода: понимание видео с рассуждением
import base64
def encode_video(video_path):
with open(video_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
video_b64 = encode_video("meeting_recording.mp4")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "video_url",
"video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
{"type": "text",
"text": "Суммируйте ключевые темы обсуждения."},
],
}],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Выполнение вывода: транскрибация аудио
import base64
def encode_audio(audio_path):
with open(audio_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
audio_b64 = encode_audio("customer_call.wav")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "audio_url",
"audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
{"type": "text",
"text": "Транскрибируйте это аудио и выделите ключевые действия."},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Рекомендуемые параметры вывода
В следующей таблице приведены рекомендуемые значения гиперпараметров для запросов вывода Omni. Значения меняются в зависимости от режима вывода.
| Режим | Temperature | top_p | max_tokens | Сценарий использования |
| Thinking | 0.6 | 0.95 | 20480 | Сложное рассуждение |
| Instruct | 0.2 | N/A | 1024 | Общие задачи, ASR |
Для задач, связанных с рассуждением и сложным пониманием, мы рекомендуем включать режим thinking. Для транскрибации и простых задач режим instruct (с отключенным thinking) обеспечивает более быстрые ответы.
Очистка ресурсов
Чтобы избежать ненужных расходов, удалите endpoint SageMaker после завершения работы:
predictor.delete_endpoint()
Заключение
NVIDIA Nemotron 3 Nano Omni выводит новый уровень мультимодального интеллекта в Amazon SageMaker JumpStart. Объединяя понимание видео, аудио, изображений и текста в одной эффективной модели, она упрощает разработку корпоративных agentic-приложений, обеспечивая при этом лидирующую точность и до 9x более высокую пропускную способность по сравнению с альтернативными открытыми omni-моделями. Независимо от того, строите ли вы computer use agents для навигации по GUI, конвейеры интеллектуальной обработки документов для compliance-рабочих процессов или системы анализа аудио и видео для клиентского обслуживания, Nemotron 3 Nano Omni предоставляет вашему агенту слой восприятия, необходимый в одном вызове модели.
Начните уже сегодня, развернув Nemotron 3 Nano Omni из Amazon SageMaker JumpStart. Для получения дополнительной информации о модели посетите страницу модели NVIDIA Nemotron на Hugging Face.
Материал — перевод статьи с английского.
Оригинал: NVIDIA Nemotron 3 Nano Omni model now available on Amazon SageMaker JumpStart
