Stability AI представила Stability Audio 3.0: ИИ-модели для музыки длиной более 6 минут
Stability AI, компания, стоящая за Stable Diffusion, выпускает новое семейство аудиомоделей под названием Stability Audio 3.0. По словам компании, старшая модель способна генерировать музыку профессионального уровня длительностью более шести минут.
В линейку Stability Audio 3.0 входят четыре новые модели: small SFX (459 млн параметров), small (459 млн параметров), medium (1,4 млрд параметров) и large (2,7 млрд параметров). Две младшие модели подходят для генерации звука и музыки на устройстве длительностью до двух минут.
Модели medium и large могут создавать полноценные композиции длительностью 6 минут 20 секунд, сохраняя музыкальную структуру и мелодический тон. Это более чем вдвое превышает возможности Stable Audio 2.0, выпущенной в 2024 году.
Stability AI делает модели small SFX, small и medium доступными с открытыми весами, чтобы их можно было использовать и модифицировать. В 2024 году компания выпустила Stable Audio Open, которая позволяла генерировать музыку длиной до 47 секунд. Новое семейство моделей — заметный шаг вперед по сравнению с предыдущими открытыми версиями.

Старшая модель доступна только через API и платные сервисы с самостоятельным хостингом. Кроме того, компаниям с выручкой более $1 млн потребуется enterprise-лицензия.
На рынке уже появляется много компаний, включая Google и ElevenLabs, которые выпускают модели и инструменты для генерации музыки. Однако, как показали продолжающиеся судебные разбирательства Suno и Udio, лицензирование данных и партнерства с музыкальными лейблами могут стать ключом к долгосрочному выживанию таких сервисов.
В прошлом году Stability AI заключила соглашения с Warner Music Group и Universal Music Group для разработки моделей и инструментов создания музыки. Компания заявила, что ее последняя линейка аудиомоделей обучена на полностью лицензированных данных.
AI-стартап также разрабатывает новый набор продуктов для профессиональных музыкантов, но не раскрыл подробности о его функциях. Руководить направлением профессиональной музыки в Stability будет Ethan Kaplan, ранее занимавший должность chief digital officer в Universal Audio и Fender.
Ряд AI-компаний пытается укрепить свои позиции, нанимая музыкальных топ-менеджеров. Ранее в этом году Suno наняла бывшего CEO Merlin Jeremy Sirota на пост chief commercial officer. ElevenLabs также пригласила Derek Cournoyer из независимого музыкального издателя Kobalt в качестве руководителя стратегии своего музыкального бизнеса.
Материал — перевод статьи с английского.
Оригинал: Stability AI releases a new audio model that can create 6-minute songs