Малые языковые модели: как SLM меняют архитектуру корпоративного ИИ

Прослушать статью

Большие языковые модели (LLM) — рабочие лошади ИИ: они поддерживают все более сложные возможности и рабочие процессы и приближаются к производительности на уровне человека.

Но иногда больше — не значит лучше, иногда это просто больше. Для некоторых сценариев вполне достаточно специализированных данных и ограниченных возможностей.

Именно это понимание и стимулирует развитие малых языковых моделей (SLM), а не универсальных LLM «на все случаи жизни». По словам экспертов, SLM — в виде моделей, ориентированных на конкретную предметную область, статистических языковых моделей и нейронных языковых моделей — быстрее, дешевле, менее ресурсоемки и более приватны, чем традиционные LLM.

Однако речь не идет о простой замене. «Паттерн ближе к более удачному разделению труда», — говорит Thomas Randall, директор по исследованиям в Info-Tech Research Group. «Маршрутизирующая архитектура отправляет простые или хорошо очерченные запросы в специализированную малую модель, а сложные запросы — в большую модель».

Как делают малые языковые модели малыми?

Если LLM могут насчитывать сотни миллиардов, а все чаще и триллионы параметров, то SLM обычно находятся в диапазоне от 1 млрд до 7 млрд параметров. Как правило, все, что ниже 10 млрд, считается малым.

Если LLM обучают на петабайтах данных, то SLM обучают на компактных архитектурах трансформеров (нейронных сетях) с использованием меньших, специализированных и высококачественных наборов данных, соответствующих их целевой функции. Размер модели без потери качества помогают удерживать несколько техник. К ним относятся:

Knowledge distillation: более крупная «учительская» модель обучает малую «ученическую» модель, чтобы та научилась воспроизводить сильные способности к рассуждению, но в куда меньшем масштабе.
Pruning: из архитектур нейронной сети удаляются избыточные или нерелевантные параметры.
Quantization: значения переводятся из высокой точности в более низкую (то есть числа с плавающей точкой преобразуются в целые), чтобы уменьшить объем данных, ускорить обработку и оптимизировать энергопотребление.

Более крупные модели также можно модифицировать и «дистиллировать» в более компактные и специализированные модели с помощью техник вроде retrieval-augmented generation (RAG), когда модель обучают опираться на доверенные источники перед генерацией ответа; fine-tuning и prompt tuning для направления ответов в конкретные области; или LoRa (low-rank adaptation), которая добавляет к исходной модели легкие элементы, уменьшая ее размер и охват, вместо переобучения или изменения всей модели.

В конечном счете в случае SLM корпоративные данные становятся «ключевым дифференциатором, что требует подготовки данных, проверок качества, версионирования и общего управления, чтобы обеспечить структурирование релевантных данных в соответствии с требованиями fine-tuning», отмечает Sumit Agarwal, вице-президент-аналитик в Gartner.

Преимущества малых языковых моделей

Ключевой драйвер SLM — экономический, отмечают аналитики. «Для высокочастотных, повторяющихся, ограниченных по охвату задач, таких как первичная сортировка обращений в службу поддержки, нельзя оправдать затраты на использование универсальной модели на триллион параметров», — указывает Randall из Info-Tech.

Например, скромные рабочие нагрузки для GPT-5 в масштабе приведут к неприемлемым счетам за облачные вычисления. Использование ограниченной SLM, созданной под конкретную задачу, для таких рабочих нагрузок «намного лучше» и эффективнее, сказал Randall.

Наиболее заметные бизнес-преимущества проявляются, когда для задачи совпадают три условия, отмечает Randall: она узкая по охвату, повторяющаяся и массовая, а допустимая задержка очень мала. SLM хорошо работают там, где не требуется широких общих знаний или нового вида рассуждений. Они особенно сильны, когда задачу нужно быстро, стабильно и повторяемо решать по четко определенному шаблону.

Производительность в таких сценариях нередко выше, чем у LLM, потому что SLM обучена делать «одну вещь хорошо, а не все посредственно», сказал Randall. «SLM также избегает необходимости просеивать шум всего интернета при генерации ответа, снижая вероятность галлюцинаций».

Другие преимущества SLM:

Низкие вычислительные требования: SLM могут работать на устройстве пользователя (ноутбуки, мобильные телефоны), на периферии и даже офлайн.
Более высокая конфиденциальность и безопасность: поскольку они достаточно малы, чтобы запускаться на устройстве или локально, SLM минимизируют риск утечек данных и инцидентов кибербезопасности. Это делает их привлекательными для строго регулируемых отраслей и организаций, работающих с чувствительными данными.
Эффективность инференса: более маленькие модели дают быстрые ответы, что идеально для приложений реального времени.
Более дешевоe развертывание: затраты на оборудование и облако ниже.
Кастомизируемость: модели обучаются на данных конкретной организации.

Исследователи Nvidia также указывают на адаптивность, гибкость и модульный (Lego-подобный) дизайн систем SLM. Разработчики могут добавлять новые навыки и реагировать на меняющиеся потребности пользователей, новые требования к форматированию и изменяющиеся правила и нормы в отдельных юрисдикциях.

Кроме того, SLM поддерживают демократизацию, подчеркивают исследователи. Когда в создании языковых моделей участвует больше пользователей и компаний, ИИ может отражать более широкий спектр взглядов и общественных требований. А вовлечение большего числа людей в создание и доработку моделей может ускорить развитие отрасли.

Исследователи Nvidia заходят настолько далеко, что называют SLM «достаточно мощными, по своей природе более подходящими и неизбежно более экономичными для многих вызовов в agentic systems, а значит, будущим agentic AI».

ИТ-аналитическая компания Gartner в определенной степени согласна с этим, прогнозируя, что к 2027 году корпоративное использование малых, специализированных AI-моделей будет в три раза выше, чем использование LLM.

«Разнообразие задач в бизнес-процессах и необходимость большей точности подталкивают переход к специализированным моделям, дообученным на конкретных функциях или отраслевых данных», — сказал Agarwal из Gartner.

Сценарии использования малых языковых моделей

SLM хорошо подходят для широкого набора сценариев, включая следующие:

Рутинные задачи и простой разбор команд с маршрутизацией на основе предопределенных шаблонов.
Краткое изложение и генерация контента: SLM могут создавать подробные отчеты, текст под конкретную аудиторию, сообщения для веба и соцсетей, а также маркетинговые материалы.
Чат-боты и виртуальные ассистенты: более маленькие модели могут обеспечивать взаимодействие в реальном времени, обрабатывать стандартные запросы от клиентов и внутренних пользователей, а также выполнять живую транскрипцию и перевод.
Анализ контента: SLM могут выполнять анализ данных и анализ тональности, чтобы выявлять отраслевые тренды и помогать оптимизировать стратегию.
Генерация кода: малые модели могут работать вместе с разработчиками, помогая писать и отлаживать код.
Сценарии IoT, edge computing и низкоресурсные среды: SLM могут работать локально на устройствах без облачного хостинга или подключения к интернету.
Специализированные области (финансовая, юридическая, медицинская), где конфиденциальность данных имеет первостепенное значение и организации должны соблюдать меняющиеся нормативы и законы.

В конечном счете, SLM оптимальны для сценариев, требующих классификации или обработки документов, отметил Randall из Info-Tech. Например, служба поддержки может использовать SLM для классификации тикетов по более чем 200 категориям, юридический отдел — для определения пунктов в договорах, а финансовая команда — для чтения журналов транзакций и нормативных текстов в целях выявления мошенничества.

Ограничения и компромиссы малых языковых моделей

Как и любая технология, SLM создают и собственные сложности.

Главный компромисс — широта знаний и способность к рассуждению, сказал Randall. SLM обычно теряют качество на задачах, где требуется контекстная осведомленность или многошаговое рассуждение в незнакомых областях, либо когда нужен большой контекстный окно. Более маленькие модели могут испытывать трудности с пограничными случаями или побочными задачами (например, тикет службы поддержки, который требует новой категории), с которыми справится универсальная LLM.

Аналитики указывают и на другие недостатки, включая следующие:

Узкий охват: SLM обучаются в конкретной области и ограничены своими размерами и вычислительными возможностями. Обобщение может быть ограничено; моделям может быть сложно справляться с более тонкими задачами, которые требуют более глубокого понимания контекста или многогранного рассуждения, либо содержат высокий уровень абстракции или сложные закономерности данных.
Сниженная устойчивость: SLM могут ошибаться вне своей специализации или при более продвинутых adversarial input (например, многократном social engineering).
Риски смещения: если наборы данных недостаточно тщательно отобраны, меньшие датасеты могут потенциально усиливать bias.

«Универсальные LLM сохраняют преимущества в открытом рассуждении и широте знаний», — сказал Randall.

Поэтому предприятиям стоит подходить к внедрению специализированных моделей прагматично. Gartner рекомендует пилотировать малые, контекстуализированные модели в тех областях, где LLM не оправдали ожиданий по скорости или качеству ответов. Компаниям также следует применять «композитные подходы», включающие несколько моделей и этапов рабочего процесса, в сценариях, где оркестрация одной модели оказалась недостаточной.

Кроме того, предприятиям необходимо укреплять навыки и практики работы с данными. «Сделайте приоритетом подготовку данных, чтобы собирать, курировать и организовывать данные, необходимые для fine-tuning», — советует Gartner.

SLM не заменят LLM

Можно утверждать, что для LLM и SLM всегда найдется свое место, отмечают аналитики.

Randall ожидает дальнейшего роста SLM в корпоративной среде по мере увеличения числа задач, опосредованных ИИ, особенно там, где задачи четко определены и очень повторяемы.

Однако «дихотомия SLM против LLM не слишком полезна», подчеркнул он. «Более точная картина — это когда организации задаются вопросом, как оркестрировать несколько моделей разного размера в разных контекстах развертывания».

Материал — перевод статьи с английского.

Оригинал: Small language models: Rethinking enterprise AI architecture

Подписаться на новости в Telegram