Малые языковые модели: как SLM меняют архитектуру корпоративного ИИ
Большие языковые модели (LLM) — рабочие лошади ИИ: они поддерживают все более сложные возможности и рабочие процессы и приближаются к производительности на уровне человека.
Но иногда больше — не значит лучше, иногда это просто больше. Для некоторых сценариев вполне достаточно специализированных данных и ограниченных возможностей.
Именно это понимание и стимулирует развитие малых языковых моделей (SLM), а не универсальных LLM «на все случаи жизни». По словам экспертов, SLM — в виде моделей, ориентированных на конкретную предметную область, статистических языковых моделей и нейронных языковых моделей — быстрее, дешевле, менее ресурсоемки и более приватны, чем традиционные LLM.
Однако речь не идет о простой замене. «Паттерн ближе к более удачному разделению труда», — говорит Thomas Randall, директор по исследованиям в Info-Tech Research Group. «Маршрутизирующая архитектура отправляет простые или хорошо очерченные запросы в специализированную малую модель, а сложные запросы — в большую модель».
Как делают малые языковые модели малыми?
Если LLM могут насчитывать сотни миллиардов, а все чаще и триллионы параметров, то SLM обычно находятся в диапазоне от 1 млрд до 7 млрд параметров. Как правило, все, что ниже 10 млрд, считается малым.
Если LLM обучают на петабайтах данных, то SLM обучают на компактных архитектурах трансформеров (нейронных сетях) с использованием меньших, специализированных и высококачественных наборов данных, соответствующих их целевой функции. Размер модели без потери качества помогают удерживать несколько техник. К ним относятся:
- Knowledge distillation: более крупная «учительская» модель обучает малую «ученическую» модель, чтобы та научилась воспроизводить сильные способности к рассуждению, но в куда меньшем масштабе.
- Pruning: из архитектур нейронной сети удаляются избыточные или нерелевантные параметры.
- Quantization: значения переводятся из высокой точности в более низкую (то есть числа с плавающей точкой преобразуются в целые), чтобы уменьшить объем данных, ускорить обработку и оптимизировать энергопотребление.
Более крупные модели также можно модифицировать и «дистиллировать» в более компактные и специализированные модели с помощью техник вроде retrieval-augmented generation (RAG), когда модель обучают опираться на доверенные источники перед генерацией ответа; fine-tuning и prompt tuning для направления ответов в конкретные области; или LoRa (low-rank adaptation), которая добавляет к исходной модели легкие элементы, уменьшая ее размер и охват, вместо переобучения или изменения всей модели.
В конечном счете в случае SLM корпоративные данные становятся «ключевым дифференциатором, что требует подготовки данных, проверок качества, версионирования и общего управления, чтобы обеспечить структурирование релевантных данных в соответствии с требованиями fine-tuning», отмечает Sumit Agarwal, вице-президент-аналитик в Gartner.
Преимущества малых языковых моделей
Ключевой драйвер SLM — экономический, отмечают аналитики. «Для высокочастотных, повторяющихся, ограниченных по охвату задач, таких как первичная сортировка обращений в службу поддержки, нельзя оправдать затраты на использование универсальной модели на триллион параметров», — указывает Randall из Info-Tech.
Например, скромные рабочие нагрузки для GPT-5 в масштабе приведут к неприемлемым счетам за облачные вычисления. Использование ограниченной SLM, созданной под конкретную задачу, для таких рабочих нагрузок «намного лучше» и эффективнее, сказал Randall.
Наиболее заметные бизнес-преимущества проявляются, когда для задачи совпадают три условия, отмечает Randall: она узкая по охвату, повторяющаяся и массовая, а допустимая задержка очень мала. SLM хорошо работают там, где не требуется широких общих знаний или нового вида рассуждений. Они особенно сильны, когда задачу нужно быстро, стабильно и повторяемо решать по четко определенному шаблону.
Производительность в таких сценариях нередко выше, чем у LLM, потому что SLM обучена делать «одну вещь хорошо, а не все посредственно», сказал Randall. «SLM также избегает необходимости просеивать шум всего интернета при генерации ответа, снижая вероятность галлюцинаций».
Другие преимущества SLM:
- Низкие вычислительные требования: SLM могут работать на устройстве пользователя (ноутбуки, мобильные телефоны), на периферии и даже офлайн.
- Более высокая конфиденциальность и безопасность: поскольку они достаточно малы, чтобы запускаться на устройстве или локально, SLM минимизируют риск утечек данных и инцидентов кибербезопасности. Это делает их привлекательными для строго регулируемых отраслей и организаций, работающих с чувствительными данными.
- Эффективность инференса: более маленькие модели дают быстрые ответы, что идеально для приложений реального времени.
- Более дешевоe развертывание: затраты на оборудование и облако ниже.
- Кастомизируемость: модели обучаются на данных конкретной организации.
Исследователи Nvidia также указывают на адаптивность, гибкость и модульный (Lego-подобный) дизайн систем SLM. Разработчики могут добавлять новые навыки и реагировать на меняющиеся потребности пользователей, новые требования к форматированию и изменяющиеся правила и нормы в отдельных юрисдикциях.
Кроме того, SLM поддерживают демократизацию, подчеркивают исследователи. Когда в создании языковых моделей участвует больше пользователей и компаний, ИИ может отражать более широкий спектр взглядов и общественных требований. А вовлечение большего числа людей в создание и доработку моделей может ускорить развитие отрасли.
Исследователи Nvidia заходят настолько далеко, что называют SLM «достаточно мощными, по своей природе более подходящими и неизбежно более экономичными для многих вызовов в agentic systems, а значит, будущим agentic AI».
ИТ-аналитическая компания Gartner в определенной степени согласна с этим, прогнозируя, что к 2027 году корпоративное использование малых, специализированных AI-моделей будет в три раза выше, чем использование LLM.
«Разнообразие задач в бизнес-процессах и необходимость большей точности подталкивают переход к специализированным моделям, дообученным на конкретных функциях или отраслевых данных», — сказал Agarwal из Gartner.
Сценарии использования малых языковых моделей
SLM хорошо подходят для широкого набора сценариев, включая следующие:
- Рутинные задачи и простой разбор команд с маршрутизацией на основе предопределенных шаблонов.
- Краткое изложение и генерация контента: SLM могут создавать подробные отчеты, текст под конкретную аудиторию, сообщения для веба и соцсетей, а также маркетинговые материалы.
- Чат-боты и виртуальные ассистенты: более маленькие модели могут обеспечивать взаимодействие в реальном времени, обрабатывать стандартные запросы от клиентов и внутренних пользователей, а также выполнять живую транскрипцию и перевод.
- Анализ контента: SLM могут выполнять анализ данных и анализ тональности, чтобы выявлять отраслевые тренды и помогать оптимизировать стратегию.
- Генерация кода: малые модели могут работать вместе с разработчиками, помогая писать и отлаживать код.
- Сценарии IoT, edge computing и низкоресурсные среды: SLM могут работать локально на устройствах без облачного хостинга или подключения к интернету.
- Специализированные области (финансовая, юридическая, медицинская), где конфиденциальность данных имеет первостепенное значение и организации должны соблюдать меняющиеся нормативы и законы.
В конечном счете, SLM оптимальны для сценариев, требующих классификации или обработки документов, отметил Randall из Info-Tech. Например, служба поддержки может использовать SLM для классификации тикетов по более чем 200 категориям, юридический отдел — для определения пунктов в договорах, а финансовая команда — для чтения журналов транзакций и нормативных текстов в целях выявления мошенничества.
Ограничения и компромиссы малых языковых моделей
Как и любая технология, SLM создают и собственные сложности.
Главный компромисс — широта знаний и способность к рассуждению, сказал Randall. SLM обычно теряют качество на задачах, где требуется контекстная осведомленность или многошаговое рассуждение в незнакомых областях, либо когда нужен большой контекстный окно. Более маленькие модели могут испытывать трудности с пограничными случаями или побочными задачами (например, тикет службы поддержки, который требует новой категории), с которыми справится универсальная LLM.
Аналитики указывают и на другие недостатки, включая следующие:
- Узкий охват: SLM обучаются в конкретной области и ограничены своими размерами и вычислительными возможностями. Обобщение может быть ограничено; моделям может быть сложно справляться с более тонкими задачами, которые требуют более глубокого понимания контекста или многогранного рассуждения, либо содержат высокий уровень абстракции или сложные закономерности данных.
- Сниженная устойчивость: SLM могут ошибаться вне своей специализации или при более продвинутых adversarial input (например, многократном social engineering).
- Риски смещения: если наборы данных недостаточно тщательно отобраны, меньшие датасеты могут потенциально усиливать bias.
«Универсальные LLM сохраняют преимущества в открытом рассуждении и широте знаний», — сказал Randall.
Поэтому предприятиям стоит подходить к внедрению специализированных моделей прагматично. Gartner рекомендует пилотировать малые, контекстуализированные модели в тех областях, где LLM не оправдали ожиданий по скорости или качеству ответов. Компаниям также следует применять «композитные подходы», включающие несколько моделей и этапов рабочего процесса, в сценариях, где оркестрация одной модели оказалась недостаточной.
Кроме того, предприятиям необходимо укреплять навыки и практики работы с данными. «Сделайте приоритетом подготовку данных, чтобы собирать, курировать и организовывать данные, необходимые для fine-tuning», — советует Gartner.
SLM не заменят LLM
Можно утверждать, что для LLM и SLM всегда найдется свое место, отмечают аналитики.
Randall ожидает дальнейшего роста SLM в корпоративной среде по мере увеличения числа задач, опосредованных ИИ, особенно там, где задачи четко определены и очень повторяемы.
Однако «дихотомия SLM против LLM не слишком полезна», подчеркнул он. «Более точная картина — это когда организации задаются вопросом, как оркестрировать несколько моделей разного размера в разных контекстах развертывания».
Материал — перевод статьи с английского.
Оригинал: Small language models: Rethinking enterprise AI architecture