VK Cloud

SLM vs LLM — что выбрать для бизнеса?

17 марта 2026 г.
_blog_head_126.png

Узнавайте о выходе новых статей в блоге первыми!

Будем держать в курсе новостей и облачных трендов

section-subscribe_2x.png
    section-subscribe_2x.png

    Ещё два года назад выбор был очевидным: если нужен умный ИИ-ассистент, берёшь большую модель и платишь за облако. Сегодня этот расчёт устарел. Малые языковые модели (SLM) догнали LLM на узких задачах, стали мультимодальными, научились рассуждать и теперь помещаются на одном GPU — или вовсе в мобильном приложении.

    Разрыв в качестве между SLM и LLM за один год сократился с 15–20 до менее 6 баллов на математических бенчмарках. Компактная Qwen3.5-9B показывает результаты на уровне моделей в 13 раз крупнее, а рынок SLM растёт на 28,7% в год и, по прогнозу MarketsandMarkets, достигнет 5,45 млрд долларов к 2032 году. При этом стоимость инференса у SLM остаётся в 10–30 раз ниже, чем у LLM сопоставимого назначения.

    Это не значит, что большие модели уходят в прошлое. GPT-5.2, Claude Opus 4.6 и Gemini 3 Pro по-прежнему выигрывают там, где нужны широкий кругозор, сложные мультидоменные рассуждения и длинный контекст. Вопрос не в том, какая модель лучше, а в том, какая задача стоит перед бизнесом — и сколько он готов за неё платить. В этой статье разберём, чем SLM и LLM отличаются на практике и как выбрать между ними.

    Как работают языковые модели

    Языковая модель — это нейросеть, обученная на массиве текстов. Она анализирует последовательности слов и учится предсказывать, какое слово или токен (фрагмент слова) будет следующим. В основе современных моделей лежит архитектура Transformer, предложенная Google в 2017 году.

    Работает это в три шага.

    1. Входной текст разбивается на токены — отдельные слова, части слов или символы, и фраза «облачная инфраструктура» превращается в набор числовых идентификаторов, понятных модели.
    2. Механизм внимания (attention) оценивает связи между всеми токенами: модель понимает, что слово «банк» в контексте финансов и в контексте реки означает разные сущности, и чем больше параметров, тем более тонкие связи она улавливает.
    3. На основе выявленных закономерностей модель последовательно генерирует токены, выбирая каждый следующий с учётом всех предыдущих, — так формируется связный текст: ответ на вопрос, перевод, аналитический отчёт или код.

    Количество параметров определяет «объём знаний» модели, но не гарантирует качество на конкретной задаче. По данным исследования Università di Salerno (arXiv, 2024, ID: 2510.21443), дообученные SLM достигают F1-score 0,83 на задачах классификации при F1-score 0,85 у лучших LLM. Разница в 2 п.п. при 10–30-кратной экономии на инференсе делает SLM рациональным выбором для типовых NLP-задач. На сложных рассуждениях LLM пока сохраняют преимущество — на математическом бенчмарке AIME'26 GPT-5.2 набирает 96,7 балла против 91,3 у лучшей SLM, — но разрыв сокращается: в 2025 году он составлял 15–20 баллов, в 2026-м уже менее 6.

    Малые и большие языковые модели: в чём разница

    Водораздел между SLM и LLM проходит по количеству параметров, но на практике различия глубже.

    Большие языковые модели (LLM) — это модели со 100+ млрд параметров: GPT-5.2, Claude Opus 4.6, Gemini 3 Pro. Они обучены на петабайтах текстов из интернета, книг, научных статей и кода и решают широкий спектр задач: генерация текста, анализ документов, написание кода, мультиязычный перевод, сложные рассуждения. Gemini 3 Pro первой набрала высший рейтинг качества ответов (1 501 ELO) по оценкам более 100 000 пользователей на платформе LMArena.

    Малые языковые модели (SLM) содержат от 0,8 до 14 млрд параметров (dense). MoE-варианты формально крупнее, но активируют только 3–10 млрд параметров на каждый запрос. Среди актуальных примеров: Alibaba Qwen3.5 (от 0,8 до 9 млрд dense и MoE-варианты 35B-A3B и 122B-A10B), Mistral Ministral 3 (3, 8 и 14 млрд) и Hugging Face SmolLM3 (3 млрд). SLM заточены под конкретные задачи и работают на ограниченных ресурсах, вплоть до одного GPU или мобильного устройства. Главный тренд 2026 года: SLM стали мультимодальными (текст и изображения), освоили два режима работы — быстрый ответ и глубокое рассуждение, а также архитектуру Mixture-of-Experts (MoE) с гибридным линейным вниманием, которое снижает стоимость инференса.

    Сравнение по ключевым характеристикам:

    Характеристика SLM LLM
    \Параметры 0,8–14 млрд dense (3–10 млрд активных при MoE) 100+ млрд (до 2+ трлн)
    Контекстное окно 128K–262K токенов 256K–1 млн токенов (Gemini 3.1 Pro: 1 млн)
    Мультимодальность Текст + изображения (Qwen3.5, Ministral 3, SmolLM3) Текст, изображения, аудио, видео
    Стоимость инференса В 10–30 раз ниже LLM аналогичного назначения Цены API снизились за 2025–2026, но остаются кратно выше SLM
    Скорость ответа Десятки миллисекунд (SmolLM3: 50–200 мс на одном GPU 12–16 Гб) Сотни миллисекунд и выше
    Развёртывание Один GPU (Ministral 3-3B: ~8 Гб VRAM), edge-устройство Кластер GPU, облачная инфраструктура
    Качество на узких задачах Сопоставимо с LLM после дообучения (F1-score 0,83 vs 0,85) Высокое без дообучения
    Сложные рассуждения Прогресс: разрыв с LLM сократился с 15–20 до менее 6 баллов за год Сильная сторона: GPT-5.2 — 96,7 на AIME'26
    Приватность данных Полный контроль (On-Premise, Apache 2.0) Зависит от провайдера API
    Мультиязычность Qwen3.5: 201 язык; SmolLM3: 6 европейских + расширенная поддержка Широкая по умолчанию

    Qwen3.5 (Alibaba, февраль–март 2026) — линейка из 10 моделей от 0,8 до 9 млрд параметров (dense) и MoE-вариантов с 3–17 млрд активных параметров. На бенчмарке вызова функций BFCL-V4 модель Qwen3.5-122B-A10B набирает 72,2 — на 30% выше GPT-5 mini (55,5), что важно для автоматизации бизнес-процессов через API. Лицензия Apache 2.0, поддержка 201 языка.

    Ministral 3 (Mistral AI, декабрь 2025) — dense-модели на 3, 8 и 14 млрд параметров с поддержкой текста и изображений. Модель на 3 млрд параметров помещается в 8 Гб видеопамяти и подходит для edge-устройств: терминалы, мобильные приложения, встроенные системы. Лицензия Apache 2.0.

    SmolLM3 (Hugging Face, начало 2026) — 3 млрд параметров, контекст 128K токенов. Обходит предшественников аналогичного размера (Llama-3.2-3B, Qwen2.5-3B) на 12 бенчмарках и поддерживает два режима работы: быстрый ответ (десятки миллисекунд) и глубокое рассуждение. Лицензия Apache 2.0.

    blog-800x400.jpg

    Managed Databases без закупки и настройки серверов

    Запустите СУБД в пару кликов и платите только за используемые ресурсы

    Что выбрать SLM или LLM: сравнение для бизнеса

    Когда подходит SLM

    • Узкоспециализированные задачи. Классификация обращений, извлечение данных из документов, доменный чат-бот. Дообученные SLM на 9 млрд параметров достигают результатов, сопоставимых с моделями в 13 раз крупнее на академических бенчмарках, а Ministral 3-14B с вариантом reasoning справляется с предметными задачами даже без дообучения.
    • Ограниченный бюджет. SLM сокращают расходы на GPU и облачную инфраструктуру в 10–30 раз по сравнению с LLM при обработке 100 тыс.+ запросов в сутки на задачах классификации. Обработка 1 млн токенов на Qwen3.5-Plus стоит около 0,18 доллара.
    • Требования к приватности. В финансах, медицине и госсекторе данные не должны покидать периметр организации. SLM работает On-Premise без передачи данных через сторонние API, а все ведущие модели 2026 года — Qwen3.5, Ministral 3, SmolLM3 — выпускаются под лицензией Apache 2.0 и доступны для коммерческого использования.
    • Edge-развёртывание. Проверка документов на кассе, голосовой помощник в автомобиле, мобильные приложения. Ministral 3-3B помещается в 8 Гб видеопамяти, а Qwen3.5-0.8B — мультимодальная модель с контекстом 262K токенов и поддержкой 200+ языков при менее чем 1 млрд параметров.
    • Низкая задержка. SmolLM3 отвечает за 50–200 мс на одном GPU 12–16 Гб, что критично для голосовых помощников и автоматизации производства. Режим быстрого ответа без цепочки рассуждений дополнительно ускоряет генерацию.
    • Мультимодальные задачи на ограниченных ресурсах. Qwen3.5-0.8B обрабатывает текст и изображения при менее чем 1 млрд параметров, Ministral 3-3B включает vision-энкодер для распознавания изображений. До 2025 года для таких задач требовались LLM.

    Когда нужна LLM

    • Сложные мультидоменные задачи. Анализ, требующий знаний из нескольких областей одновременно, и написание развёрнутых аналитических отчётов на основе разрозненных данных — здесь LLM пока нет равных. Gemini 3 Pro набирает высший рейтинг качества ответов по оценкам более 100 000 пользователей на платформе LMArena.
    • Генерация длинного контента. Статьи, документация, маркетинговые материалы, где важен широкий контекст. Gemini 3.1 Pro поддерживает контекст в 1 млн токенов — это примерно 3 000 страниц текста в одном запросе.
    • Полноценная ИИ-помощь в разработке. Генерация, рефакторинг и дебаг крупных кодовых баз требуют LLM: Claude Opus 4.6 и GPT-5.3-Codex (февраль 2026) — специализированные модели для кода. Для точечных задач вроде автодополнения или генерации тестов достаточно SLM.
    • Универсальный помощник. Когда заранее невозможно предсказать типы запросов — например, внутренний корпоративный ассистент или исследовательский инструмент, — широкий кругозор LLM даёт ощутимое преимущество.

    Ключевые критерии выбора

    При выборе между SLM и LLM оцените пять параметров:

    1. Задача. Чем уже задача (классификация, извлечение сущностей (NER), суммаризация), тем выше шансы решить её с помощью SLM. Мультидоменные рассуждения требуют LLM.
    2. Бюджет. SLM на собственном сервере обходится в 10–30 раз дешевле по стоимости инференса, чем LLM через API. Обработка 1 млн токенов на Qwen3.5-Plus стоит ~0,18 доллара. Цены API LLM снизились за 2025–2026 годы, но остаются кратно выше.
    3. Конфиденциальность. При регулировании данных (ФЗ-152, GDPR, PCI DSS) On-Premise SLM устраняет риск утечки через сторонние API.
    4. Скорость и масштаб. При миллионах запросов в сутки SLM экономит от 10 тыс. долларов в месяц за счёт кратного снижения стоимости инференса.
    5. Команда. SLM требует навыков дообучения и MLOps. Без таких компетенций облачная LLM через API проще в запуске.

    Гибридный подход

    На практике компании всё чаще строят не монолитную ИИ-систему на одной модели, а многоуровневую архитектуру с маршрутизатором запросов. Принцип прост: входящий запрос классифицируется, и если он типовой — классификация, суммаризация, FAQ — его обрабатывает SLM. Сложные случаи с мультидоменным анализом или генерацией контента передаются в LLM. Такой подход снижает расходы на инференс без потери качества на большинстве запросов.

    Отдельный тренд — архитектура Mixture-of-Experts внутри самих SLM. Qwen3.5-35B-A3B формально содержит 35 млрд параметров, но активирует только 3 млрд на каждый запрос и при этом превосходит модели предыдущего поколения с 22 млрд активных параметров. Qwen3.5-122B-A10B набирает на бенчмарке вызова функций BFCL-V4 на 30% выше GPT-5 mini, что делает MoE-модели сильным выбором для автоматизации бизнес-процессов через API. MoE постепенно размывает границу между SLM и LLM: по общему числу параметров такая модель крупная, а по стоимости инференса сопоставима с компактной.

    Рынок движется в сторону компактных моделей. По прогнозу IDC (отчёт «Asia/Pacific AI Predictions», 2025), к 2026 году до 90% внедрений языковых моделей в крупнейших компаниях Азиатско-Тихоокеанского региона будут ориентированы на SLM. В России эту тенденцию уже отражает практика: банки внедряют компактные модели для обработки клиентских обращений, ритейл — для персонализации рекомендаций, телеком — для автоматизации первой линии поддержки.

    FAQ

    В чём разница между малыми и большими языковыми моделями?

    Малые языковые модели (SLM) содержат от 0,8 до 14 млрд параметров и заточены под конкретные задачи, большие (LLM) — от 100 млрд параметров и решают широкий спектр задач без дообучения. SLM дешевле в эксплуатации в 10–30 раз, работают на одном GPU и подходят для edge-устройств. В начале 2026 года SLM стали мультимодальными (Qwen3.5, Ministral 3), освоили два режима работы — быстрый ответ и глубокое рассуждение, а также архитектуру MoE с гибридным линейным вниманием. LLM (GPT-5.2, Claude Opus 4.6, Gemini 3 Pro) сохраняют преимущество в сложных мультидоменных рассуждениях, но разрыв сокращается: за год он уменьшился с 15–20 до менее 6 баллов на математических бенчмарках.

    Как работают языковые модели простыми словами?

    Языковая модель — это программа, обученная на огромном количестве текстов. Она разбивает текст на фрагменты (токены), анализирует связи между ними и предсказывает, какой фрагмент должен идти следующим. Механизм внимания (attention) позволяет модели учитывать контекст и, например, различать значение одного и того же слова в разных ситуациях. Чем больше параметров у модели, тем более сложные закономерности она способна уловить.

    Когда бизнесу стоит выбирать SLM вместо LLM?

    SLM — оптимальный выбор, когда задача узкоспециализированная (классификация, извлечение данных, чат-бот), бюджет на ИИ-инфраструктуру ограничен, данные не могут покидать периметр организации (финансы, медицина, госсектор), нужно развёртывание на edge-устройствах или локальных серверах, или стоят мультимодальные задачи на ограниченных ресурсах — например, распознавание документов и изображений. Там, где нужны широкий кругозор и сложные мультидоменные рассуждения, LLM остаётся лучшим решением. Ведущая стратегия на 2026 год — гибридный подход: SLM обрабатывает типовые запросы, LLM подключается для сложных случаев.

    Оставьте заявку, чтобы получить консультацию

    Наши специалисты свяжутся с вами в ближайшее время и ответят на все вопросы.

    section-subscribe_2x.png
              Теги: VK Cloud
              Ссылка скопирована
              Поделиться

              Почитать по теме

              _blog_head_128.png
              7 апреля

              Управляемые базы данных vs самостоятельное администрирование: какой подход выбрать

              _blog_head_158.png
              23 марта

              Корпоративный ИИ с Small Language Models (SLM): оптимизация чат-ботов и клиентской поддержки

              _blog_head_181.png
              20 марта

              Что такое S3 в облаке и как оно работает для хранения данных

              40+ готовых сервисов