
Managed Databases без закупки и настройки серверов
Запустите СУБД в пару кликов и платите только за используемые ресурсы

Будем держать в курсе новостей и облачных трендов


Ещё два года назад выбор был очевидным: если нужен умный ИИ-ассистент, берёшь большую модель и платишь за облако. Сегодня этот расчёт устарел. Малые языковые модели (SLM) догнали LLM на узких задачах, стали мультимодальными, научились рассуждать и теперь помещаются на одном GPU — или вовсе в мобильном приложении.
Разрыв в качестве между SLM и LLM за один год сократился с 15–20 до менее 6 баллов на математических бенчмарках. Компактная Qwen3.5-9B показывает результаты на уровне моделей в 13 раз крупнее, а рынок SLM растёт на 28,7% в год и, по прогнозу MarketsandMarkets, достигнет 5,45 млрд долларов к 2032 году. При этом стоимость инференса у SLM остаётся в 10–30 раз ниже, чем у LLM сопоставимого назначения.
Это не значит, что большие модели уходят в прошлое. GPT-5.2, Claude Opus 4.6 и Gemini 3 Pro по-прежнему выигрывают там, где нужны широкий кругозор, сложные мультидоменные рассуждения и длинный контекст. Вопрос не в том, какая модель лучше, а в том, какая задача стоит перед бизнесом — и сколько он готов за неё платить. В этой статье разберём, чем SLM и LLM отличаются на практике и как выбрать между ними.
Языковая модель — это нейросеть, обученная на массиве текстов. Она анализирует последовательности слов и учится предсказывать, какое слово или токен (фрагмент слова) будет следующим. В основе современных моделей лежит архитектура Transformer, предложенная Google в 2017 году.
Работает это в три шага.
Количество параметров определяет «объём знаний» модели, но не гарантирует качество на конкретной задаче. По данным исследования Università di Salerno (arXiv, 2024, ID: 2510.21443), дообученные SLM достигают F1-score 0,83 на задачах классификации при F1-score 0,85 у лучших LLM. Разница в 2 п.п. при 10–30-кратной экономии на инференсе делает SLM рациональным выбором для типовых NLP-задач. На сложных рассуждениях LLM пока сохраняют преимущество — на математическом бенчмарке AIME'26 GPT-5.2 набирает 96,7 балла против 91,3 у лучшей SLM, — но разрыв сокращается: в 2025 году он составлял 15–20 баллов, в 2026-м уже менее 6.
Водораздел между SLM и LLM проходит по количеству параметров, но на практике различия глубже.
Большие языковые модели (LLM) — это модели со 100+ млрд параметров: GPT-5.2, Claude Opus 4.6, Gemini 3 Pro. Они обучены на петабайтах текстов из интернета, книг, научных статей и кода и решают широкий спектр задач: генерация текста, анализ документов, написание кода, мультиязычный перевод, сложные рассуждения. Gemini 3 Pro первой набрала высший рейтинг качества ответов (1 501 ELO) по оценкам более 100 000 пользователей на платформе LMArena.
Малые языковые модели (SLM) содержат от 0,8 до 14 млрд параметров (dense). MoE-варианты формально крупнее, но активируют только 3–10 млрд параметров на каждый запрос. Среди актуальных примеров: Alibaba Qwen3.5 (от 0,8 до 9 млрд dense и MoE-варианты 35B-A3B и 122B-A10B), Mistral Ministral 3 (3, 8 и 14 млрд) и Hugging Face SmolLM3 (3 млрд). SLM заточены под конкретные задачи и работают на ограниченных ресурсах, вплоть до одного GPU или мобильного устройства. Главный тренд 2026 года: SLM стали мультимодальными (текст и изображения), освоили два режима работы — быстрый ответ и глубокое рассуждение, а также архитектуру Mixture-of-Experts (MoE) с гибридным линейным вниманием, которое снижает стоимость инференса.
Сравнение по ключевым характеристикам:
| Характеристика | SLM | LLM |
| \Параметры | 0,8–14 млрд dense (3–10 млрд активных при MoE) | 100+ млрд (до 2+ трлн) |
| Контекстное окно | 128K–262K токенов | 256K–1 млн токенов (Gemini 3.1 Pro: 1 млн) |
| Мультимодальность | Текст + изображения (Qwen3.5, Ministral 3, SmolLM3) | Текст, изображения, аудио, видео |
| Стоимость инференса | В 10–30 раз ниже LLM аналогичного назначения | Цены API снизились за 2025–2026, но остаются кратно выше SLM |
| Скорость ответа | Десятки миллисекунд (SmolLM3: 50–200 мс на одном GPU 12–16 Гб) | Сотни миллисекунд и выше |
| Развёртывание | Один GPU (Ministral 3-3B: ~8 Гб VRAM), edge-устройство | Кластер GPU, облачная инфраструктура |
| Качество на узких задачах | Сопоставимо с LLM после дообучения (F1-score 0,83 vs 0,85) | Высокое без дообучения |
| Сложные рассуждения | Прогресс: разрыв с LLM сократился с 15–20 до менее 6 баллов за год | Сильная сторона: GPT-5.2 — 96,7 на AIME'26 |
| Приватность данных | Полный контроль (On-Premise, Apache 2.0) | Зависит от провайдера API |
| Мультиязычность | Qwen3.5: 201 язык; SmolLM3: 6 европейских + расширенная поддержка | Широкая по умолчанию |
Qwen3.5 (Alibaba, февраль–март 2026) — линейка из 10 моделей от 0,8 до 9 млрд параметров (dense) и MoE-вариантов с 3–17 млрд активных параметров. На бенчмарке вызова функций BFCL-V4 модель Qwen3.5-122B-A10B набирает 72,2 — на 30% выше GPT-5 mini (55,5), что важно для автоматизации бизнес-процессов через API. Лицензия Apache 2.0, поддержка 201 языка.
Ministral 3 (Mistral AI, декабрь 2025) — dense-модели на 3, 8 и 14 млрд параметров с поддержкой текста и изображений. Модель на 3 млрд параметров помещается в 8 Гб видеопамяти и подходит для edge-устройств: терминалы, мобильные приложения, встроенные системы. Лицензия Apache 2.0.
SmolLM3 (Hugging Face, начало 2026) — 3 млрд параметров, контекст 128K токенов. Обходит предшественников аналогичного размера (Llama-3.2-3B, Qwen2.5-3B) на 12 бенчмарках и поддерживает два режима работы: быстрый ответ (десятки миллисекунд) и глубокое рассуждение. Лицензия Apache 2.0.

Запустите СУБД в пару кликов и платите только за используемые ресурсы
При выборе между SLM и LLM оцените пять параметров:
На практике компании всё чаще строят не монолитную ИИ-систему на одной модели, а многоуровневую архитектуру с маршрутизатором запросов. Принцип прост: входящий запрос классифицируется, и если он типовой — классификация, суммаризация, FAQ — его обрабатывает SLM. Сложные случаи с мультидоменным анализом или генерацией контента передаются в LLM. Такой подход снижает расходы на инференс без потери качества на большинстве запросов.
Отдельный тренд — архитектура Mixture-of-Experts внутри самих SLM. Qwen3.5-35B-A3B формально содержит 35 млрд параметров, но активирует только 3 млрд на каждый запрос и при этом превосходит модели предыдущего поколения с 22 млрд активных параметров. Qwen3.5-122B-A10B набирает на бенчмарке вызова функций BFCL-V4 на 30% выше GPT-5 mini, что делает MoE-модели сильным выбором для автоматизации бизнес-процессов через API. MoE постепенно размывает границу между SLM и LLM: по общему числу параметров такая модель крупная, а по стоимости инференса сопоставима с компактной.
Рынок движется в сторону компактных моделей. По прогнозу IDC (отчёт «Asia/Pacific AI Predictions», 2025), к 2026 году до 90% внедрений языковых моделей в крупнейших компаниях Азиатско-Тихоокеанского региона будут ориентированы на SLM. В России эту тенденцию уже отражает практика: банки внедряют компактные модели для обработки клиентских обращений, ритейл — для персонализации рекомендаций, телеком — для автоматизации первой линии поддержки.
Малые языковые модели (SLM) содержат от 0,8 до 14 млрд параметров и заточены под конкретные задачи, большие (LLM) — от 100 млрд параметров и решают широкий спектр задач без дообучения. SLM дешевле в эксплуатации в 10–30 раз, работают на одном GPU и подходят для edge-устройств. В начале 2026 года SLM стали мультимодальными (Qwen3.5, Ministral 3), освоили два режима работы — быстрый ответ и глубокое рассуждение, а также архитектуру MoE с гибридным линейным вниманием. LLM (GPT-5.2, Claude Opus 4.6, Gemini 3 Pro) сохраняют преимущество в сложных мультидоменных рассуждениях, но разрыв сокращается: за год он уменьшился с 15–20 до менее 6 баллов на математических бенчмарках.
Языковая модель — это программа, обученная на огромном количестве текстов. Она разбивает текст на фрагменты (токены), анализирует связи между ними и предсказывает, какой фрагмент должен идти следующим. Механизм внимания (attention) позволяет модели учитывать контекст и, например, различать значение одного и того же слова в разных ситуациях. Чем больше параметров у модели, тем более сложные закономерности она способна уловить.
SLM — оптимальный выбор, когда задача узкоспециализированная (классификация, извлечение данных, чат-бот), бюджет на ИИ-инфраструктуру ограничен, данные не могут покидать периметр организации (финансы, медицина, госсектор), нужно развёртывание на edge-устройствах или локальных серверах, или стоят мультимодальные задачи на ограниченных ресурсах — например, распознавание документов и изображений. Там, где нужны широкий кругозор и сложные мультидоменные рассуждения, LLM остаётся лучшим решением. Ведущая стратегия на 2026 год — гибридный подход: SLM обрабатывает типовые запросы, LLM подключается для сложных случаев.
Наши специалисты свяжутся с вами в ближайшее время и ответят на все вопросы.



