Блог инженера

History is written by its contributors

Типы квантизации LLM: памятка

2026-05-04 время чтения 3 мин AI Ilya Brin

Хочешь запустить большую языковую модель локально, но не знаешь, какой файл скачать? Q4_K_M, IQ3_S, Q5_K_M - это не случайный набор символов. Это формат квантизации, и от него зависит качество ответов и сколько памяти съест модель.

Что такое квантизация

Обученная нейросеть - это миллиарды чисел с плавающей точкой (float32 или float16). Каждый параметр занимает 2–4 байта. Модель на 70 миллиардов параметров в float16 весит ~140 ГБ. На обычную видеокарту это не влезет.

Квантизация сжимает эти числа: вместо 16-битных float используются 4-битные или 3-битные целые числа. Модель становится меньше и быстрее, но немного теряет в точности. Это осознанный компромисс между размером и качеством.

Расшифровка названий

Разберём по частям на примере Q4_K_M:

ЧастьЗначение
Q или IQТип квантизации. Q - классический метод, IQ - улучшенный: веса сжимаются с учётом их важности, обычно точнее при том же размере
4, 5, 3, 2Количество бит на один вес. Больше бит - лучше качество - больше файл
KK-quant: более умное распределение точности по слоям модели
M, L, S, XSРазмер внутри одного уровня бит: L (большой) → M (средний) → S (малый) → XS (очень малый)

Таблица квантизаций

ТипБит/весКачествоРекомендуется
Q5_K_M~5.68Очень хорошее✅ Да
Q5_K_S~5.54Очень хорошее✅ Да
Q4_K_M~4.83Хорошее✅ Да
Q4_K_S~4.58Чуть ниже Q4_K_M, экономит место✅ Да
IQ4_NL~4.50Достойное, немного меньше Q4_K_S✅ Да
IQ4_XS~4.25Достойное, меньше Q4_K_S✅ Да
Q3_K_L~3.82Ниже среднего, но рабочее⚠️ Только при нехватке памяти
Q3_K_M~3.66Заметная потеря качества⚠️ Только при нехватке памяти
IQ3_M~3.66Сравнимо с Q3_K_M, новый метод⚠️ Только при нехватке памяти
IQ3_S~3.44Ниже среднего, лучше Q3_K_S при том же размере⚠️ С осторожностью
Q3_K_S~3.44Низкое❌ Не рекомендуется
IQ3_XS~3.30Низкое, чуть лучше Q3_K_S❌ С осторожностью
Q2_K~2.96Очень низкое, но работает❌ Только когда больше ничего не помещается

Как выбрать

Простое правило: бери максимально качественный вариант, который влезает в твою видеопамять (или оперативную память при запуске на процессоре).

Есть 8 ГБ VRAM  → Q4_K_M для 7B, Q3_K_M для 13B
Есть 16 ГБ VRAM → Q5_K_M для 13B, Q4_K_M для 30B
Есть 24 ГБ VRAM → Q5_K_M для 30B, Q4_K_M для 70B
Запускаешь на CPU → IQ4_XS или Q4_K_S, скорость важнее

Практические советы:

  • Q4_K_M - золотой стандарт. Если не знаешь что брать, бери это.
  • IQ4_XS - если нужно сэкономить несколько гигабайт без заметной потери качества.
  • Q5_K_M - если есть запас памяти и хочется лучшего качества из доступных.
  • Q3_* - только если модель буквально не помещается ни в каком другом виде.
  • Q2_K - когда вообще нет выбора: память очень ограничена, а модель всё равно нужна.

Почему IQ-форматы часто лучше Q-форматов

Классические Q-форматы (Q4_K_S, Q3_K_S) сжимают все веса одинаково. IQ-форматы работают умнее: они знают, какие веса сильнее влияют на результат, и сохраняют их точнее. Веса, которые почти не влияют на выход, сжимаются сильнее.

Итог: IQ4_XS занимает меньше места, чем Q4_K_S, но даёт сравнимое или лучшее качество.

Итого

Квантизация - это не страшно. Это просто размен: меньше памяти ↔ меньше точности. Для большинства задач Q4_K_M даёт результат, практически неотличимый от оригинала.

comments powered by Disqus