Калькулятор VRAM GPU
Оцените объём VRAM GPU, необходимый для запуска или обучения модели.
Рекомендуемые следующие шаги
Похожие инструменты
Оцените количество токенов в тексте и примерную стоимость API ИИ до запуска промпта.
Оцените стоимость генерации изображений по разным пресетам моделей.
Удаляйте данные EXIF и геолокацию из изображений локально в браузере.
Частые вопросы
Веса вычисляются как число параметров, умноженное на число байт на параметр для выбранной точности (fp16 = 2, 8 бит = 1, 4 бита = 0,5). К этому добавляется KV-кэш (он растёт со скрытым размером, числом слоёв, длиной контекста и размером батча) плюс настраиваемые накладные расходы на активации. Режим обучения также добавляет градиенты и состояние оптимизатора Adam.
Каждый обрабатываемый токен хранит запись ключа и значения в кэше внимания для каждого слоя. Удвоение длины контекста или размера батча примерно удваивает этот KV-кэш, поэтому обслуживание с длинным контекстом или высокой параллельностью требует заметно больше памяти, чем можно судить по одним лишь весам.
Квантизация весов уменьшает их объём памяти пропорционально ширине в байтах: 8 бит вдвое сокращают память весов по сравнению с fp16, а 4 бита — вчетверо. Она не уменьшает KV-кэш и активации, если вы их тоже не квантизуете, поэтому общая экономия меньше, чем экономия только на весах.
Воспринимайте это как ориентир для планирования, а не как гарантию. Реальный расход меняется в зависимости от фреймворка, ядра внимания, фрагментации памяти и того, как среда выполнения выделяет буферы. Оставляйте запас сверх оценки и проверяйте на реальном стеке, прежде чем выбирать оборудование.
Последнее обновление: 2026-06-23.