calcal.ru

Калькулятор мощностей для нейросетей

Узнайте, какая видеокарта, сколько VRAM, RAM и места на диске нужно для запуска популярных нейросетей на вашем компьютере. Сравнение квантизаций FP16, INT8, INT4 — как уменьшить требования без существенной потери качества.

Загрузка калькулятора...

Зачем запускать нейросети локально

Локальный запуск нейросетей на домашнем компьютере становится всё доступнее благодаря квантизации моделей и росту VRAM видеокарт. Модель Llama 3.1 8B в формате INT4 занимает всего ~5 ГБ видеопамяти — это по силам даже бюджетным RTX 4060.

Главные преимущества:

  • Приватность: данные не покидают ваш компьютер, нет рисков утечки через API.
  • Без подписки: разовые вложения в железо, далее модели бесплатны и без лимитов.
  • Без цензуры: локальные модели не имеют ограничений облачных сервисов.
  • Офлайн-доступ: работа без интернета, в любом месте и в любое время.
  • Скорость: при хорошем GPU инференс быстрее многих облачных API.
  • Кастомизация: fine-tuning, LoRA-адаптеры, свои системные промпты.

💡VRAM — главный параметр

Объём видеопамяти (VRAM) определяет, какие модели поместятся на вашу видеокарту. Квантизация (INT4, INT8) позволяет уменьшить потребление VRAM в 2–4 раза с минимальной потерей качества. Для оценки стоимости сборки посмотрите конфигуратор ПК для нейросетей.

🤖
LLM-модели

Llama, Mistral, Qwen, DeepSeek — текстовые нейросети для диалога и генерации.

🎨
Генерация картинок

Stable Diffusion XL, FLUX — создание изображений по текстовому описанию.

🎤
Транскрипция

Whisper — распознавание речи с точностью выше 95% для русского языка.

Квантизация

FP16 → INT4: в 4 раза меньше VRAM при потере качества всего 3–5%.

5 ГБ VRAM
Минимум для Llama 3.1 8B (INT4)
INT4 / GGUF
Самый популярный формат квантизации
4x экономия
Снижение VRAM при INT4 vs FP16
10–60 ток/с
Скорость инференса LLM на RTX 4090

Что такое квантизация и зачем она нужна

Квантизация снижает точность числовых значений в модели, уменьшая объём памяти в разы с минимальной потерей качества.

FP16 — полная точность (16 бит на параметр)

Каждый параметр модели хранится как 16-битное число с плавающей запятой. Для модели с 7 млрд параметров это ~14 ГБ только весов. Максимальное качество генерации, но и максимальное потребление VRAM. Используется при fine-tuning и для моделей генерации изображений.

INT8 — 8-битная квантизация

Каждый параметр занимает 8 бит вместо 16 — вдвое меньше памяти. Потеря качества составляет 1–2% по бенчмаркам и практически незаметна в повседневном использовании. Модель 7B в INT8 занимает ~7 ГБ VRAM. Хороший компромисс, если есть запас VRAM.

INT4 / GGUF Q4_K_M — 4-битная квантизация

Самый популярный формат для локального запуска LLM. Каждый параметр хранится в ~4 битах. Модель 7B занимает ~4.5 ГБ, 70B — ~40 ГБ. Потеря качества 3–5% — приемлемо для большинства задач. Формат GGUF используется в Ollama и llama.cpp, обеспечивая гибкий инференс на CPU + GPU.

Требования к VRAM по типам моделей

Разные типы нейросетей предъявляют совершенно разные требования к оборудованию. Текстовые LLM масштабируются пропорционально числу параметров, а модели генерации изображений зависят от разрешения и сложности пайплайна.

Правило оценки для LLM:

  • FP16: ~2 байта на параметр. 7B = ~14 ГБ, 70B = ~140 ГБ.
  • INT8: ~1 байт на параметр. 7B = ~7 ГБ, 70B = ~70 ГБ.
  • INT4: ~0.56 байта на параметр. 7B = ~4.5 ГБ, 70B = ~40 ГБ.
  • + контекст: дополнительно 1–4 ГБ VRAM на KV-кэш при длинном контексте.

Модели по категориям

Языковые модели (LLM)

Llama 3.1, Mistral, Qwen, DeepSeek — от 5 ГБ (7B INT4) до 1.3 ТБ (671B FP16). Основной потребитель VRAM. Скорость инференса зависит от пропускной способности памяти GPU.

Генерация изображений

SDXL требует 6–8 ГБ VRAM, FLUX — 12–24 ГБ. Использование ControlNet, IP-Adapter и LoRA увеличивает потребление. ComfyUI с несколькими загруженными моделями может потреблять 16+ ГБ.

Распознавание речи (Whisper)

Whisper Large-v3 — всего 3 ГБ VRAM. Самая нетребовательная к железу модель в списке. Работает на любой современной видеокарте NVIDIA, транскрибирует быстрее реального времени.

MoE-модели (Mixtral, DeepSeek V3)

Mixture-of-Experts используют не все параметры одновременно, но загружают полную модель в память. Mixtral 8x7B (~47B параметров) занимает ~26 ГБ в INT4. DeepSeek V3 (671B) — слишком велик для домашнего GPU.

Софт для локального запуска нейросетей

Основные инструменты, которые позволяют запустить ИИ на домашнем компьютере без опыта в программировании.

Ollama

Самый простой способ запуска LLM на домашнем ПК. Установка одной командой, автоматическая загрузка моделей, поддержка GGUF-квантизации. Работает с Llama, Mistral, Qwen, Phi и десятками других моделей.

LM Studio

Графический интерфейс для запуска LLM. Встроенный менеджер моделей с поиском по Hugging Face, чат-интерфейс, API-сервер. Подходит для тех, кто предпочитает GUI вместо командной строки.

ComfyUI / Automatic1111

Интерфейсы для Stable Diffusion и FLUX. ComfyUI — нодовый редактор для сложных пайплайнов генерации. Automatic1111 — классический WebUI с расширениями и плагинами.

llama.cpp

Оптимизированный инференс LLM на CPU и GPU. Формат GGUF — стандарт де-факто для квантизированных моделей. Максимальная производительность на домашнем железе, основа для Ollama.

Возможности популярных видеокарт для ИИ

Что можно запустить на каждом уровне VRAM — от бюджетных решений до максимальных конфигураций.

8 ГБ VRAM

RTX 4060

Llama 3.1 8B (INT4), Mistral 7B (INT4), Qwen 2.5 7B (INT4), Stable Diffusion XL (базово), Whisper Large-v3. Начальный уровень для экспериментов с ИИ. Цена ~32 000 ₽.

12 ГБ VRAM

RTX 3060 / RTX 4070

Все модели 7–8B в INT8, SDXL комфортно, FLUX на пределе, Mixtral 8x7B (INT4 не влезет — нужно 26 ГБ). Оптимальное соотношение цены и возможностей. RTX 4070 ~55 000 ₽.

16 ГБ VRAM

RTX 4070 Ti Super / 4080

Llama 3.1 8B в FP16, FLUX полноценно, все модели 7B в любой квантизации. SDXL + ControlNet + LoRA. Отличный вариант для продвинутой работы. От 82 000 ₽.

24 ГБ VRAM

RTX 3090 / RTX 4090

Llama 3.1 70B (INT4 — на пределе), Qwen 2.5 72B (INT4), FLUX в полном качестве, Mixtral 8x7B (INT4). Максимум для потребительских карт. RTX 4090 ~175 000 ₽.

32 ГБ VRAM

RTX 5090

Llama 3.1 70B (INT4 комфортно), Qwen 2.5 72B (INT4), все модели изображений без ограничений. Новое поколение Blackwell с улучшенным инференсом. ~250 000 ₽.

40–80 ГБ VRAM

NVIDIA A100

Llama 3.1 70B в INT8 или FP16, Llama 405B (INT4, несколько GPU), DeepSeek V3 (кластер). Серверные карты для профессионального использования. A100 80 ГБ ~1 100 000 ₽.

Сводная таблица требований к моделям

Минимальные требования к VRAM для запуска нейросетей в разных форматах квантизации.

МодельПараметрыFP16INT8INT4 (GGUF)
Llama 3.18B16 ГБ8 ГБ~5 ГБ
Llama 3.170B140 ГБ70 ГБ~39 ГБ
Mistral7B14 ГБ7 ГБ~4 ГБ
Mixtral8x7B (47B)93 ГБ47 ГБ~26 ГБ
Qwen 2.572B144 ГБ72 ГБ~40 ГБ
SDXL3.5B8 ГБ6 ГБ~5 ГБ
FLUX.112B24 ГБ18 ГБ~14 ГБ
Whisper1.55B3 ГБ2.3 ГБ~1.9 ГБ

Часто задаваемые вопросы

В формате INT4 (GGUF Q4_K_M) Llama 3.1 8B требует около 5 ГБ VRAM — это по силам видеокарте RTX 4060 с 8 ГБ видеопамяти. В INT8 потребуется ~8 ГБ (RTX 4060 впритык), а в полной точности FP16 — 16 ГБ (RTX 4070 Ti Super или лучше). Для комфортной работы с длинным контекстом добавьте 1–2 ГБ сверху.
DeepSeek V3 имеет 671 млрд параметров и в формате INT4 требует около 375 ГБ VRAM. Это далеко за пределами возможностей любого домашнего GPU. Для запуска понадобится кластер из нескольких A100 80 ГБ или облачная платформа. Для домашнего использования рекомендуем Llama 3.1 70B (INT4, ~40 ГБ) или Qwen 2.5 72B как ближайшие альтернативы.
GGUF — формат квантизированных моделей для llama.cpp и Ollama. Его преимущества: гибкая квантизация (от 2 до 8 бит), поддержка частичной загрузки на GPU (часть модели на GPU, часть на CPU/RAM), быстрый инференс даже без GPU. Формат Q4_K_M — оптимальный баланс размера и качества. Альтернативы GPTQ и AWQ работают только на GPU целиком.
Для нейросетей RTX 3060 с 12 ГБ VRAM часто лучше, чем RTX 4060 с 8 ГБ. Лишние 4 ГБ видеопамяти позволяют запускать более крупные модели. RTX 3060 потянет модели 7B в INT8, а RTX 4060 — только в INT4. Однако RTX 4060 быстрее в вычислениях. Если бюджет позволяет, лучше RTX 4070 (12 ГБ) — и скорость, и память.
Зависит от видеокарты и региона. RTX 4090 (450 Вт TDP) + система (~150 Вт) при 4 часах работы в день и московском тарифе (6,73 ₽/кВт·ч) обойдётся в ~485 ₽/месяц. RTX 4070 (200 Вт TDP) при тех же условиях — ~283 ₽/месяц. В Иркутске (1,42 ₽/кВт·ч) расходы в 4–5 раз ниже. Используйте вкладку «Стоимость работы» для точного расчёта.
Да, но незначительно. INT8 (8-bit) снижает качество на 1–2% по бенчмаркам — это практически незаметно в повседневном использовании. INT4 (4-bit, GGUF Q4_K_M) даёт потерю 3–5% — приемлемо для большинства задач. Существенное ухудшение начинается при 2-bit квантизации (Q2_K). Для критических задач используйте FP16 или INT8.
SDXL в базовой конфигурации требует 6–8 ГБ VRAM. RTX 4060 (8 ГБ) справляется, но при генерации в высоких разрешениях или с дополнительными моделями (ControlNet, IP-Adapter) памяти может не хватить. Для комфортной работы с SDXL рекомендуется 12 ГБ VRAM (RTX 4070). Для FLUX.1 минимум — 16 ГБ (RTX 4070 Ti Super).
Да, с помощью offloading. Ollama и llama.cpp (формат GGUF) умеют распределять модель между GPU и CPU/RAM. Часть слоёв загружается в VRAM, остальные — в оперативную память. Скорость инференса падает пропорционально доле на CPU, но модель работает. Например, Llama 70B (INT4, ~40 ГБ) можно запустить на RTX 4090 (24 ГБ VRAM) + 32 ГБ RAM, но скорость будет ~5–10 токенов/сек вместо 30+.

Похожие инструменты

💻

Калькулятор стоимости печати

Расчёт стоимости печати одной страницы, месячные и годовые расходы на принтер. Сравнение оригинальных, совместимых картриджей и перезаправки.

🏥

Калькулятор телемедицины: пропускная способность, ROI и нагрузка центра

Телемедицинские расчёты онлайн: пропускная способность канала, ROI телемедицины, нагрузка центра, качество консультации, стоимость.

🏥

Калькулятор шкалы Бишопа

Оценка зрелости шейки матки по шкале Бишопа. 5 параметров, расчёт баллов 0–13, прогноз успешности индукции родов.

⚙️

Калькулятор гидроэнергетики: мощность ГЭС, турбины и малые ГЭС

Расчёты гидроэнергетики: мощность ГЭС (P = ρgQHη), выбор турбины (Пельтон/Фрэнсис/Каплан), малые ГЭС, AEP, гидрология.

🏥

Калькулятор пола ребёнка

Определение пола ребёнка по обновлению крови, китайскому и японскому календарям, группе крови

🏗️

Калькулятор наливного пола

Расчёт расхода смеси наливного пола: площадь, толщина, количество мешков.

⚙️

Калькулятор экструзии

Расчёты экструзии: производительность, фильера, шнек, охлаждение, тяговое устройство, себестоимость

💻

Калькулятор IP маски подсети (CIDR) онлайн

Профессиональный сетевой калькулятор. Расчет маски подсети (Subnet Mask), CIDR, адреса сети, широковещательного адреса и диапазона хостов.

💰

Калькулятор нотариальных услуг

Расчёт стоимости нотариальных услуг: тариф + УПТХ. Доверенности, договоры, наследство, согласия. Ст. 22.1 Основ о нотариате.

⚙️

Калькулятор времени работы от батареи

Автономность устройства: ёмкость мАч/Вт·ч, потребление, КПД преобразователя. Для IoT, Arduino и электроники.

⚙️

Калькулятор радиаторов отопления

Количество секций радиатора для квартиры или дома. Учёт теплопотерь, стен, этажности и климата по СНиП.

🧮

Калькулятор орошения и полива

Рассчитайте нормы полива для сельскохозяйственных культур, расход воды и график орошения. Поддержка капельного, дождевального и бороздкового методов.

📐

Калькулятор золотого сечения

Пропорции золотого сечения (phi = 1.618). Для дизайна, архитектуры, фотографии. Прямоугольник и спираль.

💰

Калькулятор алиментов

Рассчитайте размер алиментов: доля от дохода или фиксированная сумма. По СК РФ.

🏠

Калькулятор мощности двигателя

Конвертер мощности двигателя: л.с., кВт, кгс·м/с. Расчёт транспортного налога по мощности, удельная мощность на тонну.

Лиана Арифметова
Создатель

Лиана Арифметова

Миссия: Демократизировать сложные расчеты. Превратить страх перед числами в ясность и контроль. Девиз: «Любая повторяющаяся задача заслуживает своего калькулятора».

⚖️

Отказ от ответственности

Только для информационных целей. Все расчёты, результаты и данные, предоставляемые данным инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.

Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.

Медицинские, финансовые и профессиональные решения должны приниматься исключительно на основании консультации с квалифицированными специалистами — врачом, финансовым советником, инженером или другим профессионалом в соответствующей области. Не используйте результаты данного инструмента как единственное основание для принятия важных решений.

Ограничение ответственности. Авторы и разработчики сервиса не несут никакой ответственности за прямой или косвенный ущерб, возникший в результате использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию и применение полученных результатов.