Question 1

Что такое рецептивное поле свёрточной сети?

Accepted Answer

Рецептивное поле (receptive field) — это область исходного изображения, которая влияет на значение одного нейрона в определённом слое. Для одного свёрточного слоя с ядром 3x3 рецептивное поле равно 3x3. При стеке из N слоёв рецептивное поле растёт: два слоя 3x3 имеют рецептивное поле 5x5 (эквивалент одного 5x5), три слоя — 7x7. Дилатация (atrous convolution) увеличивает рецептивное поле без роста параметров. Это важно для задач сегментации и детекции, где модель должна «видеть» большой контекст.

Question 2

Чем отличается IoU от GIoU?

Accepted Answer

IoU (Intersection over Union) — стандартная метрика перекрытия двух bounding box. Проблема IoU: если боксы не пересекаются, IoU = 0 независимо от расстояния между ними, что затрудняет оптимизацию. GIoU (Generalized IoU) решает эту проблему: GIoU = IoU - (Area_enclosing - Area_union) / Area_enclosing. GIoU принимает значения от -1 до 1, где -1 означает максимальное расстояние при нулевом пересечении. Это делает GIoU лучшей функцией потерь для обучения детекторов.

Question 3

Как выбрать между ResNet, EfficientNet и YOLO?

Accepted Answer

Выбор зависит от задачи и ограничений. ResNet — классический выбор для классификации: простой, стабильный, хорошо изученный. EfficientNet — оптимальный по соотношению точность/FLOPs для классификации: EfficientNet-B0 точнее ResNet-50 при 10x меньших FLOPs. YOLO — стандарт для real-time детекции объектов: YOLOv8-n работает на 520 FPS. ViT (Vision Transformer) — лучшая точность на больших датасетах, но требует много данных и вычислений. Для мобильных устройств — MobileNetV3.

Question 4

Какие аугментации наиболее эффективны для компьютерного зрения?

Accepted Answer

Базовые аугментации: горизонтальный flip, случайные повороты (5–15°), crop, color jitter (яркость, контраст, насыщенность). Продвинутые: Mosaic (4 изображения в одно, из YOLOv4), MixUp (линейная интерполяция двух изображений), CutOut/CutMix (вырезание/замена прямоугольных участков). Для детекции Mosaic особенно эффективен. Для медицинских изображений — elastic deformation. Важно: аугментации должны соответствовать реальным условиям. Например, вертикальный flip бесполезен для распознавания лиц.

Question 5

Как рассчитать необходимую память GPU для инференса?

Accepted Answer

Память GPU складывается из: 1) Веса модели: параметры × bytes_per_param (FP32=4B, FP16=2B, INT8=1B). ResNet-50 в FP32 ≈ 100 МБ. 2) Активации (feature maps): зависят от разрешения и batch size. Для 224x224 ≈ 100–300 МБ. 3) Накладные расходы CUDA: ~300–500 МБ. Итого для ResNet-50 (FP32, batch=1): ~500 МБ–1 ГБ. Квантизация до INT8 сокращает размер весов в 4 раза. TensorRT оптимизирует использование памяти. Для видеопайплайна добавьте буфер кадров.

Question 6

Что такое NMS и как выбрать его пороги?

Accepted Answer

NMS (Non-Maximum Suppression) — алгоритм фильтрации дублирующих bounding box. Принцип: из группы пересекающихся боксов оставляет только с максимальным confidence. IoU порог NMS: обычно 0.45–0.65. Ниже — агрессивнее фильтрация (меньше боксов, но может удалить правильные). Выше — больше дубликатов. Confidence порог: обычно 0.25–0.5. Отсекает предсказания с низкой уверенностью. Для crowded сцен используют Soft-NMS (снижает confidence вместо удаления) или DIoU-NMS (учитывает расстояние центров).

Question 7

Как оптимизировать видеопайплайн для real-time обработки?

Accepted Answer

Стратегии оптимизации: 1) Пропуск кадров: обрабатывайте каждый 2–5-й кадр (для детекции людей достаточно 5–10 FPS). 2) Batching: группируйте 4–8 кадров для GPU (ускорение до 3x). 3) Уменьшение разрешения: 640x360 вместо 1920x1080 (ускорение ~9x). 4) Квантизация модели: FP16 (+50% скорости), INT8 (+2–3x). 5) TensorRT/ONNX Runtime: аппаратная оптимизация (+30–50%). 6) Асинхронная обработка: чтение кадров и инференс в отдельных потоках. 7) ROI-обработка: анализировать только области интереса.

Question 8

Какие CV-технологии доступны в России?

Accepted Answer

В России развита экосистема компьютерного зрения. Yandex Cloud Vision — API для OCR, классификации изображений и детекции (поддержка русского текста). NtechLab (FindFace) — мировой лидер в распознавании лиц, используется в системах безопасности городов. VisionLabs (LUNA) — платформа биометрической идентификации, экспортируется в 40+ стран. Сбер AI развивает решения для банкинга (биометрия, проверка документов). Российские БПЛА от компании ZALA используют CV для навигации. Сколтех и МФТИ ведут исследования в области 3D-реконструкции и автономного вождения.

Калькулятор компьютерного зрения

Результаты свёрточного слоя

Стек из 5 слоёв

Зачем нужен калькулятор компьютерного зрения?

Архитектура свёрточных сетей

Метрики детекции объектов

Компьютерное зрение в России

Yandex Cloud Vision

NtechLab

Sber AI Vision

VisionLabs

Возможности калькулятора

Архитектура CNN

Детекция объектов

Предобработка

Аугментация

Сравнение моделей

Видеообработка

Часто задаваемые вопросы

Полезные ресурсы

OpenCV

Ultralytics YOLO

TorchVision

Лиана Арифметова

Инструмент справочный — не заменяет эксперта

Похожие калькуляторы

Калькулятор машинного обучения: метрики, обучение, гиперпараметры

Калькулятор нейронных сетей: архитектура, градиенты, активации

NLP Калькулятор: токенизация, TF-IDF, BLEU, перплексия

Калькулятор Data Pipeline: throughput, хранилище, партиции, стоимость

ETL Калькулятор: тайминг, ресурсы, Incremental vs Full, SLA, ошибки

Калькулятор Data Warehouse: хранилище, запросы, схема, партиции, стоимость, SCD

Калькулятор BI Dashboard: производительность, лицензии, KPI, adoption

Объединить PDF онлайн — без загрузки на сервер

Сжать PDF онлайн — уменьшить размер локально

Разделить PDF на страницы — извлечь нужные онлайн

JPG в PDF — конвертер с объединением

Повернуть страницы PDF онлайн

Водяной знак на PDF онлайн (кириллица)

Нумерация страниц PDF онлайн

PDF в JPG / PNG — конвертер страниц

Результаты свёрточного слоя

Стек из 5 слоёв