Question 1

Что такое токенизация и зачем она нужна?

Accepted Answer

Токенизация — процесс разбиения текста на минимальные единицы (токены), которые модель может обработать. Это первый и критически важный шаг в любом NLP-пайплайне. Разные модели используют разные алгоритмы: GPT использует BPE (Byte-Pair Encoding), BERT — WordPiece, T5 — SentencePiece. Для русского языка токенизация особенно важна: кириллические слова обычно разбиваются на 1.5–2 раза больше токенов, чем аналогичные английские, что влияет на стоимость API и эффективное использование контекстного окна.

Question 2

Чем отличаются BLEU и ROUGE?

Accepted Answer

BLEU (Bilingual Evaluation Understudy) измеряет точность (precision) — какая доля n-грамм из кандидата есть в эталоне. Используется для оценки машинного перевода. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) измеряет полноту (recall) — какая доля n-грамм из эталона покрыта кандидатом. Используется для оценки суммаризации. BLEU штрафует за слишком короткие переводы (Brevity Penalty), а ROUGE-L использует наибольшую общую подпоследовательность (LCS) для оценки структурного сходства.

Question 3

Что такое TF-IDF и как его интерпретировать?

Accepted Answer

TF-IDF (Term Frequency — Inverse Document Frequency) — весовая функция, показывающая важность слова в документе относительно коллекции. TF = частота терма в документе, IDF = log(N/df), где N — общее число документов, df — число документов с термом. Высокий TF-IDF означает: слово часто встречается в данном документе, но редко в остальных — значит, оно характерно именно для этого документа. TF-IDF широко используется в информационном поиске, классификации текстов и извлечении ключевых слов.

Question 4

Что такое перплексия языковой модели?

Accepted Answer

Перплексия (perplexity) — мера того, насколько хорошо вероятностная модель предсказывает текст. Математически это 2^H, где H — cross-entropy loss. Перплексия 100 означает, что модель «колеблется» между ~100 вариантами при предсказании следующего токена. Чем ниже перплексия, тем лучше модель. GPT-4 имеет перплексию ~15–20 на английском тексте, ruGPT-3 — ~25–30 на русском. Для сравнения: случайная модель с словарём 50 000 имела бы перплексию 50 000.

Question 5

Как измерить сходство двух текстов?

Accepted Answer

Существует несколько подходов: 1) Jaccard similarity — отношение пересечения к объединению множеств слов (0–1). 2) Косинусное сходство — косинус угла между векторами частот слов (bag of words). 3) Расстояние Левенштейна — минимальное число операций (вставка, удаление, замена) для преобразования одной строки в другую. 4) Dice/Overlap коэффициенты. Для семантического сходства используют эмбеддинги (BERT, Sentence-BERT), но это требует нейросети. Наш калькулятор реализует лексические метрики, не требующие GPU.

Question 6

Сколько параметров в современных NLP-моделях?

Accepted Answer

Размеры моделей варьируются от миллионов до триллионов параметров. ruBERT — ~180M, ruGPT-3 (Сбер) — 760M, GigaChat — предположительно несколько миллиардов. GPT-4 — по оценкам, ~1.8T параметров (MoE). Каждый параметр занимает 4 байта (FP32), 2 байта (FP16) или 1 байт (INT8). Модель с 7B параметров в FP16 весит ~14 ГБ и требует GPU с не менее 16 ГБ памяти. Квантизация (GPTQ, GGUF) позволяет запускать крупные модели на потребительских GPU.

Question 7

Какие NLP-инструменты доступны для русского языка?

Accepted Answer

Для русского языка доступно множество NLP-инструментов: ruBERT и ruGPT от ai-forever (Сбер) для генерации и классификации, Natasha — библиотека для извлечения именованных сущностей и морфологического анализа, pymorphy2 — морфологический анализатор, MyStem от Яндекса — лемматизатор, DeepPavlov — фреймворк для диалоговых систем от МФТИ. Yandex Cloud предлагает NLP API (перевод, sentiment, OCR), а Сбер — GigaChat API для генерации текста.

Question 8

Как BPE-токенизация влияет на стоимость API для русского текста?

Accepted Answer

BPE-словари большинства моделей (GPT, Claude, LLaMA) обучены преимущественно на английском тексте. Кириллические символы хуже представлены в словаре, поэтому русские слова разбиваются на большее число подтокенов. В среднем русский текст содержит в 1.5–2 раза больше токенов, чем эквивалентный английский. Это напрямую влияет на стоимость API-вызовов (оплата за токен) и на эффективную длину контекстного окна. Модели, специально обученные на русском (ruGPT, GigaChat), имеют оптимизированный словарь и более эффективную токенизацию.

Калькулятор NLP

Оценка токенов по моделям

Распределение символов

Зачем нужен NLP калькулятор?

Токенизация и анализ текста

Метрики качества перевода

NLP и обработка русского языка

Yandex Translate

GigaChat (Сбер)

ruGPT / ruBERT

YandexGPT

Возможности калькулятора

Токенизация

Сходство текстов

TF-IDF

BLEU / ROUGE

Эмбеддинги

Перплексия

Часто задаваемые вопросы

Лиана Арифметова

Инструмент справочный — не заменяет эксперта

Похожие калькуляторы

Калькулятор машинного обучения: метрики, обучение, гиперпараметры

Калькулятор нейронных сетей: архитектура, градиенты, активации

Калькулятор компьютерного зрения: CNN, детекция, аугментация

Калькулятор Data Pipeline: throughput, хранилище, партиции, стоимость

ETL Калькулятор: тайминг, ресурсы, Incremental vs Full, SLA, ошибки

Калькулятор Data Warehouse: хранилище, запросы, схема, партиции, стоимость, SCD

Калькулятор BI Dashboard: производительность, лицензии, KPI, adoption

Объединить PDF онлайн — без загрузки на сервер

Сжать PDF онлайн — уменьшить размер локально

Разделить PDF на страницы — извлечь нужные онлайн

JPG в PDF — конвертер с объединением

Повернуть страницы PDF онлайн

Водяной знак на PDF онлайн (кириллица)

Нумерация страниц PDF онлайн

PDF в JPG / PNG — конвертер страниц

Оценка токенов по моделям

Распределение символов