Q: Можно ли декодировать файл целиком?

Да, калькулятор поддерживает загрузку файлов через стандартный input или drag-and-drop. Поддерживаемые форматы: .txt, .csv, .xml, .json, .html, .log, .sql, .ini, .yaml. Размер до 10 МБ — браузер тормозит на больших. Для бинарных форматов (.docx, .xlsx, .pdf) декодирование не работает — у них своя внутренняя структура. Для .docx используйте Word с явным выбором кодировки при открытии. Для .pdf — отдельные конвертеры. Все вычисления локальны, файл не отправляется на сервер.

Q: Какие ещё кодировки бывают для русского?

Помимо 6 основных в калькуляторе: 1) ISO-8859-5 (1988) — международный стандарт, не прижился, использовался в ранних версиях X Window System. 2) MacOS Cyrillic (1991) — для классического Mac OS, заменён UTF-8 в OS X. 3) GOST 19768-93 — российский стандарт, фактически совпадает с CP1251. 4) CP10007 — Microsoft вариант MacOS Cyrillic. 5) UTF-16 — двухбайтовая Unicode, используется внутри Windows API и .NET, для текстовых файлов почти не применяется. 6) UTF-32 — 4 байта на символ, для специальных задач. Калькулятор поддерживает основные 6, но добавление новых — на запрос.

Q: Как декодировать письмо с заголовком =?Windows-1251?B?…?=

Это формат RFC 2047 — закодированный заголовок MIME. Структура: =?Charset?Encoding?Text?=, где Charset — кодировка (Windows-1251, UTF-8), Encoding — B (Base64) или Q (Quoted-Printable), Text — закодированный текст. Калькулятор автоматически распознаёт оба формата: вставьте всю строку «=?Windows-1251?B?…?=» в поле, авто-определение поймёт что это MIME-заголовок и сначала декодирует Base64/QP, потом конвертирует из Windows-1251 в UTF-8 для отображения. Аналогичная страница для iPhone-писем — перекодировка с iPhone .

Question 1

Как декодер определяет исходную кодировку?

Accepted Answer

Алгоритм основан на статистическом анализе частоты байтов. Для русского текста типичные паттерны: UTF-8 имеет высокую долю байтов D0–D1 (60–70%); Windows-1251 — байты CF–FF без двухбайтовых последовательностей; CP866 — байты 80–AF и E0–EF; KOI8-R — характерное смещение в зоне C0–FF. Калькулятор перебирает 6 кодировок, для каждой считает «оценку» вероятности на основе bigram-статистики русского языка (частот пар букв «ст», «ов», «ен» и т.д.) и предлагает лучшую. Точность 92–97% для текстов от 50 символов.

Question 2

Какая кодировка стандарт для русского текста сегодня?

Accepted Answer

UTF-8 — единственный современный стандарт для русского (и любого другого) текста. По данным W3Techs (2024) UTF-8 используется на 98,3% всех веб-сайтов. Все современные ОС (Linux, MacOS, Android, iOS, Windows 10+) по умолчанию работают в UTF-8. Microsoft с 2019 года официально рекомендует UTF-8 даже для cmd.exe (через `chcp 65001`). Windows-1251 ещё встречается в legacy-системах (Outlook 2003, старые корпоративные почтовые серверы), но при создании новых файлов всегда выбирайте UTF-8.

Question 3

Чем отличается KOI8-R от Windows-1251?

Accepted Answer

KOI8-R (1976) — кодировка для UNIX-систем эпохи СССР, разработанная для НИИ. Особенность: при потере старшего бита (что было типично для 7-битных каналов связи) русский текст превращался в «print7» — буквы транслитерировались в латиницу: А→a, Б→b, В→w (нестандартно), Г→g. Этот «фолбэк» позволял хотя бы прочитать сообщение. Windows-1251 (1995) — кодировка для Windows GUI, не имеет «print7-фолбэка», но более компактна (русские буквы в позициях 192–255). KOI8-R до сих пор используется в старых UNIX-почтовиках и .ru-доменах с архивами 1990-х.

Question 4

Что такое UTF-8 и почему он лучше?

Accepted Answer

UTF-8 (Unicode Transformation Format, 8-bit) — переменная по длине кодировка Unicode (стандарт RFC 3629, 2003). ASCII-символы (0x00–0x7F) кодируются 1 байтом — обратная совместимость с старыми системами. Русские буквы — 2 байтами (D0–D3 + дополнительный байт). Эмодзи — 4 байтами. Преимущества над Windows-1251: 1) Поддерживает все языки мира; 2) Не теряет данные при операциях; 3) Стандарт всех современных протоколов (HTTP, JSON, XML); 4) Полная обратная совместимость с ASCII. Минус — для русского текста занимает в 2 раза больше места, но это не критично.

Question 5

Что делать если автоопределение ошибается?

Accepted Answer

Авто-определение работает плохо в трёх случаях: 1) Текст слишком короткий (< 10 символов) — вручную выберите кодировку. 2) Текст в смешанных кодировках (например, заголовок CP1251 + тело UTF-8) — разделите на части и декодируйте отдельно. 3) Текст в редких или диалектных кодировках (украинский CP1125, белорусский CP1131). Если знаете источник — выбирайте кодировку явно: для cmd.exe/1С 7.7/FoxPro — CP866; для Windows-приложений 1990-х — Windows-1251; для UNIX/архивных писем — KOI8-R; для современных — UTF-8.

Question 6

Можно ли декодировать файл целиком?

Accepted Answer

Да, калькулятор поддерживает загрузку файлов через стандартный input или drag-and-drop. Поддерживаемые форматы: .txt, .csv, .xml, .json, .html, .log, .sql, .ini, .yaml. Размер до 10 МБ — браузер тормозит на больших. Для бинарных форматов (.docx, .xlsx, .pdf) декодирование не работает — у них своя внутренняя структура. Для .docx используйте Word с явным выбором кодировки при открытии. Для .pdf — отдельные конвертеры. Все вычисления локальны, файл не отправляется на сервер.

Question 7

Какие ещё кодировки бывают для русского?

Accepted Answer

Помимо 6 основных в калькуляторе: 1) ISO-8859-5 (1988) — международный стандарт, не прижился, использовался в ранних версиях X Window System. 2) MacOS Cyrillic (1991) — для классического Mac OS, заменён UTF-8 в OS X. 3) GOST 19768-93 — российский стандарт, фактически совпадает с CP1251. 4) CP10007 — Microsoft вариант MacOS Cyrillic. 5) UTF-16 — двухбайтовая Unicode, используется внутри Windows API и .NET, для текстовых файлов почти не применяется. 6) UTF-32 — 4 байта на символ, для специальных задач. Калькулятор поддерживает основные 6, но добавление новых — на запрос.

Question 8

Как декодировать письмо с заголовком =?Windows-1251?B?…?=

Accepted Answer

Это формат RFC 2047 — закодированный заголовок MIME. Структура: =?Charset?Encoding?Text?=, где Charset — кодировка (Windows-1251, UTF-8), Encoding — B (Base64) или Q (Quoted-Printable), Text — закодированный текст. Калькулятор автоматически распознаёт оба формата: вставьте всю строку «=?Windows-1251?B?…?=» в поле, авто-определение поймёт что это MIME-заголовок и сначала декодирует Base64/QP, потом конвертирует из Windows-1251 в UTF-8 для отображения. Аналогичная страница для iPhone-писем — перекодировка с iPhone.

Кодировка	Год	Применение	Привет в HEX
UTF-8	1993	современный веб, Linux, MacOS, Android	D0 9F D1 80 D0 B8 D0 B2 D0 B5 D1 82
Windows-1251	1995	Windows GUI, Outlook, MS Office	CF F0 E8 E2 E5 F2
CP866 (DOS)	1992	cmd.exe, 1С 7.7, FoxPro	8F E0 A8 A2 A5 E2
KOI8-R	1976	старые UNIX, BSD, ранний веб	F0 D2 C9 D7 C5 D4
ISO-8859-5	1988	международный стандарт ISO	BF E0 D8 D2 D5 E2
MacOS Cyrillic	1991	старые Mac до OS X (10.0)	8F E0 88 82 85 E2

Декодер кириллицы онлайн

Результат (Windows-1251)

Размер текста в разных кодировках

Зачем нужен декодер кириллицы

Метод авто-определения

6 кодировок русского языка

Технические особенности

От кракозябр к читаемому тексту

Текст или файл

Авто-определение

UTF-8 на выход

Часто задаваемые вопросы

Лиана Арифметова

Инструмент справочный — не заменяет эксперта

Результат (Windows-1251)

Размер текста в разных кодировках