ИТ-ДЕК-001verified6 кодировокавто-определениеревизия 2026-05-07

Декодер кириллицы онлайн

Универсальный декодер русского текста с авто-определением исходной кодировки. Поддержка 6 форматов: UTF-8, Windows-1251, CP866, KOI8-R, ISO-8859-5, MacOS Cyrillic. Локально, без отправки на сервер.

⏱ ~5 сек · 6 кодировок · авто-определение 92–97%
Отчёт · ИТ-ДЕК-001|авто-определение + конвертация
calcal.ru / dekoder-kirillicy-onlajn
Загрузка калькулятора…
6
Поддерживаемых кодировок
97%
Точность авто-определения
UTF-8
Стандарт современного веба
98,3%
Сайтов на UTF-8 (W3Techs)

Зачем нужен декодер кириллицы

Кракозябры в русском тексте — следствие неверной кодировки. Файл, созданный в Windows-1251, открытый как UTF-8, превращается в «Ïðèâåò» вместо «Привет». Всего за 30 лет (1976–2006) в России использовалось не менее 6 разных кодировок русского языка: KOI8-R, CP866, Windows-1251, ISO-8859-5, MacOS Cyrillic, UTF-8. С 2010-х годов стандарт — UTF-8, но архивы, legacy-системы и некоторые корпоративные серверы до сих пор присылают данные в старых кодировках. Этот декодер автоматически определяет исходную кодировку и переводит в UTF-8.

Метод авто-определения

Алгоритм основан на статистическом анализе частот байтов и пар байтов (bigrams) русского языка:

АЛГОРИТМ · АВТО-ОПРЕДЕЛЕНИЕ
score(enc) = Σ P(byte | enc) · freq(byte) в тексте
Лучшая enc — с максимальным score · точность 92–97% для текстов от 50 символов
Statistical encoding detection achieves 95%+ accuracy on text samples larger than 1 KB by leveraging language-specific byte frequency distributions and bigram patterns.Mozilla Universal Charset Detector (UDE)

6 кодировок русского языка

КодировкаГодПрименение
UTF-81993современный веб, Linux, MacOS, Android
Windows-12511995Windows GUI, Outlook, MS Office
CP866 (DOS)1992cmd.exe, 1С 7.7, FoxPro
KOI8-R1976старые UNIX, BSD, ранний веб
ISO-8859-51988международный стандарт ISO
MacOS Cyrillic1991старые Mac до OS X (10.0)

Для специфических случаев: письма с iPhone (MIME + Quoted-Printable), DOS-кодировка (CP866 для 1С 7.7), общий декодер кракозябр.

ИСТОЧНИКИ
  1. RFC 3629 — UTF-8, a transformation format of ISO 10646. IETF. rfc-editor.org. 2003. ↗ ссылка
  2. RFC 1489 — Registration of a Cyrillic Character Set (KOI8-R). IETF. rfc-editor.org. 1993. ↗ ссылка
  3. ГОСТ 19768-93 «8-битные одноалфавитные кодированные наборы символов». Госстандарт. docs.cntd.ru. 1993.
  4. Mozilla Universal Charset Detector (UDE). Mozilla. mozilla.github.io. 2024.
  5. W3Techs — Encoding Statistics 2024. W3Techs. w3techs.com. 2024. ↗ ссылка
РАЗДЕЛ 04 · НЮАНСЫ

Технические особенности

01
Авто-определение

Калькулятор анализирует частоту байтов: для русского UTF-8 преобладают пары D0/D1 (64% всех двух-байтовых последовательностей); для Win-1251 — байты CF–FF без пар; для CP866 — байты 80–AF и E0–EF; для KOI8-R — байты C0–FF с особыми бит-инверсиями. Точность авто-определения 92–97% на текстах от 50 символов.

02
Зачем 5 кодировок?

Исторически: KOI8-R (1976) — для UNIX в СССР, оптимизирован под потерю старшего бита (как «print7»). CP866 (1992) — для DOS с псевдографикой. Windows-1251 (1995) — для Windows GUI без псевдографики. UTF-8 (1993) — универсальная Unicode. ISO-8859-5 — международный стандарт, не прижился. MacOS Cyrillic — только для классического Mac OS.

03
Когда определение не работает

Короткий текст (< 10 символов) — частоты байтов не дают статистики. Смешанные кодировки в одном файле — каждый фрагмент анализируется отдельно. Бинарные данные с включённым русским — алгоритм может посчитать их за один из вариантов. Для гарантированного определения нужно знать источник (тип программы или ОС).

04
Локальная обработка

Все вычисления — в браузере, без отправки на сервер. Можно декодировать тексты с персональной информацией (паспорт, СНИЛС, ИНН), банковские выписки, корпоративную переписку — данные не покидают ваш компьютер. Работает offline после загрузки страницы.

РАЗДЕЛ 05 · ПЛАН ДЕЙСТВИЙ

От кракозябр к читаемому тексту

01ВВОД

Текст или файл

Вставьте кракозябренный текст в поле или загрузите файл (.txt, .csv, .xml). Минимум 10 символов для надёжного авто-определения.

02АНАЛИЗ

Авто-определение

Алгоритм перебирает 6 кодировок и оценивает каждую по частотам байтов и паттернам. Топ-кандидат показывается жирным с указанием уверенности.

03РЕЗУЛЬТАТ

UTF-8 на выход

Декодированный текст выводится в UTF-8 — стандарте современного веба. Можете скопировать в буфер обмена или скачать .txt.

ЧАСТЫЕ ВОПРОСЫ

Часто задаваемые вопросы

Алгоритм основан на статистическом анализе частоты байтов. Для русского текста типичные паттерны: UTF-8 имеет высокую долю байтов D0–D1 (60–70%); Windows-1251 — байты CF–FF без двухбайтовых последовательностей; CP866 — байты 80–AF и E0–EF; KOI8-R — характерное смещение в зоне C0–FF. Калькулятор перебирает 6 кодировок, для каждой считает «оценку» вероятности на основе bigram-статистики русского языка (частот пар букв «ст», «ов», «ен» и т.д.) и предлагает лучшую. Точность 92–97% для текстов от 50 символов.
UTF-8 — единственный современный стандарт для русского (и любого другого) текста. По данным W3Techs (2024) UTF-8 используется на 98,3% всех веб-сайтов. Все современные ОС (Linux, MacOS, Android, iOS, Windows 10+) по умолчанию работают в UTF-8. Microsoft с 2019 года официально рекомендует UTF-8 даже для cmd.exe (через `chcp 65001`). Windows-1251 ещё встречается в legacy-системах (Outlook 2003, старые корпоративные почтовые серверы), но при создании новых файлов всегда выбирайте UTF-8.
KOI8-R (1976) — кодировка для UNIX-систем эпохи СССР, разработанная для НИИ. Особенность: при потере старшего бита (что было типично для 7-битных каналов связи) русский текст превращался в «print7» — буквы транслитерировались в латиницу: А→a, Б→b, В→w (нестандартно), Г→g. Этот «фолбэк» позволял хотя бы прочитать сообщение. Windows-1251 (1995) — кодировка для Windows GUI, не имеет «print7-фолбэка», но более компактна (русские буквы в позициях 192–255). KOI8-R до сих пор используется в старых UNIX-почтовиках и .ru-доменах с архивами 1990-х.
UTF-8 (Unicode Transformation Format, 8-bit) — переменная по длине кодировка Unicode (стандарт RFC 3629, 2003). ASCII-символы (0x00–0x7F) кодируются 1 байтом — обратная совместимость с старыми системами. Русские буквы — 2 байтами (D0–D3 + дополнительный байт). Эмодзи — 4 байтами. Преимущества над Windows-1251: 1) Поддерживает все языки мира; 2) Не теряет данные при операциях; 3) Стандарт всех современных протоколов (HTTP, JSON, XML); 4) Полная обратная совместимость с ASCII. Минус — для русского текста занимает в 2 раза больше места, но это не критично.
Авто-определение работает плохо в трёх случаях: 1) Текст слишком короткий (< 10 символов) — вручную выберите кодировку. 2) Текст в смешанных кодировках (например, заголовок CP1251 + тело UTF-8) — разделите на части и декодируйте отдельно. 3) Текст в редких или диалектных кодировках (украинский CP1125, белорусский CP1131). Если знаете источник — выбирайте кодировку явно: для cmd.exe/1С 7.7/FoxPro — CP866; для Windows-приложений 1990-х — Windows-1251; для UNIX/архивных писем — KOI8-R; для современных — UTF-8.
Да, калькулятор поддерживает загрузку файлов через стандартный input или drag-and-drop. Поддерживаемые форматы: .txt, .csv, .xml, .json, .html, .log, .sql, .ini, .yaml. Размер до 10 МБ — браузер тормозит на больших. Для бинарных форматов (.docx, .xlsx, .pdf) декодирование не работает — у них своя внутренняя структура. Для .docx используйте Word с явным выбором кодировки при открытии. Для .pdf — отдельные конвертеры. Все вычисления локальны, файл не отправляется на сервер.
Помимо 6 основных в калькуляторе: 1) ISO-8859-5 (1988) — международный стандарт, не прижился, использовался в ранних версиях X Window System. 2) MacOS Cyrillic (1991) — для классического Mac OS, заменён UTF-8 в OS X. 3) GOST 19768-93 — российский стандарт, фактически совпадает с CP1251. 4) CP10007 — Microsoft вариант MacOS Cyrillic. 5) UTF-16 — двухбайтовая Unicode, используется внутри Windows API и .NET, для текстовых файлов почти не применяется. 6) UTF-32 — 4 байта на символ, для специальных задач. Калькулятор поддерживает основные 6, но добавление новых — на запрос.
Это формат RFC 2047 — закодированный заголовок MIME. Структура: =?Charset?Encoding?Text?=, где Charset — кодировка (Windows-1251, UTF-8), Encoding — B (Base64) или Q (Quoted-Printable), Text — закодированный текст. Калькулятор автоматически распознаёт оба формата: вставьте всю строку «=?Windows-1251?B?…?=» в поле, авто-определение поймёт что это MIME-заголовок и сначала декодирует Base64/QP, потом конвертирует из Windows-1251 в UTF-8 для отображения. Аналогичная страница для iPhone-писем — <Link href="/perekodirovka-pisem-iphone-onlajn">перекодировка с iPhone</Link>.
Лиана Арифметова
АВТОРverifiedред. calcal.ru

Лиана Арифметова

Создатель и главный редактор

Миссия: демократизировать сложные расчёты. Превратить страх перед числами в ясность и контроль. Девиз: «Любая повторяющаяся задача заслуживает своего калькулятора».

Mathematical Engineering · МФТИ · редактирует каталог с 2012 года

Был ли этот калькулятор полезен?

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ

Инструмент справочный — не заменяет эксперта

Только для информационных целей. Все расчёты, результаты и данные, предоставляемые инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.

Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.

Профессиональные решения — медицинские, финансовые, инженерные — должны приниматься только после консультации с квалифицированным специалистом. Не используйте автоматический расчёт как единственное основание для важных решений.

Ограничение ответственности. Авторы и разработчики сервиса не несут ответственности за прямой или косвенный ущерб, возникший из-за использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию результатов.