ПРИВАТНОСТЬ · 152-ФЗ

Файлы обрабатываются локально в вашем браузере

Ничего не загружается на наши серверы. Все операции выполняются полностью в браузере через библиотеку pdfjs-dist. Файл не покидает ваше устройство.

Это значит: работает офлайн (после первой загрузки страницы), не зависит от лимитов сервера, персональные данные не обрабатываются нами в смысле 152-ФЗ — нечего хранить и нечего утечь.

ИНСТР-PDF-EXTRACTлокально в браузереpdfjs-dist · 3 формата152-ФЗ · приватноревизия 2026-06-17

Извлечь текст из PDF

Pdfjs-dist (Mozilla) читает PDF в браузере и возвращает текст. Plain / с разделителями страниц / JSON. До 50 МБ. Файлы не уходят на сервер.

⏱ ~5 сек · файлы не покидают браузер · 152-ФЗ

Результат · ИНСТР-PDF-EXTRACT|client-side обработка

calcal.ru / extract-text-iz-pdf-onlajn

📝

Перетащите PDF или нажмите

До 50 МБ

Загрузка инструмента…

3

Формата вывода

TXT·JSON

Скачивание

50МБ

Лимит на файл

0

Запросов с PDF к серверу

Что делает инструмент

Извлечение текста из PDF — частая задача: переслать содержание договора в чат, скопировать книгу для обработки, экспортировать научную статью для последующей цитаты. Acrobat Reader умеет копировать текст, но только постранично; здесь — сразу весь PDF в один файл.

Используется pdfjs-dist — это та же библиотека, что встроена в Firefox для рендеринга PDF. Она проверена на миллионах документов и поддерживает все стандартные PDF (с текстовым слоем). Работа полностью в браузере: PDF не отправляется на сервер.

Когда работает / не работает

Инструмент работает когда в PDF есть текстовый слой:

✅ Сгенерированные PDF (из Word, LibreOffice, LaTeX, веб-страниц) — текст выделяется в Acrobat, мы его извлечём.
✅ Сканы с уже примененным OCR — если над сканом провели распознавание (Adobe Acrobat OCR, ABBYY FineReader), текстовый слой есть и работает.

Не работает когда текстового слоя нет:

❌ Чистые сканы — каждая страница это просто JPEG/TIFF в обёртке PDF. Нужно OCR.
❌ PDF из фото с телефона — то же самое, нет текстового слоя.
❌ Зашифрованные PDF с защитой от копирования — pdfjs-dist уважает permission flags (но это легко обходится в платных инструментах; мы соблюдаем).

pdf.js extracts text content per-page via getTextContent(). Each text item has x/y coordinates from the PDF's content stream, allowing reconstruction of reading order via positional heuristics.— Mozilla pdf.js documentation

Форматы вывода

Plain text — без разделителей. Используйте для последующей обработки: индексация, корпус для NLP, копирайтинг.
С разделителями страниц — добавляется --- Page N --- между страницами. Самый удобный для чтения и быстрого поиска.
JSON — массив { page: N, text: "..." }. Для разработчиков, импорта в Python/Node.js скрипты.

Особенности и ограничения

Порядок чтения. Reconstructed по координатам Y → X. На двухколоночных документах (научные статьи в LaTeX) может быть путаница — колонки сольются в одну строку. Для обычных документов работает хорошо.
Сноски и колонтитулы. Извлекаются как отдельные строки, перемежаются с основным текстом. Для чистого извлечения — потребуется ручная правка или специализированный парсер.
Таблицы. Текст внутри таблицы извлекается, но без структуры — ячейки превращаются в обычные строки, разделённые пробелами/переводами. Для сохранения табличной структуры используйте PDF → Excel / DOCX (план).
Лигатуры и спец-символы. Обычно работают (Unicode), но кастомные шрифты могут давать «глюки» — символы вне таблицы Unicode остаются как есть.

ИСТОЧНИКИ

pdfjs-dist · PDF rendering library by Mozilla. Mozilla Foundation. github.com/mozilla/pdf.js. 2024.
PDF 1.7 Specification (ISO 32000-1) §9 — Text. ISO. iso.org. 2008.
Unicode Standard Annex #29 — Text Boundaries. Unicode Consortium. unicode.org. 2024.

ЧАСТЫЕ ВОПРОСЫ

Часто задаваемые вопросы

Нет. Если PDF — это сканированные страницы (фото / TIFF, обёрнутые в PDF), внутри нет текстового слоя — только пиксели. Для сканов нужно OCR (распознавание текста), которого здесь нет. Для OCR используйте ABBYY FineReader, Adobe Acrobat (платно) или Tesseract (бесплатно, технически).

Откройте PDF в любом просмотрщике (Acrobat, Edge, Foxit) и попробуйте выделить текст мышью. Если выделяется и копируется — текстовый слой есть, наш инструмент его извлечёт. Если выделение ведёт себя как картинка — это скан, нужен OCR.

«С разделителями страниц» (по умолчанию) — самый универсальный: видно границы страниц, легко найти нужное. «Plain text» — для дальнейшей обработки в Excel/Word, без шума. «JSON» — для разработчиков: массив страниц с их номерами, удобно для импорта в скрипты, ML, парсинг.

Нет — извлекается только plain text без форматирования. Pdfjs-dist возвращает текстовые items со шрифтом и стилем, но мы их не сохраняем — только сам текст. Для форматированного экспорта нужен инструмент типа PDF → DOCX (план).

Нет. PDF и извлечённый текст никуда не уходят. Используется библиотека pdfjs-dist от Mozilla, которая работает полностью в браузере. С CDN jsDelivr подгружается только код самой библиотеки (один раз, кэшируется).

Да. Pdfjs-dist возвращает Unicode-строки — кириллица, эмодзи, азиатские символы извлекаются корректно. Иногда проблемы возможны с кастомными шрифтами без правильного маппинга — но это редкий случай (издательские PDF с уникальной типографикой).

Количество символов извлечённого текста (включая пробелы и переводы строк). Это полезно для оценки объёма перед редакторской работой, для соблюдения лимитов API (например, OpenAI/YandexGPT ограничивают токены), для калькуляции стоимости перевода/копирайтинга.

PDF — формат с абсолютным позиционированием: каждый текстовый объект имеет координаты X, Y. Мы группируем по Y (горизонтальные строки), сортируем по X в строке, потом строки сверху вниз. Для двухколоночного текста (научные статьи) это иногда даёт смешение: левая и правая колонки на одной Y будут в одной строке. Для обычных одностолбцовых документов работает хорошо.

Был ли этот калькулятор полезен?

ревизия · 17 июня 2026

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ

Инструмент справочный — не заменяет эксперта

Только для информационных целей. Все расчёты, результаты и данные, предоставляемые инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.

Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.

Профессиональные решения — медицинские, финансовые, инженерные — должны приниматься только после консультации с квалифицированным специалистом. Не используйте автоматический расчёт как единственное основание для важных решений.

Ограничение ответственности. Авторы и разработчики сервиса не несут ответственности за прямой или косвенный ущерб, возникший из-за использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию результатов.

СМЕЖНЫЕ ИНСТРУМЕНТЫ

Файлы обрабатываются локально в вашем браузере

Извлечь текст из PDF

Что делает инструмент

Когда работает / не работает

Форматы вывода

Особенности и ограничения

Часто задаваемые вопросы

Лиана Арифметова

Инструмент справочный — не заменяет эксперта

Похожие калькуляторы

Объединить PDF онлайн — без загрузки на сервер

Сжать PDF онлайн — уменьшить размер локально

Разделить PDF на страницы — извлечь нужные онлайн

JPG в PDF — конвертер с объединением

Повернуть страницы PDF онлайн

Водяной знак на PDF онлайн (кириллица)

Нумерация страниц PDF онлайн

PDF в JPG / PNG — конвертер страниц

Сжать JPG до 100 КБ для документов

Удалить EXIF из фото — GPS и метаданные

Изменить размер фото в пикселях

WebP в JPG / PNG — конвертер онлайн

Повернуть фото — точно по градусам

Обрезать фото — точная обрезка

Конвертер изображений: JPG, PNG, WebP, BMP, GIF