ПРИВАТНОСТЬ · 152-ФЗ

Файлы обрабатываются локально в вашем браузере

Ничего не загружается на наши серверы. Все операции выполняются полностью в браузере через библиотеку pdfjs-dist. Файл не покидает ваше устройство.

Это значит: работает офлайн (после первой загрузки страницы), не зависит от лимитов сервера, персональные данные не обрабатываются нами в смысле 152-ФЗ — нечего хранить и нечего утечь.

ИНСТР-PDF-EXTRACTлокально в браузереpdfjs-dist · 3 формата152-ФЗ · приватноревизия 2026-05-07

Извлечь текст из PDF

Pdfjs-dist (Mozilla) читает PDF в браузере и возвращает текст. Plain / с разделителями страниц / JSON. До 50 МБ. Файлы не уходят на сервер.

⏱ ~5 сек · файлы не покидают браузер · 152-ФЗ
Результат · ИНСТР-PDF-EXTRACT|client-side обработка
calcal.ru / extract-text-iz-pdf-onlajn
Загрузка инструмента…
3
Формата вывода
TXT·JSON
Скачивание
50МБ
Лимит на файл
0
Запросов с PDF к серверу

Что делает инструмент

Извлечение текста из PDF — частая задача: переслать содержание договора в чат, скопировать книгу для обработки, экспортировать научную статью для последующей цитаты. Acrobat Reader умеет копировать текст, но только постранично; здесь — сразу весь PDF в один файл.

Используется pdfjs-dist — это та же библиотека, что встроена в Firefox для рендеринга PDF. Она проверена на миллионах документов и поддерживает все стандартные PDF (с текстовым слоем). Работа полностью в браузере: PDF не отправляется на сервер.

Когда работает / не работает

Инструмент работает когда в PDF есть текстовый слой:

  • Сгенерированные PDF (из Word, LibreOffice, LaTeX, веб-страниц) — текст выделяется в Acrobat, мы его извлечём.
  • Сканы с уже примененным OCR — если над сканом провели распознавание (Adobe Acrobat OCR, ABBYY FineReader), текстовый слой есть и работает.

Не работает когда текстового слоя нет:

  • Чистые сканы — каждая страница это просто JPEG/TIFF в обёртке PDF. Нужно OCR.
  • PDF из фото с телефона — то же самое, нет текстового слоя.
  • Зашифрованные PDF с защитой от копирования — pdfjs-dist уважает permission flags (но это легко обходится в платных инструментах; мы соблюдаем).
pdf.js extracts text content per-page via getTextContent(). Each text item has x/y coordinates from the PDF's content stream, allowing reconstruction of reading order via positional heuristics.Mozilla pdf.js documentation

Форматы вывода

  • Plain text — без разделителей. Используйте для последующей обработки: индексация, корпус для NLP, копирайтинг.
  • С разделителями страниц — добавляется --- Page N --- между страницами. Самый удобный для чтения и быстрого поиска.
  • JSON — массив { page: N, text: "..." }. Для разработчиков, импорта в Python/Node.js скрипты.

Особенности и ограничения

  • Порядок чтения. Reconstructed по координатам Y → X. На двухколоночных документах (научные статьи в LaTeX) может быть путаница — колонки сольются в одну строку. Для обычных документов работает хорошо.
  • Сноски и колонтитулы. Извлекаются как отдельные строки, перемежаются с основным текстом. Для чистого извлечения — потребуется ручная правка или специализированный парсер.
  • Таблицы. Текст внутри таблицы извлекается, но без структуры — ячейки превращаются в обычные строки, разделённые пробелами/переводами. Для сохранения табличной структуры используйте PDF → Excel / DOCX (план).
  • Лигатуры и спец-символы. Обычно работают (Unicode), но кастомные шрифты могут давать «глюки» — символы вне таблицы Unicode остаются как есть.
ИСТОЧНИКИ
  1. pdfjs-dist · PDF rendering library by Mozilla. Mozilla Foundation. github.com/mozilla/pdf.js. 2024.
  2. PDF 1.7 Specification (ISO 32000-1) §9 — Text. ISO. iso.org. 2008.
  3. Unicode Standard Annex #29 — Text Boundaries. Unicode Consortium. unicode.org. 2024.
ЧАСТЫЕ ВОПРОСЫ

Часто задаваемые вопросы

Нет. Если PDF — это сканированные страницы (фото / TIFF, обёрнутые в PDF), внутри нет текстового слоя — только пиксели. Для сканов нужно OCR (распознавание текста), которого здесь нет. Для OCR используйте ABBYY FineReader, Adobe Acrobat (платно) или Tesseract (бесплатно, технически).
Откройте PDF в любом просмотрщике (Acrobat, Edge, Foxit) и попробуйте выделить текст мышью. Если выделяется и копируется — текстовый слой есть, наш инструмент его извлечёт. Если выделение ведёт себя как картинка — это скан, нужен OCR.
«С разделителями страниц» (по умолчанию) — самый универсальный: видно границы страниц, легко найти нужное. «Plain text» — для дальнейшей обработки в Excel/Word, без шума. «JSON» — для разработчиков: массив страниц с их номерами, удобно для импорта в скрипты, ML, парсинг.
Нет — извлекается только plain text без форматирования. Pdfjs-dist возвращает текстовые items со шрифтом и стилем, но мы их не сохраняем — только сам текст. Для форматированного экспорта нужен инструмент типа PDF → DOCX (план).
Нет. PDF и извлечённый текст никуда не уходят. Используется библиотека pdfjs-dist от Mozilla, которая работает полностью в браузере. С CDN jsDelivr подгружается только код самой библиотеки (один раз, кэшируется).
Да. Pdfjs-dist возвращает Unicode-строки — кириллица, эмодзи, азиатские символы извлекаются корректно. Иногда проблемы возможны с кастомными шрифтами без правильного маппинга — но это редкий случай (издательские PDF с уникальной типографикой).
Количество символов извлечённого текста (включая пробелы и переводы строк). Это полезно для оценки объёма перед редакторской работой, для соблюдения лимитов API (например, OpenAI/YandexGPT ограничивают токены), для калькуляции стоимости перевода/копирайтинга.
PDF — формат с абсолютным позиционированием: каждый текстовый объект имеет координаты X, Y. Мы группируем по Y (горизонтальные строки), сортируем по X в строке, потом строки сверху вниз. Для двухколоночного текста (научные статьи) это иногда даёт смешение: левая и правая колонки на одной Y будут в одной строке. Для обычных одностолбцовых документов работает хорошо.
Лиана Арифметова
АВТОРverifiedред. calcal.ru

Лиана Арифметова

Создатель и главный редактор

Миссия: демократизировать сложные расчёты. Превратить страх перед числами в ясность и контроль. Девиз: «Любая повторяющаяся задача заслуживает своего калькулятора».

Mathematical Engineering · МФТИ · редактирует каталог с 2012 года

Был ли этот калькулятор полезен?

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ

Инструмент справочный — не заменяет эксперта

Только для информационных целей. Все расчёты, результаты и данные, предоставляемые инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.

Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.

Профессиональные решения — медицинские, финансовые, инженерные — должны приниматься только после консультации с квалифицированным специалистом. Не используйте автоматический расчёт как единственное основание для важных решений.

Ограничение ответственности. Авторы и разработчики сервиса не несут ответственности за прямой или косвенный ущерб, возникший из-за использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию результатов.

СМЕЖНЫЕ ИНСТРУМЕНТЫ

Похожие калькуляторы

15

Объединить PDF онлайн — без загрузки на сервер

Склейка PDF в браузере через pdf-lib. До 20 файлов, до 50 МБ каждый. Локально, без отправки на сервер (152-ФЗ).

/obyedinit-pdf-onlajn-besplatno

Сжать PDF онлайн — уменьшить размер локально

Сжатие PDF в браузере без потери качества. 3 уровня (object streams, удаление метаданных). До 50 МБ. Через pdf-lib, локально.

/szhat-pdf-onlajn-umenshit-razmer

Разделить PDF на страницы — извлечь нужные онлайн

Разделение PDF на страницы локально: каждая страница отдельным файлом, диапазон или группами. Через pdf-lib, без отправки на сервер.

/razdelit-pdf-na-stranicy-onlajn

JPG в PDF — конвертер с объединением

Конвертация JPG/PNG в PDF в браузере: до 30 картинок в один документ. Форматы A4/A3/Letter или подгонка под изображение.

/jpg-v-pdf-konverter

Повернуть страницы PDF онлайн

Поворот всех или указанных страниц PDF на 90/180/270° за миллисекунды. Lossless. Через pdf-lib, без отправки на сервер.

/povernut-pdf-stranitsy-onlajn

Водяной знак на PDF онлайн (кириллица)

Нанесение текстового знака («КОНФИДЕНЦИАЛЬНО», «ЧЕРНОВИК») на все страницы PDF. Поддержка русского текста через Canvas. 4 положения, регулировка прозрачности.

/dobavit-vodyanoj-znak-na-pdf

Нумерация страниц PDF онлайн

Проставьте номера страниц PDF в браузере: 4 формата, 6 положений, пропуск титульной, кастомный старт. Поддержка кириллицы. Через pdf-lib + Canvas.

/numerovat-stranitsy-pdf-onlajn

PDF в JPG / PNG — конвертер страниц

Рендеринг каждой страницы PDF в картинку через pdfjs-dist (Mozilla). 4 уровня качества: 96 / 150 / 300 DPI и lossless PNG. До 50 МБ.

/pdf-v-jpg-konverter-onlajn

Сжать JPG до 100 КБ для документов

Сжатие JPG до точного размера в КБ (50, 100, 200, 500, 1000) через бинарный поиск quality. Госуслуги, ЕГЭ, банки. Через browser-image-compression.

/szhat-jpg-onlajn-do-100kb

Удалить EXIF из фото — GPS и метаданные

Удаление EXIF (геолокация, модель камеры, дата) из JPEG. Сначала показывает что внутри, потом удаляет. 152-ФЗ. В браузере, без отправки.

/udalit-exif-iz-foto-online

Изменить размер фото в пикселях

Изменение размера JPG/PNG/WebP с сохранением пропорций. 6 пресетов (Full HD, HD, 1080×1080, 9:16). Через Canvas API, без сервера.

/izmenit-razmer-foto-onlajn-px-mb

WebP в JPG / PNG — конвертер онлайн

Конвертация WebP → JPG / PNG в браузере. До 30 файлов одновременно. Через Canvas API, без сервера. Поддержка Госуслуг и старых форм.

/webp-v-jpg-png-konverter

Повернуть фото — точно по градусам

Поворот картинки на любой угол (90°/произвольный) с превью. Цвет фона для уголков при произвольных углах. JPG/PNG/WebP. Через Canvas.

/povernut-foto-onlajn-besplatno

Обрезать фото — точная обрезка

Обрезка изображений с интерактивным выделением области мышью. 7 пресетов соотношений: 1:1, 4:3, 3:2, 16:9, 9:16, 3×4 паспорт. Через Canvas.

/obrezat-foto-onlajn-pixelno-besplatno

Конвертер изображений: JPG, PNG, WebP, BMP, GIF

Универсальный конвертер: JPG ↔ PNG ↔ WebP ↔ BMP ↔ GIF. До 30 файлов смешанных форматов одновременно. Через Canvas API в браузере.

/konverter-jpg-png-svg-bmp-tiff