Скиллы Средний Исследования и аналитика

PDF Text Extractor

Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

PDF Text Extractor — это инструмент для извлечения текста из PDF-файлов с поддержкой OCR. Он подходит для оцифровки документов, обработки счетов и анализа содержимого, при этом не требует внешних зависимостей.

Обзор

PDF Text Extractor — это легковесное решение, позволяющее извлекать текст как из обычных PDF-документов, так и из сканированных файлов. Инструмент автоматически определяет тип документа и использует оптимальный способ обработки: прямое извлечение текста или OCR.

Он разработан для быстрого и точного извлечения данных без необходимости установки дополнительных библиотек, что делает его удобным для разработчиков и автоматизации рабочих процессов.

Основные возможности

Извлечение текста: поддержка текстовых и сканированных PDF с сохранением структуры документа
OCR: использование Tesseract.js для распознавания текста на изображениях
Пакетная обработка: работа с несколькими файлами одновременно
Различные форматы вывода: текст, JSON, Markdown и HTML
Метаданные: извлечение информации об авторе, названии и дате создания

OCR и работа со сканами

Инструмент автоматически применяет OCR для документов, в которых отсутствует текстовый слой. Он поддерживает несколько языков и позволяет настраивать баланс между скоростью и качеством распознавания.

Точность OCR обычно достигает 85–95% в зависимости от качества исходного скана, тогда как для текстовых PDF точность составляет 100% благодаря прямому извлечению данных. :

Производительность

Текстовые PDF: ~100 мс на документ (до 10 страниц)
OCR-обработка: ~1–3 секунды на страницу
Минимальное потребление памяти при стандартной работе

Такая производительность делает инструмент подходящим как для одиночных задач, так и для массовой обработки документов. :

Примеры использования

Оцифровка бумажных документов и архивов
Обработка счетов и финансовых отчетов
Анализ текстового содержимого PDF
Подготовка данных для AI и NLP-систем
Автоматизация документооборота

Технические детали

PDF Text Extractor использует PDF.js для извлечения текста и Tesseract.js для OCR. При этом инструмент не требует сторонних зависимостей и работает на базе встроенных возможностей Node.js. :

Преимущества

Отсутствие внешних зависимостей
Высокая скорость обработки
Поддержка различных форматов вывода
Гибкая настройка OCR
Подходит для автоматизации и интеграции