Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
PDF Text Extractor — это инструмент для извлечения текста из PDF-файлов с поддержкой OCR. Он подходит для оцифровки документов, обработки счетов и анализа содержимого, при этом не требует внешних зависимостей.
Обзор
PDF Text Extractor — это легковесное решение, позволяющее извлекать текст как из обычных PDF-документов, так и из сканированных файлов. Инструмент автоматически определяет тип документа и использует оптимальный способ обработки: прямое извлечение текста или OCR.
Он разработан для быстрого и точного извлечения данных без необходимости установки дополнительных библиотек, что делает его удобным для разработчиков и автоматизации рабочих процессов.
Основные возможности
- Извлечение текста: поддержка текстовых и сканированных PDF с сохранением структуры документа
- OCR: использование Tesseract.js для распознавания текста на изображениях
- Пакетная обработка: работа с несколькими файлами одновременно
- Различные форматы вывода: текст, JSON, Markdown и HTML
- Метаданные: извлечение информации об авторе, названии и дате создания
OCR и работа со сканами
Инструмент автоматически применяет OCR для документов, в которых отсутствует текстовый слой. Он поддерживает несколько языков и позволяет настраивать баланс между скоростью и качеством распознавания.
Точность OCR обычно достигает 85–95% в зависимости от качества исходного скана, тогда как для текстовых PDF точность составляет 100% благодаря прямому извлечению данных. :
Производительность
- Текстовые PDF: ~100 мс на документ (до 10 страниц)
- OCR-обработка: ~1–3 секунды на страницу
- Минимальное потребление памяти при стандартной работе
Такая производительность делает инструмент подходящим как для одиночных задач, так и для массовой обработки документов. :
Примеры использования
- Оцифровка бумажных документов и архивов
- Обработка счетов и финансовых отчетов
- Анализ текстового содержимого PDF
- Подготовка данных для AI и NLP-систем
- Автоматизация документооборота
Технические детали
PDF Text Extractor использует PDF.js для извлечения текста и Tesseract.js для OCR. При этом инструмент не требует сторонних зависимостей и работает на базе встроенных возможностей Node.js. :
Преимущества
- Отсутствие внешних зависимостей
- Высокая скорость обработки
- Поддержка различных форматов вывода
- Гибкая настройка OCR
- Подходит для автоматизации и интеграции
Рекомендации по использованию
- Используйте текстовые PDF для максимальной точности
- Сканируйте документы с высоким разрешением (300 DPI и выше)
- Выбирайте правильный язык для OCR
- Отключайте OCR, если документ уже содержит текст
PDF Text Extractor — это быстрый и универсальный инструмент для работы с PDF, который упрощает извлечение данных и делает документы пригодными для дальнейшей обработки и анализа.
Файл из источника