Скиллы Средний Исследования и аналитика

PDF Text Extractor

Скачать ZIP
12
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

PDF Text Extractor — это инструмент для извлечения текста из PDF-файлов с поддержкой OCR. Он подходит для оцифровки документов, обработки счетов и анализа содержимого, при этом не требует внешних зависимостей.

Обзор

PDF Text Extractor — это легковесное решение, позволяющее извлекать текст как из обычных PDF-документов, так и из сканированных файлов. Инструмент автоматически определяет тип документа и использует оптимальный способ обработки: прямое извлечение текста или OCR.

Он разработан для быстрого и точного извлечения данных без необходимости установки дополнительных библиотек, что делает его удобным для разработчиков и автоматизации рабочих процессов.

Основные возможности

  • Извлечение текста: поддержка текстовых и сканированных PDF с сохранением структуры документа
  • OCR: использование Tesseract.js для распознавания текста на изображениях
  • Пакетная обработка: работа с несколькими файлами одновременно
  • Различные форматы вывода: текст, JSON, Markdown и HTML
  • Метаданные: извлечение информации об авторе, названии и дате создания

OCR и работа со сканами

Инструмент автоматически применяет OCR для документов, в которых отсутствует текстовый слой. Он поддерживает несколько языков и позволяет настраивать баланс между скоростью и качеством распознавания.

Точность OCR обычно достигает 85–95% в зависимости от качества исходного скана, тогда как для текстовых PDF точность составляет 100% благодаря прямому извлечению данных. :

Производительность

  • Текстовые PDF: ~100 мс на документ (до 10 страниц)
  • OCR-обработка: ~1–3 секунды на страницу
  • Минимальное потребление памяти при стандартной работе

Такая производительность делает инструмент подходящим как для одиночных задач, так и для массовой обработки документов. :

Примеры использования

  • Оцифровка бумажных документов и архивов
  • Обработка счетов и финансовых отчетов
  • Анализ текстового содержимого PDF
  • Подготовка данных для AI и NLP-систем
  • Автоматизация документооборота

Технические детали

PDF Text Extractor использует PDF.js для извлечения текста и Tesseract.js для OCR. При этом инструмент не требует сторонних зависимостей и работает на базе встроенных возможностей Node.js. :

Преимущества

  • Отсутствие внешних зависимостей
  • Высокая скорость обработки
  • Поддержка различных форматов вывода
  • Гибкая настройка OCR
  • Подходит для автоматизации и интеграции

Рекомендации по использованию

  • Используйте текстовые PDF для максимальной точности
  • Сканируйте документы с высоким разрешением (300 DPI и выше)
  • Выбирайте правильный язык для OCR
  • Отключайте OCR, если документ уже содержит текст

PDF Text Extractor — это быстрый и универсальный инструмент для работы с PDF, который упрощает извлечение данных и делает документы пригодными для дальнейшей обработки и анализа.


Файл из источника

11620_pdf-text-extractor-1.0.0.zip