Скиллы Средний Исследования и аналитика

PyMuPDF PDF Parser — Clawdbot Skill

Скачать ZIP
12
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Навык Clawdbot для быстрого и легковесного парсинга PDF с использованием PyMuPDF (fitz). Отлично подходит для ситуаций, когда важна скорость извлечения текста.

Возможности

  • Высокая скорость обработки — разбор PDF примерно за ~1 секунду на страницу
  • Минималистичность — всего одна зависимость через pip, без тяжёлых моделей
  • Вывод в Markdown — чистый текст с маркерами страниц
  • Вывод в JSON — структурированный текст по страницам
  • Извлечение изображений — опциональная выгрузка встроенных изображений
  • Совместимость с NixOS — предусмотрены решения проблем с libstdc++

Установка

Требования

  • Python 3.8+
  • PyMuPDF: pip install pymupdf
  • Установленный Clawdbot

Установка навыка

# Клонируйте репозиторий
git clone https://github.com/kesslerio/PyMuPDF-PDF-Parser-Clawdbot-Skill.git

# Или скопируйте папку навыка в директорию Clawdbot
cp -r PyMuPDF-PDF-Parser-Clawdbot-Skill/pymupdf-pdf ~/.clawdbot/skills/

# Установите зависимость
pip install pymupdf

Пользователи NixOS

Если возникает ошибка импорта libstdc++, выполните:

export LD_LIBRARY_PATH=/nix/store//lib

Подробности смотрите в файле pymupdf-notes.md.

Использование

Быстрый старт

# Запуск из директории навыка
./scripts/pymupdf_parse.py /path/to/document.pdf

Параметры

./scripts/pymupdf_parse.py /path/to/document.pdf --format json
./scripts/pymupdf_parse.py /path/to/document.pdf --format both --images
./scripts/pymupdf_parse.py /path/to/document.pdf --outroot ./my-output
ОпцияПо умолчаниюОписание
—formatmdФормат вывода: md, json или both
—outroot./pymupdf-outputКорневая директория для результатов
—imagesвыклИзвлечение изображений
—tablesвыклПростое извлечение таблиц (построчное)
—langenЯзыковая подсказка (сохраняется в JSON)

Выходные данные

Для каждого документа создаётся отдельная папка:

./pymupdf-output/
└── document-name/
 ├── output.md
 ├── output.json
 ├── images/
 └── tables.json
  • output.md — Markdown с разметкой страниц
  • output.json — JSON с текстом по страницам
  • images/ — извлечённые изображения (если включено)
  • tables.json — таблицы в упрощённом виде

Качество вывода

  • Извлекается простой текст (без сохранения сложной верстки)
  • Минималистичный JSON (текст по страницам)
  • Опциональное извлечение изображений

Лучше всего подходит для: быстрого извлечения текста, пакетной обработки и задач, где критична скорость.

Сравнение с MinerU

ПараметрPyMuPDFMinerU
СкоростьБыстро (~1 сек/стр)Медленно (~15–30 сек/стр)
JSONМинимальный (~1 КБ)Подробный (~50+ КБ)
ИзображенияОпциональноАвтоматически
Сохранение версткиБазовоеОтличное
ЗависимостиЛёгкиеТяжёлые (~20 ГБ моделей)

Когда использовать PyMuPDF: если важна скорость или требуется простое извлечение текста.

Когда использовать MinerU: если приоритет — качество структуры и точность.

Лицензия

Apache 2.0

Участие в разработке

Приветствуются issues и pull request’ы. Перед отправкой изменений рекомендуется протестировать их на различных типах PDF-документов.

Связанные проекты

  • MinerU PDF Parser Skill — альтернатива с упором на структуру
  • PyMuPDF — библиотека, лежащая в основе
  • Clawdbot — фреймворк AI-агентов