Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Навык Clawdbot для быстрого и легковесного парсинга PDF с использованием PyMuPDF (fitz). Отлично подходит для ситуаций, когда важна скорость извлечения текста.
Возможности
- Высокая скорость обработки — разбор PDF примерно за ~1 секунду на страницу
- Минималистичность — всего одна зависимость через pip, без тяжёлых моделей
- Вывод в Markdown — чистый текст с маркерами страниц
- Вывод в JSON — структурированный текст по страницам
- Извлечение изображений — опциональная выгрузка встроенных изображений
- Совместимость с NixOS — предусмотрены решения проблем с libstdc++
Установка
Требования
- Python 3.8+
- PyMuPDF:
pip install pymupdf - Установленный Clawdbot
Установка навыка
# Клонируйте репозиторий
git clone https://github.com/kesslerio/PyMuPDF-PDF-Parser-Clawdbot-Skill.git
# Или скопируйте папку навыка в директорию Clawdbot
cp -r PyMuPDF-PDF-Parser-Clawdbot-Skill/pymupdf-pdf ~/.clawdbot/skills/
# Установите зависимость
pip install pymupdf
Пользователи NixOS
Если возникает ошибка импорта libstdc++, выполните:
export LD_LIBRARY_PATH=/nix/store//lib
Подробности смотрите в файле pymupdf-notes.md.
Использование
Быстрый старт
# Запуск из директории навыка
./scripts/pymupdf_parse.py /path/to/document.pdf
Параметры
./scripts/pymupdf_parse.py /path/to/document.pdf --format json
./scripts/pymupdf_parse.py /path/to/document.pdf --format both --images
./scripts/pymupdf_parse.py /path/to/document.pdf --outroot ./my-output
| Опция | По умолчанию | Описание |
|---|---|---|
| —format | md | Формат вывода: md, json или both |
| —outroot | ./pymupdf-output | Корневая директория для результатов |
| —images | выкл | Извлечение изображений |
| —tables | выкл | Простое извлечение таблиц (построчное) |
| —lang | en | Языковая подсказка (сохраняется в JSON) |
Выходные данные
Для каждого документа создаётся отдельная папка:
./pymupdf-output/
└── document-name/
├── output.md
├── output.json
├── images/
└── tables.json
- output.md — Markdown с разметкой страниц
- output.json — JSON с текстом по страницам
- images/ — извлечённые изображения (если включено)
- tables.json — таблицы в упрощённом виде
Качество вывода
- Извлекается простой текст (без сохранения сложной верстки)
- Минималистичный JSON (текст по страницам)
- Опциональное извлечение изображений
Лучше всего подходит для: быстрого извлечения текста, пакетной обработки и задач, где критична скорость.
Сравнение с MinerU
| Параметр | PyMuPDF | MinerU |
|---|---|---|
| Скорость | Быстро (~1 сек/стр) | Медленно (~15–30 сек/стр) |
| JSON | Минимальный (~1 КБ) | Подробный (~50+ КБ) |
| Изображения | Опционально | Автоматически |
| Сохранение верстки | Базовое | Отличное |
| Зависимости | Лёгкие | Тяжёлые (~20 ГБ моделей) |
Когда использовать PyMuPDF: если важна скорость или требуется простое извлечение текста.
Когда использовать MinerU: если приоритет — качество структуры и точность.
Лицензия
Apache 2.0
Участие в разработке
Приветствуются issues и pull request’ы. Перед отправкой изменений рекомендуется протестировать их на различных типах PDF-документов.
Связанные проекты
- MinerU PDF Parser Skill — альтернатива с упором на структуру
- PyMuPDF — библиотека, лежащая в основе
- Clawdbot — фреймворк AI-агентов
Файл из источника