Скиллы Средний Исследования и аналитика

PyMuPDF PDF Parser — Clawdbot Skill

Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Навык Clawdbot для быстрого и легковесного парсинга PDF с использованием PyMuPDF (fitz). Отлично подходит для ситуаций, когда важна скорость извлечения текста.

Возможности

Высокая скорость обработки — разбор PDF примерно за ~1 секунду на страницу
Минималистичность — всего одна зависимость через pip, без тяжёлых моделей
Вывод в Markdown — чистый текст с маркерами страниц
Вывод в JSON — структурированный текст по страницам
Извлечение изображений — опциональная выгрузка встроенных изображений
Совместимость с NixOS — предусмотрены решения проблем с libstdc++

Установка

Требования

Python 3.8+
PyMuPDF: pip install pymupdf
Установленный Clawdbot

Установка навыка

# Клонируйте репозиторий
git clone https://github.com/kesslerio/PyMuPDF-PDF-Parser-Clawdbot-Skill.git

# Или скопируйте папку навыка в директорию Clawdbot
cp -r PyMuPDF-PDF-Parser-Clawdbot-Skill/pymupdf-pdf ~/.clawdbot/skills/

# Установите зависимость
pip install pymupdf

Пользователи NixOS

Если возникает ошибка импорта libstdc++, выполните:

export LD_LIBRARY_PATH=/nix/store//lib

Подробности смотрите в файле pymupdf-notes.md.

Использование

Быстрый старт

# Запуск из директории навыка
./scripts/pymupdf_parse.py /path/to/document.pdf

Параметры

./scripts/pymupdf_parse.py /path/to/document.pdf --format json
./scripts/pymupdf_parse.py /path/to/document.pdf --format both --images
./scripts/pymupdf_parse.py /path/to/document.pdf --outroot ./my-output

Опция	По умолчанию	Описание
—format	md	Формат вывода: md, json или both
—outroot	./pymupdf-output	Корневая директория для результатов
—images	выкл	Извлечение изображений
—tables	выкл	Простое извлечение таблиц (построчное)
—lang	en	Языковая подсказка (сохраняется в JSON)

Выходные данные

Для каждого документа создаётся отдельная папка:

./pymupdf-output/
└── document-name/
 ├── output.md
 ├── output.json
 ├── images/
 └── tables.json

output.md — Markdown с разметкой страниц
output.json — JSON с текстом по страницам
images/ — извлечённые изображения (если включено)
tables.json — таблицы в упрощённом виде

Качество вывода

Извлекается простой текст (без сохранения сложной верстки)
Минималистичный JSON (текст по страницам)
Опциональное извлечение изображений

Лучше всего подходит для: быстрого извлечения текста, пакетной обработки и задач, где критична скорость.

Сравнение с MinerU

Параметр	PyMuPDF	MinerU
Скорость	Быстро (~1 сек/стр)	Медленно (~15–30 сек/стр)
JSON	Минимальный (~1 КБ)	Подробный (~50+ КБ)
Изображения	Опционально	Автоматически
Сохранение верстки	Базовое	Отличное
Зависимости	Лёгкие	Тяжёлые (~20 ГБ моделей)

Когда использовать PyMuPDF: если важна скорость или требуется простое извлечение текста.

Когда использовать MinerU: если приоритет — качество структуры и точность.

Лицензия

Apache 2.0

Участие в разработке

Приветствуются issues и pull request’ы. Перед отправкой изменений рекомендуется протестировать их на различных типах PDF-документов.

Связанные проекты

MinerU PDF Parser Skill — альтернатива с упором на структуру
PyMuPDF — библиотека, лежащая в основе
Clawdbot — фреймворк AI-агентов

Файл из источника

11659_pymupdf-pdf-parser-clawdbot-skill-1.0.0.zip

Тип Скилл
Сложность Средний
Дата обновления 13.04.2026
Автор opclpro
Просмотры 30

Скачать ZIP