Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
markdown-converter — это инструмент для преобразования документов и различных файлов в формат Markdown с помощью утилиты markitdown. Он особенно полезен при подготовке данных для LLM, анализа текста или унификации форматов контента.
Что делает этот инструмент
Инструмент позволяет конвертировать широкий спектр форматов — от офисных документов до мультимедиа — в Markdown без необходимости установки дополнительных зависимостей.
- PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx, .xls)
- HTML, CSV, JSON, XML
- Изображения (с EXIF и OCR)
- Аудио (с транскрипцией)
- ZIP-архивы
- YouTube-ссылки
- EPUB-файлы
Результат сохраняет структуру исходного документа: заголовки, таблицы, списки и ссылки. :
Быстрый старт
Конвертация выполняется через CLI с использованием uvx markitdown.
# Вывод в stdout
uvx markitdown input.pdf
# Сохранение в файл
uvx markitdown input.pdf -o output.md
# Через stdin
cat input.pdf | uvx markitdown
Поддерживаемые форматы
Инструмент работает с несколькими категориями данных:
- Документы: PDF, DOCX, PPTX, XLSX/XLS
- Веб и данные: HTML, CSV, JSON, XML
- Медиа: изображения (OCR), аудио (транскрипция)
- Прочее: ZIP, YouTube, EPUB
Основные опции
-o OUTPUT # файл вывода
-x EXTENSION # указание расширения (для stdin)
-m MIME_TYPE # указание MIME-типа
-c CHARSET # кодировка (например, UTF-8)
-d # Azure Document Intelligence
-e ENDPOINT # endpoint для Azure
--use-plugins # сторонние плагины
--list-plugins # список плагинов
Примеры использования
# Word → Markdown
uvx markitdown report.docx -o report.md
# Excel → Markdown
uvx markitdown data.xlsx > data.md
# PowerPoint → Markdown
uvx markitdown slides.pptx -o slides.md
# stdin с указанием типа
cat document | uvx markitdown -x .pdf > output.md
# Улучшенная обработка PDF через Azure
uvx markitdown scan.pdf -d -e "https://your-resource.cognitiveservices.azure.com/"
Когда использовать
- Подготовка PDF-документов для LLM
- Извлечение текста из презентаций
- Преобразование таблиц Excel в Markdown
- Получение транскрипций аудио
- Извлечение текста из YouTube-видео
Особенности и преимущества
- Не требует установки — работает через
uvx - Поддерживает множество форматов
- Сохраняет структуру документа
- Поддерживает OCR и транскрипцию
- Можно расширять через плагины
При первом запуске зависимости кэшируются, что ускоряет последующие операции. :
Примечания
Для сложных PDF-документов рекомендуется использовать интеграцию с Azure Document Intelligence — это значительно повышает точность извлечения данных.
Файл из источника