Скиллы Средний Утилиты и инструменты

Markdown Converter

Скачать ZIP
14
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

markdown-converter — это инструмент для преобразования документов и различных файлов в формат Markdown с помощью утилиты markitdown. Он особенно полезен при подготовке данных для LLM, анализа текста или унификации форматов контента.

Что делает этот инструмент

Инструмент позволяет конвертировать широкий спектр форматов — от офисных документов до мультимедиа — в Markdown без необходимости установки дополнительных зависимостей.

  • PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx, .xls)
  • HTML, CSV, JSON, XML
  • Изображения (с EXIF и OCR)
  • Аудио (с транскрипцией)
  • ZIP-архивы
  • YouTube-ссылки
  • EPUB-файлы

Результат сохраняет структуру исходного документа: заголовки, таблицы, списки и ссылки. :

Быстрый старт

Конвертация выполняется через CLI с использованием uvx markitdown.

# Вывод в stdout
uvx markitdown input.pdf

# Сохранение в файл
uvx markitdown input.pdf -o output.md

# Через stdin
cat input.pdf | uvx markitdown

Поддерживаемые форматы

Инструмент работает с несколькими категориями данных:

  • Документы: PDF, DOCX, PPTX, XLSX/XLS
  • Веб и данные: HTML, CSV, JSON, XML
  • Медиа: изображения (OCR), аудио (транскрипция)
  • Прочее: ZIP, YouTube, EPUB

Основные опции

-o OUTPUT # файл вывода
-x EXTENSION # указание расширения (для stdin)
-m MIME_TYPE # указание MIME-типа
-c CHARSET # кодировка (например, UTF-8)
-d # Azure Document Intelligence
-e ENDPOINT # endpoint для Azure
--use-plugins # сторонние плагины
--list-plugins # список плагинов

Примеры использования

# Word → Markdown
uvx markitdown report.docx -o report.md

# Excel → Markdown
uvx markitdown data.xlsx > data.md

# PowerPoint → Markdown
uvx markitdown slides.pptx -o slides.md

# stdin с указанием типа
cat document | uvx markitdown -x .pdf > output.md

# Улучшенная обработка PDF через Azure
uvx markitdown scan.pdf -d -e "https://your-resource.cognitiveservices.azure.com/"

Когда использовать

  • Подготовка PDF-документов для LLM
  • Извлечение текста из презентаций
  • Преобразование таблиц Excel в Markdown
  • Получение транскрипций аудио
  • Извлечение текста из YouTube-видео

Особенности и преимущества

  • Не требует установки — работает через uvx
  • Поддерживает множество форматов
  • Сохраняет структуру документа
  • Поддерживает OCR и транскрипцию
  • Можно расширять через плагины

При первом запуске зависимости кэшируются, что ускоряет последующие операции. :

Примечания

Для сложных PDF-документов рекомендуется использовать интеграцию с Azure Document Intelligence — это значительно повышает точность извлечения данных.


Файл из источника

11131_markdown-converter-1.0.0.zip