Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
DocStrange — это API для извлечения данных из документов от Nanonets. Он позволяет преобразовывать PDF-файлы и изображения в структурированные форматы, такие как Markdown, JSON или CSV, с указанием уровня достоверности для каждого извлечённого поля.
Главная особенность — оценка уверенности (confidence score) по каждому значению (от 0 до 100). Это позволяет автоматически выявлять сомнительные данные и отправлять их на ручную проверку, вместо слепого доверия результатам.
Что делает этот инструмент
DocStrange использует AI-модели для извлечения структурированной информации из документов. Он поддерживает различные форматы вывода и помогает автоматизировать обработку текстов и таблиц.
- Преобразование документов в Markdown
- Извлечение данных в JSON с указанием confidence score
- Конвертация таблиц в CSV
- OCR для сканированных документов и изображений
Когда использовать
DocStrange особенно полезен в задачах, где требуется извлечение данных из неструктурированных источников:
- Извлечение данных счетов (invoice) из PDF
- Парсинг чеков для отчётов о расходах
- Обработка банковских выписок
- Оцифровка бумажных форм
- Создание поисковых индексов на основе OCR
Пример рабочего процесса
Типичный сценарий использования может выглядеть следующим образом:
- Пользователь загружает PDF-документ (например, счёт)
- Агент отправляет POST-запрос к API с указанием нужных полей (номер, дата, поставщик, сумма)
- Включается параметр
confidence_scoreдля получения метаданных - Ответ анализируется, и поля с низкой уверенностью (например, < 80) помечаются для проверки
На выходе получается JSON-объект с извлечёнными данными и оценкой достоверности по каждому полю.
Требования
- Аккаунт в Nanonets
- API-ключ (переменная окружения
DOCSTRANGE_API_KEY)
Инструмент интегрируется в рабочие процессы автоматизации и подходит как для простых задач OCR, так и для сложной обработки документов с последующей валидацией данных.
Файл из источника