Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Данный инструмент предназначен для извлечения текста из отсканированных PDF-документов с помощью технологии оптического распознавания символов (OCR). Он позволяет преобразовывать изображения в текст, делая документы доступными для поиска, редактирования и дальнейшей обработки.
Обзор
Навык выполняет распознавание текста на каждой странице PDF-файла, автоматически определяя язык и создавая текстовый слой. В результате пользователь получает либо обычный текст, либо структурированные данные, либо PDF с возможностью поиска. :
Инструмент особенно эффективен при работе с печатными и машинописными документами, а также поддерживает ограниченное распознавание рукописного текста. :
Как это работает
Система обрабатывает каждую страницу PDF-документа, анализируя изображение и извлекая текстовые данные. При необходимости автоматически удаляются элементы, мешающие распознаванию, такие как шум, перекосы или лишние поля.
Также возможно определение структуры документа — например, таблиц, форм или отдельных блоков текста — с последующим сохранением их в удобном формате.
Когда использовать
- Оцифровка бумажных архивов и создание поисковых PDF
- Извлечение текста, таблиц и данных из отсканированных документов
- Пакетная обработка большого количества PDF-файлов
- Подготовка документов для поиска и анализа
- Преобразование чеков, счетов и отчетов в редактируемый текст
Лучшие практики
- Использовать сканирование с разрешением не ниже 300 DPI (лучше 600 DPI для мелкого текста)
- Обеспечивать высокий контраст изображения
- Выравнивать страницы и удалять шум перед обработкой
- Указывать язык документа или использовать автоопределение
- Проверять страницы с низкой точностью распознавания вручную
Примеры использования
- Создание цифровых библиотек из отсканированных книг
- Извлечение данных из бумажных форм для автоматизации процессов
- Обработка счетов и чеков для бухгалтерских систем
- Конвертация отчетов и заметок в редактируемые документы
- Перенос табличных данных в электронные таблицы
Точность распознавания
Точность OCR зависит от качества исходного документа. Для печатных текстов она может превышать 95%, для книг и форм обычно составляет 80–95%, а для рукописного текста значительно ниже и требует дополнительной проверки. :
Форматы вывода
Результаты обработки могут быть представлены в виде обычного текста, структурированных данных (например, таблиц и полей) или PDF-файла с текстовым слоем и отчетом о выполнении. :
Файл из источника