Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Обзор
Deep Scraper — это высокопроизводительный инженерный инструмент для глубокого веб-скрейпинга. Он использует контейнеризированную среду Docker в связке с Crawlee (на базе Playwright), что позволяет обходить защиту сложных сайтов, таких как YouTube и X (Twitter), и получать данные на уровне «перехвата».
Инструмент ориентирован на извлечение «чистых» данных без шума, рекламы и лишних элементов, предоставляя результат в удобном для обработки формате JSON.
Требования
- Docker — должен быть установлен и запущен на хост-машине
- Образ — необходимо собрать окружение с тегом
clawd-crawlee - Команда сборки:
docker build -t clawd-crawlee skills/deep-scraper/
Интеграция
Для подключения инструмента достаточно скопировать директорию skills/deep-scraper в папку skills/ вашего проекта. Важно, чтобы файл Dockerfile оставался внутри директории навыка — это обеспечивает автономность и корректное развертывание.
Стандартный интерфейс (CLI)
docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL]
Запуск осуществляется через Docker-контейнер с передачей целевого URL, который необходимо обработать.
Формат вывода (JSON)
Результаты скрейпинга выводятся в стандартный поток в виде JSON-строки со следующей структурой:
- status: SUCCESS | PARTIAL | ERROR
- type: TRANSCRIPT | DESCRIPTION | GENERIC
- videoId: (для YouTube) подтверждённый ID видео
- data: основной текстовый контент или транскрипция
Ключевые правила
- Проверка ID: для всех задач, связанных с YouTube, обязательно подтверждение Video ID во избежание ошибок кэширования
- Конфиденциальность: строго запрещено извлекать данные, защищённые паролями или относящиеся к непубличной личной информации
- Фокус на качестве: автоматически удаляются реклама и лишние элементы, чтобы обеспечить максимально чистый и пригодный для LLM-контент
Deep Scraper ориентирован на задачи, где важны точность, полнота и структурированность данных, что делает его особенно полезным для интеграции с языковыми моделями и автоматизированными системами анализа контента.
Файл из источника