Скиллы Продвинутый Веб и поиск

Deep Scraper

Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Обзор

Deep Scraper — это высокопроизводительный инженерный инструмент для глубокого веб-скрейпинга. Он использует контейнеризированную среду Docker в связке с Crawlee (на базе Playwright), что позволяет обходить защиту сложных сайтов, таких как YouTube и X (Twitter), и получать данные на уровне «перехвата».

Инструмент ориентирован на извлечение «чистых» данных без шума, рекламы и лишних элементов, предоставляя результат в удобном для обработки формате JSON.

Требования

Docker — должен быть установлен и запущен на хост-машине
Образ — необходимо собрать окружение с тегом clawd-crawlee
Команда сборки:
docker build -t clawd-crawlee skills/deep-scraper/

Интеграция

Для подключения инструмента достаточно скопировать директорию skills/deep-scraper в папку skills/ вашего проекта. Важно, чтобы файл Dockerfile оставался внутри директории навыка — это обеспечивает автономность и корректное развертывание.

Стандартный интерфейс (CLI)

docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL]

Запуск осуществляется через Docker-контейнер с передачей целевого URL, который необходимо обработать.

Формат вывода (JSON)

Результаты скрейпинга выводятся в стандартный поток в виде JSON-строки со следующей структурой:

status: SUCCESS | PARTIAL | ERROR
type: TRANSCRIPT | DESCRIPTION | GENERIC
videoId: (для YouTube) подтверждённый ID видео
data: основной текстовый контент или транскрипция

Ключевые правила

Проверка ID: для всех задач, связанных с YouTube, обязательно подтверждение Video ID во избежание ошибок кэширования
Конфиденциальность: строго запрещено извлекать данные, защищённые паролями или относящиеся к непубличной личной информации
Фокус на качестве: автоматически удаляются реклама и лишние элементы, чтобы обеспечить максимально чистый и пригодный для LLM-контент

Deep Scraper ориентирован на задачи, где важны точность, полнота и структурированность данных, что делает его особенно полезным для интеграции с языковыми моделями и автоматизированными системами анализа контента.

Файл из источника

10910_deep-scraper-1.0.1.zip

Интеграции: # AI инструменты # docker compose # json API # OpenClaw # playwright # автоматизация # веб-скрейпинг # парсинг сайтов # сбор данных

Тип Скилл
Сложность Продвинутый
Дата обновления 11.04.2026
Автор opclpro
Просмотры 35

Скачать ZIP