Скиллы Продвинутый Веб и поиск

Deep Scraper

Скачать ZIP
18
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Обзор

Deep Scraper — это высокопроизводительный инженерный инструмент для глубокого веб-скрейпинга. Он использует контейнеризированную среду Docker в связке с Crawlee (на базе Playwright), что позволяет обходить защиту сложных сайтов, таких как YouTube и X (Twitter), и получать данные на уровне «перехвата».

Инструмент ориентирован на извлечение «чистых» данных без шума, рекламы и лишних элементов, предоставляя результат в удобном для обработки формате JSON.

Требования

  • Docker — должен быть установлен и запущен на хост-машине
  • Образ — необходимо собрать окружение с тегом clawd-crawlee
  • Команда сборки:
    docker build -t clawd-crawlee skills/deep-scraper/

Интеграция

Для подключения инструмента достаточно скопировать директорию skills/deep-scraper в папку skills/ вашего проекта. Важно, чтобы файл Dockerfile оставался внутри директории навыка — это обеспечивает автономность и корректное развертывание.

Стандартный интерфейс (CLI)

docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL]

Запуск осуществляется через Docker-контейнер с передачей целевого URL, который необходимо обработать.

Формат вывода (JSON)

Результаты скрейпинга выводятся в стандартный поток в виде JSON-строки со следующей структурой:

  • status: SUCCESS | PARTIAL | ERROR
  • type: TRANSCRIPT | DESCRIPTION | GENERIC
  • videoId: (для YouTube) подтверждённый ID видео
  • data: основной текстовый контент или транскрипция

Ключевые правила

  • Проверка ID: для всех задач, связанных с YouTube, обязательно подтверждение Video ID во избежание ошибок кэширования
  • Конфиденциальность: строго запрещено извлекать данные, защищённые паролями или относящиеся к непубличной личной информации
  • Фокус на качестве: автоматически удаляются реклама и лишние элементы, чтобы обеспечить максимально чистый и пригодный для LLM-контент

Deep Scraper ориентирован на задачи, где важны точность, полнота и структурированность данных, что делает его особенно полезным для интеграции с языковыми моделями и автоматизированными системами анализа контента.


Файл из источника

10910_deep-scraper-1.0.1.zip