Скиллы Продвинутый Веб и поиск

web-scraper — OpenClaw Skill

Скачать ZIP
16
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Web scraping and content comprehension agent — инструмент для извлечения данных с сайтов с использованием многоступенчатого подхода и каскадной стратегии обработки.

Этот скилл сочетает несколько методов парсинга и автоматически выбирает оптимальный способ получения данных: от простых HTTP-запросов до полноценных браузерных движков. Он способен обрабатывать новостные статьи, динамические страницы и даже частично защищённый контент.

Что делает этот скилл

web-scraper реализует 5-этапный pipeline для извлечения и анализа веб-контента:

  • Определяет тип страницы (например, новостная статья)
  • Извлекает данные через каскад стратегий (HTTP → Playwright → Scrapy)
  • Удаляет лишние элементы и нормализует текст
  • Собирает структурированные метаданные
  • При необходимости извлекает сущности (люди, организации, события)

Такой подход позволяет эффективно работать как с простыми HTML-страницами, так и с современными SPA-приложениями, где контент генерируется через JavaScript. :

Ключевые особенности

  • Каскадная стратегия: сначала используется лёгкий HTTP-парсинг, и только при необходимости подключается браузер
  • Поддержка JS-страниц: корректная работа с React / Next.js сайтами
  • Удаление «шума»: очистка от шаблонных элементов и лишней разметки
  • Нормализация кодировки: корректная обработка текста с разных источников
  • Извлечение сущностей: анализ текста через LLM без использования HTML

Когда использовать

  • Извлечение полного текста статьи и метаданных
  • Массовый сбор контента с сайта
  • Парсинг динамических веб-приложений
  • Анализ новостей и выделение ключевых сущностей
  • Проверка доступности контента за paywall

Пример рабочего процесса

Как агент может использовать этот скилл на практике:

  • Шаг 1: анализ URL и структуры страницы
  • Шаг 2: попытка получения данных через HTTP, при необходимости — переход к Playwright
  • Шаг 3: очистка текста от лишних элементов
  • Шаг 4: извлечение метаданных (заголовок, автор, дата)
  • Шаг 5: отправка текста в LLM для выделения сущностей

В результате формируется структурированный JSON с текстом статьи, метаданными и выделенными сущностями.

Требования

  • Переменная окружения OPENROUTER_API_KEY (для анализа сущностей)
  • Установленный браузер Chromium (через Playwright)

Установка

clawhub install guifav/web-scraper

Альтернативный способ:

npx clawhub@latest install guifav/web-scraper

После установки скилл становится доступен в вашем OpenClaw-агенте и может использоваться в автоматизированных сценариях.


Файл из источника

11895_web-scraper-0.1.1.zip