Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Web scraping and content comprehension agent — инструмент для извлечения данных с сайтов с использованием многоступенчатого подхода и каскадной стратегии обработки.
Этот скилл сочетает несколько методов парсинга и автоматически выбирает оптимальный способ получения данных: от простых HTTP-запросов до полноценных браузерных движков. Он способен обрабатывать новостные статьи, динамические страницы и даже частично защищённый контент.
Что делает этот скилл
web-scraper реализует 5-этапный pipeline для извлечения и анализа веб-контента:
- Определяет тип страницы (например, новостная статья)
- Извлекает данные через каскад стратегий (HTTP → Playwright → Scrapy)
- Удаляет лишние элементы и нормализует текст
- Собирает структурированные метаданные
- При необходимости извлекает сущности (люди, организации, события)
Такой подход позволяет эффективно работать как с простыми HTML-страницами, так и с современными SPA-приложениями, где контент генерируется через JavaScript. :
Ключевые особенности
- Каскадная стратегия: сначала используется лёгкий HTTP-парсинг, и только при необходимости подключается браузер
- Поддержка JS-страниц: корректная работа с React / Next.js сайтами
- Удаление «шума»: очистка от шаблонных элементов и лишней разметки
- Нормализация кодировки: корректная обработка текста с разных источников
- Извлечение сущностей: анализ текста через LLM без использования HTML
Когда использовать
- Извлечение полного текста статьи и метаданных
- Массовый сбор контента с сайта
- Парсинг динамических веб-приложений
- Анализ новостей и выделение ключевых сущностей
- Проверка доступности контента за paywall
Пример рабочего процесса
Как агент может использовать этот скилл на практике:
- Шаг 1: анализ URL и структуры страницы
- Шаг 2: попытка получения данных через HTTP, при необходимости — переход к Playwright
- Шаг 3: очистка текста от лишних элементов
- Шаг 4: извлечение метаданных (заголовок, автор, дата)
- Шаг 5: отправка текста в LLM для выделения сущностей
В результате формируется структурированный JSON с текстом статьи, метаданными и выделенными сущностями.
Требования
- Переменная окружения OPENROUTER_API_KEY (для анализа сущностей)
- Установленный браузер Chromium (через Playwright)
Установка
clawhub install guifav/web-scraper
Альтернативный способ:
npx clawhub@latest install guifav/web-scraper
После установки скилл становится доступен в вашем OpenClaw-агенте и может использоваться в автоматизированных сценариях.
Файл из источника