Скиллы Продвинутый Веб и поиск

web-scraper — OpenClaw Skill

Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Web scraping and content comprehension agent — инструмент для извлечения данных с сайтов с использованием многоступенчатого подхода и каскадной стратегии обработки.

Этот скилл сочетает несколько методов парсинга и автоматически выбирает оптимальный способ получения данных: от простых HTTP-запросов до полноценных браузерных движков. Он способен обрабатывать новостные статьи, динамические страницы и даже частично защищённый контент.

Что делает этот скилл

web-scraper реализует 5-этапный pipeline для извлечения и анализа веб-контента:

Определяет тип страницы (например, новостная статья)
Извлекает данные через каскад стратегий (HTTP → Playwright → Scrapy)
Удаляет лишние элементы и нормализует текст
Собирает структурированные метаданные
При необходимости извлекает сущности (люди, организации, события)

Такой подход позволяет эффективно работать как с простыми HTML-страницами, так и с современными SPA-приложениями, где контент генерируется через JavaScript. :

Ключевые особенности

Каскадная стратегия: сначала используется лёгкий HTTP-парсинг, и только при необходимости подключается браузер
Поддержка JS-страниц: корректная работа с React / Next.js сайтами
Удаление «шума»: очистка от шаблонных элементов и лишней разметки
Нормализация кодировки: корректная обработка текста с разных источников
Извлечение сущностей: анализ текста через LLM без использования HTML

Когда использовать

Извлечение полного текста статьи и метаданных
Массовый сбор контента с сайта
Парсинг динамических веб-приложений
Анализ новостей и выделение ключевых сущностей
Проверка доступности контента за paywall

Пример рабочего процесса

Как агент может использовать этот скилл на практике:

Шаг 1: анализ URL и структуры страницы
Шаг 2: попытка получения данных через HTTP, при необходимости — переход к Playwright
Шаг 3: очистка текста от лишних элементов
Шаг 4: извлечение метаданных (заголовок, автор, дата)
Шаг 5: отправка текста в LLM для выделения сущностей

В результате формируется структурированный JSON с текстом статьи, метаданными и выделенными сущностями.

Требования

Переменная окружения OPENROUTER_API_KEY (для анализа сущностей)
Установленный браузер Chromium (через Playwright)

Установка

clawhub install guifav/web-scraper

Альтернативный способ:

npx clawhub@latest install guifav/web-scraper

После установки скилл становится доступен в вашем OpenClaw-агенте и может использоваться в автоматизированных сценариях.

Файл из источника

11895_web-scraper-0.1.1.zip

Интеграции: # ai агенты # OpenClaw # scraping tools # автоматизация # анализ контента # веб-скрейпинг # извлечение данных # парсинг сайтов

Тип Скилл
Сложность Продвинутый
Дата обновления 13.04.2026
Автор opclpro
Просмотры 31

Скачать ZIP