Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Scrapling Web Scraping
Scrapling — это адаптивный инструмент для веб-скрейпинга в экосистеме OpenClaw, способный работать как с простыми HTTP-запросами, так и с полноценными сценариями обхода сложных сайтов. Он ориентирован на автоматизацию извлечения данных и устойчив к современным механизмам защиты сайтов.
Инструмент поддерживает обход Cloudflare, обработку JavaScript-нагруженных страниц и автоматически адаптируется к изменениям структуры сайтов, что делает его удобным решением как для простых задач, так и для масштабного сбора данных. :
Установка
Для начала необходимо установить сам инструмент и зависимости:
pip install "scrapling[all]"
scrapling install
После установки можно использовать CLI-утилиту или встроить Scrapling в рабочий процесс OpenClaw.
Быстрый старт
Пример базового использования для получения содержимого страницы:
python3 scrapling_tool.py https://example.com
Scrapling поддерживает несколько режимов работы, позволяющих гибко подстраиваться под особенности сайта.
Основные возможности
- Базовый режим — быстрые HTTP-запросы для простых страниц
- Stealth-режим — обход антибот-защиты и Cloudflare
- Динамический режим — обработка сайтов с JavaScript
- CSS-селекторы — точечное извлечение данных
- JSON-вывод — удобная интеграция с другими системами
Примеры использования
1. Обход защиты Cloudflare:
python3 scrapling_tool.py https://protected-site.com --mode stealth --cloudflare
2. Извлечение конкретных данных:
python3 scrapling_tool.py https://example.com --selector ".product-title"
3. Работа с динамическим контентом:
python3 scrapling_tool.py https://spa-app.com --mode dynamic --wait ".content-loaded"
Использование через Python
Scrapling можно интегрировать напрямую в Python-код для более гибкой логики:
from scrapling.fetchers import Fetcher
page = Fetcher.get('https://example.com')
title = page.css('title::text').get()
Для обхода защиты:
from scrapling.fetchers import StealthyFetcher
page = StealthyFetcher.fetch(
'https://protected.com',
headless=True,
solve_cloudflare=True
)
Для динамических сайтов:
from scrapling.fetchers import DynamicFetcher
page = DynamicFetcher.fetch(
'https://spa-app.com',
headless=True,
network_idle=True
)
Расширенные сценарии
Можно создавать собственные скрипты для сбора данных. Например, извлечение списка товаров:
from scrapling.fetchers import StealthyFetcher
def scrape_products(url):
page = StealthyFetcher.fetch(url, headless=True)
products = []
for item in page.css('.product'):
products.append({
'name': item.css('.name::text').get(),
'price': item.css('.price::text').get(),
'link': item.css('a::attr(href)').get()
})
return products
CLI параметры
python3 scrapling_tool.py URL [options]
--mode {basic,stealth,dynamic} режим работы
--selector, -s CSS-селектор
--cloudflare обход защиты
--wait ожидание элемента
--json, -j вывод в JSON
Примечания
- Требуется Python 3.10 и выше
- При первом запуске необходимо скачать браузеры
- Следует соблюдать правила использования сайтов
- Использовать инструмент ответственно
Scrapling — мощный инструмент для современного веб-скрейпинга, который сочетает гибкость, устойчивость к защите сайтов и удобство интеграции в автоматизированные рабочие процессы.
Файл из источника