Скиллы Новичок Разработка и DevOps

Scrapling Web Scraping

Скачать ZIP
17
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Scrapling Web Scraping

Scrapling — это адаптивный инструмент для веб-скрейпинга в экосистеме OpenClaw, способный работать как с простыми HTTP-запросами, так и с полноценными сценариями обхода сложных сайтов. Он ориентирован на автоматизацию извлечения данных и устойчив к современным механизмам защиты сайтов.

Инструмент поддерживает обход Cloudflare, обработку JavaScript-нагруженных страниц и автоматически адаптируется к изменениям структуры сайтов, что делает его удобным решением как для простых задач, так и для масштабного сбора данных. :

Установка

Для начала необходимо установить сам инструмент и зависимости:

pip install "scrapling[all]"
scrapling install

После установки можно использовать CLI-утилиту или встроить Scrapling в рабочий процесс OpenClaw.

Быстрый старт

Пример базового использования для получения содержимого страницы:

python3 scrapling_tool.py https://example.com

Scrapling поддерживает несколько режимов работы, позволяющих гибко подстраиваться под особенности сайта.

Основные возможности

  • Базовый режим — быстрые HTTP-запросы для простых страниц
  • Stealth-режим — обход антибот-защиты и Cloudflare
  • Динамический режим — обработка сайтов с JavaScript
  • CSS-селекторы — точечное извлечение данных
  • JSON-вывод — удобная интеграция с другими системами

Примеры использования

1. Обход защиты Cloudflare:

python3 scrapling_tool.py https://protected-site.com --mode stealth --cloudflare

2. Извлечение конкретных данных:

python3 scrapling_tool.py https://example.com --selector ".product-title"

3. Работа с динамическим контентом:

python3 scrapling_tool.py https://spa-app.com --mode dynamic --wait ".content-loaded"

Использование через Python

Scrapling можно интегрировать напрямую в Python-код для более гибкой логики:

from scrapling.fetchers import Fetcher

page = Fetcher.get('https://example.com')
title = page.css('title::text').get()

Для обхода защиты:

from scrapling.fetchers import StealthyFetcher

page = StealthyFetcher.fetch(
 'https://protected.com',
 headless=True,
 solve_cloudflare=True
)

Для динамических сайтов:

from scrapling.fetchers import DynamicFetcher

page = DynamicFetcher.fetch(
 'https://spa-app.com',
 headless=True,
 network_idle=True
)

Расширенные сценарии

Можно создавать собственные скрипты для сбора данных. Например, извлечение списка товаров:

from scrapling.fetchers import StealthyFetcher

def scrape_products(url):
 page = StealthyFetcher.fetch(url, headless=True)
 products = []

 for item in page.css('.product'):
 products.append({
 'name': item.css('.name::text').get(),
 'price': item.css('.price::text').get(),
 'link': item.css('a::attr(href)').get()
 })

 return products

CLI параметры

python3 scrapling_tool.py URL [options]

--mode {basic,stealth,dynamic} режим работы
--selector, -s CSS-селектор
--cloudflare обход защиты
--wait ожидание элемента
--json, -j вывод в JSON

Примечания

  • Требуется Python 3.10 и выше
  • При первом запуске необходимо скачать браузеры
  • Следует соблюдать правила использования сайтов
  • Использовать инструмент ответственно

Scrapling — мощный инструмент для современного веб-скрейпинга, который сочетает гибкость, устойчивость к защите сайтов и удобство интеграции в автоматизированные рабочие процессы.


Файл из источника

11896_web-scraping-1.0.0.zip