Скиллы Продвинутый Разработка и DevOps

Playwright Scraper Skill

Скачать ZIP
16
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Playwright Scraper Skill — это навык для OpenClaw, предназначенный для веб-скрапинга с использованием Playwright и встроенной защитой от антибот-систем. Он успешно протестирован на сложных сайтах, включая Discuss.com.hk. :

🎯 Матрица сценариев использования

Выбирайте подход в зависимости от уровня антибот-защиты целевого сайта:

  • Обычные сайты (низкий уровень защиты) — используйте встроенный инструмент web_fetch
  • Динамические сайты (средний уровень) — используйте Playwright Simple
  • Сайты с Cloudflare (высокий уровень) — используйте Playwright Stealth
  • YouTube — отдельный навык deep-scraper
  • Reddit — отдельный reddit-scraper

📦 Установка

cd playwright-scraper-skill
npm install
npx playwright install chromium

🚀 Быстрый старт

1️⃣ Простые сайты (без антибота)

Используйте встроенный инструмент OpenClaw:

Hey, fetch me the content from https://example.com

2️⃣ Динамические сайты (с JavaScript)

Используйте простой режим Playwright:

node scripts/playwright-simple.js "https://example.com"

Пример результата:

{
 "url": "https://example.com",
 "title": "Example Domain",
 "content": "...",
 "elapsedSeconds": "3.45"
}

3️⃣ Сайты с антибот-защитой (Cloudflare и др.)

Используйте режим Stealth:

node scripts/playwright-stealth.js "https://m.discuss.com.hk/#hot"

Ключевые возможности:

  • Скрытие признаков автоматизации (navigator.webdriver = false)
  • Реалистичный User-Agent (iPhone, Android)
  • Случайные задержки для имитации поведения человека
  • Поддержка скриншотов и сохранения HTML

4️⃣ Транскрипции YouTube

Используйте отдельный навык deep-scraper:

npx clawhub install deep-scraper
cd skills/deep-scraper
node assets/youtube_handler.js "https://www.youtube.com/watch?v=VIDEO_ID"

📖 Описание скриптов

playwright-simple.js

  • Сценарий: обычные динамические сайты
  • Скорость: высокая (3–5 сек)
  • Антибот: отсутствует
  • Вывод: JSON (заголовок, контент, URL)

playwright-stealth.js ⭐

  • Сценарий: сайты с защитой (Cloudflare)
  • Скорость: средняя (5–20 сек)
  • Антибот: средний–высокий уровень
  • Вывод: JSON + скриншот + HTML

🎓 Лучшие практики

  • Для специальных платформ используйте специализированные навыки (YouTube, Reddit и др.)
  • Комбинируйте подходы в зависимости от уровня защиты

🔧 Настройка

Поддерживаются переменные окружения:

# Скриншоты
SCREENSHOT_PATH=/path/to/file.png

# Время ожидания
WAIT_TIME=10000

# Видимый браузер
HEADLESS=false

# Сохранение HTML
SAVE_HTML=true

# User-Agent
USER_AGENT="Mozilla/5.0 ..."

📊 Сравнение производительности

  • web_fetch — самый быстрый, но не проходит защиту
  • Playwright Simple — быстрый, низкая эффективность против антибота
  • Playwright Stealth — средняя скорость, до 100% успеха
  • Puppeteer Stealth — ~80% успеха
  • Crawlee / Rust решения — часто блокируются

🛡️ Методы обхода антибота

Эффективные:

  • Скрытие navigator.webdriver
  • Реалистичные User-Agent
  • Имитация поведения пользователя (задержки, прокрутка)
  • Инъекция скриптов до загрузки страницы

Неэффективные:

  • Только смена User-Agent
  • Использование высокоуровневых фреймворков
  • Изоляция через Docker

🔍 Устранение проблем

  • 403 Forbidden — используйте Stealth
  • Cloudflare — увеличьте время ожидания, попробуйте headful режим
  • Пустая страница — настройте ожидание загрузки и проверьте авторизацию

📝 Опыт и выводы

Тестирование показало, что комбинация чистого Playwright и stealth-подхода обеспечивает максимальную эффективность, тогда как альтернативные инструменты часто блокируются. :

🚧 Планы развития

  • Ротация прокси
  • Управление cookie и сессиями
  • Обработка CAPTCHA
  • Параллельный скрапинг
  • Интеграция с браузерными инструментами OpenClaw

📚 Источники

  • Документация Playwright
  • Stealth-плагины
  • deep-scraper

Файл из источника

11639_playwright-scraper-skill-1.2.0.zip