Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Playwright Scraper Skill — это навык для OpenClaw, предназначенный для веб-скрапинга с использованием Playwright и встроенной защитой от антибот-систем. Он успешно протестирован на сложных сайтах, включая Discuss.com.hk. :
🎯 Матрица сценариев использования
Выбирайте подход в зависимости от уровня антибот-защиты целевого сайта:
- Обычные сайты (низкий уровень защиты) — используйте встроенный инструмент
web_fetch - Динамические сайты (средний уровень) — используйте
Playwright Simple - Сайты с Cloudflare (высокий уровень) — используйте
Playwright Stealth - YouTube — отдельный навык
deep-scraper - Reddit — отдельный
reddit-scraper
📦 Установка
cd playwright-scraper-skill
npm install
npx playwright install chromium
🚀 Быстрый старт
1️⃣ Простые сайты (без антибота)
Используйте встроенный инструмент OpenClaw:
Hey, fetch me the content from https://example.com
2️⃣ Динамические сайты (с JavaScript)
Используйте простой режим Playwright:
node scripts/playwright-simple.js "https://example.com"
Пример результата:
{
"url": "https://example.com",
"title": "Example Domain",
"content": "...",
"elapsedSeconds": "3.45"
}
3️⃣ Сайты с антибот-защитой (Cloudflare и др.)
Используйте режим Stealth:
node scripts/playwright-stealth.js "https://m.discuss.com.hk/#hot"
Ключевые возможности:
- Скрытие признаков автоматизации (
navigator.webdriver = false) - Реалистичный User-Agent (iPhone, Android)
- Случайные задержки для имитации поведения человека
- Поддержка скриншотов и сохранения HTML
4️⃣ Транскрипции YouTube
Используйте отдельный навык deep-scraper:
npx clawhub install deep-scraper
cd skills/deep-scraper
node assets/youtube_handler.js "https://www.youtube.com/watch?v=VIDEO_ID"
📖 Описание скриптов
playwright-simple.js
- Сценарий: обычные динамические сайты
- Скорость: высокая (3–5 сек)
- Антибот: отсутствует
- Вывод: JSON (заголовок, контент, URL)
playwright-stealth.js ⭐
- Сценарий: сайты с защитой (Cloudflare)
- Скорость: средняя (5–20 сек)
- Антибот: средний–высокий уровень
- Вывод: JSON + скриншот + HTML
🎓 Лучшие практики
- Для специальных платформ используйте специализированные навыки (YouTube, Reddit и др.)
- Комбинируйте подходы в зависимости от уровня защиты
🔧 Настройка
Поддерживаются переменные окружения:
# Скриншоты
SCREENSHOT_PATH=/path/to/file.png
# Время ожидания
WAIT_TIME=10000
# Видимый браузер
HEADLESS=false
# Сохранение HTML
SAVE_HTML=true
# User-Agent
USER_AGENT="Mozilla/5.0 ..."
📊 Сравнение производительности
- web_fetch — самый быстрый, но не проходит защиту
- Playwright Simple — быстрый, низкая эффективность против антибота
- Playwright Stealth — средняя скорость, до 100% успеха
- Puppeteer Stealth — ~80% успеха
- Crawlee / Rust решения — часто блокируются
🛡️ Методы обхода антибота
Эффективные:
- Скрытие
navigator.webdriver - Реалистичные User-Agent
- Имитация поведения пользователя (задержки, прокрутка)
- Инъекция скриптов до загрузки страницы
Неэффективные:
- Только смена User-Agent
- Использование высокоуровневых фреймворков
- Изоляция через Docker
🔍 Устранение проблем
- 403 Forbidden — используйте Stealth
- Cloudflare — увеличьте время ожидания, попробуйте headful режим
- Пустая страница — настройте ожидание загрузки и проверьте авторизацию
📝 Опыт и выводы
Тестирование показало, что комбинация чистого Playwright и stealth-подхода обеспечивает максимальную эффективность, тогда как альтернативные инструменты часто блокируются. :
🚧 Планы развития
- Ротация прокси
- Управление cookie и сессиями
- Обработка CAPTCHA
- Параллельный скрапинг
- Интеграция с браузерными инструментами OpenClaw
📚 Источники
- Документация Playwright
- Stealth-плагины
- deep-scraper
Файл из источника