Скиллы Новичок Веб и поиск

Scrape

Скачать ZIP
14
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Scrape

Юридически корректный веб-скрейпинг с учетом robots.txt, ограничений по частоте запросов и требований GDPR/CCPA к обработке данных.

Чек-лист соответствия перед скрейпингом

Перед тем как писать любой код для сбора данных, необходимо пройти базовую проверку:

  • robots.txt — загрузите файл {domain}/robots.txt и проверьте, разрешен ли доступ к целевому пути. Если запрещено — остановитесь.
  • Условия использования — проверьте страницы /terms, /tos, /legal. Прямой запрет на скрейпинг означает необходимость получить разрешение.
  • Тип данных — публичные фактические данные (цены, списки) безопаснее. Персональные данные подпадают под GDPR/CCPA.
  • Аутентификация — данные за логином недоступны без разрешения. Никогда не извлекайте защищенный контент.
  • Наличие API — если сайт предоставляет API, используйте его. Скрейпинг при наличии API часто нарушает правила сервиса.

Юридические границы

  • Публичные данные без авторизации — как правило, допустимы (например, прецедент hiQ против LinkedIn, 2022).
  • Обход ограничений — риск нарушения закона (CFAA, дело Van Buren против США, 2021).
  • Игнорирование robots.txt — серая зона, но часто нарушает условия использования (Meta против Bright Data, 2024).
  • Сбор персональных данных без согласия — нарушение GDPR/CCPA.
  • Публикация защищенного контента — риск нарушения авторских прав.

Дисциплина запросов

  • Ограничение скорости — минимум 2–3 секунды между запросами. Более высокая частота = нагрузка на сервер и юридические риски.
  • User-Agent — используйте строку реального браузера и указывайте контактный email.
  • Обработка 429 — применяйте экспоненциальный backoff. Игнорирование сигнализирует о вредоносном поведении.
  • Повторное использование сессий — снижает нагрузку на сервер.

Обработка данных

  • Удаление персональных данных — не собирайте имена, email и телефоны без юридического основания.
  • Без fingerprinting — не объединяйте данные для косвенной идентификации пользователей.
  • Минимизация хранения — сохраняйте только необходимое, остальное удаляйте.
  • Журналирование — фиксируйте что, когда и откуда было получено. Это подтверждает добросовестность при проверках.

Для примеров кода и разбора работы с robots.txt см. дополнительный файл с шаблонами реализации.


Файл из источника

11704_scrape-1.0.0.zip