Предупреждение о рисках!
Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Scrape
Юридически корректный веб-скрейпинг с учетом robots.txt, ограничений по частоте запросов и требований GDPR/CCPA к обработке данных.
Чек-лист соответствия перед скрейпингом
Перед тем как писать любой код для сбора данных, необходимо пройти базовую проверку:
- robots.txt — загрузите файл
{domain}/robots.txtи проверьте, разрешен ли доступ к целевому пути. Если запрещено — остановитесь. - Условия использования — проверьте страницы
/terms,/tos,/legal. Прямой запрет на скрейпинг означает необходимость получить разрешение. - Тип данных — публичные фактические данные (цены, списки) безопаснее. Персональные данные подпадают под GDPR/CCPA.
- Аутентификация — данные за логином недоступны без разрешения. Никогда не извлекайте защищенный контент.
- Наличие API — если сайт предоставляет API, используйте его. Скрейпинг при наличии API часто нарушает правила сервиса.
Юридические границы
- Публичные данные без авторизации — как правило, допустимы (например, прецедент hiQ против LinkedIn, 2022).
- Обход ограничений — риск нарушения закона (CFAA, дело Van Buren против США, 2021).
- Игнорирование robots.txt — серая зона, но часто нарушает условия использования (Meta против Bright Data, 2024).
- Сбор персональных данных без согласия — нарушение GDPR/CCPA.
- Публикация защищенного контента — риск нарушения авторских прав.
Дисциплина запросов
- Ограничение скорости — минимум 2–3 секунды между запросами. Более высокая частота = нагрузка на сервер и юридические риски.
- User-Agent — используйте строку реального браузера и указывайте контактный email.
- Обработка 429 — применяйте экспоненциальный backoff. Игнорирование сигнализирует о вредоносном поведении.
- Повторное использование сессий — снижает нагрузку на сервер.
Обработка данных
- Удаление персональных данных — не собирайте имена, email и телефоны без юридического основания.
- Без fingerprinting — не объединяйте данные для косвенной идентификации пользователей.
- Минимизация хранения — сохраняйте только необходимое, остальное удаляйте.
- Журналирование — фиксируйте что, когда и откуда было получено. Это подтверждает добросовестность при проверках.
Для примеров кода и разбора работы с robots.txt см. дополнительный файл с шаблонами реализации.
Файл из источника