Скиллы Новичок Контент и творчество

Web Fetcher

Скачать ZIP
11
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Web Fetcher — это интеллектуальный инструмент для извлечения контента из интернета, предназначенный для работы с статьями и видео с популярных платформ. Он автоматически определяет источник и применяет наиболее подходящую стратегию загрузки данных.

Основные возможности

  • Поддержка различных платформ: WeChat, Feishu, Bilibili, Zhihu, Toutiao, YouTube и др.
  • Автоматическое определение типа контента (статья или видео)
  • Гибкий выбор методов загрузки в зависимости от источника
  • Скачивание изображений и мультимедиа
  • Пакетная обработка ссылок

Быстрый старт

# Загрузка статьи
python3 fetcher.py "URL" -o ~/docs/

# Скачивание видео
python3 fetcher.py "https://b23.tv/xxx" -o ~/videos/

# Пакетная обработка ссылок
python3 fetcher.py --urls-file urls.txt -o ~/docs/

Зависимости

Инструмент использует различные библиотеки в зависимости от типа задачи:

  • scrapling — извлечение статей (HTTP + браузер)
  • yt-dlp — загрузка видео
  • camoufox — обход антибот-защиты
  • html2text — преобразование HTML в Markdown

Умная маршрутизация

Web Fetcher автоматически определяет платформу по URL и выбирает оптимальный способ обработки:

  • WeChat — извлечение изображений и текста с учётом lazy-loading
  • Feishu — прокрутка документа и сбор блоков контента
  • Zhihu — использование специализированных CSS-селекторов
  • Bilibili / YouTube — загрузка видео с выбором качества
  • Неизвестные сайты — универсальный fallback-режим

CLI параметры

python3 fetcher.py [URL] [OPTIONS]

Опции:
-o, --output DIR директория сохранения
-q, --quality N качество видео (например 1080)
--method METHOD принудительный выбор метода
--selector CSS CSS-селектор для извлечения
--urls-file FILE файл со списком ссылок
--audio-only извлечь только аудио
--no-images пропустить загрузку изображений
--cookies-browser NAME использовать cookies браузера

Особенности платформ

  • WeChat: изображения загружаются через data-src, требуется Referer
  • Feishu: динамическая подгрузка контента, требуется прокрутка
  • Bilibili: поддержка коротких ссылок и защищённого контента

Решение проблем

  • Ошибка scrapling — установите библиотеку через pip
  • Короткий текст — попробуйте другой метод (например camoufox)
  • Ошибка 403 — используйте cookies браузера
  • Не загружаются изображения — проверьте сетевые условия

Ручное использование

При необходимости можно использовать модули напрямую:

from lib.router import route
from lib.article import fetch_article
from lib.video import fetch_video

r = route("https://example.com")
fetch_article(url, output_dir="/tmp/out", route_config=r)

Web Fetcher — это универсальный инструмент для работы с веб-контентом, который сочетает автоматизацию, гибкость и поддержку множества платформ, позволяя эффективно извлекать информацию из различных источников. :


Файл из источника

11890_web-content-fetcher-1.0.1.zip