Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Web Fetcher — это интеллектуальный инструмент для извлечения контента из интернета, предназначенный для работы с статьями и видео с популярных платформ. Он автоматически определяет источник и применяет наиболее подходящую стратегию загрузки данных.
Основные возможности
- Поддержка различных платформ: WeChat, Feishu, Bilibili, Zhihu, Toutiao, YouTube и др.
- Автоматическое определение типа контента (статья или видео)
- Гибкий выбор методов загрузки в зависимости от источника
- Скачивание изображений и мультимедиа
- Пакетная обработка ссылок
Быстрый старт
# Загрузка статьи
python3 fetcher.py "URL" -o ~/docs/
# Скачивание видео
python3 fetcher.py "https://b23.tv/xxx" -o ~/videos/
# Пакетная обработка ссылок
python3 fetcher.py --urls-file urls.txt -o ~/docs/
Зависимости
Инструмент использует различные библиотеки в зависимости от типа задачи:
- scrapling — извлечение статей (HTTP + браузер)
- yt-dlp — загрузка видео
- camoufox — обход антибот-защиты
- html2text — преобразование HTML в Markdown
Умная маршрутизация
Web Fetcher автоматически определяет платформу по URL и выбирает оптимальный способ обработки:
- WeChat — извлечение изображений и текста с учётом lazy-loading
- Feishu — прокрутка документа и сбор блоков контента
- Zhihu — использование специализированных CSS-селекторов
- Bilibili / YouTube — загрузка видео с выбором качества
- Неизвестные сайты — универсальный fallback-режим
CLI параметры
python3 fetcher.py [URL] [OPTIONS]
Опции:
-o, --output DIR директория сохранения
-q, --quality N качество видео (например 1080)
--method METHOD принудительный выбор метода
--selector CSS CSS-селектор для извлечения
--urls-file FILE файл со списком ссылок
--audio-only извлечь только аудио
--no-images пропустить загрузку изображений
--cookies-browser NAME использовать cookies браузера
Особенности платформ
- WeChat: изображения загружаются через data-src, требуется Referer
- Feishu: динамическая подгрузка контента, требуется прокрутка
- Bilibili: поддержка коротких ссылок и защищённого контента
Решение проблем
- Ошибка scrapling — установите библиотеку через pip
- Короткий текст — попробуйте другой метод (например camoufox)
- Ошибка 403 — используйте cookies браузера
- Не загружаются изображения — проверьте сетевые условия
Ручное использование
При необходимости можно использовать модули напрямую:
from lib.router import route
from lib.article import fetch_article
from lib.video import fetch_video
r = route("https://example.com")
fetch_article(url, output_dir="/tmp/out", route_config=r)
Web Fetcher — это универсальный инструмент для работы с веб-контентом, который сочетает автоматизацию, гибкость и поддержку множества платформ, позволяя эффективно извлекать информацию из различных источников. :
Файл из источника