Скиллы Средний Разное

faster-whisper

Скачать ZIP
18
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

faster-whisper — это навык для OpenClaw, который использует ускоренную реализацию модели Whisper для транскрибации аудио. Он обеспечивает значительно более высокую скорость обработки при сохранении той же точности, что и оригинальная модель от OpenAI.

Ключевые возможности

  • В 4–6 раз быстрее оригинального Whisper при той же точности благодаря CTranslate2
  • До ~20× быстрее реального времени при использовании GPU (10 минут аудио ≈ 30 секунд)
  • Поддержка дистиллированных моделей — ещё быстрее (~6×) с минимальной потерей качества
  • Определение говорящих (speaker diarization) — автоматически определяет, кто говорит
  • Аппаратное ускорение GPU (CUDA) и оптимизация для CPU

Дополнительные функции

  • Загрузка аудио с YouTube и других URL (через yt-dlp)
  • Экспорт субтитров: SRT, VTT, ASS, LRC, TTML, HTML
  • Таймкоды на уровне слов с высокой точностью (~10 мс)
  • Автоматическое удаление тишины (VAD)
  • Предобработка аудио: нормализация и шумоподавление
  • Удаление слов-паразитов (um, uh и др.)
  • Поиск по транскрипции с указанием временных меток
  • Автоматическое определение глав и разделов
  • Экспорт в CSV/TSV для работы в таблицах
  • Разбиение текста на абзацы
  • Транскрибация подкастов через RSS
  • Выбор канала стерео (левый/правый)
  • Экспорт аудио по спикерам
  • Пакетная обработка файлов с оценкой времени выполнения
  • Перевод на английский язык
  • Поддержка 99+ языков с автоопределением

Что делает этот инструмент

faster-whisper запускает модель Whisper локально, используя оптимизированный backend CTranslate2. Это позволяет получить ту же точность распознавания речи, что и у оригинала, но с кратно большей скоростью и без необходимости использовать облачные API. :

После загрузки модели инструмент может работать полностью офлайн, что делает его особенно полезным для задач, где важны конфиденциальность и отсутствие дополнительных затрат на API. :

Когда использовать

  • Транскрибация встреч, интервью и лекций
  • Создание субтитров для видео
  • Обработка подкастов через RSS
  • Поиск фраз в длинных аудиозаписях
  • Перевод аудио на английский язык
  • Пакетная обработка больших архивов аудио и видео

Пример рабочего процесса

Вход: пользователь просит расшифровать запись встречи и определить говорящих

  • Запускается команда транскрибации с параметром diarization
  • Система анализирует аудио и разделяет речь по спикерам
  • Каждому сегменту присваивается метка (например, SPEAKER_1, SPEAKER_2)

Выход: готовый текст с таймкодами и указанием, кто именно говорил в каждый момент времени

Преимущества

  • Полностью локальная работа — без отправки данных в облако
  • Высокая скорость обработки даже больших файлов
  • Гибкость настроек и форматов вывода
  • Подходит как для разработчиков, так и для контент-креаторов

В итоге faster-whisper — это мощное решение для быстрого, точного и автономного преобразования речи в текст, которое отлично подходит для профессиональных и массовых сценариев использования.


Файл из источника

10972_faster-whisper-1.5.1.zip