Скиллы Средний Разное

faster-whisper

Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

faster-whisper — это навык для OpenClaw, который использует ускоренную реализацию модели Whisper для транскрибации аудио. Он обеспечивает значительно более высокую скорость обработки при сохранении той же точности, что и оригинальная модель от OpenAI.

Ключевые возможности

В 4–6 раз быстрее оригинального Whisper при той же точности благодаря CTranslate2
До ~20× быстрее реального времени при использовании GPU (10 минут аудио ≈ 30 секунд)
Поддержка дистиллированных моделей — ещё быстрее (~6×) с минимальной потерей качества
Определение говорящих (speaker diarization) — автоматически определяет, кто говорит
Аппаратное ускорение GPU (CUDA) и оптимизация для CPU

Дополнительные функции

Загрузка аудио с YouTube и других URL (через yt-dlp)
Экспорт субтитров: SRT, VTT, ASS, LRC, TTML, HTML
Таймкоды на уровне слов с высокой точностью (~10 мс)
Автоматическое удаление тишины (VAD)
Предобработка аудио: нормализация и шумоподавление
Удаление слов-паразитов (um, uh и др.)
Поиск по транскрипции с указанием временных меток
Автоматическое определение глав и разделов
Экспорт в CSV/TSV для работы в таблицах
Разбиение текста на абзацы
Транскрибация подкастов через RSS
Выбор канала стерео (левый/правый)
Экспорт аудио по спикерам
Пакетная обработка файлов с оценкой времени выполнения
Перевод на английский язык
Поддержка 99+ языков с автоопределением

Что делает этот инструмент

faster-whisper запускает модель Whisper локально, используя оптимизированный backend CTranslate2. Это позволяет получить ту же точность распознавания речи, что и у оригинала, но с кратно большей скоростью и без необходимости использовать облачные API. :

После загрузки модели инструмент может работать полностью офлайн, что делает его особенно полезным для задач, где важны конфиденциальность и отсутствие дополнительных затрат на API. :

Когда использовать

Транскрибация встреч, интервью и лекций
Создание субтитров для видео
Обработка подкастов через RSS
Поиск фраз в длинных аудиозаписях
Перевод аудио на английский язык
Пакетная обработка больших архивов аудио и видео

Пример рабочего процесса

Вход: пользователь просит расшифровать запись встречи и определить говорящих

Запускается команда транскрибации с параметром diarization
Система анализирует аудио и разделяет речь по спикерам
Каждому сегменту присваивается метка (например, SPEAKER_1, SPEAKER_2)

Выход: готовый текст с таймкодами и указанием, кто именно говорил в каждый момент времени

Преимущества

Полностью локальная работа — без отправки данных в облако
Высокая скорость обработки даже больших файлов
Гибкость настроек и форматов вывода
Подходит как для разработчиков, так и для контент-креаторов

В итоге faster-whisper — это мощное решение для быстрого, точного и автономного преобразования речи в текст, которое отлично подходит для профессиональных и массовых сценариев использования.

Файл из источника

10972_faster-whisper-1.5.1.zip

Интеграции: # speech to text # whisper # локальные модели # машинное обучение # обработка аудио # распознавание речи # субтитры # транскрибация аудио

Тип Скилл
Сложность Средний
Дата обновления 11.04.2026
Автор opclpro
Просмотры 43

Скачать ZIP