Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
faster-whisper — это навык для OpenClaw, который использует ускоренную реализацию модели Whisper для транскрибации аудио. Он обеспечивает значительно более высокую скорость обработки при сохранении той же точности, что и оригинальная модель от OpenAI.
Ключевые возможности
- В 4–6 раз быстрее оригинального Whisper при той же точности благодаря CTranslate2
- До ~20× быстрее реального времени при использовании GPU (10 минут аудио ≈ 30 секунд)
- Поддержка дистиллированных моделей — ещё быстрее (~6×) с минимальной потерей качества
- Определение говорящих (speaker diarization) — автоматически определяет, кто говорит
- Аппаратное ускорение GPU (CUDA) и оптимизация для CPU
Дополнительные функции
- Загрузка аудио с YouTube и других URL (через yt-dlp)
- Экспорт субтитров: SRT, VTT, ASS, LRC, TTML, HTML
- Таймкоды на уровне слов с высокой точностью (~10 мс)
- Автоматическое удаление тишины (VAD)
- Предобработка аудио: нормализация и шумоподавление
- Удаление слов-паразитов (um, uh и др.)
- Поиск по транскрипции с указанием временных меток
- Автоматическое определение глав и разделов
- Экспорт в CSV/TSV для работы в таблицах
- Разбиение текста на абзацы
- Транскрибация подкастов через RSS
- Выбор канала стерео (левый/правый)
- Экспорт аудио по спикерам
- Пакетная обработка файлов с оценкой времени выполнения
- Перевод на английский язык
- Поддержка 99+ языков с автоопределением
Что делает этот инструмент
faster-whisper запускает модель Whisper локально, используя оптимизированный backend CTranslate2. Это позволяет получить ту же точность распознавания речи, что и у оригинала, но с кратно большей скоростью и без необходимости использовать облачные API. :
После загрузки модели инструмент может работать полностью офлайн, что делает его особенно полезным для задач, где важны конфиденциальность и отсутствие дополнительных затрат на API. :
Когда использовать
- Транскрибация встреч, интервью и лекций
- Создание субтитров для видео
- Обработка подкастов через RSS
- Поиск фраз в длинных аудиозаписях
- Перевод аудио на английский язык
- Пакетная обработка больших архивов аудио и видео
Пример рабочего процесса
Вход: пользователь просит расшифровать запись встречи и определить говорящих
- Запускается команда транскрибации с параметром diarization
- Система анализирует аудио и разделяет речь по спикерам
- Каждому сегменту присваивается метка (например, SPEAKER_1, SPEAKER_2)
Выход: готовый текст с таймкодами и указанием, кто именно говорил в каждый момент времени
Преимущества
- Полностью локальная работа — без отправки данных в облако
- Высокая скорость обработки даже больших файлов
- Гибкость настроек и форматов вывода
- Подходит как для разработчиков, так и для контент-креаторов
В итоге faster-whisper — это мощное решение для быстрого, точного и автономного преобразования речи в текст, которое отлично подходит для профессиональных и массовых сценариев использования.
Файл из источника