Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Voice Transcribe — это инструмент для транскрибации аудиофайлов с использованием модели gpt-4o-mini-transcribe от OpenAI. Он поддерживает подсказки словаря и замену текста, что помогает повысить точность распознавания речи. :
Когда использовать
Используйте этот инструмент, когда получаете голосовые сообщения (например, из WhatsApp). Достаточно запустить команду:
uv run /Users/darin/clawd/skills/voice-transcribe/transcribe
После этого можно работать уже с текстовой расшифровкой аудио. :
Исправление ошибок распознавания
Если система неверно распознаёт слова, есть два способа исправления:
- Добавить слово в
vocab.txt— для подсказок модели - Добавить правило в
replacements.txt— для гарантированной замены
Это особенно полезно для имён, терминов и специфического жаргона. :
Поддерживаемые форматы
Инструмент работает со следующими аудиоформатами:
- mp3
- mp4
- mpeg
- mpga
- m4a
- wav
- webm
- ogg
- opus
Примеры использования
# транскрибация голосового сообщения
transcribe /tmp/voice-memo.ogg
# передача результата в другую утилиту
transcribe /tmp/memo.ogg | pbcopy
Настройка
Перед началом работы необходимо добавить API-ключ OpenAI в файл окружения:
OPENAI_API_KEY=sk-...
Файл должен находиться по пути:
/Users/darin/clawd/skills/voice-transcribe/.env
Пользовательский словарь
Чтобы повысить точность распознавания, можно добавить специальные слова в файл vocab.txt (по одному на строку):
Clawdis
Clawdbot
Замены текста
Если ошибки остаются, можно задать явные правила замены в replacements.txt:
wrong spelling -> correct spelling
Примечания
- Работает только с английским языком (без автоопределения)
- Использует модель
gpt-4o-mini-transcribe - Кэширует результаты по SHA-256 аудиофайла
Файл из источника