Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Транскрибируйте аудио с помощью OpenAI Audio Transcriptions API (Whisper).
Что делает этот скилл
Данный скилл предоставляет простой интерфейс для преобразования аудиофайлов в текст через API OpenAI Whisper. Он ориентирован на использование в CLI-среде и позволяет работать с локальными файлами без лишней сложности.
По сути, это обёртка над эндпоинтом /v1/audio/transcriptions, которая упрощает отправку аудио и получение текстовой расшифровки. :
Когда использовать
- Когда нужно быстро преобразовать аудио в текст
- Для автоматизации обработки голосовых записей
- В задачах анализа данных и пайплайнов обработки контента
- При интеграции распознавания речи в существующие процессы
Установка
$ npx clawhub@latest install steipete/openai-whisper-api
Как это работает
После установки скилл можно использовать для отправки аудиофайлов в API OpenAI и получения текстовой расшифровки. В основе лежит модель whisper-1 — универсальная система распознавания речи, способная работать с разными языками и форматами аудио. :
- Вы передаёте путь к аудиофайлу
- Скрипт отправляет файл в API
- На выходе получаете текст (или JSON)
Быстрый старт
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a
По умолчанию используется модель whisper-1, а результат сохраняется в файл с тем же именем, что и исходное аудио, но с расширением .txt.
Полезные параметры
{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model whisper-1 --out /tmp/transcript.txt
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language en
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --prompt "Speaker names: Peter, Daniel"
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json
Эти параметры позволяют гибко управлять процессом: задавать язык, формат вывода, дополнительные подсказки и путь сохранения результата.
Настройка API-ключа
Для работы требуется указать ключ OpenAI API через переменную окружения:
OPENAI_API_KEY=your_api_key
Либо можно прописать его в конфигурации:
{
skills: {
"openai-whisper-api": {
apiKey: "OPENAI_KEY_HERE"
}
}
}
Как вписывается в OpenClaw
Скилл интегрируется в экосистему OpenClaw и активируется, когда задача соответствует его назначению. Обычно он используется вместе с другими инструментами автоматизации, где требуется обработка аудио.
Перед установкой рекомендуется сопоставить его возможности с вашей архитектурой: каналами, правилами маршрутизации и общей логикой работы агентов. :
Советы по использованию
- Читайте
SKILL.mdперед использованием - Ориентируйтесь на точные совпадения сценариев
- Используйте теги и контекст автора, чтобы избежать путаницы
- При ошибках проверяйте сеть и права доступа
Обработка ошибок
- Если не найден нужный сценарий — уточните задачу
- Если установка не удалась — проверьте соединение и разрешения
- Если функциональности не хватает — используйте ручной fallback
Итог
Openai Whisper Api — это минималистичный, но эффективный инструмент для интеграции распознавания речи в рабочие процессы. Он делает работу с аудио через OpenAI простой, понятной и автоматизируемой.
Файл из источника