Скиллы Средний Разработка и DevOps

Openai Whisper Api

Скачать ZIP
13
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Транскрибируйте аудио с помощью OpenAI Audio Transcriptions API (Whisper).

Что делает этот скилл

Данный скилл предоставляет простой интерфейс для преобразования аудиофайлов в текст через API OpenAI Whisper. Он ориентирован на использование в CLI-среде и позволяет работать с локальными файлами без лишней сложности.

По сути, это обёртка над эндпоинтом /v1/audio/transcriptions, которая упрощает отправку аудио и получение текстовой расшифровки. :

Когда использовать

  • Когда нужно быстро преобразовать аудио в текст
  • Для автоматизации обработки голосовых записей
  • В задачах анализа данных и пайплайнов обработки контента
  • При интеграции распознавания речи в существующие процессы

Установка

$ npx clawhub@latest install steipete/openai-whisper-api

Как это работает

После установки скилл можно использовать для отправки аудиофайлов в API OpenAI и получения текстовой расшифровки. В основе лежит модель whisper-1 — универсальная система распознавания речи, способная работать с разными языками и форматами аудио. :

  • Вы передаёте путь к аудиофайлу
  • Скрипт отправляет файл в API
  • На выходе получаете текст (или JSON)

Быстрый старт

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a

По умолчанию используется модель whisper-1, а результат сохраняется в файл с тем же именем, что и исходное аудио, но с расширением .txt.

Полезные параметры

{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model whisper-1 --out /tmp/transcript.txt
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language en
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --prompt "Speaker names: Peter, Daniel"
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json

Эти параметры позволяют гибко управлять процессом: задавать язык, формат вывода, дополнительные подсказки и путь сохранения результата.

Настройка API-ключа

Для работы требуется указать ключ OpenAI API через переменную окружения:

OPENAI_API_KEY=your_api_key

Либо можно прописать его в конфигурации:

{
 skills: {
 "openai-whisper-api": {
 apiKey: "OPENAI_KEY_HERE"
 }
 }
}

Как вписывается в OpenClaw

Скилл интегрируется в экосистему OpenClaw и активируется, когда задача соответствует его назначению. Обычно он используется вместе с другими инструментами автоматизации, где требуется обработка аудио.

Перед установкой рекомендуется сопоставить его возможности с вашей архитектурой: каналами, правилами маршрутизации и общей логикой работы агентов. :

Советы по использованию

  • Читайте SKILL.md перед использованием
  • Ориентируйтесь на точные совпадения сценариев
  • Используйте теги и контекст автора, чтобы избежать путаницы
  • При ошибках проверяйте сеть и права доступа

Обработка ошибок

  • Если не найден нужный сценарий — уточните задачу
  • Если установка не удалась — проверьте соединение и разрешения
  • Если функциональности не хватает — используйте ручной fallback

Итог

Openai Whisper Api — это минималистичный, но эффективный инструмент для интеграции распознавания речи в рабочие процессы. Он делает работу с аудио через OpenAI простой, понятной и автоматизируемой.


Файл из источника

11216_openai-whisper-api-1.0.0.zip