Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
ElevenLabs Speech-to-Text — это навык для Clawdbot, предназначенный для преобразования аудио в текст с использованием модели Scribe v2 от ElevenLabs.
Решение поддерживает автоматическое определение языка, работу с несколькими спикерами и детальную разметку аудио, что делает его универсальным инструментом для обработки голосовых данных.
Ключевые возможности
- Поддержка более чем 90 языков с автоматическим определением
- Диаризация спикеров — распознавание разных говорящих
- Тегирование аудиособытий (смех, музыка, аплодисменты и др.)
- Таймкоды на уровне отдельных слов
- Работа с популярными форматами: mp3, m4a, wav, ogg, webm, mp4 и другими :
Установка
Для подключения навыка в Clawdbot необходимо добавить его в конфигурационный файл:
{
skills: {
entries: {
"elevenlabs-stt": {
source: "github:clawdbotborges/elevenlabs-stt",
apiKey: "sk_your_api_key_here"
}
}
}
}
Также доступна установка в standalone-режиме через Git:
git clone https://github.com/clawdbotborges/elevenlabs-stt.git
cd elevenlabs-stt
export ELEVENLABS_API_KEY="sk_your_api_key_here"
Использование
Примеры базовых сценариев работы:
# Базовая транскрибация
./scripts/transcribe.sh audio.mp3
# С определением спикеров
./scripts/transcribe.sh meeting.mp3 --diarize
# Указание языка
./scripts/transcribe.sh voice_note.ogg --lang en
# Вывод JSON с таймкодами
./scripts/transcribe.sh podcast.mp3 --json
# Тегирование аудиособытий
./scripts/transcribe.sh recording.wav --events
Опции
- —diarize — включает определение спикеров
- —lang CODE — задаёт язык (например, en, es, fr)
- —json — выводит полный JSON с таймкодами
- —events — добавляет теги аудиособытий
- -h, —help — вывод справки :
Примеры
Транскрибация голосового сообщения:
./scripts/transcribe.sh ~/Downloads/voice_note.ogg
Результат:
Hey, just wanted to check in about the meeting tomorrow.
Обработка записи встречи с несколькими участниками:
./scripts/transcribe.sh meeting.mp3 --diarize --lang en --json
Пример результата:
{
"text": "Welcome everyone. Let's start with updates.",
"words": [
{"text": "Welcome", "start": 0.0, "end": 0.5, "speaker": "speaker_0"},
{"text": "everyone", "start": 0.5, "end": 1.0, "speaker": "speaker_0"}
]
}
Дополнительная обработка
Можно использовать jq для обработки JSON-вывода:
# Получить только текст
./scripts/transcribe.sh audio.mp3 --json | jq -r '.text'
# Подсчитать количество слов
./scripts/transcribe.sh audio.mp3 --json | jq '.words | length'
Требования
- curl — для выполнения API-запросов
- jq — для обработки JSON (опционально)
- API-ключ ElevenLabs с доступом к Speech-to-Text :
API-ключ
Чтобы получить ключ:
- Зарегистрируйтесь или войдите в ElevenLabs
- Перейдите в раздел Profile → API Keys
- Создайте новый ключ или используйте существующий :
Навык распространяется по лицензии MIT и может использоваться в различных сценариях обработки аудио — от расшифровки встреч до подготовки субтитров и аналитики звонков.
Файл из источника