Скиллы Новичок Разное

ElevenLabs Speech-to-Text

Скачать ZIP
15
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

ElevenLabs Speech-to-Text — это навык для Clawdbot, предназначенный для преобразования аудио в текст с использованием модели Scribe v2 от ElevenLabs.

Решение поддерживает автоматическое определение языка, работу с несколькими спикерами и детальную разметку аудио, что делает его универсальным инструментом для обработки голосовых данных.

Ключевые возможности

  • Поддержка более чем 90 языков с автоматическим определением
  • Диаризация спикеров — распознавание разных говорящих
  • Тегирование аудиособытий (смех, музыка, аплодисменты и др.)
  • Таймкоды на уровне отдельных слов
  • Работа с популярными форматами: mp3, m4a, wav, ogg, webm, mp4 и другими :

Установка

Для подключения навыка в Clawdbot необходимо добавить его в конфигурационный файл:

{
 skills: {
 entries: {
 "elevenlabs-stt": {
 source: "github:clawdbotborges/elevenlabs-stt",
 apiKey: "sk_your_api_key_here"
 }
 }
 }
}

Также доступна установка в standalone-режиме через Git:

git clone https://github.com/clawdbotborges/elevenlabs-stt.git
cd elevenlabs-stt
export ELEVENLABS_API_KEY="sk_your_api_key_here"

Использование

Примеры базовых сценариев работы:

# Базовая транскрибация
./scripts/transcribe.sh audio.mp3

# С определением спикеров
./scripts/transcribe.sh meeting.mp3 --diarize

# Указание языка
./scripts/transcribe.sh voice_note.ogg --lang en

# Вывод JSON с таймкодами
./scripts/transcribe.sh podcast.mp3 --json

# Тегирование аудиособытий
./scripts/transcribe.sh recording.wav --events

Опции

  • —diarize — включает определение спикеров
  • —lang CODE — задаёт язык (например, en, es, fr)
  • —json — выводит полный JSON с таймкодами
  • —events — добавляет теги аудиособытий
  • -h, —help — вывод справки :

Примеры

Транскрибация голосового сообщения:

./scripts/transcribe.sh ~/Downloads/voice_note.ogg

Результат:

Hey, just wanted to check in about the meeting tomorrow.

Обработка записи встречи с несколькими участниками:

./scripts/transcribe.sh meeting.mp3 --diarize --lang en --json

Пример результата:

{
 "text": "Welcome everyone. Let's start with updates.",
 "words": [
 {"text": "Welcome", "start": 0.0, "end": 0.5, "speaker": "speaker_0"},
 {"text": "everyone", "start": 0.5, "end": 1.0, "speaker": "speaker_0"}
 ]
}

Дополнительная обработка

Можно использовать jq для обработки JSON-вывода:

# Получить только текст
./scripts/transcribe.sh audio.mp3 --json | jq -r '.text'

# Подсчитать количество слов
./scripts/transcribe.sh audio.mp3 --json | jq '.words | length'

Требования

  • curl — для выполнения API-запросов
  • jq — для обработки JSON (опционально)
  • API-ключ ElevenLabs с доступом к Speech-to-Text :

API-ключ

Чтобы получить ключ:

  • Зарегистрируйтесь или войдите в ElevenLabs
  • Перейдите в раздел Profile → API Keys
  • Создайте новый ключ или используйте существующий :

Навык распространяется по лицензии MIT и может использоваться в различных сценариях обработки аудио — от расшифровки встреч до подготовки субтитров и аналитики звонков.


Файл из источника

10947_elevenlabs-stt-1.0.0.zip