Инструкции по работе с Whisper API

Запустите Whisper одной строкой кода с помощью Connecte

Ключевые рекомендации

  • Формат аудио: Используйте mp3 для минимизации размера файла и ускорения передачи.
  • Явное указание языка: Если язык речи известен, задайте параметр language (например, ru для русского).
  • Ресурсоемкие параметры: diarize и word_timestamp увеличивают время обработки в 2-4 раза. Используйте их только при необходимости.

Подготовка аудиофайлов

Для снижения нагрузки на сеть эффективнее всего передавать аудио в формате mp3 или ogg. При необходимости используйте FFMPEG для конвертации:

ffmpeg -i input.wav -acodec libmp3lame -ab 128k output.mp3  

или Python c библиотекой pydub:

from pydub import AudioSegment  

audio = AudioSegment.from_file("input.ogg", format="ogg")  
audio.export("output.mp3", format="mp3", bitrate="192k")  


Формирование запроса

Пример, используя Python:

import requests  

url = "https://connecte.ai/api/v1/openai/whisper"  
headers = {"Authorization": f"Bearer {CONNECTE_TOKEN}"}  
payload = {  
    "audio": "https://your-storage.com/output.mp3",  
    "model": "large-v3-turbo",  
    "language": "ru",  # Явное указание языка  
    "diarize": False,   # Включать только для разделения спикеров  
    "word_timestamp": False  
}  

response = requests.post(url, json=payload, headers=headers)  
print(response.json())   


Пример, используя Curl:

    curl https://connecte.ai/api/v1/openai/whisper \
--request POST \
--header "Authorization: Bearer $CONNECTE_TOKEN" \
--header "Content-Type: application/json" \
--data '{
            "audio" : "https://your-storage.com/output.mp3",
            "model": "large-v3-turbo",  
            "language": "ru",
            "diarize": False,
            "word_timestamp": False
        }'
    
    

Режимы обработки: SYNC vs ASYNC

Параметр SYNC ASYNC
Таймаут До 30 сек (настраивается) Не ограничен
Макс. длительность 25 мин 3 часа
Получение результата Немедленно в ответе Через webhook или по task_id
Использование Чат-боты, реальное время Длинные подкасты, аналитика

Подробнее о режимах обработки прогноза

Интерпретация ответа

Структура ответа (режим ASYNC)

{
  "id":"d5a46834-c430-4342-9779-4ea5e76d057d",
  "input":{
      "audio":"https://you-app.ru/output.mp3",
      "model":"large-v3-turbo",
      "diarize":false,
      "language":"ru",
      "speakers":1,
      "word_timestamp":false
  },
  "status":"starting",
  "output":null,
  "source":"api",
  "webhook":"https://you-app.ru/connecte-webhook",
  "runtime":null,
  "created_at":"2024-06-26T05:26:31.974000Z"
}
    

Ключевые параметры

Параметр Влияние на производительность
model=large-v3-turbo В 1.5–2x быстрее стандартной large-v3. Small, base, medium и другие не поддерживаются
language=ru Указывайте всегда когда уверены в языке
diarize=true +70-150% к времени обработки
word_timestamp=true +30-50% к времени обработки

Диагностика проблем

Подробнее об ошибках и решении проблем.

Страница модели

https://connecte.ai/openai/whisper

Загрузка...

Предыдущая
Overview
Следующая
Обзор
Была ли статья полезна?
Содержание: