Инструкции по работе с Whisper API
Запустите Whisper одной строкой кода с помощью Connecte
Ключевые рекомендации
- Формат аудио: Используйте mp3 для минимизации размера файла и ускорения передачи.
- Явное указание языка: Если язык речи известен, задайте параметр language (например, ru для русского).
- Ресурсоемкие параметры: diarize и word_timestamp увеличивают время обработки в 2-4 раза. Используйте их только при необходимости.
Подготовка аудиофайлов
Для снижения нагрузки на сеть эффективнее всего передавать аудио в формате mp3 или ogg. При необходимости используйте FFMPEG для конвертации:
ffmpeg -i input.wav -acodec libmp3lame -ab 128k output.mp3
или Python c библиотекой pydub:
from pydub import AudioSegment
audio = AudioSegment.from_file("input.ogg", format="ogg")
audio.export("output.mp3", format="mp3", bitrate="192k")
Важно
- Аудио должно быть доступно по публичному URL (HTTP/HTTPS).
- DATA-URL (data:audio/mp3;base64,...) не поддерживается.
Формирование запроса
Пример, используя Python:
import requests
url = "https://connecte.ai/api/v1/openai/whisper"
headers = {"Authorization": f"Bearer {CONNECTE_TOKEN}"}
payload = {
"audio": "https://your-storage.com/output.mp3",
"model": "large-v3-turbo",
"language": "ru", # Явное указание языка
"diarize": False, # Включать только для разделения спикеров
"word_timestamp": False
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
Пример, используя Curl:
curl https://connecte.ai/api/v1/openai/whisper \
--request POST \
--header "Authorization: Bearer $CONNECTE_TOKEN" \
--header "Content-Type: application/json" \
--data '{
"audio" : "https://your-storage.com/output.mp3",
"model": "large-v3-turbo",
"language": "ru",
"diarize": False,
"word_timestamp": False
}'
Режимы обработки: SYNC vs ASYNC
Параметр | SYNC | ASYNC |
---|---|---|
Таймаут | До 30 сек (настраивается) | Не ограничен |
Макс. длительность | 25 мин | 3 часа |
Получение результата | Немедленно в ответе | Через webhook или по task_id |
Использование | Чат-боты, реальное время | Длинные подкасты, аналитика |
Подробнее о режимах обработки прогноза
Интерпретация ответа
Структура ответа (режим ASYNC)
{
"id":"d5a46834-c430-4342-9779-4ea5e76d057d",
"input":{
"audio":"https://you-app.ru/output.mp3",
"model":"large-v3-turbo",
"diarize":false,
"language":"ru",
"speakers":1,
"word_timestamp":false
},
"status":"starting",
"output":null,
"source":"api",
"webhook":"https://you-app.ru/connecte-webhook",
"runtime":null,
"created_at":"2024-06-26T05:26:31.974000Z"
}
Ключевые параметры
Параметр | Влияние на производительность |
---|---|
model=large-v3-turbo | В 1.5–2x быстрее стандартной large-v3. Small, base, medium и другие не поддерживаются |
language=ru | Указывайте всегда когда уверены в языке |
diarize=true | +70-150% к времени обработки |
word_timestamp=true | +30-50% к времени обработки |
Диагностика проблем
Подробнее об ошибках и решении проблем.