openai/whisper

290

Whisper V3 от OpenAI - продвинутая модель распознавания речи из аудио в текст с высокой точностью. Нейросеть умеет размечать временные метки на уровне слов и определять смену говорящих, что делает её идеальной для создания субтитров и анализа диалогов.

ASR Readme Лицензия

Демо
API

Запустить Whisper с помощью API

Запустить API

Вход

audio *file

Загрузить файл

Аудио файл (mp3, wav, ogg)

word_timestamp boolean

Метки времени на уровне слов Default: false

diarize boolean

Идентификация и разделение спикеров Default: false

speakers integer

Количество спикеров

Чтобы начать, войдите в аккаунт.

После регистрации вы получите 50 рублей на тестирование моделей

Войти через GitHub

Регистрируясь, вы принимаете соглашение и политику конфиденциальности.

Выход

Быстрый старт Схема данных Справочник API

Быстрый старт

Создайте свой первый прогноз всего за 1 минуту

Connecte позволяет запускать open-source модели всего в несколько строк кода. Вам ничего не нужно устанавливать, просто получите API токен и сделайте свой первый прогноз.

1. Регистрация

Создайте аккаунт, чтобы получить доступ к API токену. При регистрации вы можете воспользоваться своей учетной записью Google для упрощения процесса. В ближайшем будущем планируется добавление альтернативных способов создания аккаунта.

Каждому уникальныму пользователю предоставляется стартовый бонус в размере 50 рублей, который можно использовать для теста моделей.

2. Получите токен

После регистрации перейдите в раздел API токены и создайте новый токен. Обратите внимание, что мы не храним токены в открытом виде поэтому токен доступен только сразу после создания, его невозможно восстановить, только создать новый.

Теперь давайте поместим наш токен в переменную окружения CONNECTE_TOKEN

                                        export CONNECTE_TOKEN=xxxxxxxx

3. Делаем запрос к модели

Выберите любую общедоступную модель. В этом примере мы будем использовать Whisper Turbo

Whisper Turbo.V3 - это открытая модель распознавания речи от OpenAi, предназначенная для преобразования устной речи в письменный текст.

    curl https://connecte.ai/api/v1/openai/whisper \
--request POST \
--header "Authorization: Bearer $CONNECTE_TOKEN" \
--header "Content-Type: application/json" \
--data '{
            "audio" : "https://site.ru/audio.mp3"
        }'

Поздравляем — вы только что создали свой первый запрос в CONNECTE.

Входные данные

audio string

Аудио файл (mp3, wav, ogg)

model string

Размер модели whisper

Default: "large-v3-turbo"

diarize boolean

Идентификация и разделение спикеров

Default: false

language string

Укажите "auto" для автоматического определения языка

Default: "auto"

speakers integer

Количество спикеров

word_timestamp boolean

Метки времени на уровне слов

Default: false

Выходные данные

language string

segments object

translation string

transcription string

Методы

Описание поедерживаемых методов API

Базовый URL

    https://connecte.ai/api/v1/

Важно

На Connecte в центре всего лежит объект Prediction (прогноз), которым мы чаще всего оперируем, подробнее.

Методы

POST prediction.create

                        {company}/{model}

{company} - организация, которая владеет и поддерживает модель или пользователь который ее загрузил
{model} - это уникальное имя модели, которое описывает ее версию и возможности

Полный список эндпоинтов.

HEADERS

Webhook-URL string

HTTPS адрес на который будет отправлен callback когда прогноз обновит статус на succeeded или failed, подробнее.

Prefer string

По умолчанию равно ASYNC. Установите значение SYNC, соединение будет оставаться открытым и ждать результата, по умолчанию до 30 сек.

Request-Timeout integer

REQUEST BODY objectRequired

Тело запроса является объектом входных данных для инференса модели и может содержать различные параметры. Для каждой модели определен свой набор входных данных, структура которых описывается с помощью JSON Schema и доступна на странице модели на вкладке API > Schema.

EXAMPLE REQUEST

    curl https://connecte.ai/api/v1/openai/whisper \
--request POST \
--header "Authorization: Bearer $CONNECTE_TOKEN" \
--header "Webhook-URL: https://your-app.ru/connecte-webhook" \
--header "Content-Type: application/json" \
--data '{
            "audio" : "https://site.ru/audio.mp3",
            "language" : "ru"
        }'

RESPONSE object

id string

Уникальный идентификатор вашего прогноза

input object

Набор входных данных

status string

Допустимые значения:

pending
queued
starting
processing
succeeded
failed
canceled

output object

Набор выходных данных в соответствии с JSON Schema

source strong

источник запроса

runtime float

Время выполнения прогноза в секундах

cost float

Стоимость выполнения в рублях

EXAMPLE RESPONSE

  
{
  "id":"d5a46834-c430-4342-9779-4ea5e76d057d",
  "input":{
    "audio":"https://your-app.ru/audio.mp3",
    "model":"large-v3-turbo",
    "diarize":false,
    "language":"auto",
    "speakers":1,
    "word_timestamp":false
  },
  "status":"succeeded",
  "output":{
    "segments":{...},
    "transcirption":{...},
    "translation":{...},
    "detected_language":{...}
  },
  "source":"api",
  "runtime":35.4,
  "cost":0.45,
  "created_at":"2024-06-26T05:26:31.974000Z"
}

GET prediction.get

                        /predictions/{prediction_id}

ПАРАМЕТРЫ

prediction_id string required

ID прогноза, которого нужно вернуть

EXAMPLE RESPONSE

  
{
  "id":"d5a46834-c430-4342-9779-4ea5e76d057d",
  "input":{
    "audio":"https://your-app.ru/audio.mp3",
    "model":"large-v3-turbo",
    "diarize":false,
    "language":"auto",
    "speakers":1,
    "word_timestamp":false
  },
  "status":"succeeded",
  "output":{
    "segments":{...},
    "transcirption":{...},
    "translation":{...},
    "detected_language":{...}
  },
  "source":"api",
  "runtime":35.4,
  "cost":0.45,
  "created_at":"2024-06-26T05:26:31.974000Z"
}

POST prediction.cancel

                        /predictions/{prediction_id}/cancel

ПАРАМЕТРЫ

prediction_id string required

ID прогноза, который нужно отменить

EXAMPLE RESPONSE

  
{
  "id":"d5a46834-c430-4342-9779-4ea5e76d057d",
  "input":{
    "audio":"https://your-app.ru/audio.mp3",
    "model":"large-v3-turbo",
    "diarize":false,
    "language":"auto",
    "speakers":1,
    "word_timestamp":false
  },
  "status":"canceled",
  "output":{
    "segments":{...},
    "transcirption":{...},
    "translation":{...},
    "detected_language":{...}
  },
  "source":"api",
  "runtime":35.4,
  "cost":0.45,
  "created_at":"2024-06-26T05:26:31.974000Z"
}

Перед началом работы ознакомьтесь с документацией

Стоимость использования

Каждый запуск этой модели на Connecte стоит в среднем 0.56017 рублей. Фактические затраты могут варьироваться в зависимости от ваших входных данных и параметров запуска.

Ценообразование строится на основе времени вычислений - каждая секунда работы модели
оценивается в 0.045 рублей.

Техническая реализация построена на базе высокопроизводительного графического ускорителя Nvidia T4 с 16 ГБ видеопамяти. Среднее время обработки одного запроса составляет около 12.4483 секунд (без учета состояний очереди и запуска модели), хотя продолжительность вычислений может существенно меняться в зависимости от сложности и объема входных данных.

Дополнительно стоит отметить, что архитектура каждой модели проходит оптимизацию для эффективного использования вычислительных ресурсов, что позволяет достигать высокого качества результатов при сохранении разумных эксплуатационных расходов.

Readme

Whisper Large V3 Turbo

Многоязычная модель автоматического распознавания речи (ASR) с расширенными возможностями и улучшенной производительностью.

Описание

Whisper Large V3 Turbo — это мощная модель для автоматического распознавания речи, разработанная для работы с множеством языков и акцентов. Модель обеспечивает высокую точность транскрибации даже в условиях шума и поддерживает расширенные функции, такие как перевод речи и идентификация языка. Версия Turbo оптимизирована для быстрой обработки данных с минимальными задержками.

Основные возможности

Поддержка более 100 языков и диалектов
Высокая точность распознавания даже в шумных условиях
Возможность перевода речи на лету
Автоматическая идентификация языка
Оптимизированная для быстрой обработки (Turbo-режим)
Поддержка длинных аудиозаписей
Интеграция с реальными приложениями для потоковой обработки

Поддерживаемые языки

Русский, English, Español, Français, Deutsch, Italiano, Português, 中文, 日本語, 한국어, العربية, हिन्दी и многие другие.

Ограничения

Точность распознавания может снижаться при сильном фоновом шуме
Зависимость от качества аудиозаписи
Могут возникать ошибки при распознавании редких диалектов или акцентов
Высокие требования к вычислительным ресурсам для максимальной производительности

Лицензия

MIT License