coqui/xtts.v2

143
XTTS V2 от Coqui - модель для синтеза речи. Преобразует текст в естественное звучание на 16 языках. Нейросеть применяется для озвучки текста, создания аудиокниг, голосовых ассистентов. Можно использовать готовые голоса, либо использовать небольшой образец голоса для клонирования.
Запустить XTTS.V2 с помощью API
Запустить API

Вход

Текст для синтеза Default: Привет меня зовут Том и вот так звучит мой голос
Чтобы начать, войдите в аккаунт.
После регистрации вы получите 50 рублей на тестирование моделей

Выход

Быстрый старт

Создайте свой первый прогноз всего за 1 минуту

Connecte позволяет запускать open-source модели всего в несколько строк кода. Вам ничего не нужно устанавливать, просто получите API токен и сделайте свой первый прогноз.

1. Регистрация

Создайте аккаунт, чтобы получить доступ к API токену. При регистрации вы можете воспользоваться своей учетной записью Google для упрощения процесса. В ближайшем будущем планируется добавление альтернативных способов создания аккаунта.

2. Получите токен

После регистрации перейдите в раздел API токены и создайте новый токен. Обратите внимание, что мы не храним токены в открытом виде поэтому токен доступен только сразу после создания, его невозможно восстановить, только создать новый.

Теперь давайте поместим наш токен в переменную окружения CONNECTE_TOKEN

                                        export CONNECTE_TOKEN=xxxxxxxx
                                        
                                    
3. Делаем запрос к модели

Выберите любую общедоступную модель. В этом примере мы будем использовать Whisper Turbo

Whisper Turbo.V3 - это открытая модель распознавания речи от OpenAi, предназначенная для преобразования устной речи в письменный текст.

    curl https://connecte.ai/api/v1/openai/whisper \
--request POST \
--header "Authorization: Bearer $CONNECTE_TOKEN" \
--header "Content-Type: application/json" \
--data '{
            "audio" : "https://site.ru/audio.mp3"
        }'
    
    

Поздравляем — вы только что создали свой первый запрос в CONNECTE.

Входные данные

text string
Текст для синтеза
Default: "Привет меня зовут Том и вот так звучит мой голос"

clone string
Образец речи спикера (mp3, wav, ogg)

speaker string
Default: "Marcos Rudaski"

language string
Default: "ru"

Выходные данные

Тип string

Методы

Описание поедерживаемых методов API

Базовый URL
    https://connecte.ai/api/v1/
    
Методы
                        {company}/{model}
                    
  • {company} - организация, которая владеет и поддерживает модель или пользователь который ее загрузил
  • {model} - это уникальное имя модели, которое описывает ее версию и возможности

Полный список эндпоинтов.

HEADERS

Webhook-URL string

HTTPS адрес на который будет отправлен callback когда прогноз обновит статус на succeeded или failed, подробнее.

Prefer string

По умолчанию равно ASYNC. Установите значение SYNC, соединение будет оставаться открытым и ждать результата, по умолчанию до 30 сек.

Request-Timeout integer

По умолчанию равно ASYNC. Установите значение SYNC, соединение будет оставаться открытым и ждать результата, по умолчанию до 30 сек.

REQUEST BODY objectRequired

Тело запроса является объектом входных данных для инференса модели и может содержать различные параметры. Для каждой модели определен свой набор входных данных, структура которых описывается с помощью JSON Schema и доступна на странице модели на вкладке API > Schema.

EXAMPLE REQUEST

    curl https://connecte.ai/api/v1/openai/whisper \
--request POST \
--header "Authorization: Bearer $CONNECTE_TOKEN" \
--header "Webhook-URL: https://your-app.ru/connecte-webhook" \
--header "Content-Type: application/json" \
--data '{
            "audio" : "https://site.ru/audio.mp3",
            "language" : "ru"
        }'
    
    
RESPONSE object

id string

Уникальный идентификатор вашего прогноза

input object

Набор входных данных

status string

Допустимые значения:

  • pending
  • queued
  • starting
  • processing
  • succeeded
  • failed
  • canceled

output object

Набор выходных данных в соответствии с JSON Schema

source strong

источник запроса

runtime float

Время выполнения прогноза в секундах

cost float

Стоимость выполнения в рублях

EXAMPLE RESPONSE

  
{
  "id":"d5a46834-c430-4342-9779-4ea5e76d057d",
  "input":{
    "audio":"https://your-app.ru/audio.mp3",
    "model":"large-v3-turbo",
    "diarize":false,
    "language":"auto",
    "speakers":1,
    "word_timestamp":false
  },
  "status":"succeeded",
  "output":{
    "segments":{...},
    "transcirption":{...},
    "translation":{...},
    "detected_language":{...}
  },
  "source":"api",
  "runtime":35.4,
  "cost":0.45,
  "created_at":"2024-06-26T05:26:31.974000Z"
}
  
                        /predictions/{prediction_id}
                    
ПАРАМЕТРЫ

prediction_id string required

ID прогноза, которого нужно вернуть

EXAMPLE RESPONSE

  
{
  "id":"d5a46834-c430-4342-9779-4ea5e76d057d",
  "input":{
    "audio":"https://your-app.ru/audio.mp3",
    "model":"large-v3-turbo",
    "diarize":false,
    "language":"auto",
    "speakers":1,
    "word_timestamp":false
  },
  "status":"succeeded",
  "output":{
    "segments":{...},
    "transcirption":{...},
    "translation":{...},
    "detected_language":{...}
  },
  "source":"api",
  "runtime":35.4,
  "cost":0.45,
  "created_at":"2024-06-26T05:26:31.974000Z"
}
  
                        /predictions/{prediction_id}/cancel
                    
ПАРАМЕТРЫ

prediction_id string required

ID прогноза, который нужно отменить

EXAMPLE RESPONSE

  
{
  "id":"d5a46834-c430-4342-9779-4ea5e76d057d",
  "input":{
    "audio":"https://your-app.ru/audio.mp3",
    "model":"large-v3-turbo",
    "diarize":false,
    "language":"auto",
    "speakers":1,
    "word_timestamp":false
  },
  "status":"canceled",
  "output":{
    "segments":{...},
    "transcirption":{...},
    "translation":{...},
    "detected_language":{...}
  },
  "source":"api",
  "runtime":35.4,
  "cost":0.45,
  "created_at":"2024-06-26T05:26:31.974000Z"
}
  
Перед началом работы ознакомьтесь с документацией

Стоимость использования


Каждый запуск этой модели на Connecte стоит в среднем 0.091225 рублей. Фактические затраты могут варьироваться в зависимости от ваших входных данных и параметров запуска.

Ценообразование строится на основе времени вычислений - каждая секунда работы модели
оценивается в 0.045 рублей.

Техническая реализация построена на базе высокопроизводительного графического ускорителя Nvidia T4 с 16 ГБ видеопамяти. Среднее время обработки одного запроса составляет около 2.02704 секунд (без учета состояний очереди и запуска модели), хотя продолжительность вычислений может существенно меняться в зависимости от сложности и объема входных данных.

Дополнительно стоит отметить, что архитектура каждой модели проходит оптимизацию для эффективного использования вычислительных ресурсов, что позволяет достигать высокого качества результатов при сохранении разумных эксплуатационных расходов.

Readme


Coqui XTTS V2

Многоязычная модель text-to-speech нового поколения с возможностью клонирования голоса.

Описание

Coqui XTTS V2 - это улучшенная версия модели XTTS, предназначенная для высококачественного синтеза речи с поддержкой множества языков. Модель способна генерировать естественно звучащую речь и клонировать голос на основе короткого аудиосемпла.

Основные возможности
  • Поддержка более 30 языков
  • Клонирование голоса по образцу длительностью от 6 секунд
  • Улучшенное качество синтеза по сравнению с V1
  • Контроль эмоциональной окраски речи
  • Генерация речи в реальном времени
  • Низкие системные требования
Поддерживаемые языки

Русский, English, Español, Français, Deutsch, Italiano, Português, 中文, 日本語, 한국어 и другие.

Ограничения
  • Качество клонирования голоса зависит от качества входного аудио
  • Возможны артефакты при синтезе длинных текстов
  • Не гарантируется точное воспроизведение акцента
Лицензия

Apache License 2.0