
adefossez/demucs
Вход
Выход
Быстрый старт
Connecte позволяет запускать open-source модели всего в несколько строк кода. Вам ничего не нужно устанавливать, просто получите API токен и сделайте свой первый прогноз.
1. Регистрация
Создайте аккаунт, чтобы получить доступ к API токену. При регистрации вы можете воспользоваться своей учетной записью Google для упрощения процесса. В ближайшем будущем планируется добавление альтернативных способов создания аккаунта.
2. Получите токен
После регистрации перейдите в раздел API токены и создайте новый токен. Обратите внимание, что мы не храним токены в открытом виде поэтому токен доступен только сразу после создания, его невозможно восстановить, только создать новый.
Теперь давайте поместим наш токен в переменную окружения CONNECTE_TOKEN
export CONNECTE_TOKEN=xxxxxxxx
3. Делаем запрос к модели
Выберите любую общедоступную модель. В этом примере мы будем использовать Whisper Turbo
Whisper Turbo.V3 - это открытая модель распознавания речи от OpenAi, предназначенная для преобразования устной речи в письменный текст.
curl https://connecte.ai/api/v1/openai/whisper \
--request POST \
--header "Authorization: Bearer $CONNECTE_TOKEN" \
--header "Content-Type: application/json" \
--data '{
"audio" : "https://site.ru/audio.mp3"
}'
Поздравляем — вы только что создали свой первый запрос в CONNECTE.
Входные данные
Выходные данные
Методы
Базовый URL
https://connecte.ai/api/v1/
Методы
{company}/{model}
- {company} - организация, которая владеет и поддерживает модель или пользователь который ее загрузил
- {model} - это уникальное имя модели, которое описывает ее версию и возможности
Полный список эндпоинтов.
HEADERS
Webhook-URL string
HTTPS адрес на который будет отправлен callback когда прогноз обновит статус на succeeded или failed, подробнее.
Prefer string
По умолчанию равно ASYNC. Установите значение SYNC, соединение будет оставаться открытым и ждать результата, по умолчанию до 30 сек.
Request-Timeout integer
По умолчанию равно ASYNC. Установите значение SYNC, соединение будет оставаться открытым и ждать результата, по умолчанию до 30 сек.
REQUEST BODY objectRequired
Тело запроса является объектом входных данных для инференса модели и может содержать различные параметры. Для каждой модели определен свой набор входных данных, структура которых описывается с помощью JSON Schema и доступна на странице модели на вкладке API > Schema.
EXAMPLE REQUEST
curl https://connecte.ai/api/v1/openai/whisper \
--request POST \
--header "Authorization: Bearer $CONNECTE_TOKEN" \
--header "Webhook-URL: https://your-app.ru/connecte-webhook" \
--header "Content-Type: application/json" \
--data '{
"audio" : "https://site.ru/audio.mp3",
"language" : "ru"
}'
RESPONSE object
id string
Уникальный идентификатор вашего прогноза
input object
Набор входных данных
status string
Допустимые значения:
- pending
- queued
- starting
- processing
- succeeded
- failed
- canceled
output object
Набор выходных данных в соответствии с JSON Schema
source strong
источник запроса
runtime float
Время выполнения прогноза в секундах
cost float
Стоимость выполнения в рублях
EXAMPLE RESPONSE
{
"id":"d5a46834-c430-4342-9779-4ea5e76d057d",
"input":{
"audio":"https://your-app.ru/audio.mp3",
"model":"large-v3-turbo",
"diarize":false,
"language":"auto",
"speakers":1,
"word_timestamp":false
},
"status":"succeeded",
"output":{
"segments":{...},
"transcirption":{...},
"translation":{...},
"detected_language":{...}
},
"source":"api",
"runtime":35.4,
"cost":0.45,
"created_at":"2024-06-26T05:26:31.974000Z"
}
/predictions/{prediction_id}
ПАРАМЕТРЫ
prediction_id string required
ID прогноза, которого нужно вернуть
EXAMPLE RESPONSE
{
"id":"d5a46834-c430-4342-9779-4ea5e76d057d",
"input":{
"audio":"https://your-app.ru/audio.mp3",
"model":"large-v3-turbo",
"diarize":false,
"language":"auto",
"speakers":1,
"word_timestamp":false
},
"status":"succeeded",
"output":{
"segments":{...},
"transcirption":{...},
"translation":{...},
"detected_language":{...}
},
"source":"api",
"runtime":35.4,
"cost":0.45,
"created_at":"2024-06-26T05:26:31.974000Z"
}
/predictions/{prediction_id}/cancel
ПАРАМЕТРЫ
prediction_id string required
ID прогноза, который нужно отменить
EXAMPLE RESPONSE
{
"id":"d5a46834-c430-4342-9779-4ea5e76d057d",
"input":{
"audio":"https://your-app.ru/audio.mp3",
"model":"large-v3-turbo",
"diarize":false,
"language":"auto",
"speakers":1,
"word_timestamp":false
},
"status":"canceled",
"output":{
"segments":{...},
"transcirption":{...},
"translation":{...},
"detected_language":{...}
},
"source":"api",
"runtime":35.4,
"cost":0.45,
"created_at":"2024-06-26T05:26:31.974000Z"
}
Стоимость использования
Каждый запуск этой модели на Connecte стоит в среднем 0.681435 рублей. Фактические затраты могут варьироваться в зависимости от ваших входных данных и параметров запуска.
Ценообразование строится на основе времени вычислений - каждая секунда работы модели
оценивается в 0.045 рублей.
Техническая реализация построена на базе высокопроизводительного графического ускорителя Nvidia T4 с 16 ГБ видеопамяти. Среднее время обработки одного запроса составляет около 15.1431 секунд (без учета состояний очереди и запуска модели), хотя продолжительность вычислений может существенно меняться в зависимости от сложности и объема входных данных.
Дополнительно стоит отметить, что архитектура каждой модели проходит оптимизацию для эффективного использования вычислительных ресурсов, что позволяет достигать высокого качества результатов при сохранении разумных эксплуатационных расходов.
Readme
Demucs: Модель для разделения вокала и инструментов
Demucs — это современная модель для разделения аудио на отдельные компоненты, такие как вокал и инструментальная часть. Она основана на глубоком обучении и использует архитектуру U-Net для эффективного разделения звуковых дорожек. Модель демонстрирует высокую точность в выделении вокала и инструментов, что делает её популярной среди музыкантов, звукорежиссёров и любителей обработки аудио.
Основные возможности:
- Разделение вокала и инструментов: Demucs позволяет изолировать вокал от аккомпанемента, что полезно для ремиксов, караоке или анализа музыки.
- Поддержка нескольких источников: Модель может разделять аудио на несколько дорожек, включая барабаны, бас, вокал и другие инструменты.
- Высокое качество звука: Благодаря использованию современных методов глубокого обучения, Demucs обеспечивает минимальные потери качества при разделении.
- Простота использования: Модель доступна в виде открытого исходного кода и может быть интегрирована в различные проекты.
Применение:
- Создание ремиксов: Изоляция вокала позволяет создавать новые версии треков.
- Караоке: Удаление вокала для создания минусовок.
- Анализ музыки: Разделение дорожек для изучения структуры композиций.
- Реставрация аудио: Улучшение качества старых записей путём разделения и обработки отдельных компонентов.
Преимущества:
- Минимальные артефакты: В отличие от традиционных методов, Demucs сохраняет чистоту звука даже при сложных акустических условиях.
- Поддержка различных аудиоформатов: Модель работает с популярными форматами, такими как MP3, WAV, OGG и другими.
- Активное сообщество: Благодаря открытому исходному коду, модель постоянно улучшается силами сообщества.
Лицензия
MIT License