connecte — Экосистема AI-инструментов для современного бизнеса

Простой API
для open-source AI

Connecte.AI - упрощает доступ к современным open-source моделям ИИ с помощью простого вызова API. Масштабируйте свои AI-решения, управление инфраструктурой не требуется.

Производительные серверы

Оптимизированная инфраструктура на базе RTX2080Ti, Tesla T4, H100, A100 обеспечивает минимальное потребление памяти и высокую производительность.

Быстрые холодные запуски

Сборка образов, запуск контейнеров, кэширование моделей и весов обеспечивает быстрый старт с нулевой нагрузки до полной готовности.

Масштабирование от 0 до

Интеллектуальная система автоматически масштабирует GPU-ресурсы от сотен машин до нуля. Платите только за реальное использование.

curl https://connecte.ai/api/v1/coqui/xtts \ --request POST \ --header "Authorization: Bearer $CONNECTE_TOKEN" \ --header "Content-Type: application/json" \ --data '{ "text" : "Умные мысли часто приходят в неуместный момент." }'

Ответы на вопросы

Как начать работу с сервисом?

Начало работы с сервисом включает несколько шагов:

Создайте учетную запись с подтверждением электронной почты
Получите API токен в личном кабинете

                                        export CONNECTE_TOKEN="ваш-api-токен"

Добавьте платежную информацию
Настройте вебхуки (если требуется)
Сделайте первый запрос.

                                        curl https://connecte.ai/api/v1/openai/whisper \
--request POST \
--header "Authorization: Bearer $CONNECTE_TOKEN" \
--header "Content-Type: application/json" \
--data '{
            "audio" : "https://site.ru/audio.mp3"
        }'

Как рассчитывается стоимость?

Ценообразование на сервисе работает по принципу Pay as you go (оплата по мере использования)

Nvidia T4 GPU (16GB) - 0,045 руб. за секунду
2x Nvidia T4 GPU (32GB) - 0,09 руб. за секунду
Nvidia A10 GPU (24GB) - 0,055 руб. за секунду
2х Nvidia A10 GPU (48GB) - 0,11 руб. за секунду

Оплата только за фактическое использование. Без скрытых платежей. Более полную и актуальную информацию о стоимости вы найдете в разделе цены

Есть бесплатные тарифы?

После регистрации вы сможете протестировать сервис бесплатно, для каждого уникального пользователя мы начисляем кредитные рубли, которые можно потратить для вычислений любой модели.

Какие модели машинного обучения поддерживаются?

Сервисы поддерживают широкий спектр предварительно обученных моделей:

Для задач обработки естественного языка - Llama 3.1, llama 3.2, LLaVA 1.6 и др.
Генерация изображений - Flux, Stable diffusion 3 и др.
Генерация и расшифровка речи - Whisper Turbo, Coqui Xtts 2 и др.

Подробный список доступных моделей и их возможностей можно найти в каталоге моделей.

Как интегрировать сервис с моим существующим приложением?

Интеграция осуществляется с помощью:

API: RESTful API для взаимодействия с сервисом.
SDK: библиотеки для популярных языков программирования (Python, JavaScript, etc.).
Вебхуки: для получения обратной связи от сервиса в реальном времени.

Шаги для интеграции:

Ознакомьтесь с документацией по API и SDK.
Установите необходимые библиотеки или пакеты.
Используйте примеры кода для начала разработки.

Поддерживается ли мой язык программирования?

Да, наш сервис поддерживает:

Популярные языки: Python, JavaScript (Node.js), Java, Go, Ruby, PHP и др.
Универсальные протоколы: REST API, что позволяет использовать практически любой язык, поддерживающий HTTP-запросы.

Полный список поддерживаемых языков и соответствующие SDK указаны в документации сервиса.

Есть ли ограничения на объем данных или запросов?

Да по умолчанию для всех новых пользователей устанавливаются следующие лимиты:

Максимум 4096 токенов на запрос
До 1 параллельных запросов
60 запросов в минуту
10GB хранилища данных

Подробные сведения о лимитах можно найти в разделе "Лимиты" или "Квоты" в документации.
Нужны более высокие лимиты? Свяжитесь с нашей командой для индивидуального решения.

Поддерживаются ли синхронные запросы?

Для каждого Endpoint'а существуют два режима обработки запроса: синхронный (sync) и асинхронный (async).
Синхронный режим

Оптимизирован для легковесных моделей
Предполагает мгновенные (или близкие к нему) вычисления
Результат обработки непосредственно в ответе запроса

Асинхронный режим (по умолчанию)

Для более длительных и ресурсоемких вычислений
После создания prediction переходит в статус "processing" и возвращает ID
Когда статус поменяется на succeeded или failed отправит webhook
ID позволяет проверять статус обработки и получать результаты в любой момент

Какие ограничения по производительности или задержке существуют?

Зависит от:

Загруженности сервера: количество выделенных ресурсов на каждую модель может быть ограничено.
Местоположения серверов: чем ближе пользователи к дата-центру, тем меньше задержка.
Оптимизации модели: более легкие модели работают быстрее.

Для критичных и трудоемкий задач чье время обработки может быть более 30 секунд выбирайте асинхронный режим.

Как связаться с отделом продаж или поддержки?

Способы связи:

Электронная почта: адреса указаны на сайте.
Форма обратной связи: на странице "Контакты" или "Поддержка".
Телефон: для корпоративных клиентов.
Чат: онлайн-чат в личном кабинете.

Убедитесь, что у вас под рукой есть необходимая информация о вашем аккаунте или вопросе для быстрого решения проблемы.

Простой API
для open-source AI

Инференс в облаке

Производительные серверы

Быстрые холодные запуски

Масштабирование от 0 до

Как это работает?

Serverless Endpoints

Run models

Pay as you Go

Ввод:

Вывод:

Ответы на вопросы

Готовы попробовать?

Простой API для open-source AI

Инференс в облаке

Производительные серверы

Быстрые холодные запуски

Масштабирование от 0 до

Как это работает?

Serverless Endpoints

Run models

Pay as you Go

Ввод:

Вывод:

Ответы на вопросы

Готовы попробовать?

Простой API
для open-source AI