Транскрибация аудио в текст: сравнение API Connecte, SpeechKit и SaluteSpeech

Привет, я Алексей, основатель и главный разработчик платформы Connecte.ai — здесь мы разрабатываем и внедряем решения для быстрого и доступного инференса опенсорсных моделей ИИ.

Рынок сервисов транскрибации в России вырос на 43% за последний год благодаря:

  • Росту онлайн-встреч и вебинаров
  • Необходимости анализа телефонных разговоров с клиентами
  • Развитию подкастинга и видеоконтента
  • Улучшению качества моделей распознавания речи

К 2026 году аналитики прогнозируют рост ещё на 35-40%, особенно в сегменте малого и среднего бизнеса. Поэтому я затеял честный сравнительный анализ сервисов распознавания речи — давайте разберемся, кто круче и почему!

PaaS vs SaaS: в чём разница?

Для начала разделим все сервисы на две большие группы:

  • PaaS (Platform as a Service) — это про B2B. Тут вы получаете "сырые" данные через API и дальше сами решаете, что с ними делать программно.
  • SaaS (Software as a Service) — это для конечных пользователей. Заходите на сайт, загружаете файл — и вуаля, получаете готовый текст.

На нашем Connecte.ai мы крутим модель OpenAI Whisper V3 Turbo. Это опенсорсная штука с очень неплохим качеством на выходе. Вот ее-то и будем сравнивать со всеми остальными. Погнали!

Немного про Whisper от OpenAI

Whisper — это такая умная штуковина от OpenAI для распознавания речи. Модель V3 Turbo — это улучшенная версия, которая:

  • Училась на куче разных языков (больше 680,000 часов аудио!)
  • Знает более 100 языков (да-да, и русский тоже)
  • Нормально работает даже если у вас акцент, шумит кондиционер или запись сделана на картошку
  • Умеет не только транскрибировать, но и переводить
  • И да, код открытый — берите и допиливайте под себя

Кого будем тестить?

Итак, наша команда подопытных:

  1. Connecte.ai (PaaS) — это мы, с нашей интеграцией Whisper V3 Turbo
  2. Яндекс SpeechKit (PaaS) — решение от российского IT-гиганта
  3. Сбер SaluteSpeech (PaaS) — еще один представитель от большого российского бизнеса
  4. Shopot.ai (SaaS) — российский сервис с приятным интерфейсом

Shopot.ai я выбрал, забежав на ProductRadar. Переходим в каталог → находим раздел "Нейросети для транскрибации" там сейчас аж 26 разных транскрипторов! А ведь пару лет назад их можно было по пальцам пересчитать — рынок явно на подъеме.

  1. AssemblyAI (SaaS) — проверенный временем зарубежный сервис

Кстати, смотрел еще на Gladia.io, тоже много использовали раньше, но по функциям они очень похожи с AssemblyAI, так что решил не распыляться.

Сколько стоит счастье?

PaaS и SaaS часто берут деньги по-разному. Давайте глянем, кто сколько хочет за минуту транскрибации:

Стоимость транскрипции за минуту аудио
Сервис Как считают Сколько за минуту транскрибации
Connecte.ai По времени работы GPU 0,11 ₽ (0,045 ₽ за 1 секунду вычислений)
SpeechKit Посекундно 0,60 ₽
SaluteSpeech Пакетами 1,20 ₽ (тариф Freemium), 0,60 ₽ (тариф Business при покупке сразу 20 000 минут)
Shopot.ai Месячная подписка 1,95 ₽ (тариф "Старт" - 470 ₽ за 240 минут)
AssemblyAI По факту использования 0,51 ₽ ($0,36 за 60 минут)

Что смотрим?

Три главные штуки:

  1. WER (Word Error Rate) — насколько точно распознает слова
  2. Скорость — как быстро справляется с задачей
  3. Стоимость — сколько денег потратим

Что за зверь этот WER?

WER (Word Error Rate) — это стандартная метрика для оценки качества систем распознавания речи. Она измеряет процент слов, которые были распознаны неправильно.

Формула расчета:

WER = (S + D + I) / N × 100%

где:

  • S — количество замен (слова заменены на другие)
  • D — количество удалений (пропущенные слова)
  • I — количество вставок (лишние слова)
  • N — общее количество слов в эталонном тексте

Чем ниже WER, тем точнее распознавание. В наших таблицах для наглядности будем показывать точность, то есть 100% - WER.

Как тестировали

Все запросы гоняли асинхронно, с метками времени на каждое слово и с разделением спикеров (кроме Яндекса — он так не умеет из коробки, минус в карму).

Откуда данные?

Для честного теста нужны качественные размеченные данные. Решил взять штуку от Mozilla — проект Common Voice. Это такая классная штука, где кучи волонтеров наговаривают тексты, чтобы тренировать ИИ.

Скачал русскоязычный датасет от 19.03.2025 (84,56 МБ). Единственная проблема — там все порезано на 15-секундные фрагменты. Решение? Собрал их в один большой файл на 61 минуту и 2 секунды с разными дикторами. По аналогии склеил транскрипцию. Всё — аудио есть, транскрипция есть, можно тестить!

Сам аудиофайл:

Результаты: кто круче?

Вот что получилось на стандартном аудиофайле:

Результаты тестирования на обычной речи
Сервис Точность (100% - WER) Скорость (сек) Стоимость (₽)
Connecte.ai 92.53% 148.1 6.65
SaluteSpeech 87.95% 83.8 76.8
YandexSpeechKit 91.42% 270.09 36.63
Shopot.ai 92.07% 558.55 118.95
AssemblyAI 91.43% 266.43 32.17

Любопытный момент - у SpeechKit и Assembly все метрики плюс минус одинаковые, это как вообще - случайность? Тяжело придумать обоснование такому поведению.

А что с телефонными разговорами?

Усложним задачу - берем тот же самый аудиофайл и искусственно понижаем качество, имитируя телефонный разговор, и повторяем тесты. Всё-таки транскрибация телефонных разговоров, думаю, составляет большую часть всего рынка транскрибации. Для этого прогоним аудио через FFmpeg, используя такую команду:

ffmpeg -i input.mp3 -af "lowpass=3400,highpass=300,afftdn=nf=-20" phone_input.mp3

Эта команда обрезает высокие частоты выше 3400 Гц, низкие ниже 300 Гц и добавляет лёгкий шум — прям как настоящий телефон.

Результат:

Прогоняем, смотрим, что получилось:

Результаты тестирования на телефонных разговорах
Сервис Точность (100% - WER) Скорость (сек) Стоимость (₽)
Connecte.ai 91.90% 160.3 7.21
SaluteSpeech 87.47% 107.15 76.8
YandexSpeechKit 90.12% 277.32 36.63
Shopot.ai 90.79% 465.32 118.95
AssemblyAI 91.04% 264.43 32.17

Итак, к чему мы пришли?

Connecte.ai

Самый выгодный вариант, объективно! Точность высокая (92.53% для обычной речи), скорость нормальная, а цена в 5-17 раз дешевле конкурентов. Если у вас большие объёмы данных и нужно как-то их обрабатывать потом — это ваш выбор. А для разовых задач есть наш Playground — загрузил файл и получил текст.

Shopot.ai

Веб интерфейс (api тоже есть), точность отличная (92.07%). Скорость низкая, ценник кусается. Зато умеет делать суммаризацию. Если у вас немного аудио и нужно через браузер — вполне подойдет.

AssemblyAI

Стабильный середнячок. Точность хорошая что для обычной (91.43%), что для телефонной речи (91.04%). Плюс целая куча дополнительных фишек на базе LLM — выделение ключевых моментов, анализ настроения говорящего, тематическая классификация и т.д. Но для российских пользователей нужно что то придумывать с оплатой, потому что сервис зарубежный.

Яндекс SpeechKit

Точность неплохая (91.42% для обычной речи), минус отсутствие диаризация в версии API V2. Перед отправкой запроса необходимо загружать аудиофайл на Yandex Object Storage. Если ваша инфрастуктура уже в контуре YaCloud, наверно, стоит рассмотреть.

Сбер SaluteSpeech

Самый шустрый из всех! Но с точностью проблемы (87.95% — самый низкий показатель). Плюс поддерживает всего три языка — русский, английский и казахский. Если вам важна скорость и не очень критична точность — может подойти.

Короче говоря

  1. Хотите дёшево и точно? → Connecte.ai
  2. Нужен анализ разговоров? → AssemblyAI
  3. Надо быстро-быстро? → SaluteSpeech
  4. Изредка транскрибируете через браузер? → Shopot.ai
  5. Уже в контуре YaCloud? → SpeechKit