Транскрибация аудио в текст: сравнение API Connecte, SpeechKit и SaluteSpeech

Апрель 11, 2025 от Кулясов Алексей Алексей Кулясов

Привет, я Алексей, основатель и главный разработчик платформы Connecte.ai — здесь мы разрабатываем и внедряем решения для быстрого и доступного инференса опенсорсных моделей ИИ.

Рынок сервисов транскрибации в России вырос на 43% за последний год благодаря:

Росту онлайн-встреч и вебинаров
Необходимости анализа телефонных разговоров с клиентами
Развитию подкастинга и видеоконтента
Улучшению качества моделей распознавания речи

К 2026 году аналитики прогнозируют рост ещё на 35-40%, особенно в сегменте малого и среднего бизнеса. Поэтому я затеял честный сравнительный анализ сервисов распознавания речи — давайте разберемся, кто круче и почему!

PaaS vs SaaS: в чём разница?

Для начала разделим все сервисы на две большие группы:

PaaS (Platform as a Service) — это про B2B. Тут вы получаете "сырые" данные через API и дальше сами решаете, что с ними делать программно.
SaaS (Software as a Service) — это для конечных пользователей. Заходите на сайт, загружаете файл — и вуаля, получаете готовый текст.

На нашем Connecte.ai мы крутим модель OpenAI Whisper V3 Turbo. Это опенсорсная штука с очень неплохим качеством на выходе. Вот ее-то и будем сравнивать со всеми остальными. Погнали!

Немного про Whisper от OpenAI

Whisper — это такая умная штуковина от OpenAI для распознавания речи. Модель V3 Turbo — это улучшенная версия, которая:

Училась на куче разных языков (больше 680,000 часов аудио!)
Знает более 100 языков (да-да, и русский тоже)
Нормально работает даже если у вас акцент, шумит кондиционер или запись сделана на картошку
Умеет не только транскрибировать, но и переводить
И да, код открытый — берите и допиливайте под себя

Интересный факт

Последние тесты показывают, что Whisper V3 Turbo обрабатывает русскую речь на 15% точнее, чем предыдущая версия, и на 23% быстрее благодаря оптимизациям в архитектуре трансформера.

Кого будем тестить?

Итак, наша команда подопытных:

Connecte.ai (PaaS) — это мы, с нашей интеграцией Whisper V3 Turbo
Яндекс SpeechKit (PaaS) — решение от российского IT-гиганта
Сбер SaluteSpeech (PaaS) — еще один представитель от большого российского бизнеса
Shopot.ai (SaaS) — российский сервис с приятным интерфейсом

Shopot.ai я выбрал, забежав на ProductRadar. Переходим в каталог → находим раздел "Нейросети для транскрибации" там сейчас аж 26 разных транскрипторов! А ведь пару лет назад их можно было по пальцам пересчитать — рынок явно на подъеме.

AssemblyAI (SaaS) — проверенный временем зарубежный сервис

Кстати, смотрел еще на Gladia.io, тоже много использовали раньше, но по функциям они очень похожи с AssemblyAI, так что решил не распыляться.

Сколько стоит счастье?

PaaS и SaaS часто берут деньги по-разному. Давайте глянем, кто сколько хочет за минуту транскрибации:

Стоимость транскрипции за минуту аудио
Сервис	Как считают	Сколько за минуту транскрибации
Connecte.ai	По времени работы GPU	0,11 ₽ (0,045 ₽ за 1 секунду вычислений)
SpeechKit	Посекундно	0,60 ₽
SaluteSpeech	Пакетами	1,20 ₽ (тариф Freemium), 0,60 ₽ (тариф Business при покупке сразу 20 000 минут)
Shopot.ai	Месячная подписка	1,95 ₽ (тариф "Старт" - 470 ₽ за 240 минут)
AssemblyAI	По факту использования	0,51 ₽ ($0,36 за 60 минут)

Что смотрим?

Три главные штуки:

WER (Word Error Rate) — насколько точно распознает слова
Скорость — как быстро справляется с задачей
Стоимость — сколько денег потратим

Что за зверь этот WER?

WER (Word Error Rate) — это стандартная метрика для оценки качества систем распознавания речи. Она измеряет процент слов, которые были распознаны неправильно.

Формула расчета:

WER = (S + D + I) / N × 100%

где:

S — количество замен (слова заменены на другие)
D — количество удалений (пропущенные слова)
I — количество вставок (лишние слова)
N — общее количество слов в эталонном тексте

Чем ниже WER, тем точнее распознавание. В наших таблицах для наглядности будем показывать точность, то есть 100% - WER.

Как тестировали

Все запросы гоняли асинхронно, с метками времени на каждое слово и с разделением спикеров (кроме Яндекса — он так не умеет из коробки, минус в карму).

Может быть важно

Распознавание временных меток на уровне слов и разделение речи по спикерам увеличивает время обработки. Например, у нас на Connecte.ai это замедляет обработку в 5 раз по сравнению с обычным распознаванием текста. Если эти данные вам не нужны, их можно отключить — это сэкономит время и деньги.

Откуда данные?

Для честного теста нужны качественные размеченные данные. Решил взять штуку от Mozilla — проект Common Voice. Это такая классная штука, где кучи волонтеров наговаривают тексты, чтобы тренировать ИИ.

Скачал русскоязычный датасет от 19.03.2025 (84,56 МБ). Единственная проблема — там все порезано на 15-секундные фрагменты. Решение? Собрал их в один большой файл на 61 минуту и 2 секунды с разными дикторами. По аналогии склеил транскрипцию. Всё — аудио есть, транскрипция есть, можно тестить!

Сам аудиофайл:

Результаты: кто круче?

Вот что получилось на стандартном аудиофайле:

Результаты тестирования на обычной речи
Сервис	Точность (100% - WER)	Скорость (сек)	Стоимость (₽)
Connecte.ai	92.53%	148.1	6.65
SaluteSpeech	87.95%	83.8	76.8
YandexSpeechKit	91.42%	270.09	36.63
Shopot.ai	92.07%	558.55	118.95
AssemblyAI	91.43%	266.43	32.17

Любопытный момент - у SpeechKit и Assembly все метрики плюс минус одинаковые, это как вообще - случайность? Тяжело придумать обоснование такому поведению.

А что с телефонными разговорами?

Усложним задачу - берем тот же самый аудиофайл и искусственно понижаем качество, имитируя телефонный разговор, и повторяем тесты. Всё-таки транскрибация телефонных разговоров, думаю, составляет большую часть всего рынка транскрибации. Для этого прогоним аудио через FFmpeg, используя такую команду:

ffmpeg -i input.mp3 -af "lowpass=3400,highpass=300,afftdn=nf=-20" phone_input.mp3

Эта команда обрезает высокие частоты выше 3400 Гц, низкие ниже 300 Гц и добавляет лёгкий шум — прям как настоящий телефон.

Результат:

Прогоняем, смотрим, что получилось:

Результаты тестирования на телефонных разговорах
Сервис	Точность (100% - WER)	Скорость (сек)	Стоимость (₽)
Connecte.ai	91.90%	160.3	7.21
SaluteSpeech	87.47%	107.15	76.8
YandexSpeechKit	90.12%	277.32	36.63
Shopot.ai	90.79%	465.32	118.95
AssemblyAI	91.04%	264.43	32.17

Итак, к чему мы пришли?

Connecte.ai

Самый выгодный вариант, объективно! Точность высокая (92.53% для обычной речи), скорость нормальная, а цена в 5-17 раз дешевле конкурентов. Если у вас большие объёмы данных и нужно как-то их обрабатывать потом — это ваш выбор. А для разовых задач есть наш Playground — загрузил файл и получил текст.

Shopot.ai

Веб интерфейс (api тоже есть), точность отличная (92.07%). Скорость низкая, ценник кусается. Зато умеет делать суммаризацию. Если у вас немного аудио и нужно через браузер — вполне подойдет.

AssemblyAI

Стабильный середнячок. Точность хорошая что для обычной (91.43%), что для телефонной речи (91.04%). Плюс целая куча дополнительных фишек на базе LLM — выделение ключевых моментов, анализ настроения говорящего, тематическая классификация и т.д. Но для российских пользователей нужно что то придумывать с оплатой, потому что сервис зарубежный.

Яндекс SpeechKit

Точность неплохая (91.42% для обычной речи), минус отсутствие диаризация в версии API V2. Перед отправкой запроса необходимо загружать аудиофайл на Yandex Object Storage. Если ваша инфрастуктура уже в контуре YaCloud, наверно, стоит рассмотреть.

Сбер SaluteSpeech

Самый шустрый из всех! Но с точностью проблемы (87.95% — самый низкий показатель). Плюс поддерживает всего три языка — русский, английский и казахский. Если вам важна скорость и не очень критична точность — может подойти.

Короче говоря

Хотите дёшево и точно? → Connecte.ai
Нужен анализ разговоров? → AssemblyAI
Надо быстро-быстро? → SaluteSpeech
Изредка транскрибируете через браузер? → Shopot.ai
Уже в контуре YaCloud? → SpeechKit