Транскрибация аудио в текст: сравнение API Connecte, SpeechKit и SaluteSpeech
Привет, я Алексей, основатель и главный разработчик платформы Connecte.ai — здесь мы разрабатываем и внедряем решения для быстрого и доступного инференса опенсорсных моделей ИИ.
Рынок сервисов транскрибации в России вырос на 43% за последний год благодаря:
- Росту онлайн-встреч и вебинаров
- Необходимости анализа телефонных разговоров с клиентами
- Развитию подкастинга и видеоконтента
- Улучшению качества моделей распознавания речи
К 2026 году аналитики прогнозируют рост ещё на 35-40%, особенно в сегменте малого и среднего бизнеса. Поэтому я затеял честный сравнительный анализ сервисов распознавания речи — давайте разберемся, кто круче и почему!
PaaS vs SaaS: в чём разница?
Для начала разделим все сервисы на две большие группы:
- PaaS (Platform as a Service) — это про B2B. Тут вы получаете "сырые" данные через API и дальше сами решаете, что с ними делать программно.
- SaaS (Software as a Service) — это для конечных пользователей. Заходите на сайт, загружаете файл — и вуаля, получаете готовый текст.
На нашем Connecte.ai мы крутим модель OpenAI Whisper V3 Turbo. Это опенсорсная штука с очень неплохим качеством на выходе. Вот ее-то и будем сравнивать со всеми остальными. Погнали!
Немного про Whisper от OpenAI
Whisper — это такая умная штуковина от OpenAI для распознавания речи. Модель V3 Turbo — это улучшенная версия, которая:
- Училась на куче разных языков (больше 680,000 часов аудио!)
- Знает более 100 языков (да-да, и русский тоже)
- Нормально работает даже если у вас акцент, шумит кондиционер или запись сделана на картошку
- Умеет не только транскрибировать, но и переводить
- И да, код открытый — берите и допиливайте под себя
Кого будем тестить?
Итак, наша команда подопытных:
- Connecte.ai (PaaS) — это мы, с нашей интеграцией Whisper V3 Turbo
- Яндекс SpeechKit (PaaS) — решение от российского IT-гиганта
- Сбер SaluteSpeech (PaaS) — еще один представитель от большого российского бизнеса
- Shopot.ai (SaaS) — российский сервис с приятным интерфейсом
Shopot.ai я выбрал, забежав на ProductRadar. Переходим в каталог → находим раздел "Нейросети для транскрибации" там сейчас аж 26 разных транскрипторов! А ведь пару лет назад их можно было по пальцам пересчитать — рынок явно на подъеме.
- AssemblyAI (SaaS) — проверенный временем зарубежный сервис
Кстати, смотрел еще на Gladia.io, тоже много использовали раньше, но по функциям они очень похожи с AssemblyAI, так что решил не распыляться.
Сколько стоит счастье?
PaaS и SaaS часто берут деньги по-разному. Давайте глянем, кто сколько хочет за минуту транскрибации:
Сервис | Как считают | Сколько за минуту транскрибации |
---|---|---|
Connecte.ai | По времени работы GPU | 0,11 ₽ (0,045 ₽ за 1 секунду вычислений) |
SpeechKit | Посекундно | 0,60 ₽ |
SaluteSpeech | Пакетами | 1,20 ₽ (тариф Freemium), 0,60 ₽ (тариф Business при покупке сразу 20 000 минут) |
Shopot.ai | Месячная подписка | 1,95 ₽ (тариф "Старт" - 470 ₽ за 240 минут) |
AssemblyAI | По факту использования | 0,51 ₽ ($0,36 за 60 минут) |
Что смотрим?
Три главные штуки:
- WER (Word Error Rate) — насколько точно распознает слова
- Скорость — как быстро справляется с задачей
- Стоимость — сколько денег потратим
Что за зверь этот WER?
WER (Word Error Rate) — это стандартная метрика для оценки качества систем распознавания речи. Она измеряет процент слов, которые были распознаны неправильно.
Формула расчета:
WER = (S + D + I) / N × 100%
где:
- S — количество замен (слова заменены на другие)
- D — количество удалений (пропущенные слова)
- I — количество вставок (лишние слова)
- N — общее количество слов в эталонном тексте
Чем ниже WER, тем точнее распознавание. В наших таблицах для наглядности будем показывать точность, то есть 100% - WER.
Как тестировали
Все запросы гоняли асинхронно, с метками времени на каждое слово и с разделением спикеров (кроме Яндекса — он так не умеет из коробки, минус в карму).
Откуда данные?
Для честного теста нужны качественные размеченные данные. Решил взять штуку от Mozilla — проект Common Voice. Это такая классная штука, где кучи волонтеров наговаривают тексты, чтобы тренировать ИИ.
Скачал русскоязычный датасет от 19.03.2025 (84,56 МБ). Единственная проблема — там все порезано на 15-секундные фрагменты. Решение? Собрал их в один большой файл на 61 минуту и 2 секунды с разными дикторами. По аналогии склеил транскрипцию. Всё — аудио есть, транскрипция есть, можно тестить!
Сам аудиофайл:
Результаты: кто круче?
Вот что получилось на стандартном аудиофайле:
Сервис | Точность (100% - WER) | Скорость (сек) | Стоимость (₽) |
---|---|---|---|
Connecte.ai | 92.53% | 148.1 | 6.65 |
SaluteSpeech | 87.95% | 83.8 | 76.8 |
YandexSpeechKit | 91.42% | 270.09 | 36.63 |
Shopot.ai | 92.07% | 558.55 | 118.95 |
AssemblyAI | 91.43% | 266.43 | 32.17 |
Любопытный момент - у SpeechKit и Assembly все метрики плюс минус одинаковые, это как вообще - случайность? Тяжело придумать обоснование такому поведению.
А что с телефонными разговорами?
Усложним задачу - берем тот же самый аудиофайл и искусственно понижаем качество, имитируя телефонный разговор, и повторяем тесты. Всё-таки транскрибация телефонных разговоров, думаю, составляет большую часть всего рынка транскрибации. Для этого прогоним аудио через FFmpeg, используя такую команду:
ffmpeg -i input.mp3 -af "lowpass=3400,highpass=300,afftdn=nf=-20" phone_input.mp3
Эта команда обрезает высокие частоты выше 3400 Гц, низкие ниже 300 Гц и добавляет лёгкий шум — прям как настоящий телефон.
Результат:
Прогоняем, смотрим, что получилось:
Сервис | Точность (100% - WER) | Скорость (сек) | Стоимость (₽) |
---|---|---|---|
Connecte.ai | 91.90% | 160.3 | 7.21 |
SaluteSpeech | 87.47% | 107.15 | 76.8 |
YandexSpeechKit | 90.12% | 277.32 | 36.63 |
Shopot.ai | 90.79% | 465.32 | 118.95 |
AssemblyAI | 91.04% | 264.43 | 32.17 |
Итак, к чему мы пришли?
Connecte.ai
Самый выгодный вариант, объективно! Точность высокая (92.53% для обычной речи), скорость нормальная, а цена в 5-17 раз дешевле конкурентов. Если у вас большие объёмы данных и нужно как-то их обрабатывать потом — это ваш выбор. А для разовых задач есть наш Playground — загрузил файл и получил текст.
Shopot.ai
Веб интерфейс (api тоже есть), точность отличная (92.07%). Скорость низкая, ценник кусается. Зато умеет делать суммаризацию. Если у вас немного аудио и нужно через браузер — вполне подойдет.
AssemblyAI
Стабильный середнячок. Точность хорошая что для обычной (91.43%), что для телефонной речи (91.04%). Плюс целая куча дополнительных фишек на базе LLM — выделение ключевых моментов, анализ настроения говорящего, тематическая классификация и т.д. Но для российских пользователей нужно что то придумывать с оплатой, потому что сервис зарубежный.
Яндекс SpeechKit
Точность неплохая (91.42% для обычной речи), минус отсутствие диаризация в версии API V2. Перед отправкой запроса необходимо загружать аудиофайл на Yandex Object Storage. Если ваша инфрастуктура уже в контуре YaCloud, наверно, стоит рассмотреть.
Сбер SaluteSpeech
Самый шустрый из всех! Но с точностью проблемы (87.95% — самый низкий показатель). Плюс поддерживает всего три языка — русский, английский и казахский. Если вам важна скорость и не очень критична точность — может подойти.
Короче говоря
- Хотите дёшево и точно? → Connecte.ai
- Нужен анализ разговоров? → AssemblyAI
- Надо быстро-быстро? → SaluteSpeech
- Изредка транскрибируете через браузер? → Shopot.ai
- Уже в контуре YaCloud? → SpeechKit