Эта статья - это логическое завершение оригинальной статьи про качество систем STT и ее продолжения.

В этот раз хотелось бы рассказать буквально про несколько вещей:

  • Наша система для русского языка приросла по качеству, но пока нам кажется, что качество уже немного выходит на плато;
  • Как нам кажется в большинстве доменов с достаточным количеством данных мы прошли 95+% пути. Остается буквально пара непокрытых доменов;
  • В этот раз мы сравниваем значения только хорошо генерализующихся систем, то есть систем которые уже сразу хорошо работают "из коробки" практически на любых данных. То есть условно нет такого, что на одном домене система работает хорошо, а на другом - очень плохо. Результаты должны быть хорошие или средние. До недавнего времени этому критерию удовлетворяли только Tinkoff, Google и Yandex (самый аутсайдер из этой тройки). Их мы только и берем;

Как изменилось наше качество

То, чего не видно в цифрах - это в основном работа над скоростью моделей и устойчивостью (про это можно почитать тут) и над другими языками (уже совсем скоро, вас ждут сюрпризы).  Довольно много внимания мы уделили тому, чтобы улучшить наш результат на такси. В остальном - на многих доменах уже просто не хватает данных и разметки и есть некий предел по генерализации.

Домен Наш WER (1) Наш WER (2) Наш WER (3)
Чтение 10% 7% 7%
Звонки (такси) 13% 12% 11%
Публичные выступления 15% 13% 13%
Радио 18% 17% 17%
Заседания суда 21% 19% 19%
Аудио книги 27% 23% 22%
YouTube 31% 26% 26%
Звонки (e-commerce) 32% 31% 30%
Yellow pages 33% 33% 33%
Медицинские термины 40% 36% 36%
Звонки (пранки) 41% 37% 36%

Текущие метрики систем на рынке

Тут особо не вижу смысла растекаться, пожалуй можно только заметить, что Яндекс перестал быть заведомым аутсайдером и явно нашел какой-то корпус корпоративных звонков, наверное неспроста они ходят питчат толоку по рынку. Про конкретный домен сказать тяжело, но похоже на телефонию какой-то крупной компании.

Еще важно заметить, что в этот раз мы не ставили целью покрыть вообще все системы, которые есть на рынке в принципе. Для каждого провайдера мы использовали лучшую из имеющихся в публичном доступе (т.е. покупаемую за деньги без strings attached) модель. Я до конца не уверен, является ли эта новая модель Яндекса их приватной моделью, про которую они рассказывали, но Google-модель точно имела слово "premium" в цене, что отразилось в ее цене - она в несколько раз дороже.