Эта статья - это небольшое обновление оригинальной статьи про качество систем STT. Мы бы хотели обновить метрики по нашей системе и поправить небольшую неточность, которую мы допустили в методологии оригинальной статьи. Мы не обновляли метрики всех остальных систем, т.к. это довольно трудоемкая работа, и мы планировали скорее сделать это опубликовав небольшой публичный тулкит для этой цели в будущем.

С прошлого раза изменилась пара вещей:

  • Наша система для русского языка сильно приросла по качеству;
  • Как нам кажется в большинстве доменов с достаточным количеством данных мы прошли 90-95% пути;
  • Мы обнаружили, что на ряде доменов мы неверно считали метрики - наша система не выдает букву ё, а в разметке некоторых доменах она присутствует. По этой причине метрики были искусственно занижены;

Как изменилось качество

По сравнению с прошлой статьей на основных доменах качество изменилось следующим образом:

Домен Наш WER (было) Наш WER (стало) Улучшение
Чтение 10% 7% 3%
Звонки (такси) 13% 12% 1%
Публичные выступления 15% 13% 2%
Радио 18% 17% 1%
Заседания суда 21% 19% 2%
Аудио книги 27% 23% 4%
YouTube 31% 26% 5%
Звонки (e-commerce) 32% 31% 1%
Yellow pages 33% 33% -
Медицинские термины 40% 36% 4%
Звонки (пранки) 41% 37% 4%

Текущие метрики

Метрики других систем в этой итерации не обновляли.