Мы только что докатили v1.2 релиз наших enterprise-дистрибутивов (Silero Models Enterprise Edition, как я это называю по-английски).

Публичный changelog я выложил сюда (основная часть документации сейчас приватна), пройдите по ссылке если интересно.

Что вошло в релиз

Тут наверное более неформально напишу, что этот релиз (у нас получается делать мажорный релиз примерно раз в квартал) соединяет в себе много наших публичных и приватных наработок, в частности:

  • STT модели (в релиз Silero Models EE на русском вошла уже 20-я версия русской STT модели). Больше почитать про наши STT модели вы можете тут;
  • TTS модели. Мы недавно сделали пару довольно популярных статей на эту тему - раз, два;
  • В релиз также вошел gRPC интерфейс, основанный не в последнюю очередь на нашем VAD-e (репозиторий, статья);

Улучшение качества STT

Больше вы сможете прочитать в статье по ссылке выше, а тут кратко:

  • Прошлая модель - это наша прошлая лучшая модель за АПИ (большая);
  • Bleeding edge - это лучшая на момент написания статьи модель, которая не была готова к продакшену;
  • xlarge_v012 и small_v012_q это соответственно GPU и CPU модели вошедшие в релиз. Из приятного, маленькая модель перестала грустить из-за квантизации и почти догнала прошлую большую модель;
Прошлая модель Bleeding Edge xlarge_v012 small_v012_q
Чтение 7 6 5.8 8.7
Справочная 16 11 10.9 14.6
Такси 13 12 11.6 16.7
Публичные выступления 14 12 12.3 17.4
Радио 18 15 15.7 21.3
Суд 20 20 17.7 22.9
Аудио книги 24 20 20 25.2
Справочная 25 20 21 26.7
Аэропорт 21 22 21.5 27.1
Финансы (оператор) 25 24 21.8 27.5
YouTube 28 25 23.6 30.6
Умная колонка 30 27 25.3 31.9
Умная колонка (далеко) 41 27 27.2 35.3
E-commerce 29 29 28 35.5
Yellow pages 32 29 30 35.9
Диспетческая 41 32 32.2 39.2
Медицинские термины 35 33 32.7 39.7
Банк 39 35 36.3 40.9
Пранки 41 35 36.4 43.8
Стихи, рэп 43 41 46.2 53.1
Average 27.1 23.75 23.81 29.7