Суть

Когда человек что-то говорит, система распознавания речи должна получать на вход текст как он произносится, а не как обычно пишется. Этому уделяется довольно мало внимания в публичном поле, но для нормализации всех языков кроме англйиского практически нет готовых систем. В принципе это задача довольно необъятная и бездонная, поэтому мы опубликовали систему, которая по принципу 20-80 обрабатывает 95% кейсов из наших текстовых корпусов.

Итоги

Мы упаковали свой пайплайн нормализации в нейросеть, которая работает по принципу теггинга и правит только ту часть фразы, которая требует нормализации. Мы опубликовали ее в виде TorchScript контейнера для PyTorch.

Технические Детали и Ссылки

Russian Text Normalization for STT and TTS
Russian text normalization for speech-to-text and other applications based on tagging s2s networks Статьи автора - http://spark-in.me/author/islanna Блог - http://spark-in.me
Нормализация текста в задачах распознавания речи
При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говор...
snakers4/russian_stt_text_normalization
Russian text normalization pipeline for speech-to-text and other applications based on tagging s2s networks - snakers4/russian_stt_text_normalization

Пример

Пример работы системы нормализации