🚀 2019 Open STT 1.0

Last updated on 11 мар. 2020 г.

В конце 2019 года мы опубликовали релиз 1.0 наверное самого крупного на тот момент нашего достижения - самого большного открытого датасета русской речи в мире.

Кратко об Open STT v1.0

Более 20 000 часов (изначально мы ставили себе планку в 10 000 часов) аудио русской речи, 2.3 Tb данных (в формате wav);
Большое разнообразие доменов: начиная с аудио, записанных на профессиональный микрофон, заканчивая телефонными звонками:

Домен	Разметка	Фразы	Часы	GB
Радио	Alignment	8,3М	11,996	1367
Публичная речь	Alignment	1,7M	2,709	301
Youtube	Субтитры	2,6М	2,117	346
Книги	Alignment/ASR	1,3М	1,632	180
Звонки	ASR	695K	819	91
Другие датасеты	TTS, начитывание	1.9M	835	95

Теперь данные можно скачать на высокой скорости как в .wav(mono, 16KHz, int16) формате через торрент, так и по прямой ссылке в .mp3;
Добавили небольшой вручную размеченный валидационный датасет (18 часов) для 3х основных доменов;

Более детально со статистикой можно познакомиться в репозитории проекта.

Ссылки: