В конце 2019 года мы опубликовали релиз 1.0 наверное самого крупного на тот момент нашего достижения - самого большного открытого датасета русской речи в мире.

Кратко об Open STT v1.0

  • Более 20 000 часов (изначально мы ставили себе планку в 10 000 часов) аудио русской речи, 2.3 Tb данных (в формате wav);
  • Большое разнообразие доменов: начиная с аудио, записанных на профессиональный микрофон, заканчивая телефонными звонками:
Домен Разметка Фразы Часы GB
Радио Alignment 8,3М 11,996 1367
Публичная речь Alignment 1,7M 2,709 301
Youtube Субтитры 2,6М 2,117 346
Книги Alignment/ASR 1,3М 1,632 180
Звонки ASR 695K 819 91
Другие датасеты TTS, начитывание 1.9M 835 95
  • Теперь данные можно скачать на высокой скорости как в .wav(mono, 16KHz, int16) формате через торрент, так и по прямой ссылке в .mp3;
  • Добавили небольшой вручную размеченный валидационный датасет (18 часов) для 3х основных доменов;

Более детально со статистикой можно познакомиться в репозитории проекта.

Ссылки:

snakers4/open_stt
Russian open STT dataset. Contribute to snakers4/open_stt development by creating an account on GitHub.
Огромный открытый датасет русской речи версия 1.0
В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начинал...