Недавно мы сделали мажорный релиз нашей системы синтеза речи V3.  В этой версии мы внесли огромное число улучшений:

  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;
  • Добавили 20 языков и более 170 голосов;

Наша система синтеза живет внутри нашего проекта Silero Models тут и мы написали про нее отличные и подробные посты, которые вновь стали очень популярными на Хабре:

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек
В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество....
Теперь наш синтез на 20 языках
В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много...

Сейчас проще всего послушать наш синтез можно:

  • Через колаб - Google Colaboratory;
  • Можно послушать многочисленные примеры в самих статьях;
  • В ближайшее время подъедет бот в Телеграме;

Следите за нашими релизами: