Тут пожалуй только хотел довести до логического завершения то, что начал. Есть еще идеи, как сделать саму систему в пару раз легче и существенно все упростить, но напишем об этом когда сделаем!

Если довести квантизацию до конца, то пока в модельных условиях можно получить такие относительные падения времени обработки данных (все тесты сделаны на 100 аудио 10 секундной длины):

Batch size Add partial int8 Add fusion Add full Int8 Total
1 14% 4% 21% 42%
5 16% 15% 12% 48%
10 15% 14% 8% 41%
25 15% 20% 4% 44%

Все результаты в этой таблице - это последовательные относительные приросты путем постепенного накручивания фич (то есть их можно и нужно складывать). Вообще довольно неплохо при прочих равных получить ускорение почти в 2 раза (то есть снижение времени на 50%).

Посмотрим как они будут вести себя в реальном продакшене на реальных многоядерных серверах. Также мы запилили ряд фич при тренировке моделей, которые должны сделать модели еще более устойчивыми к шуму.

И еще немного графиков

И если вы не заскучали, то вот еще немного красивых графиков.