Это список технологий, которые мы используем / освоили / успешно применяли в проектах, которые дошли до продакшен применения. Они могут пригодиться и в вашем проекте. Что-то написано совсем с нуля, что-то является просто кастомизацией общедоступного.

Speech

  • Датасет Open STT и многочисленные его приватные расширения;
  • Уникальная акустическая модель (из речи в буквы) для русского языка. Скоро будет около-научная статья.  Очень быстрая, требует мало ресурсов для тренировки, можно использовать как в облаке, так и on-premise, детали тут;
  • Пост-процессинг для акустической модели, который также легко настраивается под конкретный домен просто списком терминов;
  • Внутренний тулкит для быстрого майнинга речевых корпусов;

Computer Vision (CV)

  • Сейчас этим никого не удивишь, но так или иначе у нас есть опыт успешного применения CV нейросеток в классификации и семантической сегментации (маски). Есть бойлерплейт для любых типовых задач кроме детекции объектов и генерации картинок;

Natural Language Processing (NLP)

  • Минималистичный пайплайн для sequence-to-sequence моделирования, также поддерживающий laser-tagger подход;
  • Свой аналог геокодера, построенный на открытых данных, который может обрабатывать ограниченный набор цепочек в произвольной спонтанной речи (в основном цепочки город - улица - дом);
  • Токенизация для русского языка, учитывающая изменения слов - склонения / спряжения / падежи. Работает сильно лучше, чем стандартные подходы;
  • Публично опубликованная нормализация ("2020-й "=> "две тысячи двадцатый") для русского языка на основе правил и на основе нейросетей;
  • Денормализация ("сто пятнадцать"=> "115") для русского языка на основе правил и грамматик;
  • Правка пунктуации и правописания на основе нейросетей;

Общие вещи

  • Бойлерплейт для высоко-нагруженного АПИ с поддержкой асинхронной работы с видеокартами и распределенной архиктурой;
  • Набор докерфайлов для работы командой и быстрого поднятия рабочих окружений для Deep Learning (DL) / Machine Learning (ML) работы;