Суть

Юзеры заливают много картинок. Картинки должны пройти автоматическую модерацию, т.к. сами модеры не успевают вручную все просматривать. Интересуют 2 основные типа контента - NSFW и фотографии контактов. Типичная бизнес-задача (все как мы любим):

  • C очень дисбалансными выборками;
  • Отсутствием реально размеченных данных и четких критериев NSFW;
  • Мягко говоря странными и устаревшими state-of-the-art решениями;
  • Отсутствием нормальных публичных датасетов;

Ситуацию не упрощает тот факт, что некоторые типы "спорного" контента (младенцы которым делают массаж, эпилированные лобки с прикрытыми половыми губами, татуировки) формально могут являться допустимым.

Итоги

Сделали с нулем (!!! в supervised learning !!!) потраченных денег на разметку, отдали заказчику, задеплоили. Получился хороший баланс между precision и recall за счет комбинирования разных датасетов и использования семантической сегментации для ряда голов нейросетки.

В итоге получилось:

  • Красиво;
  • Быстро;
  • Минималистично;

Технические детали

Некоторые детали можно почитать тут.

Картиночки

Святая Александра смотрит на вас с упреком