Американские ученые представили новый способ автоматического определения подмены лиц на видео. Их алгоритм, обученный на примерах реальных видео с речью людей, определяет подделку по движениям головы и мимике лица. Система, которая была представлена на конференции CVPR 2019, пока что работает только на примере пяти американских политиков, а его точность составляет 92 процента.
Алгоритмы, которые могут эффективно переносить информацию между изображениями или видео, существуют достаточно давно. В последние несколько лет они также очень активно развиваются, из-за чего растет риск того, что подобные технологии будут использованы во вред людям. Разумеется, параллельно с алгоритмами, которые все лучше и лучше накладывают маски человеческих лиц на видео и статичные изображения, разрабатываются и алгоритмы, которые могут успешно распознать подобную подмену (при этом их результаты, разумеется, в дальнейшем используются для того, чтобы улучшить работу оригинальных алгоритмов).
При этом все уже известные способы определения подмены лиц на видео опираются на поиск внешних дефектов, которые могут появиться при наложении маски лица (например, неровные края). При сравнительно низком качестве видео такие дефекты, однако, могут остаться незаметными, из-за чего сильно снижается эффективность распознавания.
Именно поэтому для распознавания подобных подмен на фотографиях и видео эффективнее было бы использовать другие видимые признаки, перенести которые не так просто. При создании своего алгоритма исследователи под руководством Шрути Агарваль (Shruti Agarwal) из Калифорнийского университета в Беркли решили сосредоточиться на распознавании движений головы и отдельных мимических признаках. Для упрощения задачи исследователи сосредоточились на определении подмены лиц определенных людей, а именно — пяти американских политических деятелей: Хилари Клинтон, Берни Сандерса, Барака Обамы, Дональда Трампа и Элизабет Уоррен.
Для алгоритма разработчики создали датасет из схематичных мимических изменений лиц и поворота головы политиков при разговоре на видео: для этого авторы использовали открытый инструмент OpenFace2. С помощью метода опорных векторов исследователи обучили классификатор, который определяет подделку на видео. В качестве основного материала для тестирования алгоритма разработчики создали десятисекундные видео, на которых лица политиков были наложены на видеоряды со сторонними людьми с помощью генеративно-состязательных нейросетей.
В результате разработчикам удалось определять подмену лиц на видео с точностью до 92 процентов. Исследователи отмечают, что их алгоритм пока что неидеален, и хорошо справляется только с видеофрагментами, на которых говорящий смотрит прямо в камеру, и не сможет распознать подмену лиц на видео, где человек изображен, например, в профиль. Для решения этой проблемы необходимо сделать алгоритм контекстно-независимым (то есть работающим для любого положения головы) с помощью расширения датасета для обучения. Это же поможет решить и другую проблему — то, что на данный момент такое определение подмены работает только для пяти человек.
Елизавета Ивтушок.