Помните сцену из легендарного фильма Стэнли Кубрика "Сияние", когда обезумевший писатель Джек Торренс (Джек Николсон), прорубает топором дверь, пытаясь попасть в ванную, где спрятались его сын и жена? Он просовывает голову внутрь и, скалясь, кричит: "А вот и Джонни!".



Сцена из фильма стала культовой, а пару месяцев назад в сети появились ролики, где вместо лица Николсона при помощи алгоритма машинного обучения было "подрисовано" лицо Джима Керри. Актёр двигался, разговаривал и точь-в-точь повторял мимику персонажа Николсона.

Loading...

Подмена лиц в видео быстро набрала обороты и получила название deepfake (конкатенация слов "глубинное обучение" (англ. Deep learning) и "подделка" (англ. Fake). И технология так и осталась бы забавой, но вскоре в Сети стали появляться ролики с политиками. Как оказалось, чехарда с "подрисовыванием" лиц представляет куда большую угрозу, ведь злоумышленники вполне могут использовать такой подход в информационных войнах или мести, тем более что отличить deep fakes от реальной картинки становится все сложнее.

Что такое deepfake?

Искусственный интеллект deepfake использует синтез человеческого изображения – объединяет несколько картинок, на которых человек запечатлен с разных ракурсов и с разным выражением лица, и делает из них видео. Анализируя фотографии, специальный алгоритм "учится" тому, как выглядит и может двигаться человек.

Читайте также: Резиновый экран и управление силой мысли. Чего ещё ждать от смартфонов будущего?

Работают две нейросети. Первая генерирует образцы изображения, а вторая отвечает за то, чтобы отличать настоящие образцы от поддельных. Технологию можно сравнить с работой двух фальшивомонетчиков, один из которых подделывает купюры, а второй пытается отличить эти подделки от оригиналов. В случае если второй обнаруживает подделку, изображение отсылается первому, который улучшает свою работу, предлагая более реалистичную подделку.

Сервисы deepfake работают при помощи открытых алгоритмов машинного обучения и библиотек, за счёт чего нейросеть может не только обучиться, но и достичь "почти человеческого" качества. Нейросеть получает изображения из библиотеки и "учится" при помощи роликов на том же YouTube. Искусственный интеллект тем временем сопоставляет фрагменты исходных портретов с тем, что есть на видео, и в итоге мы получаем максимально правдоподобную картинку.

Поддельные видеоролики стали появляться в 2017-м году, когда один из пользователей социального сервиса Reddit с ником Deepfakes разместил у себя на страничке видео для взрослых, где вместо настоящего лица актрисы было "подрисовано" лицо исполнительницы роли Чудо-женщины Галь Гадот. Позже подобная технология также была использована для ролика, где экс-президент США Барак Обама нецензурно выражался и оскорблял Дональда Трампа. Лицо экс-президента просто наложили на лицо актёра Джордана Пила. Получилось правдоподобно.

В чём тут опасность?

С распространением deep fake появилась опасность дискредитации любого пользователя, фото которого есть в сети. Первыми под огонь попали публичные личности, изображений которых достаточно много в открытом доступе. Например, лицо актера Николаса Кейджа давно стало мемом, а сам он известен неразборчивостью в выборе ролей. Благодаря deep fake лицо Николаса Кейджа поместили практически во все эпизоды известных фильмов. Например, он стал Лоис Лейн из "Человека из стали":



Учитывая количество фото, которые мы заливаем в социальные сети, недостатка в материале для deep fake нет. Проблема в том, что в будущем пользователи, которые не смогут доказать, что их не было на определённом видео, может, например, грозить тюремный срок.

По мнению Адиля Жалилова, руководителя factсheck.kz, в зависимости от контента такие видео могут быть как безобидными, так катастрофически опасными.

"Предположим, что, учитывая напряжённые отношения между этносами, религиозными группами, кто-то зальет в социальные сети видео, где представитель той или иной группы высказывает оскорбительные мнения или осуществляет действия, которые могут быть восприняты как оскорбление", – говорит он.

По его словам, если население будет не в курсе о возможностях и вообще о существовании deep fakes, то любое такое поддельное видео с провокационным контентом может "вложить в уста" любому политику или представителю какого-либо этноса любой месседж. Это может породить деструктивный импульс и спровоцировать конфликты. Любая попытка властей реагировать, объяснить технологию deep fakes постфактум будет запоздалой в такой ситуации.

Можно ли распознать deepfake?

Видео с применением deepfake выглядят убедительно только в течение пары-тройки секунд, но они (во всяком случае, пока) далеки от того, чтобы обмануть пользователей.

Если присмотреться к таким роликам внимательней, то можно заметить, что, например, "подрисованные" лица на видео не моргают.

Эффект постоянно открытых глаз связан с недостатками процесса создания таких роликов. Дело в том, что среди картинок, по которым обычно учится нейросеть, не так много (на самом деле их нет вообще) фотографий с закрытыми глазами. Пользователи вряд ли хранят или выкладывают в сеть неудачные селфи, на которых они моргают.

Адиль Жалилов отмечает, что в перспективе распознавать deep fakes можно будет путём анализа движения глаз и амплитуды моргания.

"Предполагаю, что найдутся и другие методы распознавания поддельных видео. И очень важно, чтобы эти методы были простыми и прикладными, доступными для общества. Также важно всем государствам активно развивать и поддерживать фактчекинг, специализирующийся на борьбе с дезинформацией, а также медиаграмотность, куда включать обучение всего населения в том числе по распознаванию поддельных изображений и видео", – говорит Жалилов.

Читайте также: Что такое Big data, и почему вам стоит беспокоиться о безопасности личных данных

Чтобы распознать deepfake, учёные из Университета Олбани провели эксперимент, в котором выявили, что в среднем люди моргают 17 раз в минуту. Эта цифра увеличивается до 26 раз во время разговора, и падает до 4,5 раз во время чтения. Эти же учёные предложили свой метод распознавания фейковых видеороликов, объединив две нейронные сети, для того чтобы более эффективно распознавать ненастоящие лица. Как выяснилось, нейронные сети часто упускают спонтанные и непроизвольные физиологические действия. Например, дыхание во время речи или движение глаз.

"Так как многие из политиков, вероятно, читают текст своей речи, когда их снимают. Когда спикер на видео не моргает вообще, легко определить, что такие кадры являются фейком", – говорит профессор Люй, возглавивший исследование Университета Олбани.

Профессор отмечает, что стандарты проверки доказательств deep fake должны развиваться параллельно улучшению поддельных видео, иначе однажды мы вообще не сможем доверять видеоконтенту.