Привет, на связи Шерпа Роботикс. Сегодня мы перевели для вас статью Мелиссы Хейккиля — старшего репортёра MIT Technology Review, где она освещает темы искусственного интеллекта и того, как он меняет наше общество. Чтобы написать эту статью Мелисса прошла через процедуру создания цифрового двойника с помощью стартапа Synthesia.
Новая технология Synthesia впечатляет, но порождает серьезные вопросы о мире, где все труднее отличить реальность от вымысла. Стартап по искусственному интеллекту создал гиперреалистичную глубокую подделку автора статьи, настолько правдоподобную, что она пугает.
В статье Мелисса рассуждает о том, как отличить реальность от вымысла в эпоху синтетических медиа и как это повлияет на нашу жизнь в будущем.
Я нервничаю и опаздываю. Ведь что надеть на вечность? Звучит так, будто я умираю, но все наоборот. Я, в некотором смысле, собираюсь жить вечно, благодаря AI-видеостартапу Synthesia. Уже несколько лет компания создает аватары с использованием искусственного интеллекта, а в апреле представила обновление, первое, которое использует последние достижения в генеративном искусственном интеллекте. Новая версия невероятно реалистична и выразительна, как ничто другое, что я видела. Поскольку новый релиз позволит практически каждому создать своего цифрового двойника, компания согласилась создать цифровую версию меня в начале апреля, до того, как технология станет доступна публике.
Когда я наконец добралась до стильной студии компании в восточном Лондоне, меня встретил Тосин Ошинеми, руководитель производства. Он будет руководить и направлять меня через процесс сбора данных — а под "сбором данных" я понимаю захват моих черт лица, манер и т.д. — так же, как он обычно делает для актеров и клиентов Synthesia. Он знакомит меня с стилистом и визажистом, и я ругаю себя за то, что потратила столько времени на подготовку. Их задача — убедиться, что люди одеты так, чтобы хорошо смотреться на камеру, и чтобы их внешний вид был неизменным от кадра к кадру. Стилист говорит, что мой наряд в порядке (слава богу), а визажист корректирует макияж.
Гримерная украшена сотнями улыбающихся фото людей, которые до меня были “клонированы” с помощью этой технологии. За исключением маленького суперкомпьютера, который жужжит в коридоре и обрабатывает данные, сгенерированные в студии, все это больше похоже на поход в новостную студию, чем на посещение фабрики по созданию двойников.
Я шучу с Ошинеми, что MIT Technology Review могло бы назвать должность "директор по созданию дипфейков".
"Мы предпочитаем термин "синтетические медиа", а не "дипфейк", — говорит он.
Это тонкое, но, по мнению некоторых, значительное различие в семантике. Оба термина означают AI-генерированные видео или аудиозаписи людей, которые делают или говорят что-то, что не обязательно произошло в реальной жизни. Но дипфейки имеют дурную славу. С момента своего появления почти десять лет назад этот термин стал обозначать нечто неэтичное, говорит Александру Войча
Synthesia, стартап, работающий над созданием аватаров с использованием искусственного интеллекта, заявляет, что её новая технология способна создать настолько реалистичные изображения людей, что они практически неотличимы от настоящих. Но насколько этичная и безопасна эта технология?
Благодаря быстрому прогрессу в генеративном ИИ и обилию обучающих данных, созданных актёрами и предоставленных модели, Synthesia сумела создать аватары, которые более реалистичны и выразительны, чем их предшественники. Цифровые клоны лучше подбирают реакции и интонацию в соответствии с настроением сценария, более оптимистично рассказывая о радостных вещах и становясь серьезнее и печальнее, когда речь идёт о неприятных. Они также лучше справляются с подбором мимики — тех едва заметных движений, которые могут рассказать о нас без слов.
Однако этот технологический прогресс также сигнализирует о гораздо более масштабном социальном и культурном сдвиге. Всё большее количество того, что мы видим на экранах, генерируется (или, по крайней мере, редактируется) ИИ, и становится всё труднее отличить реальность от вымысла. Это подрывает наше доверие ко всему, что мы видим, и это может иметь очень реальные и опасные последствия.
"Я думаю, что нам просто придется попрощаться с быстрым получением правдивой информации", — говорит Сандра Вахтер, профессор Оксфордского интернет-института, исследующая правовые и этические последствия ИИ. "Мысль, что вы можете просто быстро что-то погуглить и узнать, что правда, а что вымысел – в корне не верна".
Так что, хотя я была взволнована тем, что Synthesia сделает мой цифровой двойник, я также задавалась вопросом, действительно ли различие между синтетическими медиа и дипфейками имеет значение. Даже если первые сосредоточены на намерениях создателя и, что важно, согласии субъекта, действительно ли есть способ сделать аватары ИИ безопасными, если конечный результат тот же? И действительно ли мы хотим выйти из Зловещей долины, если это означает, что мы больше не можем понять где правда, а где аватар?
За месяц до поездки в студию я посетила Виктора Рипарбелли, генерального директора Synthesia, в его офисе недалеко от Оксфорд-Серкус. По словам Рипарбелли, история Synthesia началась с его увлечения авангардной, "гиковской" техно-музыкой, которой он увлекался, пока рос в Дании. Интернет позволял ему скачивать программное обеспечение и создавать свои собственные песни, не покупая дорогие синтезаторы. "Я считаю правильным давать людям возможность выражать себя так, как они хотят, мы заслужили такой мир", — говорит он. Он увидел возможность сделать нечто подобное и с видео, когда наткнулся на исследования по использованию глубокого обучения для переноса выражения лица с одного человека на другого на экране.
Компания Synthesia, специализирующаяся на создании аватаров с использованием искусственного интеллекта, добилась значительного прогресса, создав видео, которые практически неотличимы от реальности. Но что это значит для будущего контента и нашего восприятия информации?
Synthesia — стартап из Европы, сумевший привлечь инвестиции и получить оценку в более чем $1 миллиард долларов. Это один из немногих европейских AI-стартапов, достигших такого успеха. Первое поколение аватаров Synthesia было неуклюжим, с повторяющимися движениями и небольшим разнообразием. В последующих версиях аватары стали более человечными, но всё ещё не могли произносить сложные слова, а их движения иногда были не синхронными.
Проблема в том, что люди привыкли смотреть на лица других людей. "Мы знаем, как выглядят настоящие люди", — говорит Джонатан Старк, технический директор Synthesia. С самого детства мы "настроены на людей и их лица. Даже малейшая неточность бросается в глаза".
Эти ранние AI-генерированные видео, как и дипфейки в целом, создавались с использованием генеративно-состязательных сетей, или GAN — более старой технологии для генерации изображений и видео, которая использует две нейронные сети, которые играют друг против друга. Это был трудоемкий и сложный процесс, а технология была нестабильной.
Но во время бума генеративного ИИ в прошлом году компания обнаружила, что может создавать аватары лучше, используя генеративные нейронные сети, которые более стабильно создают изображения более высокого качества. Чем больше данных "скармливают" этим моделям, тем лучше они учатся. Synthesia использует для этого как большие языковые модели, так и модели диффузии; первые помогают аватарам реагировать на сценарий, а вторые генерируют пиксели.
Несмотря на скачок в качестве, компания всё ещё не позиционирует себя как игрок на рынке развлечений. Synthesia делает ставку на то, что по мере того, как люди всё больше времени проводят за просмотром видео на YouTube и TikTok, спрос на видеоконтент будет расти. Молодые люди уже пропускают традиционный поиск и выбирают TikTok для получения информации, представленной в виде видео. Рипарбелли утверждает, что технология Synthesia может помочь компаниям превратить скучную корпоративную коммуникацию, отчеты и учебные материалы в контент, который люди действительно будут смотреть и с которым будут взаимодействовать.
Он утверждает, что технология Synthesia используется в 56% компаний из списка Fortune 100, причем подавляющее большинство из них используют её для внутренней коммуникации. Компания называет Zoom, Xerox, Microsoft и Reuters своими клиентами. Стоимость услуг начинается от $22 в месяц. Компания надеется, что это будет более дешевая и эффективная альтернатива профессиональных видео — и такая, которая может быть практически неотличима от него. Рипарбелли говорит, что его самые новые аватары могли бы легко обмануть человека, заставив его думать, что они настоящие.
"Я думаю, мы уже на 98% достигли этого", — говорит он.
Synthesia стремится к созданию AI-аватаров с согласия людей, но технология всё ещё уязвима для злоупотреблений. Компания вводит меры для борьбы с дезинформацией и неправомерным использованием своей технологии.
Процесс создания AI-аватаров в Synthesia отличается от того, как создаются многие другие аватары, дипфейки или синтетические медиа, как бы вы их ни назвали.
Большинство дипфейков создаются не в студии. Исследования показывают, что подавляющее большинство дипфейков в Интернете — это сексуальный контент без согласия, обычно использующий изображения, украденные из социальных сетей. Генеративный ИИ сделал создание таких дипфейков лёгким и дешёвым, и в США и Европе было зафиксировано несколько громких случаев, когда дети и женщины становились жертвами такого злоупотребления. Эксперты также предупреждают, что технологию можно использовать для распространения политической дезинформации, что особенно актуально в свете рекордного количества выборов, проходящих в мире в этом году.
Политика Synthesia заключается в том, что компания не создаёт аватаров людей без их явного согласия. Однако она не застрахована от злоупотреблений. В прошлом году исследователи обнаружили прокитайскую дезинформацию, созданную с использованием аватаров Synthesia и представленную как новости, что, по заявлению компании, нарушало её условия обслуживания.
С тех пор компания внедрила более строгие системы верификации и модерации контента. Она вводит водяной знак с информацией о том, где и как были созданы видео с AI-аватарами.
В исследовании ИИ есть поговорка: "Мусор на входе, мусор на выходе". Если данные, которые использовались для обучения модели ИИ, — это мусор, это отразится на результатах работы модели. Чем больше точек данных модель ИИ "захватила" о движениях лица, микровыражениях, наклонах головы, морганиях, пожиманиях плечами и махании руками, тем более реалистичным будет аватар.
Находясь в студии, я изо всех сил стараюсь. Я стою перед зелёным экраном, и Ошинеми направляет меня через процесс первоначальной калибровки, где я должна двигать головой, а затем глазами круговыми движениями. По-видимому, это позволит системе понять мои естественные цвета и черты лица. Затем меня просят произнести фразу "Все мальчики съели рыбу", что позволит захватить все движения рта, необходимые для формирования гласных и согласных. Мы также снимаем кадры, где я просто молчу. Затем он просит меня прочитать сценарий для вымышленного YouTube-канала разными тонами, направляя меня по спектру эмоций, которые я должна передать. Сначала я должна прочитать его нейтрально, информативно, затем ободряюще, затем раздраженно и жалуясь, и, наконец, взволнованно, убедительно. Мы снимаем несколько дублей с разными вариациями сценария. В некоторых версиях мне разрешают двигать руками. В других Ошинеми просит меня держать металлический пин между пальцами, пока я это делаю.
Исторически сложилось, что заставить AI-аватары выглядеть естественно и согласовать движения губ с речью было очень сложной задачей, говорит Дэвид Барбер, профессор машинного обучения из Университетского колледжа Лондона, который не участвует в работе Synthesia. Дело в том, что задача выходит далеко за рамки движений губ; нужно думать о бровях, всех мышцах лица, пожимании плечами и многочисленных мелких движениях, которые люди используют для выражения себя.
Synthesia работает с актёрами, чтобы обучить свои модели с 2020 года, и их двойники составляют 225 стандартных аватаров, которые доступны клиентам для анимации собственными сценариями. Но чтобы обучить своё последнее поколение аватаров, Synthesia понадобилось больше данных; за последний год она работала с примерно 1000 профессиональными актёрами в Лондоне и Нью-Йорке. (Synthesia утверждает, что не продаёт собранные данные, хотя она публикует часть из них для академических исследований.)
Synthesia прилагает усилия для предотвращения злоупотребления своей технологией, вводя строгие правила и системы модерации контента. Но насколько эти меры эффективны в борьбе с дезинформацией?
Synthesia, стремясь предотвратить неправомерное использование своих AI-аватаров, внедрила строгие правила и системы модерации контента. Вместо четырёх сотрудников, занимавшихся модерацией контента, теперь 10% из 300 сотрудников компании выполняют эту работу. Компания также наняла инженера для создания более совершенных систем модерации контента на основе ИИ.
Эти фильтры помогают Synthesia проверять всё, что её клиенты пытаются генерировать. Всё подозрительное или неоднозначное, например, контент о криптовалютах или сексуальном здоровье, передаётся на рассмотрение человеческим модераторам контента. Synthesia также ведёт записи обо всех видео, которые создаёт её система.
И хотя любой может присоединиться к платформе, многие функции недоступны, пока люди не пройдут обширную систему проверки, аналогичную той, что используется в банковской сфере, которая включает беседу с отделом продаж и подписание юридических контрактов, говорит Войча. Пользователи начального уровня могут создавать только контент о фактах, а только корпоративные клиенты, использующие индивидуальные аватары, могут создавать контент, содержащий личные мнения. Кроме того, только аккредитованные новостные организации могут создавать контент на актуальные темы.
"Мы не можем утверждать, что мы совершенны. Если люди сообщают нам о чём-то, мы быстро реагируем [например, запрещая или ограничивая доступ] отдельным лицам или организациям", — говорит Войча. Но он считает, что эти меры действуют как сдерживающий фактор, поэтому большинство злоумышленников используют инструменты с открытым исходным кодом.
Я проверила некоторые из этих ограничений, когда отправилась в офис Synthesia для следующего этапа процесса создания своего аватара. Чтобы создать видео с моим аватаром, я должна написать сценарий. Используя аккаунт Войча, я решила использовать отрывки из "Гамлета". Я также попыталась заставить своего аватара прочитать новости о новых санкциях Европейского союза против Ирана. Войч сразу же написал мне сообщение: "Ты влипла!"
Система заблокировала его аккаунт за попытку создания контента, который запрещён. Предложение услуг без этих ограничений было бы "отличной стратегией роста", ворчит Рипарбелли. Но "в конечном итоге у нас очень строгие правила относительно того, что вы можете создавать, а что нет. Мы считаем, что правильный подход к внедрению этих технологий в обществе — быть строгим".
Тем не менее, даже если эти ограничения будут действовать идеально, в конечном итоге интернет всё равно станет местом, где всё фальшиво. И мой эксперимент заставляет меня задуматься, как мы можем подготовиться к этому. Наш информационный ландшафт уже кажется очень мутным. С одной стороны, наблюдается повышенная общественная осведомлённость о том, что контент, созданный с помощью ИИ, процветает и может быть мощным инструментом дезинформации. Но с другой стороны, всё ещё неясно, используются ли дипфейки для дезинформации в массовом масштабе и влияют ли они на изменение убеждений и поведение людей.
Если люди станут слишком скептически относиться к тому, что они видят, они могут перестать верить вообще во что-либо, что может позволить злоумышленникам воспользоваться этим вакуумом доверия и лгать об аутентичности реального контента. Исследователи называют это "выгодой обманщика". Они предупреждают, что политики, например, могут утверждать, что действительно компрометирующая информация является фальшивой или создана с помощью ИИ.
Клэр Лейбовиц, глава отдела искусственного интеллекта и медийной честности в некоммерческой организации Partnership on AI, говорит, что её беспокоит, что растущая осведомленность о возможностях ИИ может повлиять на возможность "правдоподобно отрицать и сеять сомнения в отношении реального материала или медиа в качестве доказательств в различных контекстах, не только в новостях, [но] также в судах, в финансовой сфере и во многих наших институтах". Она говорит, что её обнадеживают ресурсы, которые Synthesia выделяет на модерацию контента и получение согласия, но говорит, что этот процесс никогда не бывает безупречным. Даже Рипарбелли признаёт, что в краткосрочной перспективе распространение контента, созданного с помощью ИИ, скорее всего, вызовет проблемы.
Созданный Synthesia аватар меня — это удивительно точная, но всё же неестественная копия. Он заставляет задуматься о природе идентичности в цифровой эпохе и о том, как будет выглядеть будущее, где всё больше контента генерируется искусственным интеллектом.
Когда я увидела первое видео с моим аватаром, меня охватило странное чувство. Оно было похоже на то, как неприятно видеть себя на видео или слышать свою запись голоса. Сначала мне показалось, что аватар — это я. Но чем больше я смотрела видео с "собой", тем больше я задумывалась. Неужели я действительно так сильно щурюсь? Моргну столько раз? И двигаю челюстью таким образом? Боже мой.
Аватар был хорош. Действительно хорош. Но не идеален. "Странная, но хорошая анимация", — написал мне мой партнёр. "Но голос иногда звучит точно как ты, а иногда как искусственный и с каким-то странным тоном", — добавил он.
Он прав. Голос иногда мой, но в реальной жизни я больше "эмм" и "ахх". Замечательно, что он уловил нерегулярность в моей речи. Мой акцент — это беспорядочная смесь транс-атлантического, сбитая с толку годами жизни в Великобритании, просмотра американского телевидения и посещения международной школы. Мой аватар иногда произносит слово "робот" с британским акцентом, а иногда с американским. Вероятно, никто бы этого не заметил. Но ИИ заметил.
Это не первый раз, когда я делаю себя подопытной для нового ИИ. Не так давно я попыталась сгенерировать изображения AI-аватара себя, и в итоге получила кучу обнажённых фото. Тот опыт был ярким примером того, насколько предвзятыми могут быть системы ИИ. Но этот опыт — и этот конкретный способ увековечивания — был определённо на другом уровне. Карл Эман, доцент Уппсальского университета, который изучал цифровые останки и является автором новой книги "Загробная жизнь данных", называет аватары, подобные тем, что я создала, "цифровыми трупами".
"Он выглядит точно как ты, но дома никого нет", — говорит он. "Это было бы равносильно клонированию тебя, но твой клон мёртв. И потом ты оживляешь труп, чтобы он двигался и говорил с помощью электрических импульсов".
Это именно так и ощущается. Маленькие, нюансные моменты, в которых я не узнаю себя, этого достаточно, чтобы меня оттолкнуть. С другой стороны, аватар мог бы легко обмануть любого, кто меня не знает очень хорошо. И хотя он не Шекспир, он лучше, чем многие корпоративные презентации, которые мне приходилось просиживать. Я думаю, если бы я использовала его, чтобы сделать годовой отчёт для своих коллег, возможно, такого уровня аутентичности было бы достаточно.
В этом, по словам Рипарбелли, заключается суть: "То, что мы делаем, больше похоже на PowerPoint, чем на Голливуд". Новейшее поколение аватаров определённо не готово к большому экрану. Они пока застряли в портретном режиме, показывая аватар только спереди и от пояса и выше. Но в недалёком будущем, говорит Рипарбелли, компания надеется создать аватары, которые могут общаться руками и вести диалоги друг с другом. Она также планирует создание полноразмерных аватаров, которые могут ходить и двигаться в пространстве, которое человек сгенерировал. Но действительно ли мы этого хотим? Это похоже на мрачное будущее, где люди потребляют контент, созданный ИИ, который представляют им аватары, созданные ИИ, и используют ИИ, чтобы переупаковывать этот контент в новый, который, скорее всего, будет использован для создания ещё большего количества ИИ.
Опыт с аватаром Synthesia подчеркивает важность усиления мер по модерации контента и обеспечения достоверности информации в цифровой среде. Что ждет нас в будущем, где AI-аватары становятся всё более реалистичными?
Мой эксперимент с аватаром Synthesia наглядно продемонстрировал, что технологическому сектору необходимо срочно улучшить практики модерации контента и обеспечить надёжность методов подтверждения происхождения контента, таких как водяные знаки.
Даже если технология и модерация контента Synthesia ещё не идеальны, они значительно превосходят всё, что я видела в этой области ранее, и это всего лишь год-два после нынешнего бума в области генеративного ИИ. Разработка ИИ идёт с головокружительной скоростью, и одновременно захватывающе и пугающе представлять, как будут выглядеть AI-аватары всего через несколько лет. Возможно, в будущем нам придётся использовать кодовые слова, чтобы обозначить, что вы действительно общаетесь с реальным человеком, а не с ИИ.
Но этот день ещё не наступил.
Для самых стойких, прочитавших статью до конца.
В видео, созданном искусственным интеллектом, синтетическая «Мелисса» исполняет знаменитый монолог Гамлета: смотреть видео