Мир стоит на пороге новой эры цифрового творчества, где воображение обретает форму не только с помощью кисти и холста, но и благодаря строчкам кода. Искусственный интеллект, некогда фантастическая идея, становится повседневной реальностью, предлагая художникам, дизайнерам и просто энтузиастам новые инструменты для воплощения своих идей.
Одной из самых захватывающих областей в этом контексте является генерация видео с помощью ИИ. Представьте себе: вы описываете свою идею, а интеллектуальный алгоритм превращает её в захватывающий видеоролик, полный движения, цвета и эмоций. Звучит невероятно? Тем не менее, это уже реальность благодаря таким моделям, как Sora, Kling, Runway Gen-3, Veo и Dream Machine.
Sora – это передовая модель искусственного интеллекта, способная создавать видеоролики на основе ваших текстовых описаний. Представьте себе: вам достаточно подробно описать желаемое видео, и Sora сгенерирует его, соблюдая все детали, вплоть до мельчайших подробностей. Видео длительностью до минуты будет качественным и реалистичным.
В основе Sora лежит передовая технология искусственного интеллекта – диффузионная модель. Представьте себе, как эта модель сначала анализирует «чистые» данные – изображения или видео, – а затем постепенно накладывает на них "шумы", пока исходный контент не станет неузнаваемым. Уникальность диффузионных моделей в том, что они могут обратить этот процесс: поэтапно удаляя шумы, модель восстанавливает исходные данные. Именно этот механизм лежит в основе способности Sora создавать невероятно реалистичные изображения и видео.
Чтобы интерпретировать ваши текстовые запросы, Sora использует знакомую языковую модель GPT. GPT преобразует ваши описания в детальные инструкции для генерации видео. Благодаря этому даже самые лаконичные идеи превращаются в яркие, точные и визуально привлекательные видеоролики.
Промт: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.
Камера следует за белым винтажным внедорожником с черным багажником на крыше. Машина разгоняется по крутой грунтовой дороге, окруженной соснами, на склоне горы. Из-под колес летит пыль, солнце освещает внедорожник, от него исходит теплое свечение. Грунтовая дорога плавно изгибается вдали, других машин не видно. По обе стороны дороги растут секвойи с вкраплениями зелени. Машина, видимая сзади, легко проходит поворот, создавая ощущение стремительной поездки по пересеченной местности. Сама грунтовая дорога окружена крутыми холмами и горами, над которыми - чистое голубое небо с тонкими облаками.
Промт: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.
Великолепно прорисованный мир кораллового рифа из бумаги, изобилующий разноцветными рыбками и морскими обитателями.
Промт: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
Трейлер фильма о приключениях 30-летнего космонавта в вязаном красношерстяном мотоциклетном шлеме. Голубое небо, соляная пустыня, кинематографический стиль, съемка на 35-мм пленку, яркие цвета.
Помимо создания видео по текстовому описанию, Sora может генерировать видео на основе изображений:
Мало кто знает, но Sora умеет не только создавать видео по текстовому описанию, но и генерировать статичные изображения. Sora создает изображения, располагая фрагменты гауссовского шума в пространственной сетке с временной протяженностью в один кадр. Модель генерирует изображения различных размеров – с разрешением до 2048 x 2048 пикселей. Качество изображений, созданных Sora, превосходит возможности DALL-E 3.
Промт: Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details.
Цифровая иллюстрация тигренка под яблоней в стиле матовой живописи с великолепной детализацией.
Промт: A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2.
Заснеженная горная деревня с уютными хижинами и северным сиянием, высокая детализация, фотореалистичность, DSLR, 50 мм f/1.2.
Обучение на обширных массивах данных позволяет видеомоделям развивать новые способности. Sora уже демонстрирует 3D-согласованность, долговременную связность и постоянство объектов, взаимодействие с окружающим миром и моделирование цифровых миров.
Kling – детище китайской компании Kuaishou, главного конкурента TikTok. Эта модель способна создавать видео продолжительностью до двух минут в высоком разрешении 1080p с частотой 30 кадров в секунду. Разработчики Kling особо подчеркивают, что их модель обладает глубоким пониманием физики, что позволяет ей реалистично воспроизводить даже сложные движения.
Конечно, создание таких видео требует огромных вычислительных ресурсов. Если Sora для создания минутного ролика использует восемь мощнейших графических процессоров NVIDIA A100, то Kling, создавая видео вдвое длиннее, потребляет ресурсов как минимум вдвое больше.
Одной из главных задач при создании реалистичного видео является временная согласованность – способность модели генерировать кадры, логически связанные между собой, создавая иллюзию плавного течения времени. Kling успешно справляется с этой задачей, в том числе и при моделировании действий, меняющих состояние объектов в кадре.
Одной из главных задач при создании реалистичного видео является временная согласованность – способность модели генерировать кадры, логически связанные между собой, создавая иллюзию плавного течения времени. Kling успешно справляется с этой задачей, в том числе и при моделировании действий, меняющих состояние объектов в кадре.
Промт: A Chinese boy wearing glasses is eating a delicious cheeseburger in a fast food restaurant, with his eyes closed for enjoyment.
Китайский мальчик в очках с наслаждением ест вкусный чизбургер в ресторане быстрого питания, закрыв глаза от удовольствия.
Также Kling может генерировать видео на основе изображения:
Сравнение Kling и Sora: Kling делает упор на продолжительность видео, в то время как Sora фокусируется на детализации.
Kling в настоящее время проходит открытое бета-тестирование в составе приложения Kmovie от Kuaishou.
Еще примеры:
Промт: In a close-up shot, the shiny blue feathers of a parrot glisten in the light, showcasing its unique plumage and vibrant colors.
Крупным планом: блестящие синие перья попугая переливаются на свету, демонстрируя свой уникальный окрас и яркие цвета.
Промт: A small white rabbit wearing glasses sits on a chair in a café reading a newspaper, with a cup of hot coffee on the table.
Маленький белый кролик в очках сидит на стуле в кафе, читая газету, на столе – чашка горячего кофе.
Промт: A giant panda is playing guitar by the lake.
Гигантская панда играет на гитаре у озера
Gen-3 Alpha от Runway – это ещё один заметный шаг вперёд в области генерации видео. Модель создаёт высококачественные и детализированные видеоролики длительностью до 10 секунд, демонстрируя высокую точность движений, разнообразие эмоций персонажей и плавность движений камеры.
Gen-3 Alpha – первая модель в новой линейке Runway, разработанная на базе передовой инфраструктуры для масштабного мультимодального обучения. По сравнению с предыдущей версией (Gen-2), Gen-3 Alpha демонстрирует значительные улучшения в точности, плавности и согласованности видео.
Промт: FPV flying through a colorful coral lined streets of an underwater suburban neighborhood.
Полёт от первого лица по красочным улицам подводного пригорода, выложенным кораллами.
Промт: An astronaut running through an alley in Rio de Janeiro.
Астронавт бежит по переулку в Рио-де-Жанейро.
Промт: Dragon-toucan walking through the Serengeti.
Дракон-тукан гуляет по Серенгети.
Ключевые улучшения Gen-3 Alpha:
Фотореалистичная генерация людей с естественными движениями, жестами и эмоциями.
Повышенная точность и плавность видео.
Тонкая настройка времени и кадрирования.
Мультимодальность (работа в режимах «изображение в видео» и «текст в изображение»).
Возможность создавать собственные версии моделей и настраивать их.
Gen-3 Alpha доступен по подписке: $15 в месяц или $12 в месяц при оплате за год.
Veo от Google позиционируется компанией как самая совершенная на данный момент модель генерации видео. Veo создает видео в разрешении 1080p, продолжительностью более минуты, понимает кинематографические термины и может создавать сложные сцены, включая замедленную съемку и аэрофотосъемку. Veo также умеет редактировать существующие видео, добавляя новые объекты, и преобразовывать статичные изображения в видео, сохраняя стилистику оригинала.
Более того, Veo может редактировать уже существующие видео, добавляя новые объекты. Представьте, как к живописному виду побережья с высоты птичьего полёта добавляются каяки, рассекающие волны. Veo также может преобразовывать статичные изображения в видео, сохраняя стилистику оригинала.
Главный фокус Veo — это плавность и согласованность видеоряда. Алгоритмы Veo борются с распространёнными проблемами генерации видео, такими как мерцание объектов, их внезапное исчезновение и общая «рваность» картинки. В результате получаются видеоролики, которые выглядят естественно и кинематографично.
Промт: A fast-tracking shot down a suburban residential street lined with trees. Daytime with a clear blue sky. Saturated colors, high contrast.
Быстрый проезд камеры вдоль тихой улочки в пригороде, по обеим сторонам которой растут деревья. День, ясное голубое небо. Насыщенные цвета, высокая контрастность.
Google подчёркивает ответственный подход к разработке Veo. Инструмент оснащён фильтрами безопасности и проверками на плагиат, что призвано предотвратить злоупотребления, связанные с авторским правом и нарушением конфиденциальности. Все видео, созданные Veo, отмечены водяным знаком SynthID, ещё одной разработкой Google, позволяющей идентифицировать контент, созданный искусственным интеллектом.
Стремясь привлечь как профессионалов, так и любителей, Google заручился поддержкой известных кинематографистов. Среди них — Дональд Гловер, который снялся в рекламном ролике, демонстрирующем возможности Veo.
Пока что Veo доступен лишь ограниченному кругу пользователей через платформу VideoFX, но в будущем Google планирует интегрировать его в YouTube Shorts и другие свои продукты.
Vidu – ещё одна модель, разработанная в Китае компанией ShengShu Technology совместно с Университетом Цинхуа. По заявлениям разработчиков, Vidu способен создавать видео длительностью до 16 секунд в разрешении 1080p всего за несколько кликов.
Главный научный сотрудник Shengshu, Чжу Цзюнь, описывает Vidu как модель, обладающую воображением: «Она может моделировать физический мир и создавать видео с плавными переходами между сценами, проработанными персонажами и логичной хронологией событий».
В сети уже доступно демо-видео, демонстрирующее возможности Vidu. Однако, стоит отметить, что пока нет однозначного подтверждения того, что все фрагменты видео были созданы исключительно Vidu, без какой-либо постобработки.
В основе Vidu лежит запатентованная архитектура Universal Vision Transformer (U-ViT), объединяющая в себе две передовые модели генерации видео: Diffusion и Transformer. Благодаря U-ViT, Vidu способен создавать видеоролики с реалистичной анимацией, плавными движениями камеры, детализированной мимикой персонажей, а также убедительными световыми эффектами.
Пока что Vidu недоступен для широкой публики. Тем не менее, компания ShengShu Technology уже открыла регистрацию в лист ожидания для получения раннего доступа к инструменту.
В будущем планируется интеграция Vidu в мультимедийный инструмент PixWeaver.
Dream Machine от Luma Labs – это ещё один претендент на звание лучшего генератора видео. Разработчики делают упор на высокую скорость работы, плавность и реалистичность движений, детализацию персонажей и естественность съёмки.
Говоря о технических возможностях, стоит упомянуть, что Dream Machine способна создавать 120 кадров за 120 секунд, генерировать клипы длительностью 5 секунд, обеспечивать плавность движений и качественную операторскую работу, а также понимает взаимодейтсвия, то есть может в имитацию естественного поведения людей/животных/объектов.
Однако стоит заметить, что имеются и проблемы, например, вместо того, чтобы показать цельную трехмерную картинку, модель показывает несколько ракурсов.
Безусловно, заявленные характеристики впечатляют, но как Dream Machine проявляет себя на практике? Я взяла готовые промты и на их основе сгенерировала видео:
Промт: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.
Великолепно прорисованный мир кораллового рифа из бумаги, изобилующий разноцветными рыбками и морскими обитателями.
Промт: A small white rabbit wearing glasses sits on a chair in a café reading a newspaper, with a cup of hot coffee on the table.
Маленький белый кролик в очках сидит на стуле в кафе, читая газету, на столе – чашка горячего кофе.
Также Dream Machine предлагает анимацию фотографии, пример от пользователя X:
Чтобы вы могли опробовать Dream Machine, вам нужно перейти на сайт Luma Labs, найти страницу Dream Machine и нажать кнопку «Try Now» в правом верхнем углу. Создать учетную запись, после чего вы увидите текстовое поле, куда нужно ввести описание желаемого видео.
В отличие от конкурентов (Stable Video, Runway, Pika), которые в основном масштабируют и анимируют 2D-изображения, Dream Machine создаёт плавные переходы между сценами и реалистично анимирует объекты в трёхмерном пространстве.
Dream Machine предлагает бесплатный доступ к сервису с ограничениями (до 30 видео в месяц) и платные тарифы с расширенными возможностями.
Развитие ИИ-генераторов видео идёт семимильными шагами, предлагая нам всё более совершенные инструменты для творчества. От коротких клипов до полноценных видеороликов – возможности практически безграничны. И хотя многие из этих технологий находятся на стадии разработки или доступны лишь ограниченному кругу пользователей, уже сейчас понятно, что они способны произвести революцию в мире видеопроизводства.
Остаётся только ждать, какие ещё сюрпризы готовят нам разработчики в ближайшем будущем и как эти инновации изменят наш способ восприятия и создания видеоконтента.
Спасибо за внимание!