Анализируются современные алгоритмы и технологии, используемые для автоматизиро ванного создания видео-контента. Приведены примеры успешного применения автоматизированных технологий для создания видеоконтента, а также рассмотрены перспективы развития искусственного интеллекта в создании видеоконтента.
Ключевые слова: автоматизированные технологии, видеоконтент, искусственный интеллект .
Мультимедийные технологии стремительно развиваются в современном мире, а компьютерное искусство стало неотъемлемой частью реальности человека. В создании видеоконтента, в частности, в кинематографе, очень важны компьютерные алгоритмы и технологии для образовательных и культурных аспектов. Современное кино является источником вдохновения и знаний, оно может помочь людям узнать больше о мире, природе, науке. Автоматизированные алгоритмы и технологии искусственного интеллекта позволяют снизить затраты, ускорить производство и повысить качество конечного продукта.
История применения компьютерной графики начинается с аэрокосмических и научных исследований. Затем технология была перенаправлена в сферу мультимедиа, в частности — кино [1].
SynthaVision в фильме «Трон» Стивена Лисбергера была одной из первых систем, реализовавших алгоритмический подход трассировки лучей для рендеринга только видимой для камеры части изображения. Посылая из виртуальной камеры лучи и считывая поверхности, которых они касаются, программа могла вывести на экран цветное плоское изображение сцены. Данное программное обеспечение также представляло собой систему конструктивной твердотельной геометрии (CSG), в которой объекты можно было модифицировать комбинаторными операторами. Данный тип конструирования 3д моделей использует врезание и комбинацию объемов друг с другом для воплощения дизайнов в 3Д, а не полигональное моделирование, как это принято в разработке 3д-моделей для современного кино. У программы не было функции автоматического вывода готовой секвенции изображений, и даже привычные современным аниматорам «ключи» еще не были имплементированы. Художникам-аниматорам приходилось вручную вводить координаты для каждого объекта, слегка меняя их перед выводом следующего изображения.
Кинематографическая работа Дж. Кэмерона «Аватар» (2009) представляет собой знаковый этап в эволюции кинотехнологий, установив новые стандарты в области компьютерной графики, захвата движения и трехмерной визуализации. Рендеринг и моделирование сложных деталей мира и персонажей Пандоры потребовали огромных вычислительных мощностей. Высокопроизводительные вычислительные кластеры использовались для обработки огромных наборов данных и вычислений, необходимых для производства фильма. В этой камере без объектива использовался ЖК-экран и маркеры для взаимодействия с цифровыми пейзажами в режиме реального времени, снимая актеров на 360 градусов без заранее определенного положения камеры. Эта технология сыграла решающую роль в реализации сложной цифровой среды Пандоры: только около 25 % «Аватара» использовали традиционные декорации с живыми актерами.
Изображение воды и другой гидродинамики в фильме было особенно впечатляющими. Инновации в технологии симуляции жидкостей позволили реалистично изображать текущие реки, водопады и биолюминесцентную флору тропических лесов Пандоры. Для достижения желаемых визуальных эффектов потребовалось сложное моделирование на основе физики. Многие из инноваций, представленных в фильме, продолжали влиять на киноиндустрию и были использованы в многочисленных фильмах и сериалах, способствуя развитию современных технологий кинопроизводства.
Игровые движки, такие как Unreal Engine, получили известность в кинопроизводстве благодаря своим возможностям рендеринга в реальном времени, что позволяет художникам и дизайнерам создавать детализированную и интерактивную цифровую среду. Эта технология позволяет режиссерам и художникам по визуальным эффектам оперативно принимать творческие решения, сокращая время и затраты на производство, сохраняя при этом визуальную точность.
Применение искусственного интеллекта представляет особенный интерес в создании видео-контента. С помощью нейросети создают сценарии, музыку, сториборды, анимацию персонажей и даже производят CGI графику [2].
На настоящий момент существует два основных направления применения искусственного интеллекта непосредственно во время съемок. Первый способ тесно связан с технологией StageCraft, которая впервые была использована в сериале «Мандалорец». Вместо привычного хромакея, актёров снимают на фоне огромной LED-стены, на которую проецируется фон, необходимый для сцены. Объёмное изображение на экранах создаётся в реальном времени с помощью движка Unreal Engine и автоматически подстраивается под движение камер, освещение и положение персонажей. Эта поистине революционная методика StageCraft позволила значительно ускорить процесс производства и тем самым снизить его стоимость. Второе направление — это постоянно совершенствующиеся технологии захвата движения и распознавания лиц. В этом случае искусственный интеллект выполняет сложные задачи по отслеживанию актёров и облегчению взаимодействия между реальными и виртуальными персонажами. Например, для одной из сцен фильма «Индиана Джонс и колесо судьбы» 80-летнего Харрисона Форда омолодили с помощью цифровых технологий. Disney и раньше применял подобные методы, но в этот раз были использованы алгоритмы машинного обучения, которые смоделировали внешность юного Индианы Джонса на основе ранее не использованных архивных кадров. Результат впечатляет: искусственный интеллект не просто наложил маску на лицо актёра, но и учёл мимику, текстуру кожи и другие визуальные детали [3].
Искусственный интеллект находит широкое применение при монтаже, цветокоррекции и создании визуальных эффектов. В таких инструментах, как InVideo, Filmora или Adobe Premiere Pro, активно используются алгоритмы ИИ, которые позволяют автоматизировать рутинные задачи. С помощью искусственного интеллекта можно легко проанализировать и собрать черновой монтаж эпизода для дальнейшей работы. Также можно быстро выявить шаблоны и раскрасить целые сцены с помощью программного обеспечения для цветокоррекции. А еще можно добавить к этому упрощение генерации спецэффектов и 3D-анимации.
В области киноархивистики так же весомый вклад может внести искусственный интеллект. Технологии распознавания лиц и речи позволят быстрее распознавать людей, запечатлённых в кинохронике. Алгоритмы компьютерного зрения помогут избавиться от дефектов на изображении и улучшить качество картинки. С помощью машинного обучения можно будет даже восстанавливать недостающие фрагменты фильмов
Одной из наиболее активно используемой нейросети является генератор изображений DALL-E [4].
DALL-E состоит из двух нейросетей, одна из них — это GPT. GPT пытается предсказывать последовательность токенов, на основе данной ей последовательности. Модель представляет собой архитектуру Transformers, состоящую только из Декодера. GPT учится фокусировать внимание на предыдущих словах, которые наиболее важны для предсказания следующего слова в предложении, используя механизм внимания.
Механизм Attention (внимание) является аналогом когнитивного внимания и позволяет находить связи между токенами, а также предсказывать продолжение этих токенов.
Для каждого токена создаётся набор векторов:
- Key — значимость токена в последовательности, если мы смотрим извне.
- Query — значимость токена в последовательности, если мы смотрим из этого токена.
- Value — репрезентация токена
Умножение вектора Query последнего токена на каждый вектор Key последовательности токенов с применением функции SoftMax даст коэффициенты значимости каждого токена. Умножив Value каждого токена на его коэффициент, мы получим сумму Внимания всей последовательности. Получившийся вектор мы умножаем на матрицу эмбендингов модели (всех возможных токенов словаря) и, таким образом, получаем коэффициент каждого токена словаря на соответствие входной последовательности токенов в соответствии с рисунком 1.
Рис. 1. Коэффициент каждого токена словаря на соответствие входной последовательности токенов
VQ-GAN способна сжимать изображение в сетку векторов (токенов) и реконструировать обратно в изображение. Нейросеть состоит из энкодера, декодера и дискриминатора. Является совмещением идей VQVAE и GAN. Принцип VQ-GAN описан в соответствии с рисунком 2.
Рис. 2. Принцип VQ-GAN
Идея VQ-VAE (Vector Quantized Variational Autoencoder) в том, чтобы научится эффективно сжимать изображение в более низкоразмерное скрытое пространство и разжимать в скрытое пространство изображения с наименьшими потерями.
Энкодер берёт изображение размером 512×512 и сжимает (чаще всего обычными свёрточными сетями) до 256×1, ищет ближайший вектор от получившегося в скрытом пространстве, а после декодер пытается такой маленький вектор разжать обратно в изображение 512×512.
Энкодер всё так же принимает на вход изображение и кодирует его в сжатый вектор, после чего подменяет на ближайшего соседа в скрытном пространстве, а Декодер разжимает этот ближайший вектор в изображение. После этого входит частичка GAN, а именно дискриминатор. Дискриминатор в процессе обучения сравнивает, насколько исходное изображение похоже на реконструированное и возвращает градиент потерь реконструкции, это помогает в дальнейшем понять Энкодеру и Декодеру, как обмануть Дискриминатор и в разы повысить качество конечных изображений.
После обучения, GPT принимая на вход только текст, сможет сгенерировать матрицу токенов, которую посредством декодера VQGAN мы сможем преобразовать в картинку, соответствующую входному тексту в соответствии с рисунком 3.
Рис. 3. Преобразование в картинку, соответствующую входному тексту
Искусственный интеллект уже сегодня играет важную роль в создании видеоконтента. Он может автоматизировать многие процессы, связанные с созданием видео, такие как монтаж, цветокоррекция, добавление эффектов и т. д. Это позволяет ускорить процесс создания контента, повысить его качество и снизить затраты на производство.
Современные алгоритмы и технологии автоматизированного создания видео-контента имеют большой потенциал для развития. Они могут стать мощным инструментом для создания качественного видеоконтента, который будет востребован аудиторией. Однако необходимо учитывать этические аспекты использования искусственного интеллекта и разрабатывать меры по предотвращению возможных рисков.
Литература:
- Эволюция технологий компьютерной графики в кинематографе [Электронный ресурс]: [сайт] — URL: https://deziiign.com/project/84eedbfcbf784ad0b88c03a22746ac53 (дата обращения 15.05.2025) — Загл. с экрана. — Яз.рус.
- Искусственный интеллект в производстве видеоконтента [Электронный ресурс]: [сайт] — URL: https://yar.mk.ru/social/2024/03/03/iskusstvennyy-intellekt-v-proizvodstve-videokontenta.html (дата обращения 15.05.2025) — Загл. с экрана. — Яз.рус.
- Как искусственный интеллект влияет на киноиндустрию [Электронный ресурс]: [сайт] — URL: https://start.ru/journal/kak-iskusstvennyj-intellekt-vliyaet-na-kinoindustriyu (дата обращения 16.05.2025) — Загл. с экрана. — Яз.рус.
- Как работает DALL-E [Электронный ресурс]: [сайт] — URL: https://habr.com/ru/companies/ruvds/articles/687508/ (дата обращения 16.05.2025) — Загл. с экрана. — Яз.рус.