От Хрюна и Степана до цифровых аватаров в прямом эфире: как развиваются визуальные технологии на ТВ
Изменения в области производства визуального контента можно описать двумя словами: «удешевление» и «ускорение». Средства производства компьютерной графики дешевеют, но при этом становятся мощнее и эффективнее. Какой путь прошли телеканалы в области визуальных технологий и куда они движутся сейчас — рассказывает Тимур Вайнштейн, генеральный продюсер телеканала НТВ
Захват движений
В 1998 году программа Maya для производства 3D-контента стоила 32 тысячи долларов и работала на станциях Silicon Graphics примерно такой же стоимости. Знаменитая программа НТВ из 2000-х «Тушите свет» с участием Хрюна и Степана, использовавшая (впервые в России) технологию Motion Capture, производилась на оборудовании стоимостью около миллиона долларов. Прошло двадцать лет, и шоу лучшего качества можно делать на домашнем компьютере.
Подешевели видеокарты, а их мощности выросли в разы. И вот уже игровые движки позволяют создавать полностью цифровые короткометражки, которые в режиме реального времени просчитываются и воспроизводятся на компьютере, который можно купить в любом магазине. Из огромных студийных конструкций ценой в десятки тысяч долларов системы захвата движений превратились в компактные костюмы, вдесятеро дешевле по стоимости.
Нейронные сети и компьютерное зрение преобразовали задачу захвата мимики лица в расшифровку видеопотока.
Игровой движок Unreal Engine произвел фурор. Его картинка по качеству сопоставима с традиционными программами для рендеринга, но не требует многочасовых просчетов, а просчитывается с частотой 30 кадров в секунду!
В добавок к тому, что железо и софт стали быстрее, сильно ускорился и сам процесс производства. Вместо того, чтобы часами ждать финального рендеринга, художник теперь сразу видит на экране пусть приблизительную, но вполне приемлемую картинку распределения света, бликов и теней. Вращая трехмерную модель, он получает представление о физически корректном освещении, что позволяет двигаться к цели очень быстро, разрабатывать новые концепты или принимать решения с абсолютно новой скоростью.
Также следует отметить, что в нынешнее время одним из самых крупных заказчиков (и потребителей) компьютерной графики становятся социальные сети. По сравнению с кино и телевидением, где прогресс в области графики скорее связан с демократизацией и удешевлением производства, на территории соцсетей и мобильных приложений постоянно возникают новые задачи, решение которых приводит, например, к стремительному прогрессу в области компьютерного зрения.
С одной стороны, это связано с растущими возможностями камер и других датчиков в телефонах, с другой стороны — с конкуренцией и войной алгоритмов обработки изображений. Разработчики мобильных приложений первыми получили доступ к такому огромному количеству фотографий, в частности, лиц, на которых они смогли тренировать свои нейросети.
Посудите сами, любой фильтр или маска на телефоне распознает лицо на видео покадрово, включая ключевые точки: глаза, брови, скулы, затем строит трехмерную модель лица, делает захват движения, переносит его на модель, анимирует ее, добавляет текстуру и рендерит это на экране. В реальном времени. На телефоне!
Эти технологии совершенствуются и проникают в кино и телевидение, так сказать, снизу вверх. И вот уже появляются анимационные шоу и даже целые сериалы, сделанные с помощью захвата мимики на телефоне и недорогих костюмов Motion Capture.
Почти в любом iPhone есть AR Kit, который на лету распознает движение лица и передает его в любой игровой движок. Дальше вы можете делать с этим, что захотите. Выводить живую анимацию на экран стадиона, стримить в сети с новым аватаром, записывать влоги, меняя облики каждую секунду, участвовать в видеоконференциях в образе говорящего кота (что случилось в прошлом году с одним американским адвокатом, не справившимся с настройками).
Более того, современные нейросети уже умеют захватывать не только мимику лица, но и жесты, и позы, и, говоря по секрету, расшифровывать эмоции человека в кадре.
Цифровые люди
Если говорить про содержимое визуального контента, то в последнее время наметился интересный тренд – цифровые люди. И не только люди, а персонажи совершенно нового качества, которых стало можно «оживлять» совершенно другими способами и бюджетами. Это связано с тем, что большая часть видеоконтента, потребляемого соцсетями – это видео и селфи самих пользователей, зачастую крупным планом. Поэтому алгоритмы распознавания и копирования лиц очень сильно усовершенствовались. Также, за время пандемии и благодаря расцвету видеоконференций сильно вырос поток крупнопланового контента и появились технологии улучшения «картинки». В виде фильтров, аватаров, персонажей, и масок. А в соцсетях начали развиваться цифровые инфлюенсеры — полностью цифровые персонажи.
Настоящий фурор произвел инструмент Meta Human Creator, выпущенный компанией Epic Games (создателем игрового движка Unreal Engine) в 2021 году. Он отличается от конкурентов потрясающей реалистичностью и работает прямо в браузере. Meta Human умеет интегрироваться с многочисленными системами движений лица и тела и представляет собой по сути «конструктор цифровых людей», которые выглядят абсолютно как живые.
Также невозможно не сказать про виртуальное производство, которое стремительно приходит в кино и на телевидение. Если упрощенно — это возможность создавать видеоконтент в игровом движке, таком как Unreal Engine: строить виртуальный трехмерный мир, помещать туда персонажей и снимать их виртуальной камерой, которая имитирует движение привычной кино- или телекамеры. Примерно так делали последнего «Короля Льва». Когда кино «снято», то есть вся анимация камер получена, материал может быть пересчитан в сколь угодно высоком качестве с другим светом, текстурами и прочим. Поменять можно и самих персонажей. Экономия огромная. Никаких экспедиций, ожидания правильного освещения и строительства декораций.
А что, если снимать хочется реальных людей, но в виртуальном пространстве? Тогда на помощь приходят павильоны с огромными экранами вместо стен. На стены проецируется окружение (или специально снятый материал, или виртуальное пространство), вступающее в диалог с героями и декорациями и работающее в кадре как «реальный» мир. Съемки идут не на «хромакее», актеры чувствуют контекст, примерно так снимали сериал «Мандалорец».
А теперь представьте, что все эти технологии стали доступны на телевидении – с его бюджетами, ресурсами, производственными мощностями и технической базой.
Это привело к созданию контента, о котором даже нельзя было мечтать! Буквально несколько лет назад я не мог и поверить, что смогу осуществить съемки музыкального развлекательного шоу с жюри и зрителями в зале, в каждом выпуске которого на сцену будут выходить девять цифровых аватаров. И наши аватары не просто дают артистам новый образ для выступления, они превращают то, чем раньше было музыкальное шоу, в новый потрясающий опыт.
Представьте себе шоу, в котором трехмерные персонажи отличного качества двигаются (фактически - просчитываются) на экране в реальном времени, повторяя движения артистов, одетых в костюмы захвата движений и мимики. Представьте, что зритель может взаимодействовать с такими персонажами, влиять на их поведение и даже на их внешний вид. Представьте, что вы смотрите трехмерный мультфильм, только герои мультфильма живут прямо рядом с вами, они вас слышат, реагируют, могут с вами общаться.
Представьте, что можно снимать кино с одними актерами, а потом в зависимости от региона или страны, транслировать с другими, ведь технология Deepfake позволяет заменить одно лицо на другое во все более высоком качестве. И вот уже интернет облетают ролики с Кину Ривзом, распивающим чай из самовара с сушками – просто кто-то сумел соединить конструктор Meta Human и технологию Deepfake. И вот уже невозможно отличить, это документальная съемка или компьютерная графика.
А ведь на помощь в создании контента приходит искусственный интеллект, способный «вытаскивать» из видеоматериала информацию, с помощью которой можно ускорить производство. Благодаря ИИ мы научились отделять предметы от фона, вычислять информацию о глубине картинки, распознавать лицо и выделять на ней ключевые элементы, а также делать захват движения по видео.
Но самое интересное в том, что ИИ стремительно учится генерировать контент.
Искусственный интеллект как автор
Несколько лет назад мир взорвал проект «Эти знаменитости не существуют», в котором одна нейросеть, генератор, создавала фотографии несуществующих людей, а вторая, дискриминатор, сравнивала их с базой данных знаменитостей и корректировала поведение первой сети в сторону производства более «красивых» несуществующих личностей.
Появились генераторы новых лиц, чтобы облегчить работу тех, кто вынужден искать новые лица в фотобанках или кастинговых агентствах.
Но наибольший фурор произвели генеративные нейросети сети типа DALLE-2, Midjourney и Stable Diffusion, которые умеют создавать картинку из простого текста. Достаточно дать описание типа «астронавт, играющий в баскетбол с кошками в космосе в акварельном стиле» и нейросеть создаст изображение фотореалистического качества.
В сообществе Midjourney, например, около одного миллиона человек, создающих миллионы картинок в день. Эти изображения используются для тренировки ИИ, который «смотрит», что понравилось или не понравилось зрителям или создателям, постепенно обучаясь генерировать контент, все более высокого и, что важно, «нравящегося» качества.
Пройдет несколько лет, и на смену изображениям придет видео, создаваемое нейросетями.
«Хочу блокбастер с Владимиром Машковым в главной роли, чтобы сюжет был похож на "Терминатора", но больше романтических линий и все это в стилистике Дени Вильнева».
ИИ берет двухсекундную паузу и включает просмотр.
Телевидение будущего уже здесь.