Осенью я давал интервью для документального фильма Высшей школы экономики "После промпта". В сам фильм попал небольшой фрагмент, и я долго думал что делать с остальным материалом. Так появился НейроДудь.
ВК версия
Если не считать монтажа самого интервью, работа над роликом заняла около трёх дней. Расскажу о ключевых этапах.
Вначале нужно было сделать самого Дудя. Я сразу отказался от реалистичного варианта. Во-первых, это перебор, во-вторых, эффект зловещей долины был бы гораздо сильнее.
И это оказалось сложнее, чем я планировал. Потому что надо было решать сразу три задачи:
Дизайн локации должен хорошо монтироваться с основной сценой
Нужно было придумать дизайн самого робота
Робот должен быть похож на Дудя
Первые варианты выглядели как-то так:
Для генерации я использовал Nano Banana Pro. Попробовал разные нейросетки, но остановился на ней, так как детали нужно было дорабатывать итерациями. На работу с деталями способен и ChatGPT, но результат получался хуже.
Однако, я использовал ChatGPT, чтобы дорабатывать промт для Nano Banana. Без этого у меня получался то лысый краш-тестер:
То наш с Дудём внебрачный сын с голым животом и коленками:
Который в какой-то момент решил ещё и раздеться:
Спустя сутки мучений появился вариант, который меня более-менее устроил:
Осталось доработать окружение, цветокоррекцию и добавить привычную одежду:
Ещё я пытался сделать ему фирменные скрещенные ноги, но после нескольких часов попыток, решил, что лучшее - враг хорошего, и такой Дудь нам не нужен:
Следующим бастином было лицо. Мне не нравился текущий дизайн и я пустился в эксперименты:
Вот этот вариант мне нравился фирменной ухмылкой:
Но почему я от него отказался вы поймёте, когда дойдём до анимации. В конечном итоге, в финальный ролик попала доработанная версия одного из первых вариантов:
Достаточно похож, достаточно отличается, выглядит как следователь на допросе. В общем, то что нужно, чтобы пугать детей.
Этот этап был одновременно сложным и простым.
Простым, потому что Elevenlabs позволяет быстро и достаточно точно синтезировать голос. Но чтобы получился хороший результат, нужно собрать хороший референс - исходник реальной речи говорящего, и вот в этом была сложность.
Мне пришлось отсмотреть 4-часовое интервью Дудя и вырезать все моменты, где говорит он. Причём нужны были моменты, где он что-то спрашивает, у него тогда появляются характерные интонации.
И боже, как я устал. Классно его слушать фоном, когда чем-то занимаешься, но когда ты вынужден прям смотреть и искать моменты именно с Юрой, и смотреть прям на Юру - это отдельный вид пытки.
Вам наверняка интересно, сколько минут говорит сам Дудь в своих интервью. И вот вам бессмысленный факт, о котором никто не просил. Юра говорит примерно 40 минут в интервью, которое длится 4 часа. Не благодарите.
И вот мы подошли к самому интересному. Чтобы сделать анимацию с липсинком, есть два подхода: простой и сложный.
Сложный выглядит так: вы берёте Runway и выбираете там режим "Act-Two". Дальше нужно снять себя на камеру в нужном ракурсе, сделать вид, что вы Юра Дудь, который задаёт вопросы. Дальше в Premiere подставить вместо своего голоса, голос Дудя, так чтобы он совпадал с губами. И скормить это видео Runway вместе с референсной картинкой, которую мы подготовили на предыдущем шаге.
Тогда генерация была бы классной, НейроДудь активно бы двигался, а его губы хорошо попадали в текст. Но я понял, что так заморачиваться не готов. Сразу было понятно, что этот ролик на грани корректности.
Сомнительная история, с точки зрения авторских прав, да и сам Ютуб легко бы мог его снести по просьбе Юры. (Юра, пожалуйста не кидай страйк). Прикольный эксперимент, но на постоянной основе точно так делать не стоит.
Поэтому я решил пойти по простому пути. Для этого есть сервис HeyGen. Он позволяет загрузить картинку и речь, чтобы получить видео, где нейросеть очень старается сделать липсинк. И даже пробует немного шевелить персонажа. В большинстве говорящих ИИ-картинках вы видите результат работы именно этого сервиса.
Но с ним тоже пришлось помучаться. Помните улыбающегося Дудя? Вот причина, по которой я отказался от этого дизайна:
В процессе анимации это стал кто угодно, но только не Дудь. Нейросеть воспринимает улыбку, как базовые черты лица и из-за этого анимация становится странной. К тому же по голосу слышно, что человек не улыбается.
Но и с более строгим дизайном пришлось намучаться. Чаще всего проблема была в том, что нейросеть слишком сильно растягивала рот на акцентных моментах. Да и липсинк пока далёк от идеала.
Один раз НейроДудь даже впал в экзистенциальный кризис:
Чуть проще было генерить вставки с реакциями Дудя. Делал я их с помощью нейросетей "Kling O1" и "Seedance 1.5" на платформе Кrea. Например тут пытался воссоздать фирменный возмущённый взгляд в камеру:
В конечном итоге, НейроДудь получился хоть и криповым, но всё равно достаточно залипательным.
Кроме Дудя я сделал круглого робота, который влетает в кадр со мной. Он нужен, чтобы чуть удержать внимание зрителя вначале ролика, пока они привыкают к говорящему.
Визуал робота генерировал в Reve - это мой основной инструмент для создания отдельных объектов. Анимацию делал с помощью "Seedance 1.5" на платформе Кrea. В сцену добавил с помощью After Effects.
Интервью Дудя сложно представить, без его фирменной отбивки. Только нужно было поменять музыку, чтобы ютуб автоматически не жаловался на авторские права.
Новый логотип сгенерировал с помощью той же Nano Banana, а ремикс на джингл в Stable Audio - это такая Suno курильщика. Пробовал вначале Suno, но сходу не получилось, а Stable сделал с первой попытки то, что нужно. Но за чем-то сложнее туда ходить точно не надо.
1. Это было весело.
2. Вся работа заняла примерно 3 дня
3. Если прикинуть общую подписку на сервисы и покупку токенов, то получится в районе $150
После интервью для Вышки я сел писать большую серию статей, где детальнее рассказал свой взгляд на будущее, а этот ролик стал классным дополнением.
Судя по коментам на ютубе, людям тоже зашло.
ВК версия
Спасибо, что прочитали, накидайте вопросов в комментариях
Источник


