Нейролента - подборка новостей о нейронных сетях, ChatGPT

SORA Air Head

SORA Air Head. Подробности изготовления ролика.
Майк Сеймур сделал шикарный материал в лучший традициях своего FX Guide. Разбор ролика от shy kids и SORA.

Помните этот бомбический ролик, который всем взорвал мозг (срочно пересматривать):
https://youtu.be/9oryIMNVtto

Держите подробности:

shy kids - или как их называют "«Панк-рок Pixar» - студия из Торонто, которая часто делает ролики про подростковый возраст, социальную тревогу и проблемы современной жизни.

Технические подробности про SORA:

Пока ничего, кроме текстового промпта (который под капотом раскучерявливается с помощью GPT-4) ничего нет. Никакого дополнительного контроля. Только супер-подробный промпт.
Похоже, нет даже сида. Каждый раз по разному.
Иногда, когда команда запрашивала желтый шар, он оказывался совсем синим. В других случаях в нем появлялось лицо, или лицо было нарисованным на передней части шара. И постоянно появлялись нитки от шарика. Вроде ничего не удалялось на посте (да, но нет, см ниже) - все шоты брались напрямую из SORA, но было много грейдинга(цветокора), обработки и, конечно, увеличения разрешения. Ибо SORA хоть и умеет в 1080, но это занимает конски много времени.
Вся генерация шла в 480, а потом разгонялась в Топазе.

В SORA есть inpainting "по времени", расширенный GPT промпт отображается поверх таймлайна и можно пытаться вносить изменения в конкретные моменты времени в куски промпта, но это не всегда предсказуемо.

SORA пытается всегда центрировать объект в кадре, поэтому панорамки - ручками с дорисовкой.

В кино термины "слежения", "панорамирования", "наклона" или "наведения" не являются понятиями, зашитыми в метаданных и датасетах (в отличие от параметров объектива, которые любят использовать в картинках). "Девять разных людей будут иметь девять разных представлений о том, как описать кадр на съемочной площадке и в OpenAI, не думали как кинематографисты, поэтому интерпретация углов камеры была как бы случайной".

Вы можете ввести "Camera Pan", и вы получите его в шести случаях из десяти. И это общая проблема видеогенераторов.

Клипы можно рендерить, например, по 3 секунды, 5 секунд, 10 секунд, 20 секунд, вплоть до минуты. Время рендеринга зависит от времени суток и потребности в использовании облака. Как правило, на рендеринг уходит от 10 до 20 минут причем мало зависит от длины клипа(!).

Пост и ротоскоп все-таки был!!
Так как Сора постоянно рисовала всякие морды на воздушном шаре, его приходилось ротоскопить и затирать их в Афтере. По пути контролируя цвет шара.

Соотношение сгенерированного материала к финальному (по времени) - примерно 300 к одному. Обычно это 10 к 1 для сферической обычной съемки.

Кстати, SORA тоже грешит тягой к сломо, как и все видеогенераторы. Очень часто клипы выглядели замедленными.

Нельзя поминать режиссеров или операторов в промпте. Жоская цензура. Попросите исторический Hitchcock Zoom - получите отказ.

Ну и самая главная цифра - 2 недели и команда из 3 человек. Сравнивайте сами.

По ссылке много исходных кадров до и после и остальных деталей:

https://www.fxguide.com/fxfeatured/actually-using-sora/