Реалтаймовый нейролипсинк(?). Есть такая опен-сорсная библиотека

Реалтаймовый нейролипсинк(?)

Есть такая опен-сорсная библиотека wav2lip.
Она основана на коде из статьи: A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild, опубликованной на ACM Multimedia 2020.
Она перестала обновляться 3 года назад.
А пару недель назад там обновилось Readme.
Где появилась ссылка на сайт https://synclabs.so/
И на YCombinator https://www.ycombinator.com/launches/KbD-sync-an-api-for-realtime-lipsync

На первом сайте сходу просят денег.
На втором висит очень плохое некачественное демо.
Губы дрожат даже когда персонажи молчат.

Ну то есть внешне это выглядит плохо: "мы когда-то написали wav2lip, бросили ее, а теперь расчехлили обратно и хотим денег, демонстрируя очень плохое качество".

Меня зацепило слово realtime, которое они постоянно обозначают на сайте - пока реалтайма нет ни у кого, и сюда все стремятся. Есть много в разы более качественных проектов типа Rask.ai или атомных обещаний от Алибабы с убойным качеством.

Также они манифестируют on-device real-time video translation - и тут я не сильно верю, что это можно сделать в нормальном качестве, да еще и в реалтайме.

Дальше идет футуризм и довольно интересные идеи:
мы можем вывести человеко-компьютерный интерфейс за рамки текстовых чатов
Возможно, встраивание контекста в выражения и язык тела при вводе/выводе данных поможет нам взаимодействовать с компьютерами более человечным образом.

Звучит, конечно, интригующе, но пока выглядит как попытка сделать подписочную модель на коде четырехлетней давности с очень плохим итоговым результатом.

Если у вас есть опыт работы с wav2lip - пишите в комментарии.

Источник: Метаверсище и ИИще

2024-03-25 05:09:09