Ничего себе
Ничего себе.
Это реалтайм и полная задержка от голосовой команды до видео ответа - всего 1.5 секунды! С липсинком!!
Работает на 3060 12 GB
Nvidia на 8 GB, скорее всего, тоже хватит(!!)
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Код?
А пажалста:
github.com/Mozer/talk-llama-fast
Всем срочно ставить на выходных и тестировать.
Русский вариант: https://www.youtube.com/watch?v=ciyEsZpzbM8
Английский язык: https://www.youtube.com/watch?v=N3Eoc6M3Erg
Это реалтайм и полная задержка от голосовой команды до видео ответа - всего 1.5 секунды! С липсинком!!
Работает на 3060 12 GB
Nvidia на 8 GB, скорее всего, тоже хватит(!!)
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Код?
А пажалста:
github.com/Mozer/talk-llama-fast
Всем срочно ставить на выходных и тестировать.
Русский вариант: https://www.youtube.com/watch?v=ciyEsZpzbM8
Английский язык: https://www.youtube.com/watch?v=N3Eoc6M3Erg
Источник: Метаверсище и ИИще
2024-04-12 11:33:13