AI Assistants on Demand
AI Assistants on Demand.
Или Сири с любыми мозгами, голосом или лицом. В вашем телефоне.
Короче, я провел воскресенье вот с этой штукой: https://github.com/Mozer/talk-llama-fast
Поплясав часа три мне удалось собрать из гугла и палок работающий вариант на моем домашнем компе (Intel Nuke с RTX 3060 12G VRAM, 16G RAM, Win10). Моя задача была именно запустить все это хакерское хозяйство, а не доводить это до идеальных ответов, поэтому, когда Илончик стал хотя бы отвечать и попадать губами в звук, я остановился.
Я просто прошу у него денег, от отказывается, покуривая косяк, и отвечает мне МГНОВЕННО, используя mistral-7b-instruct-v0.2 как мозги, whisper.cpp и XTTSv2 как озвучку, и wav2lip как липсинк. На моем компе! Задержки действительно почти нет.
Еще раз, это не проверка качества, это тестирование будущих прототипов. Не ищите блох. А просто представьте следующее.
Вы запускаете приложение и:
- выбираете мозги (любую LLM, хоть закрытую(вводя ключ) хоть открытую из 15 000 вариантов). Мозги под настроение или задачу.
- выбираете скин - тоже под настроение, это может быть фото, видео или описание, можете сгенерить, селфануть, нарисовать.
А дальше у вас есть собеседник, аватар, ассистент, банковский ресепшен, бой\гёл\френд, whatever - цифровая тварь, с которой вы общаетесь как в зуме или мессенджере.
Мозги или лицо можно также менять динамически.
В общем, я когда это запустил, то подумал, что цифровые твари уже за углом.
Пока это, конечно, архинедружественно, сложно, глючит, падает. Чего стоит установка двух анаконд для разных серверов. Ну и за год, кстати, мало что поменялось. Работа с опенсорсными LLM - это такая мизантропия по отношению к пользователю. Я описывал этот тут.
Но рано или поздно это зайдет на уровень операционной системы, в этом смысле я очень жду чего там Эппле покажут в июне.
Я пока можете сами попробовать, вот тут есть ответы, что и куда надо прописать, чтобы MS библиотеки завелись.
P.S. Мистраль, конечно, вообще без тормозов. Ругается матом, требует денег. Идеальный вариант для NSFW.
Или Сири с любыми мозгами, голосом или лицом. В вашем телефоне.
Короче, я провел воскресенье вот с этой штукой: https://github.com/Mozer/talk-llama-fast
Поплясав часа три мне удалось собрать из гугла и палок работающий вариант на моем домашнем компе (Intel Nuke с RTX 3060 12G VRAM, 16G RAM, Win10). Моя задача была именно запустить все это хакерское хозяйство, а не доводить это до идеальных ответов, поэтому, когда Илончик стал хотя бы отвечать и попадать губами в звук, я остановился.
Я просто прошу у него денег, от отказывается, покуривая косяк, и отвечает мне МГНОВЕННО, используя mistral-7b-instruct-v0.2 как мозги, whisper.cpp и XTTSv2 как озвучку, и wav2lip как липсинк. На моем компе! Задержки действительно почти нет.
Еще раз, это не проверка качества, это тестирование будущих прототипов. Не ищите блох. А просто представьте следующее.
Вы запускаете приложение и:
- выбираете мозги (любую LLM, хоть закрытую(вводя ключ) хоть открытую из 15 000 вариантов). Мозги под настроение или задачу.
- выбираете скин - тоже под настроение, это может быть фото, видео или описание, можете сгенерить, селфануть, нарисовать.
А дальше у вас есть собеседник, аватар, ассистент, банковский ресепшен, бой\гёл\френд, whatever - цифровая тварь, с которой вы общаетесь как в зуме или мессенджере.
Мозги или лицо можно также менять динамически.
В общем, я когда это запустил, то подумал, что цифровые твари уже за углом.
Пока это, конечно, архинедружественно, сложно, глючит, падает. Чего стоит установка двух анаконд для разных серверов. Ну и за год, кстати, мало что поменялось. Работа с опенсорсными LLM - это такая мизантропия по отношению к пользователю. Я описывал этот тут.
Но рано или поздно это зайдет на уровень операционной системы, в этом смысле я очень жду чего там Эппле покажут в июне.
Я пока можете сами попробовать, вот тут есть ответы, что и куда надо прописать, чтобы MS библиотеки завелись.
P.S. Мистраль, конечно, вообще без тормозов. Ругается матом, требует денег. Идеальный вариант для NSFW.
Источник: Метаверсище и ИИще
2024-04-16 09:39:41