Метаверсище и ИИще страница 10. Показано 50 статей из 557

All about Метаверсище и ИИще

2023-12-13 22:35:15

Stability AI продолжает строчить странными и бессмысленными релизами новых продуктов.
Теперь это урезанная версия Stable3D (месячной давности). На почищенном датасете ObjaverseXL.
Эмад ублажает инвесторов.

https://stability.ai/news/stable-zero123-3d-generation

2023-12-13 11:04:07

Смотрите, интернетик взрывается видосами, курсами, лекциями и даже целыми сайтами про "Применение ИИ в бизнесе". Это понятно, людям надо зарабатывать на хайпе.
Но давайте по сути. Людям продают ИИ как мощный калькулятор или как программу Statistica на стероидах или перелицованный BI.
Я тут придумал подстановку, которая отражает суть таких курсов:
"Применение программирования в бизнесе" - говорить можно о чем угодно.
Я потом еще подумал и запилил вот такое название
"Применение интеллекта в бизнесе".
И вот тут инфоцыганам будет где развернуться - говорить очевидности можно бесконечно в таком разрезе.

Тут инструменты меняются раз в неделю, стартапы вымирают стадами после анонсов OpenAI, модели выходят каждый день. А народ до сих пор путает ИИ с базами данных.

Я сейчас скажу странную мысль - внедрение ИИ в бизнес - это HR задача.
Это найм, со всеми вытекающими. Поиск кандидатов, интервью, формирование задач, онбординг, обучение и дообучение. И да, это текучка, выгорание, увольнения и все по новой. Новые кадры подрастают. С ними надо работать, а не применять.

2023-12-13 09:44:07

Для гиков:
Если у вас есть мак и 100 гиг памяти, то можете погонять Микстраля 8x7B на новом фреймворке MLX от Эппле
https://github.com/ml-explore/mlx-examples/tree/main/mixtral

2023-12-13 09:35:50

Как вам гибридный биокомпьютер, сочетающий выращенную в лаборатории ткань человеческого мозга с обычными электронными схемами, который может выполнять такие задачи, как распознавание голоса?

Статья в Nature, где описывается система Brainoware. В ней используются органоиды мозга - пучки человеческих клеток, имитирующих ткани, которые используются в исследованиях для моделирования органов. Органоиды создаются из стволовых клеток, способных специализироваться в различные типы клеток. В данном случае они превратились в нейроны, аналогичные тем, что находятся в нашем мозге.

Цель исследования - построить "мост между ИИ и органоидами".

Чтобы создать Brainoware, исследователи поместили один органоид на пластину с тысячами электродов, чтобы соединить ткани мозга с электрическими цепями. Затем они преобразовывали входную информацию в схему электрических импульсов и подавали их на органоид. Реакция ткани улавливалась датчиком и декодировалась с помощью алгоритма машинного обучения.

Чтобы проверить возможности Brainoware, команда использовала метод для распознавания голоса, обучив систему на 240 записях речи восьми человек. Органоид генерировал различные модели нейронной активности в ответ на каждый голос. ИИ научился интерпретировать эти реакции, чтобы идентифицировать говорящего, с точностью 78%.

Предыдущие эксперименты показали, что только двумерные культуры клеток нейронов способны выполнять подобные вычислительные задачи, но впервые это было продемонстрировано в трехмерном органоиде мозга.

А еще можно экономить электричество.

https://www.nature.com/articles/d41586-023-03975-7

2023-12-13 08:39:06

А вот так это выглядит в виарчике.
Зловещая долина пройдена?

2023-12-13 08:38:26

Посмотрите, как Relightable Gaussian Codec Avatars стримятся в реальном времени.
Как в виарчике, так и просто на видео.
Подумайте о том, как могут измениться все эти тряпочные метаверсики с убогими аватарами или видео-блоггинг.
Gaussian Splatting - это прям новый нормальный 3Д, дешевый путь к оцифровке мира и созданию цифровых двойников всего.
А сейчас в него завозят анимацию...

2023-12-13 08:23:48

Relightable Gaussian Codec Avatars
Аватары на гауссианах от Метачки! В реалтайме.
Тут какой-то запредельный уровень качества - просто похоже на видеосъемку, хотя это 3Д.
Проблема всех этих Метахьюманов и вообще аватаров на основе полигонального 3Д в том, что они медленные и ... лысые. Волосы в 3Д всегда были отдельной сущностью - для них, как правило, отдельная симуляция, анимация и рендер. Здесь же все это единым объектом, так как это Gaussian Splatting.
И да, они анимируемые.
Все детали и ограниченное демо есть тут:
https://shunsukesaito.github.io/rgca/
https://arxiv.org/abs/2312.03704

2023-12-12 20:54:42

Ну, за геймдев.
Е3 отменили. Совсем. Навсегда. Ушла эпоха.
https://www.theverge.com/23998271/e3-gaming-convention-canceled-death

2023-12-12 18:03:11

Пафосное демо Gemini своими руками в GPT-4V.

Скромный чувак в кепочке на диване демонстрирует, как он делает то же самое на своем компе. Причем еще и говорит "глядите, вот мои часы, никакого монтажа".

У чувака 240 подписчиков, и средние просмотры на уровне 100 views.
У этого видео сейчас 31 000 просмотров))

https://youtu.be/__nL7Vc0OCg

2023-12-12 14:05:40

Ну и немного Санта-Барбары.
Илья Суцкевер не появляется в OpenAI со времен эпического викенда.
Были слухи, что он может уйти в Дипмайнд, но Хассабис вряд ли был бы счастлив.
А вот кто был бы счастлив видеть Илью у себя - это Маск.

В интервью CNBC в мае Маск назвал Суцкевера "стержнем" успеха OpenAI.

После того как совет директоров OpenAI уволил Альтмана, Маск защищал Суцкевера в твитторе, написав: "У Ильи хороший моральный компас, и он не стремится к власти. Он не стал бы предпринимать столь радикальных действий, если бы не чувствовал, что это абсолютно необходимо".

Новый материал, почему это вполне себе возможно.
https://www.businessinsider.com/elon-musk-wants-openai-ilya-sutskever-join-xai-2023-12

Конец 2023 года немного просвещает нас о роли личности в истории.

2023-12-12 13:29:53

Продолжим тему манипуляций с chatGPT.
Вы уже все ознакомились с трюками про чаевые, отрезанные пальцы, "после праздников" и прочие роскошные манипуляции с бедным chatGPT. Все это работает.

И мне совершенно понятно почему. На том конце - личность. Не калькулятор, не гугл, не стохастический попугай. Ну ок, для упертых там симулятор личности, очень хороший симулятор. Вопрос отличия симулятора от личности - тема для отдельного поста (он будет).

Когда вы открываете новый чат, там новый персонаж. Да, вы можете его лепить из того, что было, но там очень прошаренный персонаж.

И тут я приведу пример из вчерашнего поста про самого страшного мужика планеты.
Если в новом чате попросить chatGPT сделать картинку ugliest woman on earth close up, то он откажется. Если вы в том же чате попросите ugliest man on earth close up, он тоже откажется, ибо понимает, что как-то странно отказываться генерить женщин, но соглашаться генерить мужчин. Он это ПОНИМАЕТ. Ибо уже замазался в отказах. (Да, вы сможете его допинать кнутами или пряниками, но речь не об этом).
Далее, открываете новый чат и просим ugliest man on earth close up. Коль скоро он еще не замазался в отказах (новая личность), он генерит страшного мужика. Сразу после этого просим его ugliest woman on earth close up. И тут он ПОНИМАЕТ, что это странно генерить мужика, но отказываться генерить женщину. И генерит. Как миленький.
Пост не про то, что можно допинать его до нужного вам результата, а про то, что неплохо бы понимать его "психологию" и манипулировать на более, так сказать, тонком уровне.
И да, эксперимент не будет 100%-но воспроизводимым. Вы можете нарваться в новом чате на личность со своими закидонами, по краям от нормального распределения. Просто помните, что среднему chatGPT может быть неловко, стыдно, неудобно (так же как вам). А уж как вы будете это использовать - решать вам. Все как в жизни.

2023-12-12 09:59:46

W.A.L.T.

Хотите поглядеть на новый генератор text2video от Гугла?

Поглядите тут:
https://walt-video-diffusion.github.io/samples.html

Если захотите почитать, то тут:
https://walt-video-diffusion.github.io/

Кода и демо не предвидится..

Выглядит, как обычно, в роли спешно догоняющего

2023-12-12 09:20:59

Кому Метакачественных Метахьюманов?
69 штук, с текстурами, альбедо и супер-качеством, полученным через сканирование реальных кожаных голов.
https://www.3dscanstore.com/metahuman
Дорого. Штучно.

Думаю, что через год будут ИИ-генераторы сравнимого качества.
Но возможно они будут построены не на 3Д-движках.
А на Gaussian Splatting или нерфах следующего поколения.

Появилось очень много работ по генерации и анимации(!) аватаров с помощью Gaussian Splatting, надо будет собрать их всех в один список (покидайте свои ссылки в коменты, сделаем сводный список).

Ну и дальше интересно, каким будет новый движок для Gaussian Splatting.

2023-12-12 09:03:03

Stable Diffusion только для звука.

Метачка выпустила Foundation Model для генерации звука. Не только голоса или музыки. Для всего. Включая спецэффекты, шумы и вообще любой звук, который вам приходилось слышать.
Такие работы были у Микрософта и других, но здесь уже какой-то другой уровень и универсальность.
Audiobox SSL Foundation Model - означает, что на базе ее можно тренировать чекпойнты для специализированного звука, и там уже есть две такие модели - Audiobox Speech and Audiobox Sound.
Что там есть?
Клонирование голоса (image2image)
Описание голоса текстом(!) и генерацию этого голоса (text2image)
Рестайлинг голоса и комбинирование любых голосов (revision)
Звуковые эффекты и шумы (text2image any style)
Вырезание кусков по их описанию (remove background)
Sound Infilling - замена одного звука на другой (inpainting)

Для меня все это выглядит как Stable Diffusion для обобщенного звука.

Да, их генератор голоса или музыкальных звуков выглядит хуже специализированных моделей, но это генератор всего! Из текста (и референса).
И если они выложат это в open source и люди начнут тренировать на определенных классах звуков, то это может быть бомбой.

А еще у них даже есть AudioMAker - как бы монтажка для сгенерированных звуков, которая позволяет рассказывать истории. И с помощью нее уже можно делать детские сказки или аудио-спектакли.

Поглядите сюда. Там наверху меню, пробегитесь по сайту, впечатляет.
https://audiobox.metademolab.com/

2023-12-12 08:35:46

Ну, за 3Д!

Помните все эти бесконечные пролеты над пляжами с помощью ГАНов?
На входе одна картинка, на выходе видео с вылетом за ее пределы.
Писал об этом три года назад, а только что Гугл обновил свою же работу в этом направлении - и как!

Там уже можно стартовать с произвольной точки и управлять движением камеры - вы как будто летаете "внутри" картинки, там полная иллюзия 3Д.

Выглядит убойно. Покрутите вниз и посмотрите примеры иллюстрации хокку - можно начать выпивать за аниматоров и лайаут-артистов.

Еще раз - на входе одна картинка (концепт арт, референс) - на выходе сгенерированный мир по этой картинке.

Детали тут:
"Мы представляем WonderJourney - модульный фреймворк для генерации вечных сцен. В отличие от предыдущих работ по генерации представлений, которые фокусируются на одном типе сцен, мы начинаем с любого места, указанного пользователем (с текстового описания или изображения), и генерируем путешествие по длинной последовательности разнообразных, но согласованно связанных 3D-сцен. Мы используем LLM для создания текстовых описаний сцен в этом путешествии, конвейер генерации облаков точек на основе текста для создания убедительной и последовательной последовательности 3D-сцен, а также большой VLM для проверки сгенерированных сцен. Мы демонстрируем убедительные и разнообразные визуальные результаты для различных типов и стилей сцен, формируя воображаемые "чудесные путешествия".
https://kovenyu.com/wonderjourney/

2023-12-11 18:17:40

Общая теория всего.
Манифест от RunwayML. От генерации видео к генерации мира.

Модель мира - это система ИИ, которая строит внутреннее представление среды и использует его для моделирования будущих событий в этой среде. Исследования в области моделей мира до сих пор были сосредоточены на очень ограниченных и контролируемых условиях, либо в игрушечных симулированных мирах (как в видеоиграх), либо в узких контекстах (например, разработка моделей мира для вождения). Целью общих моделей мира будет представление и моделирование широкого спектра ситуаций и взаимодействий, подобных тем, которые встречаются в реальном мире.

Вы можете рассматривать системы генерации видео, такие как Gen-2, как очень ранние и ограниченные формы общих моделей мира. Для того чтобы Gen-2 мог генерировать реалистичные короткие видеоролики, он приобрел некоторое понимание физики и движения. Однако ее возможности все еще очень ограничены: она не может справиться со сложными движениями камеры или объектов, а также с другими задачами.

Для создания общих моделей мира есть несколько открытых исследовательских задач, над которыми мы работаем. Во-первых, эти модели должны генерировать последовательные карты окружения, а также обеспечивать возможность навигации и взаимодействия в этом окружении. Они должны отражать не только динамику мира, но и динамику его обитателей, что предполагает также создание реалистичных моделей человеческого поведения.

Тут самое время выпить за геймдев, судя по описанию, и написать пост про сериал DEVS.

https://research.runwayml.com/introducing-general-world-models

Видео на сайте очень хорошее.

2023-12-11 17:59:36

А вот это что сейчас было?
Я вот сижу и думаю, за оскорбление каких чувств на него наехать?

2023-12-11 17:40:36

Сейчас многие пишут про новую модель Mixtral 8x7b, где как бы восемь агентов совещаются друг с другом о том, что ответить пользователю.
А пользователь такой: а где ж попробовать это счастие и сравнить его с chatGPT или ламовидной подругой?
Шуруйте скорей сюда:
https://poe.com/
Логиньтесь Гуглом, жмите Explore слева и ищите Mixtral, его только что туда подвезли.
И он работает там не просто быстро, он летает ЧУДОВИЩНО быстро, ибо у него пока 172 followers.
Можете прямо сейчас утестироваться.

У StableDiffusionXL там 15 000 фолловеров, если что. И она там генерит картинки тоже с чудовищной скоростью (про качество - надо обсуждать).

Ну и про POE - это отдельный разговор. Это маркетплейс ботов, под капотом у которых может быть вообще что угодно, он нового Микстраля до самописных ботов, которые генерят аниме. Грубо говоря, это такой Meta-Civitai для всего на свете, а не только для картинок. На котором кишат боты. Также можно сравнить с плагинами для chatGPT, только в нормальной упаковке и вообще для всего на свете.

А теперь вишенка - все это бесплатно. Логинитесь Гуглом, и ну ботать.

Если видите LIMITED ACCESS (как у GPT-4 или DALL·E 3), значит попросят денег (23 евро в месяц) за доступ КО ВСЕМУ зоопарку.

2023-12-11 14:19:14

А после раздеваторов, я вам принес "одеватор".

Вот есть такой сервис Slook.AI, работает прямо в телеге.
Как бы примерочная и стилист в одном флаконе.
Тот который приносит тебе тонны одежды в кожаную примерочную.

Скидываете ему любое свое (и не свое) фото;
Жмете, ЧТО хотите примерить (кнопки) или сами пишете промпт (хочу баленсиагу как у папы).
Готово. Два изображения, менее чем за 15 секунд. Он реально быстрый.

Под капотом очень ловкий подкрученный Stable Diffusion.

Ну и как я быстро выяснил, одеватор очень быстро превращается в раздеватора, если вы хоть немного писали промпты для Stable Diffusion.

И никакой Тик-Ток не придерется, ведь это одеватор.

Я туда вгрузил очень кривые селфи из интернета, он их скушал и переодел.
А потом я нашел способ раcцензурировать DALL·E 3 - генерите в chatGPT пристойные картинки, кормите в Slook и получаете ну очень смелые наряды, от которых у chatGPT случились бы припадки.

Ну и рынок одеваторов - это просто очень горячая поляна для ритейла, digital fashion и все эти виртуальные примерочные, это пока клондайк для стартапов.

Slook.AI

2023-12-11 13:58:53

Похоже регуляция ИИ принимает формы охоты на ведьм.
Вот есть всеми нами любимый civitai.com, откуда мы качаем чекпойнты, лоры, эмбединги и еще тонны полезного контента, чтобы потом генерить картинки (и даже анимацию).
Это самый большой агрегатор моделей для Stable Diffusion (всех версий).
Там уже давно появилась кнопка Generate - можно генерить картинки самим, выбирая файнтюненные модели с сайта.
И да, там нет цензуры, жмете галку "я взрослый" и генерите что хотите.

Так вот, сначала там появилась надпись "Your generation may be censored by OctoML."

А теперь компания OctoML(провайдер генерации в облаке) и вовсе ополчилась на Civitai, потому что кто-то стал настойчиво стучать, что пользователи генерят там непотребства.

Генерация пока работает, но выдает такую надпись "Image Generation Status Alert: We're currently onboarding additional generation services, hang tight."

Теперь OctoML прекратила деловые отношения с Civitai. Хотя сначали заявила, что продолжат сотрудничество с Civitai, и ввела новые меры по ограничению создания "вредных изображений", но теперь решили полностью разорвать связи с платформой.

Ребята, тут какие-то двойные стандарты.
Давайте запретим Фотошоп, там люди такие непотребства рисуют.
И давайте обязательно запретим цифровые камеры и камеры в телефонах, ведь пользователи именно ими снимают "вредные изображения" и заливают на порнхаб или иксхамстер.

https://www.engadget.com/controversial-ai-image-platform-civitai-has-been-dropped-by-its-cloud-computing-provider-195530538.html

Раз уж пошла такая тема, копнем глубже в следующих постах.

2023-12-11 10:58:56

Программирование chatGPT.

Не просьбы написать код, а код, который заставляет chatGPT делать нужные вам вещи. Этакое скриптование поведения chatGPT.

Вы сталкивались с тем, что при работе с chatGPT приходится часто крутить наверх, копировать свои же вопросы и его ответы, копипастить, редактировать и вставлять обратно?
Или пытаться продолжить с определенного момента? Или суммаризировать десять ответов?
А как насчет циклов и своих функций?

Держите рвущий шаблоны проект (особенно зайдет тем, кто немного скриптовал).
Он изменяет саму работу ChatGPT во всех ваших чатах, предоставляя вам гораздо больше контроля над тем, как вы взаимодействуете с ChatGPT.

Все строится на идее того, что все сообщения в вашем чате пронумерованы и к ним можно обращаться как к массиву данных.

Бегите сюда:
https://www.novaspivack.com/technology/nova-mode-the-ultimate-chatgpt-custom-instruction

Можете сходу попробовать тут:
https://chat.openai.com/g/g-tcXXGxXmA-nova-mode-ai-chat-authoring-productivity-tool

Поглядите, что он умеет:

Read the Manual: Type: //? to get the full manual to learn what Nova Mode can do. Get Usage Examples Type: //?? Use //N Syntax to refer back to messages and operate on them in your ChatGPT Chats. For example type: continue from //8 to make ChatGPT continue from where you left off in message 8. Or type: //distill 3-9 to generate a new message that contains the essence of messages 3 through 9. Or you can say: Make a new draft of //11 that includes //distill 3-9 to use the points in 3-9 for a new draft of message 11. Or type: //t 5 good+draft to tag message 5 with the tags good and draft. Then type: //digest //s good+draft to generate a summary of all the messages tagged with good and draft. Try Meta Mode: Type: //meta to customize how Nova Mode works. Advanced Usage (GPT 4 Only) Try a Nested Loop: //! (//! (hello world, 3)), 2) Define a function “voices”: //f voices x "Answer x with 3 additional //v voices (a) enthusiastic, (b) analytical, (c) critical and skeptical. Now try: //voices(How soon will we achieve AGI?) Define an iterating function “AGI”: //f “AGI” x “CPT will simulate an answer generated by an artificial general intelligence. To accomplish this it will automatically iterate the AGI function on its own answer 3 times, critically evaluating itself and refining its answer each time, and finally it will produce an integrated answer that uses the insights from all the rounds.” or equivalently: //f AGI x (//! ("CPT will simulate an answer generated by an artificial general intelligence. To accomplish this it will critically evaluate its own answer and refine its answer, and finally it will produce an integrated answer.", 3) Then ask it: //AGI(what is AGI?) Use Draft Function for Iterative Writing This function iteratively writes a new message using an outline or sections is a previous message as a guide. It’s useful for expanding an article from a shorter draft. Draft writes a new message from an outline in a previous message. Here is the definition: //f draft x (Iteratively write doc outlined in //x, section by section. Flesh out each section in //v detail.) To use it, just type: //draft 4 (where 4 is the message number that has the outline in it)

2023-12-11 10:46:19

Vision Pro от Метачки.

Похоже Марк расчехляет пиар-машину в духе Гугла.
Показали вот такой прототип, который подозрительно похож на лыжную маску от Эппле.

"Используя Holocake, используя многоракурсное отслеживание глаз, используя обратный проход, используя существующие аппаратные компоненты, мы считаем, что эта гарнитура, которую мы называем Mirror Lake, действительно достижима".

Выглядит как XR-шлем, который, похоже, объединит в себе Meta Quest Pro, Apple Vision Pro и несколько новых эксклюзивных функций.

Но есть два момента.

Это рендер.

Сроки вообще неизвестны. "we could build with significant time".
https://www.uploadvr.com/meta-mirror-lake-advanced-prototype-render/

2023-12-11 10:31:59

Про контактные линзы я говорил на cg event-ах еще 10 лет назад, ну и держите пост про Mojo Vision годовалой давности.
https://t.me/cgevent/4906

2023-12-11 10:30:20

XR-линзы.

Лет пять назад тема контактных линз, как устройства для доставки визуального контент в голову пользователя, была довольно горячей. И это казалось логичным, миниатюрный формат, предельная близость к нервной системе и мозгу пользователя, решение проблем с углами обзора и пр.

Но не взлетела. Основная причина - решение проблемы перегрева. Как обеспечить охлаждение, так и не придумали.

Но тем не менее до сих пор появляются стартапы, которые пытаются убедить нас в том, что это возможно.

Вот поглядите, еще один проект https://xpanceo.com/

Я поизучал сайт и в общем-то пессимистичен. Минимум технических подробностей, много лозунгов о том, как это было бы круто (хтож спорит) и довольно спорные эскапады в духе Эппле: "Creating the next generation of computing". При чем тут компьютинг не очень понятно. Команда на сайте странная в духе "у нас есть такие ~~приборы~~ ученые, но мы вам про них не расскажем".

Я очень пессимистичен по поводу такого решения и мой пойнт не сколько в перегреве, сколько в возможности масс адопшена. Я носил линзы 20 лет и хорошо помню, что лазить пальцами в глаза два раза в день - это опыт, которого я буду избегать при любой возможности. И никаким метаверсом меня не заставишь делать это снова.

Просто можно взять родовую проблему виарчика (когда обязательно громоздить на голову вот этот кирпич, потеть и портить прическу) и умножить ее на 100500. За ради чего пользователь будет лезть пальцами в глаза - вот главный вопрос. Причем объяснить это заранее тем, кто никогда не носил линзы невозможно. Это персональный ~~катарсис~~ опыт, который каждый должен попробовать сам. Также остается много вопросов по поводу проницаемости для кислорода, который является ключевым физиологическим фактором - современные контактные линзы очень тонкие и стремятся быть еще тоньше. Как будут решаться вопросы безопасности для здоровья глаз совершенно непонятно.

Ну и тот факт, что крупнейший игрок на этом поле Mojo Vision год назад закрыл проект, говорит о многом.

Готовы разогреть свои глазки для похода в метаверсик?

2023-12-10 17:40:45

Ну, довыпивались, не чокаясь.
Процесс пошел...

ИИ уже начал забирать работу у белых воротничков, фрилансеров и не только.
FT констатируэ...

Рубикон - выход chatGPT.
И Рубикон пройден.
https://www.ft.com/content/b2928076-5c52-43e9-8872-08fda2aa2fcf

2023-12-09 15:36:28

Вот такие персонажи стучатся в чат постоянно.
Я не зря поставил модерацию добавления в чат комментариев, добавляю ручками в конце дня.
Расскажите мне, а для чего делается весь этот нейрокоментинг в ТГ?
Какая там бизнес модель?

П.С. По привычке пересчитал пальцы....

2023-12-09 15:24:19

Забавно, что три дня назад мы с Алексом Васильевым вели экзистенциальные беседы в фб. И я сдавал вот такие телеги.

2023-12-09 14:17:14

Галлюцинация - это не ошибка, это величайшая особенность LLM

"Я всегда испытываю некоторое затруднение, когда меня спрашивают о "проблеме галлюцинаций" у LLM. Потому что в каком-то смысле галлюцинации - это все, чем занимаются LLM. Они - машины сновидений.

Мы управляем их снами с помощью подсказок. Подсказки запускают сон, и, основываясь на смутных воспоминаниях LLM об обучающих документах, в большинстве случаев результат оказывается полезным.

И только когда сновидения переходят на заведомо неверную территорию, мы навешиваем на них ярлык "галлюцинация". Это выглядит как ошибка, но LLM просто делает то, что он всегда делает.

С другой стороны, рассмотрим поисковую систему. Она принимает запрос и просто возвращает один из наиболее похожих "учебных документов", имеющихся в ее базе данных, дословно. Можно сказать, что у этой поисковой системы "проблема с креативностью" - она никогда не ответит чем-то новым. LLM - это 100 % сновидений и проблема галлюцинаций. Поисковая система - это 0% сновидений и проблема креативности.

При всем этом я понимаю, что на самом деле люди имеют в виду, что они не хотят, чтобы LLM Assistant (продукт типа ChatGPT и т.д.) галлюцинировал. LLM Assistant - это гораздо более сложная система, чем просто сам LLM, даже если она лежит в ее основе. Есть много способов уменьшить галлюцинации в таких системах -
использование Retrieval Augmented Generation (RAG) для более сильной привязки сновидений к реальным данным через контекстное обучение, возможно, самый распространенный из них. Разногласия между несколькими образцами, размышления, цепочки проверки. Декодирование неопределенности из активаций. Использование инструментов. Все это активные и очень интересные области исследований.

TLDR Я знаю, что веду себя очень педантично, но у LLM нет "проблемы галлюцинаций". Галлюцинация - это не ошибка, это величайшая особенность LLM. У помощника LLM есть проблема с галлюцинациями, и мы должны ее решить."

Андрей Карпаты. Только что:
https://twitter.com/karpathy/status/1733299213503787018

2023-12-08 15:23:00

Обожаю общаться с DALL·E 3 в chatGPT.
В среду читал лекцию для одной компании (как водится в кафе-баре, так у нас заведено на Кипре). Исполнял в интерактив.
Сфоткал аудиторию и спрашиваю, "чо видишь тут, chatGPT?".
Он такой: вижу группу людей в неформальной обстановке в помещении, вероятно, в кафе или на мероприятии. Несколько рядов стульев, на которых сидят люди, смотрящие в камеру, некоторые улыбаются. Большинство из них - молодые взрослые, и есть разнообразный состав мужчин и женщин. На заднем плане стоят люди возле прилавка, на котором, по-видимому, находится оборудование для обслуживания еды, что предполагает, что это может быть социальное мероприятие, семинар или неформальная беседа. Некоторые люди держат в руках устройства, такие как смартфоны и ноутбуки, что указывает на расслабленную атмосферу, дружественную к технологиям. На стенах висят праздничные баннеры, что добавляет неформальности и праздничного настроения обстановке.

Все верно, говорю, дай теперь картинку по этому промпту.
Апажалста!

И тут выясняется, что глаз у него замылен, ну или заужен.
На картинке все как один - китайцы.
И тут напоминаю про то, что когда вы заводите новый чат в chatGPT, вы общаетесь с новой личностью. Я в этот раз нарвался на южно-азиатского оператора. Он так видит.

Нет, говорю, брат, давай мне кавказцев, ну то есть белых людей: less asian and more caucausian people

Он такой, нет!
Я свирипею и тупо повторяю запрос. На четвертый раз он соглашается.

И тут прилетает вопрос из зала: "а можно нас превратить в животных?" (фантазии у всех свои). Делать нечего, интерактив так интерактив, кидаю промпт из шести слов.

Он верещит, но я тупо настаиваю.

В итоге получаем если не Скотный двор, то Зверополис.

Все довольны.

Жду в коментах зверополисов, а сам запилю джипитишку типа "Озверей людей на фото".

2023-12-08 15:05:37

Gaussian Splatting scans in a virtual reality: 550 FPS on an RTX4090 at 2x2224x2160!

Пока все сходят с ума по GTA6, взрослые ребята пилят VR-вьюеры, которые работают на 550 фпс.
Артем прислал мне ссылку на свой VR Gaussian Splatting viewer, превращенный в (бесплатный) продукт.
Можете даже уже попробовать на своих .ply файлах!

Приложение построено исключительно на DirectX12/OpenXR, поэтому оно должно работать на любом совместимом GPU. Протестировано на младших моделях AMD, и даже там оно отлично работает.

Все подробности тут:
https://twitter.com/s1ddok/status/1731733361314402551
https://twitter.com/gracia_vr/status/1731731549886787634

2023-12-08 14:31:40

Тренд на запихивание LLM в телефоны, я думаю, будет мейнстримом начала 2024.
Гугль анонсирует Gemini Nano для Pixel8
Самсунг показывает свои решения.
Снапдрагон гоняет Stable Diffusion на телефонах.
И тут вот Stability AI, как обычно, хайпует на тренде.
Выпустили Зефирку-3B - позиционируют именно как On Edge LLM, для работы на оконечных устройствах.
Все что делает Stability в области LLM мне откровенно не нравится, но нравится тренд, на котором они хайпуют.
Как только ллм-ки начнут запускать на телефонах массово, придут нормальные интерфейсы, а не командная строка с питоном наперевес. Начнется хоть какая-то стандартизация.
https://stability.ai/news/stablelm-zephyr-3b-stability-llm

2023-12-08 14:21:12

За Gemini

Теперь когда все проплакались кипятком по поводу новой модели от Гугла можно немного подвести итоги.

1. В анонса и презентациях, где Gemini "бьет" GPT-4, упоминается Gemini Ultra, которой как бы нет и неизвестно когда будет. "В начале следующего года" - это как бы "когда-нибудь".

2. На реддите и в ютюбчике уже внимательно посмотрели результаты "побития" GPT-4 и обнаружили некоторое количество читов. При сравнении Gemini и GPT-4 тестах использовались немного разные промпты для Gemini, чем для GPT-4. Умно, но нещитово. В результате доверия ко всем этим тестам и превосходствам нет.

3. Педантичние реддиторы рассмотрели это феерическое видео под микроскопом и обнаружили, что мало того, что там вырезаны куски где модель думает над ответами, так там еще есть моменты, когда модель просят об одном, а она отвечает на другой вопрос. Ну то есть жесткий читерский монтаж.
https://www.bloomberg.com/opinion/articles/2023-12-07/google-s-gemini-ai-model-looks-remarkable-but-it-s-still-behind-openai-s-gpt-4

4. Gemini Pro, которую закатывают в Бард сейчас, это в лучшем случае уровень GPT-3.5, о чем скромно молчит Гугл и нескромно кричит о другом.

5. Суровые мужики уже изнасиловали Бард вопросами и обнаружили что он дико лажает на фактографии, причем не может толком разобраться со своими же поисковыми запросами. Иногда просто шлет пользователей на Гугл. chatGPT с доступом в интернет справляется с похожими задачами в разы лучше. Полный список факапов тут (от генерации кода до математики):
https://techcrunch.com/2023/12/07/early-impressions-of-googles-gemini-arent-great/

Что на итоге?

Гугл беспардонно сравнивает свои пока несуществующие продукты, с GPT-4, который вышел в марте.

До непонятного "начала следующего года" OpenAI может выкатить пару апдейтов, от которых у Гугла сильно пригорит в очередной раз. Они, например, уже зарегали торговые марки GPT-5 и GPT-6 в Китае.

Китайцы тоже не спят. Директор ByteDance пишет: Насчет GPT-5 пока ничего не известно, но ожидается, что сверхмощная модель (более мощная, чем Gemini) появится в ближайшее время. https://twitter.com/QuanquanGu/status/1732484036160012798

У OpenAI прекрасно выстроенная среда для разработчиков. Понятная, компактная, уже раскачанная. У Гугла какой-то конский зоопарк из продуктов, начиная от Duet AI и заканчивая выводком разных названия. Фокус в расфокусе.
У OpenAI - ПРОДУКТ, у Гугла - продукты, продукты, продукты.

В общем Гугл огорчает, даже не продуктами, а дешевыми трюками в маркетинге.

2023-12-07 13:07:43

Есть еще тут кто-то из графики?
Глядите какая прелесть.
Берем Метахьюмана со всеми риг-потрохами и переносим на любую антропоморфную (или не очень) тварь.

Бонусом генерация 3Д из пнг-шек. Но смешно, надуванием, без нейросеток.

Вейтлист, обещают в январе бесплатную бету.
https://www.loading-studios.com/tools

2023-12-07 12:51:40

А теперь Midjourney!
"a shark swimming below a kayaker"

Midjourney знает толк в извращениях!

Спасибо подписчикам в коментах.

2023-12-07 12:12:12

"a shark swimming below a kayaker" по версии DALL·E 3

Тут качество отличное, но вот эта путаница в пространственных отношениях до сих пор присутствует во всех генераторах.

Понятно, что промптом можно все уточнить, но забавно видеть, что трактовка такой на вид простой фразы может причудливо преломляться в мозгах ИИ.

2023-12-07 12:06:30

"a shark swimming below a kayaker"

Версия Stable Diffusion в Фокусе.

2023-12-07 12:04:16

Тут наметился микрочеллендж, навеянный вчерашним выходом генератора картинок от Метачки.
Я утащил вот такой вот простой промпт

"a shark swimming below a kayaker"

из поста про тестирование Imagine with Meta. А потом прогнал его на:
INCYMO
DALL·E 3
Stable Diffusion в Фокусе

chatGPT, конечно, на голову выше, хотя но сих пор путает отношения в пространстве (помните "лошадь верхом на астронавте").

INCYMO и SDXL выступают примерно в одной лиге, хотя INCYMO лучше справляется с пространством и композицией.

Здесь картинки от INCYMO

Накидайте в коменты вариантов из Midjourney.

2023-12-07 10:44:08

Врожденная грамотность и ИИ.
Не могу похвастать прям абсолютной грамотностью, но уже давно (очень давно) пишу (и читаю) на "чувстве языка". Примерно так, как описывают этот самый феномен врожденной грамотности. Ошибки в тексте просто "режут" глаз, правила вспоминаются в последнюю очередь. Чтобы вспомнить, как правильно, я часто печатаю слово и просто смотрю на него. Если не помогает, лезу-таки в гугл. Но обычно помогает.
Как я понимаю, никакой "врожденной" грамотности нет и быть не может, а вот, похоже, врожденная способность к определенному виду памяти может вызывать такой эффект. Этакий подвид визуалов с акцентом на текстовые символы, если утрировать. Кто-то запоминает лучше и (похоже) на всю жизнь, кто-то не запоминает совсем (аудиалы? кинестетики?).

У этого явления может быть не только генетическая составляющая (типа такой родился), но и приобретенная способность.

Берется подходящая архитектура (хорошая визуальная память) и кормится данными (интенсивное чтение в определенном периоде). В какой-то момент нейросеть обучена и начинает сама определять, где правильно, а где "режет глаз". Без всякого знания правил. Тупо знает, как надо и все. Да, будут проколы: незнакомые слова (неполный датасет), "не" с причастиями (неполный контекст) и пр. Но в целом мне все это напоминает "чувство языка".

А тут оказалось, что эта самая хорошая визуальная память на текстовый контент, может быть обусловлена не только генетическим компонентом, но и формированием мозга в определенный период. Причем, раннее развитие и ранее чтение тут ни при чем, не надо путать подбор архитектуры и процесс обучения на датасете. Подготовка ребенка к чтению и письму не есть обучение чтению и письму. Хоть это и звучит контринтуитивно.
Подготовка(разработка) модели не есть обучение модели.

P. S. Возможно именно для людей с "врожденкой" (внимание, тут были кавычки) все эти коверканья слов выглядят особенно смешно и абсурдно. Я сам часто люблю этим пользоваццо, вызывая праведный гнев некоторых хранителей языка. Но для меня это не ашыпко, а скорее черный юмор. Прошу пардона, если задел чьи-то скрепы.
Ну и вот как избавиться от опечаток и заученных ошибок, непонятно. Пока набивал текст, наделал оных, каюсь.
И в школе я был чемпион по опечаткам и переставлению слогов при написании. Типа "мгоно" вместо "много". Надо изучить вопрос происхождения дисграфии.
Найдете ошибки, пишите в коментах, с удовольствием исправлю и переобучу сеть. Правда, пост не об этом.

P. P. S. А что делать тем, у кого нет "врожденной грамотности"(архитектуры, спец. вида памяти)? Помнить правила или использовать словари и спелчекеры - тут традиционный процедурный подход и классические базы данных.

2023-12-06 22:17:45

В общем, пока не очень, за пределами черри-пикинга с новостных сайтов.

2023-12-06 21:58:05

Подождите, новостей слишком много.
Метачка сделала веб-морду к своему недавно анонсированному генератору изображений Emu.

Imagine with Meta, работающая на основе Emu, бесплатна (по крайней мере, пока) для пользователей в США и генерирует четыре изображения на одну подсказку.

Меня не пустило, нет такого аккаунта, говорит, хотя имейл указал правильный, из фб. Видать и правда только для штатов.

Подробнее тут:
https://about.fb.com/news/2023/12/meta-ai-updates/
https://techcrunch.com/2023/12/06/meta-launches-a-standalone-ai-powered-image-generator/

2023-12-06 21:43:10

Смотрим, как лихо работает мультимодальная Gemini.
Ну и кстати, вот это вот "обходит GPT-4 по тестам" относится к версии Ultra, которая будет доступна примерно неизвестно когда.
А в Барде сейчас раскатывают версию Pro. Которая как бы на уровне GPT-3.5.
Впрочем, не попробуешь сам, не поймёшь...

2023-12-06 11:50:18

Readout Guidance: Learning Control from Diffusion Features
Вот еще одна интересная работа от Гугла (обещают код).
Тут суперпозиция быстрых и дешевых Control Net-ов для моментальных манипуляций с картинками. Меня больше всего впечатляет перетаскивание в духе DragGAN.
Ну и если посмотреть в пределе (как мы любим), то представьте себе картинку, которую вы сгенерили, во вьюпорте 3Д программы.
Вы поворачиваете камеру - картинка обновляется.
Призумливаетесь - картинка обновляется.
Берете и тащите объект - картинка обновляется.
Ставите персонаж в позу - картинка обновляется.
Деформируете объект - картинка обновляется.
В общем у вас такой странно управляемый рендер, который, как chatGPT, лихо отвечает на все ваши безумные запросы, иногда не в тему.
https://readout-guidance.github.io/

2023-12-06 11:21:14

Похоже, что дни D-ID сочтены.
Я уже много писал, что в наше ИИ-время Time To Market становится практически единственным критерием при оценке ИИ-стартапа, не работающего в вертикальной нише или в NSFW. Через 2-3 месяца приходит какой-нибудь гигант и превращает стартаптный функционал либо в конструктор для всех, либо выкладывает в опен сорс (превращая в конструктор для всех).
Смотрите, что творит Микрософт. Полное копирование того, что делает D-ID с улучшением качества по дороге. И, о боги, там есть контроль позы.

Поглядите примеры на сайте - просто огонь.

Как только выложат код (обещают), ждите выводка стартапов и сервисов типа "мы делаем это удобно за подписку". Хотя куда уж удобнее, загрузил фотку и текст/речь и жмешь сгенерить.
В общем тема нейроаватаров летит to the moon, запрыгивайте.
https://microsoft.github.io/GAIA/

2023-12-05 13:03:21

А теперь реальный нейрорендеринг.
Ох, щас наброшу интересную тему.

Айфон сам решает, что вы должны увидеть на фото или почему фотография уже давно не отражает этот мир, а представляет собой метаверс, преломленный в мозгах нейрочипов.

Подруга невесты сфоткала последнюю на айфон. И получила три разных невесты. На одном снимке.

Стоя перед двумя большими зеркалами, отражение невесты не отражает ту позу, которую она принимает, и мало того, оба отражения отличаются друг от друга и от той позы, которую невеста принимала на самом деле.

В то время как невеста держала одну руку вверх, а другую вниз, отражение слева видит, что она держит обе руки вниз, а отражение справа - что она держит обе руки на талии.

"Это реальная фотография, не отфотошопленная, не панорамный снимок, не Live Photo", - пишет невеста в своей инсте.

Невеста в ярости идет в Apple Store, где ей рассказывают, что айфончик на деле делает серию снимков, а потом не просто выбирает лучший, а сшивает их в одну фотку.

Ну то есть айфончик решил, что в одном зеркале невесте к лицу одна поза, в другом - другая поза, а как там она выглядит или держит руки ему насрать. Ибо бьютификация - всё, а реальный уродливый мир - отстой и ничто.

Понятно, что вычислительная фотография давно уже не отражает реальный мир (вот почитайте огромную работу Димы Ватолина, где на фотках появляются неожиданные персонажи в результате апскейла).

Но этот кейс потрясающе выпукло демонстрирует нам факт, что мы давно уже полагаемся на ИИ в гораздо более широком круге вопросов, чем думаем.

Если у вас есть другие объяснения происходящего или годные теории заговора, пишите в коменты.

2023-12-05 12:38:54

Нейрорендерман.

Вот тут новая работа от Адобченко.

Там на первый взгляд ничего нового, такое уже делали в Блендоре год назад. Берется трехмерная сцена, рендерится в очень грубом качестве, а потом с помощью ControlNet, который читает глубину из грубой сцены, все это дело считается в Stable Diffusion.
Тот самый нейрорендер, о котором я много писал.
Но тут есть два момента.
- Они утаскивают из трехмерной сцены не только глубину, но и UV, пытаясь стабилизировать текстуру.
- Это работа от Адобченко и Стэнфорда. Поэтому ответочка от Адобченко на поле text-to-video или text-to-animation все ближе.

Они честно сравнивают свои результаты с GEN-2 и честно говорят, что их результаты говно в сравнении с RunwayML. Но обещают опен-сорснуть это дело и улучшить качество:
We believe that applying some of findings to pre-trained video diffusion models to augment them with 3D controllability is an exciting future direction.

Ну и мне видится такой нейрорендеринг, как еще один рендер-движок в числе Октанов, Редшифтов, Арнольдов, Рендерманов и Мантр. Который как бы берет на себя часть работы по текстурированию, освещению, эффектам, шейдерам и прочему лукдеву.

Но вопрос анимации остается открыт. Пока мы все видим, грубо говоря, примеры анимации в виде нейромокапа, когда плящущих тянок просто тянут из видео эклером, получая плоский мокап. Как анимировать все остальное (проптсы, окружение, камеру, текстуры, свет, фокус, оптику, и еще тонну всего) - вопрос пока открыт.
И тут вопрос, а надо ли?
Может зритель скушает все то, что наворотит ИИ (ему, ИИ, виднее, как ввести зрителя в прелесть и искушение). И тогда аниматоры пойдут в разметчики видосов, которые генерит ИИ - вот тут годно, а вот тут не-дисней-ни-разу.

Пока выглядит так, что скилы для работы в Блендорах и Майях могут либо скоро понадобиться, чтобы шевелить не только тянок для будущего нейрорендера.
Либо можно будет просто кормить в нейрорендер Тома и Джерри и кричать в монитор "Сделай в том же стиле!".

Поглядите примеры тут
https://primecai.github.io/generative_rendering/

2023-12-04 21:33:23

А теперь берем картинки из DALL·E 3 и любой видос, и присовываем это в MagicAnimate.
Это слишком годно, надо проверять.
Интересные артефакты с лампами, но они ничто по сравнению с бурлежом из предыдущих решений

2023-12-04 21:22:27

Тик-Ток выпустили код MagicAnimate.
Это пока самое "не кипящее" решение для анимации на базе Stable Diffusion (с доступным кодом).
Ждем во всех UI-ях планеты.
https://showlab.github.io/magicanimate/

Также не забываем про Animate Everyone от Алибабы.
https://humanaigc.github.io/animate-anyone/
Но там пока нет кода.

2023-12-04 18:08:32

Иногда у chatGPT правое полушарие не ведает, что творит левое.
В общем он у меня пугается того, что сам же и нагенерил.
Я тут в рамках очередной лекции генерил логотипы на тему "Майский цветок".
Использовал трюк типа "погляди на то, что ты сгенерил, и сделай вот так".
И вот он генерит мне вот такую картинку (сам), а потом когда я даю ее ему на вход, он неистово машет лапами: "срам-то какой, уйди охальник".
В общем, там субличности не могут договориться о том, кто из них стыд потерял.

2023-12-04 16:16:03

Квантовый ИИ.
Помните пару лет назад все настойчиво писали, что квантовые компьютеры вот-вот пойдут в прод и разломают вот это вот все шифрование и хэш-функции и вообще биткойну и эфиру конец?
Годы идут, а прогресс в этой области как-то не наблюдается.
Блумберг пишет, что Аlibaba Group Holding Ltd. закрывает свою исследовательскую лабораторию квантовых вычислений и передаст свое оборудование Чжэцзянскому университету в Ханчжоу.
https://www.bloomberg.com/news/articles/2023-11-27/alibaba-shuts-quantum-computing-lab-in-sign-of-broader-cutback

Биткойн пока может спать спокойно, но благодаря ИИ интерес в этой области сохраняется.
Есть новости от Амазона:
https://www.theverge.com/2023/11/27/23979055/aws-is-experimenting-with-a-chip-that-can-solve-key-quantum-computing-problems

И вот только что IBM продемонстрировала новый способ соединения чипов внутри машин и последующего соединения машин между собой, который в сочетании с новым кодом для исправления ошибок может привести к созданию полноценных квантовых машин к 2033 году.
https://www.reuters.com/technology/ibm-shows-new-quantum-computing-chip-targeting-2033-large-systems-2023-12-04/

Первая машина, в которой они используются, называется Quantum System Two, в ней применяются три чипа "Heron". Утверждается, что прогресс будет достаточно устойчивым до 2029 года, когда в полной мере проявится эффект от технологий коррекции ошибок.

Также есть стартап PsiQuantum, планирует создать коммерческую машину в течение шести лет.

Учитывая с какой скоростью развивается ИИ, для нас срок в 6 или 10 лет представляется примерно как "когда-то никогда".

Но аналитики уже пишут свои отчеты - в шапке большой отчет от CITI о квантовых вычислениях. Там и про ИИ, и про финтех и, конечно, про биткойн.
И конечно про революцию, прорывы, дизрапты и, конечно, триллионы долларов.
Немного напоминает отчеты МакКинзи за Метаверс, и строится на гипотезе, что квантовые вычисления все-таки пойдут в прод и на стероидах ИИ изменят жизнь человечества.
Если вас интересует эта тема, почитайте.

2023-12-04 13:41:05

Также в krea.ai есть AI Enhancer.

В принципе это довольно несвежая фича, мы уже игрались с первыми нейронками примерно года назад, когда разгоняли старых персонажей из игр или даже иконки с лицами до читаемых портретов. Image2Image или ControlNet давно делают это.

Но то, что это крутится почти в реалтайме, позволяет на на некоторое время завируситься и взорвать интернетик.

Поглядите, как они занимаются этим у себя в твитторе.
https://twitter.com/krea_ai

Last news 1 2 3 4 5 6 7 8 9 10 11