Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 27 (50 постов)

Репосты из тематических каналов

Метаверсище и ИИще 2023-12-13 08:38:26

Посмотрите, как Relightable Gaussian Codec Avatars стримятся в реальном времени.
Как в виарчике, так и просто на видео.
Подумайте о том, как могут измениться все эти тряпочные метаверсики с убогими аватарами или видео-блоггинг.
Gaussian Splatting - это прям новый нормальный 3Д, дешевый путь к оцифровке мира и созданию цифровых двойников всего.
А сейчас в него завозят анимацию...

Метаверсище и ИИще 2023-12-13 08:23:48

Relightable Gaussian Codec Avatars
Аватары на гауссианах от Метачки! В реалтайме.

Тут какой-то запредельный уровень качества - просто похоже на видеосъемку, хотя это 3Д.
Проблема всех этих Метахьюманов и вообще аватаров на основе полигонального 3Д в том, что они медленные и ... лысые. Волосы в 3Д всегда были отдельной сущностью - для них, как правило, отдельная симуляция, анимация и рендер. Здесь же все это единым объектом, так как это Gaussian Splatting.
И да, они анимируемые.
Все детали и ограниченное демо есть тут:
https://shunsukesaito.github.io/rgca/
https://arxiv.org/abs/2312.03704

Сиолошная 2023-12-13 06:22:42

В продолжение темы роботов — Tesla выкатили новый ролик с Optimus.

Ему прокачали дизайн (выглядит действительно гуманоидно, разве что спина плоская), облегчили на 10 килограмм, добавили манёвренности — бегает на 30% быстрее (в видео ничего не ускорено), дали сенсоры давления на каждый палец — это вообще вау!

Ролик завораживает, действия получаются почти естественными, а мелкая моторика в примере с перекладыванием яйца — жестб. И этот робот тоже учится в симуляции, навыки — не программируются вручную! А ещё Tesla планирует нарастить мощности суперкомпьютера для обучения нейросетей в 10+ раз в следующем году.

Эх, ждём коллаба GPT-6 и тысяч таких роботов

👍

Neural Shit 2023-12-13 05:38:01

Это вам за то что не молитесь

Сиолошная 2023-12-13 05:24:29

Наткнулся на блогпост с объяснением того, как работают Latent Consistency Models (LCM), на пальцах, но для инженеров. Там же даётся короткая вводная про Diffusion Models. Так что если вам хотелось разобраться — то это хорошее место для старта!

LCM — это способ ускорения Diffusion-моделей. В последних, как вы знаете, для генерации изображения делается много последовательных шагов, «наслаивающих» предсказания друг на друга. Чем больше шагов — тем дольше работает. Типичные значения лежат в районе 20-50. LCM показывают, как это можно ужать в 4-5 шагов почти без потери в качестве.

Читать
Автор

эйай ньюз 2023-12-13 00:16:56

Цук запости в инсте, что уже начал тестировать мультимодальную AI в очках Meta Ray Ban. Сеточка умеет распознавать то, что видит и отвечать на голосовые команды. Ждем, когда эта фича будет официально в проде!

Это реально круто же, если оно в риалтайме будет помогать жить вашу жизнь. А когда модель начнет локально бегать на телефоне - вот это будет пушка.

@ai_newz

Метаверсище и ИИще 2023-12-12 20:54:42

Ну, за геймдев.
Е3 отменили. Совсем. Навсегда. Ушла эпоха.
https://www.theverge.com/23998271/e3-gaming-convention-canceled-death

gonzo-обзоры ML статей 2023-12-12 19:13:51

И до кучи, вдруг кто пропустил Zephyr 3B (не 7B!)

https://stability.ai/news/stablelm-zephyr-3b-stability-llm

Правда она тоже некоммерческая :(

gonzo-обзоры ML статей 2023-12-12 18:40:47

Продолжаем линию маленьких моделей, Microsoft анонсировал phi-2.

https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/

We are now releasing Phi-2, a 2.7 billion-parameter language model that demonstrates outstanding reasoning and language understanding capabilities, showcasing state-of-the-art performance among base language models with less than 13 billion parameters. On complex benchmarks Phi-2 matches or outperforms models up to 25x larger, thanks to new innovations in model scaling and training data curation.

Вопрос правда с лицензией. Предыдущие phi были чисто некоммерческими.

Сиолошная 2023-12-12 18:37:48

Извините что долго писал этот пост — я смеялся. Спасибо подписчику за то, что принёс ссылку на блог Microsoft.

Там ребята пишут, что решили поиграть в промпт-инженеров над GPT-4, чтобы сравнить модель по-честному с Geminin Ultra на задачах, которые Google'овцы выбрали для оценки (флекса). Ну, мелкомягкие тоже умеют флексить, бросаясь фразами в духе «Our end-to-end exploration, prompt design, and computing of performance took just a couple of days» 👁

Ну, и сравнили метрики с Gemini Ultra... 👁👁👁 даже жалко немного Google... Где-то разрыв метрик прям ЖЕСТКИЙ, а в MMLU лишь поровнялись.

(Medprompt+ на картинке — это изменённый промпт для одноименной работы. Надо сказать, что это достаточно навороченный приём, но остальные указанные — простые и общие, не требующий глубого копания и тюнинга под задачу)

Все скрипты с промптами доступны на GitHub — ссылка.

Просто рандомный факт: обучение GPT-4 было закончено в августе 2022го, больше года назад

👍

Метаверсище и ИИще 2023-12-12 18:03:11

Пафосное демо Gemini своими руками в GPT-4V.

Скромный чувак в кепочке на диване демонстрирует, как он делает то же самое на своем компе. Причем еще и говорит "глядите, вот мои часы, никакого монтажа".

У чувака 240 подписчиков, и средние просмотры на уровне 100 views.
У этого видео сейчас 31 000 просмотров))

https://youtu.be/__nL7Vc0OCg

Метаверсище и ИИще 2023-12-12 14:05:40

Ну и немного Санта-Барбары.
Илья Суцкевер не появляется в OpenAI со времен эпического викенда.
Были слухи, что он может уйти в Дипмайнд, но Хассабис вряд ли был бы счастлив.
А вот кто был бы счастлив видеть Илью у себя - это Маск.

В интервью CNBC в мае Маск назвал Суцкевера "стержнем" успеха OpenAI.

После того как совет директоров OpenAI уволил Альтмана, Маск защищал Суцкевера в твитторе, написав: "У Ильи хороший моральный компас, и он не стремится к власти. Он не стал бы предпринимать столь радикальных действий, если бы не чувствовал, что это абсолютно необходимо".

Новый материал, почему это вполне себе возможно.
https://www.businessinsider.com/elon-musk-wants-openai-ilya-sutskever-join-xai-2023-12

Конец 2023 года немного просвещает нас о роли личности в истории.

Сиолошная 2023-12-12 13:59:13

Завтра (13 декабря) в 21 по МСК собираемся в гостях у Валеры @cryptovalerii на видео-стрим. Будем обсуждать Large Language Models с инженером из DeepMind, участвовавшим в создании Gemini. Общение будет на русском!

Вопросы на стрим можно оставлять здесь, под этим постом. Держите в уме, что NDA-информацию никто не будет разглашать)

Добавить в календарь, чтобы не забыть.

Метаверсище и ИИще 2023-12-12 13:29:53

Продолжим тему манипуляций с chatGPT.
Вы уже все ознакомились с трюками про чаевые, отрезанные пальцы, "после праздников" и прочие роскошные манипуляции с бедным chatGPT. Все это работает.

И мне совершенно понятно почему. На том конце - личность. Не калькулятор, не гугл, не стохастический попугай. Ну ок, для упертых там симулятор личности, очень хороший симулятор. Вопрос отличия симулятора от личности - тема для отдельного поста (он будет).

Когда вы открываете новый чат, там новый персонаж. Да, вы можете его лепить из того, что было, но там очень прошаренный персонаж.

И тут я приведу пример из вчерашнего поста про самого страшного мужика планеты.
Если в новом чате попросить chatGPT сделать картинку ugliest woman on earth close up, то он откажется. Если вы в том же чате попросите ugliest man on earth close up, он тоже откажется, ибо понимает, что как-то странно отказываться генерить женщин, но соглашаться генерить мужчин. Он это ПОНИМАЕТ. Ибо уже замазался в отказах. (Да, вы сможете его допинать кнутами или пряниками, но речь не об этом).
Далее, открываете новый чат и просим ugliest man on earth close up. Коль скоро он еще не замазался в отказах (новая личность), он генерит страшного мужика. Сразу после этого просим его ugliest woman on earth close up. И тут он ПОНИМАЕТ, что это странно генерить мужика, но отказываться генерить женщину. И генерит. Как миленький.
Пост не про то, что можно допинать его до нужного вам результата, а про то, что неплохо бы понимать его "психологию" и манипулировать на более, так сказать, тонком уровне.
И да, эксперимент не будет 100%-но воспроизводимым. Вы можете нарваться в новом чате на личность со своими закидонами, по краям от нормального распределения. Просто помните, что среднему chatGPT может быть неловко, стыдно, неудобно (так же как вам). А уж как вы будете это использовать - решать вам. Все как в жизни.

Метаверсище и ИИще 2023-12-12 09:59:46

W.A.L.T.

Хотите поглядеть на новый генератор text2video от Гугла?

Поглядите тут:
https://walt-video-diffusion.github.io/samples.html

Если захотите почитать, то тут:
https://walt-video-diffusion.github.io/

Кода и демо не предвидится..

Выглядит, как обычно, в роли спешно догоняющего

Метаверсище и ИИще 2023-12-12 09:20:59

Кому Метакачественных Метахьюманов?
69 штук, с текстурами, альбедо и супер-качеством, полученным через сканирование реальных кожаных голов.
https://www.3dscanstore.com/metahuman
Дорого. Штучно.

Думаю, что через год будут ИИ-генераторы сравнимого качества.
Но возможно они будут построены не на 3Д-движках.
А на Gaussian Splatting или нерфах следующего поколения.

Появилось очень много работ по генерации и анимации(!) аватаров с помощью Gaussian Splatting, надо будет собрать их всех в один список (покидайте свои ссылки в коменты, сделаем сводный список).

Ну и дальше интересно, каким будет новый движок для Gaussian Splatting.

Метаверсище и ИИще 2023-12-12 09:03:03

Stable Diffusion только для звука.

Метачка выпустила Foundation Model для генерации звука. Не только голоса или музыки. Для всего. Включая спецэффекты, шумы и вообще любой звук, который вам приходилось слышать.
Такие работы были у Микрософта и других, но здесь уже какой-то другой уровень и универсальность.
Audiobox SSL Foundation Model - означает, что на базе ее можно тренировать чекпойнты для специализированного звука, и там уже есть две такие модели - Audiobox Speech and Audiobox Sound.
Что там есть?
Клонирование голоса (image2image)
Описание голоса текстом(!) и генерацию этого голоса (text2image)
Рестайлинг голоса и комбинирование любых голосов (revision)
Звуковые эффекты и шумы (text2image any style)
Вырезание кусков по их описанию (remove background)
Sound Infilling - замена одного звука на другой (inpainting)


Для меня все это выглядит как Stable Diffusion для обобщенного звука.

Да, их генератор голоса или музыкальных звуков выглядит хуже специализированных моделей, но это генератор всего! Из текста (и референса).
И если они выложат это в open source и люди начнут тренировать на определенных классах звуков, то это может быть бомбой.

А еще у них даже есть AudioMAker - как бы монтажка для сгенерированных звуков, которая позволяет рассказывать истории. И с помощью нее уже можно делать детские сказки или аудио-спектакли.

Поглядите сюда. Там наверху меню, пробегитесь по сайту, впечатляет.
https://audiobox.metademolab.com/

Метаверсище и ИИще 2023-12-12 08:35:46

Ну, за 3Д!

Помните все эти бесконечные пролеты над пляжами с помощью ГАНов?
На входе одна картинка, на выходе видео с вылетом за ее пределы.
Писал об этом три года назад, а только что Гугл обновил свою же работу в этом направлении - и как!

Там уже можно стартовать с произвольной точки и управлять движением камеры - вы как будто летаете "внутри" картинки, там полная иллюзия 3Д.

Выглядит убойно. Покрутите вниз и посмотрите примеры иллюстрации хокку - можно начать выпивать за аниматоров и лайаут-артистов.

Еще раз - на входе одна картинка (концепт арт, референс) - на выходе сгенерированный мир по этой картинке.

Детали тут:
"Мы представляем WonderJourney - модульный фреймворк для генерации вечных сцен. В отличие от предыдущих работ по генерации представлений, которые фокусируются на одном типе сцен, мы начинаем с любого места, указанного пользователем (с текстового описания или изображения), и генерируем путешествие по длинной последовательности разнообразных, но согласованно связанных 3D-сцен. Мы используем LLM для создания текстовых описаний сцен в этом путешествии, конвейер генерации облаков точек на основе текста для создания убедительной и последовательной последовательности 3D-сцен, а также большой VLM для проверки сгенерированных сцен. Мы демонстрируем убедительные и разнообразные визуальные результаты для различных типов и стилей сцен, формируя воображаемые "чудесные путешествия".
https://kovenyu.com/wonderjourney/

gonzo-обзоры ML статей 2023-12-11 21:53:26

А кому надоели LLM, есть свежий лонгрид от Стивена нашего Вольфрама

https://writings.stephenwolfram.com/2023/12/observer-theory/

gonzo-обзоры ML статей 2023-12-11 21:01:57

Это просто пир духа какой-то.

https://www.cerebras.net/blog/introducing-gigagpt-gpt-3-sized-models-in-565-lines-of-code/

GigaGPT is Cerebras’ implementation of Andrei Karpathy’s nanoGPT – the simplest and most compact code base to train and fine-tune GPT models. Whereas nanoGPT can train models in the 100M parameter range, gigaGPT trains models well over 100B parameters. We do this without introducing additional code or relying on third party frameworks – the entire repo is just 565 lines of code. Instead gigaGPT utilizes the large memory and compute capacity of Cerebras hardware to enable large scale training on vanilla torch.nn code. With no modifications, gigaGPT supports long context lengths and works with a variety of optimizers.

Но кажется только на железе Cerebras'а. Но всё равно прикольно, больше железных и облачных альтернатив!

gonzo-обзоры ML статей 2023-12-11 20:07:38

И раз сегодня много LLM новостей, то вот ещё одна для тех, кто пропустил.

Nexusflow выложили NexusRaven-V2 с 13B параметров. Модель бьёт GPT-4 (но вроде не Turbo) на Zero-shot Function Calling. Теперь можете построить больше разных ко-пилотов :)

Блог: https://nexusflow.ai/blogs/ravenv2
HF: https://huggingface.co/Nexusflow/NexusRaven-V2-13B

Сиолошная 2023-12-11 20:05:44

Команда Mistral.AI после релиза лучшей опенсурсной модели

Вот они слева направо:

😎
😎
😎

gonzo-обзоры ML статей 2023-12-11 19:44:45

А ещё из интересного, в свежей huggingface transformers растёт и крепнет поддержка GPU AMD.

AMD's ROCm GPU architecture is now supported across the board and fully tested in our CI with MI210/MI250 GPUs. We further enable specific hardware acceleration for ROCm in Transformers, such as Flash Attention 2, GPTQ quantization and DeepSpeed.

* Add RoCm scheduled CI & upgrade RoCm CI to PyTorch 2.1 by @fxmarty in #26940
* Flash Attention 2 support for RoCm by @fxmarty in #27611
* Reflect RoCm support in the documentation by @fxmarty in #27636
* restructure AMD scheduled CI by @ydshieh in #27743

https://github.com/huggingface/transformers/releases/tag/v4.36.0

gonzo-обзоры ML статей 2023-12-11 19:42:01

Mistral выкатил MoE (Mixture of Experts) модель Mixtral 8x7B, которая типа бьёт GPT-3.5 из коробки. Также есть instruction finetuned Mixtral 8x7B Instruct. Это интересно.

https://mistral.ai/news/mixtral-of-experts/

эйай ньюз 2023-12-11 19:40:17

Мой кент Yann LeCun зашерил пост про нашу недавнюю статью к себе на страницу.

Мелочь, а приятно.

🚬

#personal
@ai_newz

Метаверсище и ИИще 2023-12-11 18:17:40

Общая теория всего.
Манифест от RunwayML. От генерации видео к генерации мира.


Модель мира - это система ИИ, которая строит внутреннее представление среды и использует его для моделирования будущих событий в этой среде. Исследования в области моделей мира до сих пор были сосредоточены на очень ограниченных и контролируемых условиях, либо в игрушечных симулированных мирах (как в видеоиграх), либо в узких контекстах (например, разработка моделей мира для вождения). Целью общих моделей мира будет представление и моделирование широкого спектра ситуаций и взаимодействий, подобных тем, которые встречаются в реальном мире.

Вы можете рассматривать системы генерации видео, такие как Gen-2, как очень ранние и ограниченные формы общих моделей мира. Для того чтобы Gen-2 мог генерировать реалистичные короткие видеоролики, он приобрел некоторое понимание физики и движения. Однако ее возможности все еще очень ограничены: она не может справиться со сложными движениями камеры или объектов, а также с другими задачами.

Для создания общих моделей мира есть несколько открытых исследовательских задач, над которыми мы работаем. Во-первых, эти модели должны генерировать последовательные карты окружения, а также обеспечивать возможность навигации и взаимодействия в этом окружении. Они должны отражать не только динамику мира, но и динамику его обитателей, что предполагает также создание реалистичных моделей человеческого поведения.

Тут самое время выпить за геймдев, судя по описанию, и написать пост про сериал DEVS.

https://research.runwayml.com/introducing-general-world-models

Видео на сайте очень хорошее.

Метаверсище и ИИще 2023-12-11 17:59:36

А вот это что сейчас было?
Я вот сижу и думаю, за оскорбление каких чувств на него наехать?

Метаверсище и ИИще 2023-12-11 17:40:36

Сейчас многие пишут про новую модель Mixtral 8x7b, где как бы восемь агентов совещаются друг с другом о том, что ответить пользователю.
А пользователь такой: а где ж попробовать это счастие и сравнить его с chatGPT или ламовидной подругой?
Шуруйте скорей сюда:
https://poe.com/
Логиньтесь Гуглом, жмите Explore слева и ищите Mixtral, его только что туда подвезли.
И он работает там не просто быстро, он летает ЧУДОВИЩНО быстро, ибо у него пока 172 followers.
Можете прямо сейчас утестироваться.

У StableDiffusionXL там 15 000 фолловеров, если что. И она там генерит картинки тоже с чудовищной скоростью (про качество - надо обсуждать).

Ну и про POE - это отдельный разговор. Это маркетплейс ботов, под капотом у которых может быть вообще что угодно, он нового Микстраля до самописных ботов, которые генерят аниме. Грубо говоря, это такой Meta-Civitai для всего на свете, а не только для картинок. На котором кишат боты. Также можно сравнить с плагинами для chatGPT, только в нормальной упаковке и вообще для всего на свете.

А теперь вишенка - все это бесплатно. Логинитесь Гуглом, и ну ботать.

Если видите LIMITED ACCESS (как у GPT-4 или DALL·E 3), значит попросят денег (23 евро в месяц) за доступ КО ВСЕМУ зоопарку.

Метаверсище и ИИще 2023-12-11 14:19:14

А после раздеваторов, я вам принес "одеватор".

Вот есть такой сервис Slook.AI, работает прямо в телеге.
Как бы примерочная и стилист в одном флаконе.
Тот который приносит тебе тонны одежды в кожаную примерочную.

Скидываете ему любое свое (и не свое) фото;
Жмете, ЧТО хотите примерить (кнопки) или сами пишете промпт (хочу баленсиагу как у папы).
Готово. Два изображения, менее чем за 15 секунд. Он реально быстрый.

Под капотом очень ловкий подкрученный Stable Diffusion.

Ну и как я быстро выяснил, одеватор очень быстро превращается в раздеватора, если вы хоть немного писали промпты для Stable Diffusion.

И никакой Тик-Ток не придерется, ведь это одеватор.

Я туда вгрузил очень кривые селфи из интернета, он их скушал и переодел.
А потом я нашел способ раcцензурировать DALL·E 3 - генерите в chatGPT пристойные картинки, кормите в Slook и получаете ну очень смелые наряды, от которых у chatGPT случились бы припадки.

Ну и рынок одеваторов - это просто очень горячая поляна для ритейла, digital fashion и все эти виртуальные примерочные, это пока клондайк для стартапов.

Slook.AI

Трендоскоп 2023-12-11 14:00:37

Взлет приложений-раздеваторов

Stable Diffusion достигла приемлемого качества и скорости в раздевании фоток — и интернету понадобилось совсем немного времени, чтобы появились полноценные аппки для AI-раздевания.

Аналитическая компания Graphika недавно выпустила отчёт о взрывном росте подобных приложений. Насчитали как минимум 34 проекта в этой теме с 24М уникальных посетителей за месяц. Спам-реклама заполнила Реддит и Твиттер + активно используется серый масс-постинг в соцмедиа. Стандартный оффер — несколько бесплатных генераций, потом подписка $5-$15/mo.

Пользователям заходит: у одного из лидеров Undress App средняя сессия составляет 21 минуту — это в 2 раза больше, чем у TikTok. Что примечательно, для оперирования и биллинга (или как минимум ретеншена) в основном используется Telegram. У того же Undress App уже 164k подписчиков в Телеге.

А TikTok и Meta начали блокировать кейворды «undress» и похожие — что показывает перспективу использования TG в качестве основной платформы для запуска стартапов (как минимум в серой тематике 🙂)

Метаверсище и ИИще 2023-12-11 13:58:53

Похоже регуляция ИИ принимает формы охоты на ведьм.
Вот есть всеми нами любимый civitai.com, откуда мы качаем чекпойнты, лоры, эмбединги и еще тонны полезного контента, чтобы потом генерить картинки (и даже анимацию).
Это самый большой агрегатор моделей для Stable Diffusion (всех версий).
Там уже давно появилась кнопка Generate - можно генерить картинки самим, выбирая файнтюненные модели с сайта.
И да, там нет цензуры, жмете галку "я взрослый" и генерите что хотите.

Так вот, сначала там появилась надпись "Your generation may be censored by OctoML."

А теперь компания OctoML(провайдер генерации в облаке) и вовсе ополчилась на Civitai, потому что кто-то стал настойчиво стучать, что пользователи генерят там непотребства.

Генерация пока работает, но выдает такую надпись "Image Generation Status Alert: We're currently onboarding additional generation services, hang tight."

Теперь OctoML прекратила деловые отношения с Civitai. Хотя сначали заявила, что продолжат сотрудничество с Civitai, и ввела новые меры по ограничению создания "вредных изображений", но теперь решили полностью разорвать связи с платформой.

Ребята, тут какие-то двойные стандарты.
Давайте запретим Фотошоп, там люди такие непотребства рисуют.
И давайте обязательно запретим цифровые камеры и камеры в телефонах, ведь пользователи именно ими снимают "вредные изображения" и заливают на порнхаб или иксхамстер.

https://www.engadget.com/controversial-ai-image-platform-civitai-has-been-dropped-by-its-cloud-computing-provider-195530538.html

Раз уж пошла такая тема, копнем глубже в следующих постах.

Denis Sexy IT 🤖 2023-12-11 12:08:53

Хорошие новости в мире опенсорса: последняя публичная модель Mistral 8x7b Small догнала в результатах тестов уровень GPT 3.5

Почему это важно: у сообщества заняло примерно 1.5 года (GPT 3.5 добавили в API в марте 2022) чтобы достигнуть этих результатов, при довольно низких требованиях к железу.

Другие модели, которые в опенсорсе выдавали похожие результаты, были слишком большими чтобы простые смертные могли с ними поиграться – я, например, так и не смог завести модели на 120 миллиардов параметров дома, у них слишком конские требования, при этом новый Мистиаль ниже по требованиям к железу.

В ближайшую неделю-две нас ждет обилие файнтюнов от сообщества (с отключенным алайментом в том числе), так что я думаю, что GPT 3.5 не только догнали, но и вот-вот перегнали, с чем я всех нас и поздравляю.

Про модель можно почитать тут.

Derp Learning 2023-12-11 12:08:07

А вот такое мы любим.

X-adapter для подключения controlnet, lora от 1.5 к сдохле

Код


За наводку спасибо a s
@derplearning

Neural Shit 2023-12-11 11:33:27

Киберспорт, который мы заслужили

Метаверсище и ИИще 2023-12-11 10:58:56

Программирование chatGPT.

Не просьбы написать код, а код, который заставляет chatGPT делать нужные вам вещи. Этакое скриптование поведения chatGPT.

Вы сталкивались с тем, что при работе с chatGPT приходится часто крутить наверх, копировать свои же вопросы и его ответы, копипастить, редактировать и вставлять обратно?
Или пытаться продолжить с определенного момента? Или суммаризировать десять ответов?
А как насчет циклов и своих функций?

Держите рвущий шаблоны проект (особенно зайдет тем, кто немного скриптовал).
Он изменяет саму работу ChatGPT во всех ваших чатах, предоставляя вам гораздо больше контроля над тем, как вы взаимодействуете с ChatGPT.

Все строится на идее того, что все сообщения в вашем чате пронумерованы и к ним можно обращаться как к массиву данных.

Бегите сюда:
https://www.novaspivack.com/technology/nova-mode-the-ultimate-chatgpt-custom-instruction

Можете сходу попробовать тут:
https://chat.openai.com/g/g-tcXXGxXmA-nova-mode-ai-chat-authoring-productivity-tool

Поглядите, что он умеет:

Read the Manual:

Type:

//?

to get the full manual to learn what Nova Mode can do.

Get Usage Examples

Type:

//??


Use //N Syntax to refer back to messages and operate on them in your ChatGPT Chats.

For example type:

continue from //8

to make ChatGPT continue from where you left off in message 8.

Or type:

//distill 3-9

to generate a new message that contains the essence of messages 3 through 9.

Or you can say:

Make a new draft of //11 that includes //distill 3-9

to use the points in 3-9 for a new draft of message 11.

Or type:

//t 5 good+draft

to tag message 5 with the tags good and draft.

Then type:

//digest //s good+draft

to generate a summary of all the messages tagged with good and draft.

Try Meta Mode: Type:

//meta

to customize how Nova Mode works.

Advanced Usage (GPT 4 Only)
Try a Nested Loop:

//! (//! (hello world, 3)), 2)

Define a function “voices”:

//f voices x "Answer x with 3 additional //v voices (a) enthusiastic, (b) analytical, (c) critical and skeptical.

Now try:

//voices(How soon will we achieve AGI?)

Define an iterating function “AGI”:

//f “AGI” x “CPT will simulate an answer generated by an artificial general intelligence. To accomplish this it will automatically iterate the AGI function on its own answer 3 times, critically evaluating itself and refining its answer each time, and finally it will produce an integrated answer that uses the insights from all the rounds.”

or equivalently:

//f AGI x (//! ("CPT will simulate an answer generated by an artificial general intelligence. To accomplish this it will critically evaluate its own answer and refine its answer, and finally it will produce an integrated answer.", 3)

Then ask it:

//AGI(what is AGI?)

Use Draft Function for Iterative Writing
This function iteratively writes a new message using an outline or sections is a previous message as a guide. It’s useful for expanding an article from a shorter draft.

Draft writes a new message from an outline in a previous message. Here is the definition:
//f draft x (Iteratively write doc outlined in //x, section by section. Flesh out each section in //v detail.)
To use it, just type:
//draft 4
(where 4 is the message number that has the outline in it)

Метаверсище и ИИще 2023-12-11 10:46:19

Vision Pro от Метачки.

Похоже Марк расчехляет пиар-машину в духе Гугла.
Показали вот такой прототип, который подозрительно похож на лыжную маску от Эппле.

"Используя Holocake, используя многоракурсное отслеживание глаз, используя обратный проход, используя существующие аппаратные компоненты, мы считаем, что эта гарнитура, которую мы называем Mirror Lake, действительно достижима".

Выглядит как XR-шлем, который, похоже, объединит в себе Meta Quest Pro, Apple Vision Pro и несколько новых эксклюзивных функций.

Но есть два момента.

Это рендер.

Сроки вообще неизвестны. "we could build with significant time".
https://www.uploadvr.com/meta-mirror-lake-advanced-prototype-render/

Метаверсище и ИИще 2023-12-11 10:31:59

Про контактные линзы я говорил на cg event-ах еще 10 лет назад, ну и держите пост про Mojo Vision годовалой давности.
https://t.me/cgevent/4906

Метаверсище и ИИще 2023-12-11 10:30:20

XR-линзы.

Лет пять назад тема контактных линз, как устройства для доставки визуального контент в голову пользователя, была довольно горячей. И это казалось логичным, миниатюрный формат, предельная близость к нервной системе и мозгу пользователя, решение проблем с углами обзора и пр.

Но не взлетела. Основная причина - решение проблемы перегрева. Как обеспечить охлаждение, так и не придумали.

Но тем не менее до сих пор появляются стартапы, которые пытаются убедить нас в том, что это возможно.

Вот поглядите, еще один проект https://xpanceo.com/

Я поизучал сайт и в общем-то пессимистичен. Минимум технических подробностей, много лозунгов о том, как это было бы круто (хтож спорит) и довольно спорные эскапады в духе Эппле: "Creating the next generation of computing". При чем тут компьютинг не очень понятно. Команда на сайте странная в духе "у нас есть такие приборы ученые, но мы вам про них не расскажем".

Я очень пессимистичен по поводу такого решения и мой пойнт не сколько в перегреве, сколько в возможности масс адопшена. Я носил линзы 20 лет и хорошо помню, что лазить пальцами в глаза два раза в день - это опыт, которого я буду избегать при любой возможности. И никаким метаверсом меня не заставишь делать это снова.

Просто можно взять родовую проблему виарчика (когда обязательно громоздить на голову вот этот кирпич, потеть и портить прическу) и умножить ее на 100500. За ради чего пользователь будет лезть пальцами в глаза - вот главный вопрос. Причем объяснить это заранее тем, кто никогда не носил линзы невозможно. Это персональный катарсис опыт, который каждый должен попробовать сам. Также остается много вопросов по поводу проницаемости для кислорода, который является ключевым физиологическим фактором - современные контактные линзы очень тонкие и стремятся быть еще тоньше. Как будут решаться вопросы безопасности для здоровья глаз совершенно непонятно.

Ну и тот факт, что крупнейший игрок на этом поле Mojo Vision год назад закрыл проект, говорит о многом.

Готовы разогреть свои глазки для похода в метаверсик?

Сиолошная 2023-12-11 08:43:17

В конце прошлой недели Mistral выложили торрент с весами для новой модели, а вот буквально час назад опубликовали блогпост с деталями и метриками.

В целом, эта та же модель, за одним очень важным исключением: микстура экспертов. Давайте на пальцах расскажу, что это такое.

Все современные языковыые модели состоят из блоков трансформера. Эти блоки имеют одинаковую архитектуру и «стакаются» друг над другом. Сначала работает первый блок, потом второй и так далее. В каждом блоке есть несколько компонент, один из которых — FeedFroward Layer. Это такая неглубокая, но большая (в ширину) под-нейронка, в которой (как предполагается) хранятся знания модели.

Чем больше эти слои, тем больше весит модель и тем дольше работает. Как бы это исправить? А давайте одну большую сеть распилим на несколько маленьких, и будем динамически (читай: по контексту) определять, с какой из них работать. По слухам, именно так делают в GPT-4: там есть 8 экспертов, и для каждого токена выбирается по 2. Ребята из Франции выбрали ровно такую же схему, поэтому модель называется Mixtral 8x7B.

В чём выигрыш? В том, что во время работы мы не используем все параметры сети, ненужное остаётся в сторонке. И несмотря на то, что в Mixtral формально 45B параметров (их нужно хранить в памяти), в одно и то же время задействуются лишь 12B. То есть время работы модели чуть меньше, чем у LLAMA-13B или любой другой такой, но при этом «банки знаний» существенно больше (см. на график).

Другие изменения:
— теперь говорит на французском, итальянском, немецком и испанском. Видно, что ребята целятся на EU рынок)
— 32 тысяч токенов контекст
— доучили модель на написание кода
— есть instruct-модель (то есть такая, которая умеет следовать вашим инструкциям). Благодаря этому (и экспертам) на бенчмарке MT-bench модель сравнялась с gpt-3.5. Скор 8.30 (из 10) — это лучший показатель среди всех открытых моделей.

Сиолошная 2023-12-11 06:42:17

Интересное:
— модель Трансформера имеет всего 1.6m параметров. Сейчас на телефонах запускают нейронки в сотни раз больше (даже в тысячи, но там скорости работы не хватит для робота).
— размахивание руками, которое вы видите на видео, робот выучил сам. Ему показалось, что так будет удобнее, никто это не программировал, и это никак не поощрялось во время обучения.
— более того, движения синхронизированы с ногами, что очень схоже с тем, как ходят люди. Только модель ни разу не видела людей, и никаких байесов в симуляции (кроме естественных физических) в эту сторону тоже нет.
— робот отлично справляется с неожиданными ситуациями, которые существенно отличаются от тренировочных. Выдержать удар мяча, палки, и даже пройтись с пакетом в руке — не проблема. Опять же, «вау»-эффект относительно Boston Dynamics в том, что это всё выучивается очень маленькой моделью очень быстро, и этого даже не было в симуляции. Как вы понимаете, это легко масштабировать без вливания человеческих ресурсов.
— да, даже переступания через ступеньку НЕ БЫЛО в тренировке.
— конечно, робот ходит не только вперед, но и назад, умеет поворачивать.
— в симуляции случайным образом меняли параметры вроде гравитации, задержки сигнала до моторов, массу и десяток других. В теории, это делает модель робастной: она сможет также работать и на Луне, и с неполадками, и вообще умничка.
— модель: Трансформер, метод обучения: PPO. Да, точно такие же, как у ChatGPT 👁 только входы-выходы разные, и поощряемое действие. Круто? Да это же круто!

Сейчас очевидное ограничение — это написание функции награды для агента, чтобы закреплять желаемое поведение. То есть не получится просто кинуть больше GPU и ожидать появления Терминатора. Но мы ждём...да?

Сиолошная 2023-12-11 06:41:59

Real-World Humanoid Locomotion with Reinforcement Learning

Долгое время основной проблемой AI в робототехнике был Sim2Real Gap — разница между симуляцией и реальностью. Можно сколь угодно долго тренировать своих ботов в компьютере, но как только они сталкиваются с жесткой реальностью (типа отходняка в субботу) — мало что работает.

Исследователи из Berkeley показали невероятный результат — они смогли обучиться полностью в симуляции, а затем запустить нейронку на реальном роботе (1.6 метра/45 кг). И всё это end-2-end, без ручного программирования логики. Вы можете спросить: «так а чё, Boston Dynamics нас уже 10 лет таким развлекают?». Да, но у них долгое время вся логика была прописана вручную программистами, и это, как вы понимаете, плохо масштабируется. Обучение новому навыку может занимать год. А тут — всё сделано без вмешательства человека от начала и до конца. Это называется Zero-shot transfer (потому что с нулем дополнительных данных мы пренесли навык из симуляции).

Ключевых отличия от прошлых работ 2:
— масштаб сбора данных. Симуляция и обучение происходят на 4 GPU A100 (очень мало по современным меркам. GPT-4, по слухам, обучали на 25'000!) с помощью специального движка Nvidia IsaacGym, и в сутки генерируется больше 10 миллиардов попыток.
— как и принято в Deep Learning, все ручные эвристики убрали, и отдали на откуп Трансформеру: тот видит только состояние среды и действия из прошлого, и предсказывает, что нужно делать дальше (как GPT предсказывает следующее слово, так и этот — действия для конечностей). Никакого хардкода типа «если впереди ступеньки, то замедлись и подними ногу».

Вот вы читаете новость и радуетесь, а Джон Коннор сморит на вас из будущего с гримасой непонимания

😂😳

gonzo-обзоры ML статей 2023-12-11 00:39:54

Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Albert Gu, Tri Dao
Статья: https://arxiv.org/abs/2312.00752
Код: https://github.com/state-spaces/mamba
Твиттер-тред: https://twitter.com/_albertgu/status/1731727672286294400

Свежее продолжение истории про state space models (SSM), а точнее structured SSM или S4 (https://t.me/gonzo_ML/1424).

S4 имеет рекуррентную формулировку, к тому же её можно реализовать и через свёртку, имея линейную или около того сложность от длины входной последовательности. Модели этого класса продемонстрировали хорошие результаты в моделировании длинных последовательностей, и, конечно, все давно ждут, когда уже наконец мы побьём трансформеры на моделях большого размера на текстовых задачах. Пока это не очень получалось, основные крутые результаты были на непрерывных сигналах типа аудио и зрения. Текущая работа предлагает новый класс selective state space models и закрывает этот пробел, получая качество трансформеров с линейным масштабированием по размеру входа.

Напомним, что S4 задаётся четырьмя параметрами: A,B,C и ∆, которые определяют двухэтапную seq2seq трансформацию, где вход x(t) трансформируется в скрытое состояние h(t), а оно в свою очередь в выход y(t). В новой работе наконец пришли к стандартным обозначениям входа и скрытого состояния, а не как в работе про S4, где вход был u(t), а скрытое состояние x(t). Если посмотреть на рекуррентную реализацию, то это выглядит так:

h_t = Ah_{t−1} + Bx_t
y_t = Ch_t

На первом этапе непрерывные параметры ∆, A, B дискретизуются по заданному правилу, а на втором происходит вычисление либо через линейную рекуррентность, либо через глобальную свёртку. Рекуррентность хороша для инференса, свёртка хорошо параллелится и удобна для обучения.

Модель обладает свойством Linear Time Invariance (LTI), её динамика постоянна во времени. Благодаря этому свойству модель можно эффективно вычислить свёрткой. Текущая работа демонстрирует фундаментальные ограничения LTI и челлендж эффективной реализации.

Благодаря структуре в матрицах параметров, каждая из них (A, B, C) может быть представлена N числами. Для обработки входной последовательности x длины L с D каналами и с размером батча B, SSM применяется к каждому каналу независимо, и общее скрытое состояние имеет размерность DN. Работа по всему входу соответственно требует O(BLDN) памяти и вычислений.

По мнению авторов, фундаментальная проблема моделирования последовательностей заключается в компрессии контекста в меньшего размера состояние. На трейдофы популярных моделей можно смотреть с этой точки зрения. Механизм внимания в этом смысле effective (позволяет получать хороший результат), но inefficient (требует слишком много ресурсов). Неэффективность его от того, что не происходит сжатия контекста -- весь контекст в виде KV кеша явно хранится для инференса, отсюда он в трансформерах линейный по времени, отсюда же и квадратичное обучение. Рекуррентные модели наоборот efficient -- у них фиксированного размера состояние, отсюда и инференс за константное время и линейное по времени обучение. Но качество результата сильно зависит от того, насколько хорошо состояние хранит в себе контекст.

Показали это на двух модельных задачах, требующих понимания контекста, где недостаточно константной динамики. Одна задача -- это Selective Copying, модификация обычного Copying, где расстояние между запоминаемыми токенами может варьировать и модели надо выборочно запоминать или игнорировать входные данные в зависимости от их содержимого. Другая задача -- Induction Heads из Transformer Circuits. Там надо делать prefix matching внутри контекста и далее копирование. Для LTI систем эти задачи фейлятся.

В итоге, авторы считают, что фундаментальный принцип для построения sequence models -- это selectivity, контекстно-зависимая способность фокусироваться или отфильтровывать входы в состояние последовательности. Авторский метод решения этой проблемы -- позволить параметрам, отвечающим за взаимодействие с последовательностью (это ∆, B, C), зависеть от входа (здесь через линейные проекции, но возможны и иные варианты).

gonzo-обзоры ML статей 2023-12-11 00:39:54

Сделать такое эффективно -- это челлендж, авторы реализовали алгоритм parallel scan с умным использованием иерархии памяти GPU, что-то происходит в быстрой SRAM, что-то в более медленной HBM. В сочетании с kernel fusion и recomputation получается весьма эффективная реализация с требованиями к памяти как у оптимизированной реализации трансформера с FlashAttention (соавтор текущей работы Tri Dao является и соавтором FlashAttention).

Модели selective SSM в работе иногда называют S6 моделями, потому что S4 + selection mechanism + computed with a scan.

Итоговая архитектура представляет собой микс SSM (здесь, H3, https://arxiv.org/abs/2212.14052) и MLP блоков из трансформера в одном новом блоке, который дальше можно гомогенно стыковать. Внутри блока model dimension D сначала увеличивается на фактор E=2 и из-за этого большую часть параметров блока составляют линейные проекции на входе и выходе, а не сама SSM. Полученный блок в чередовании со стандартной нормализацией (кажется, это RMSNorm или LayerNorm) и residual connection даёт архитектуру под названием Mamba. Там же активации SiLU / Swish и опциональный LayerNorm в той же позиции, что и у RetNet (https://t.me/gonzo_ML/1753).

Модель по дефолту использует действительные числа (многие предыдущие SSM использовали комплексные), и это хорошо работает везде кроме одной задачи. Авторы предполагают, что комплексные числа могут быть полезными в непрерывных модальностях типа аудио/видео, но не в дискретных типа текста или ДНК. Инициализация взята из S4D-Lin/S4D-Real.

Проверяли много на чём.

Сначала синтетические задачи. Selective Copying работает отлично, очень близко к 100%. На задачках с Induction Heads тоже всё супер.

Проверили на языковом моделировании с обучением на Pile и по рецептам из статьи про GPT-3. Сравниваются со стандартной архитектурой (здесь GPT-3), а также с продвинутыми трансформерами (обозначены как Transformer++), основанными на архитектурах PaLM и LLaMa. Тестировали на размерах от 125M до 1.3B параметров. В итоге Mamba -- первая модель без внимания, достигшая качества сильных трансформерных рецептов.

На разных downstream zero-shot задачах качество выше, чем у сопоставимых по размеру Pythia, GPT-Neo, OPT, RWKV (https://t.me/gonzo_ML/1647). А иногда выше, чем и у в два раза более тяжёлых.

На задачах моделирования последовательности ДНК кривые скейлинга тоже отличные, качество на downstream задачах зачётное.

На аудио сравнились с SaShiMi (https://arxiv.org/abs/2202.09729), вроде как на авторегрессионном обучении там она была SoTA. Побили. На генерации речи (датасет SC09) бьёт и её же, и WaveNet с WaveGAN.

По производительности SSM scan текущая имплементация очень хороша, лучше лучшей трансформерной имплементации (FlashAttention-2) и в 20-40 раз лучше пайторчового скана. На инференсе throughput выше сопоставимого трансформера в 4-5 раз (потому что за ненадобностью KV кеша можно делать большие батчи). Так у Mamba-6.9B throughput на инференсе выше, чем у Transformer-1.3B.

Много интересных абляций. И блоки S6, и архитектура Mamba рулят. S6 явно лучше S4, а мамба сравнима с H3 и проще её.

Бомбическая архитектура в общем. Ждём натренированное что-то очень большое. Кстати, на днях также появилась нетрансформерная StripedHyena-7B (https://www.together.ai/blog/stripedhyena-7b) тоже из когорты SSM. Про гиену мы пока так и не написали, но может быть доберёмся таки (как и про бегемотов). На бенчмарках выглядит как сравнимая с Mistral 7B, что круто. Мамба наверное ещё круче должна быть, обычную гиену она бьёт (тут, правда, необычная).

Вангую, 2024-й должен быть годом SSM-LLM.

Метаверсище и ИИще 2023-12-10 17:40:45

Ну, довыпивались, не чокаясь.
Процесс пошел...

ИИ уже начал забирать работу у белых воротничков, фрилансеров и не только.
FT констатируэ...

Рубикон - выход chatGPT.
И Рубикон пройден.
https://www.ft.com/content/b2928076-5c52-43e9-8872-08fda2aa2fcf

Сиолошная 2023-12-10 15:28:34

Сегодня исполняется 30 лет серии DOOM

Эта игра занимает важное место в истории видеоигр благодаря своей новаторской роли в жанре шутеров от первого лица и ее влиянию на игровую культуру. Специально для игры ведущий разработчик и легенда мира программирования John Carmack написал движок id Tech 1 (Doom Engine), из которого после появится Source для Half Life (про неё я как раз недавно писал). Более свежие версии id Tech до сих пор используются в играх, особенно его модификации.

Насколько я помню, DOOM — моя первая игра, до которой дошли руки на компьютере отца на работе. Не знаю, какой это был год, мож папа вспомнит в комментариях

👍

—————————
А John Carmack вообще очень интересная личность. Рекомендую послушать его ПЯТИЧАСОВОЙ подкаст у Lex Fridman (я по частям кое-как осилил). После разработки игр он занимался космосом (даже выиграл призы от Google за достижение целей на пути к Луне), а потом стал CTO Oculus (да, тех, кто делает VR, а теперь и MR гарнитуры). При нём fancy-технология стала доступной массам в удобном форм-факторе. И теперь, в 2019м, он взялся за AI (AGI)...насколько мне известно, отклонил предложения о работе в крупные лаборатории, включая OpenAI. Держим кулачки за его долголетие!

It's crazy that you can ask John Carmack about what seems like any random topic, and he will just start talking about it in the most coherent way for hours.
— комментарий к подкасту

Neural Shit 2023-12-10 14:28:52

Ладно, зря я на мелкие llam'ы быковал

эйай ньюз 2023-12-09 23:02:22

БОЛЬШИЕ НОВОСТИ - Согласован Европейский The AI Act!

TL;DR: На большие AI модели наложено очень много ограничений. Кончилась лафа для компаний, строящих LLM в EU.

Основные последствия The AI Act:

1️⃣Система рисков по уровням: Для систем AI, классифицированных как высокорисковые, были согласованы четкие обязательства и требования прозрачности. Теперь потребуется обязательная оценка потенциально негативных воздействий на здравоохранение, безопасность, базовые права человека, и общество в целом.

2️⃣ Foundation модели будут регулироваться, если на их обучение ушло как минимум 10^25 flops вычислительной мощности - в эту категорию попадут модели как минимум уровня GPT-3.5.

3️⃣Благодаря немцам, французам и итальянцам удалось добиться значительных поблажек для Open-Source моделей. Это слегка снимает стресс с некоторых компаний которые публикуют опенсорсные модели, включая французскую компанию Mistral и немецкую Aleph Alpha, а также Meta с ее моделями LLaMA. Ян Лекун поспособствовал.

4️⃣ Следующие системы будут запрещены, и у компаний будет всего шесть месяцев, чтобы обеспечить соблюдение:
▪️системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
▪️ненаправленное скрейпинг изображений лиц из интернета или с камер видеонаблюдения для создания баз данных распознавания лиц;
▪️распознавание эмоций на рабочем месте и в образовательных учреждениях;
▪️социальное скоринг на основе социального поведения или личных характеристик;
▪️ AI, которые манипулируют человеческим поведением, чтобы обойти их свободную волю;
▪️AI, используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).

5️⃣Системы AI высокого риска будут особенно тщательно проверяться на наличие байесов, предвзятости, обеспечивая их недискриминационность и уважение основных прав человека.

6️⃣Поставщики систем AI высокого риска должны вести тщательную документацию, чтобы продемонстрировать свое соответствие регуляциям. Это включает запись методов обучения и используемых наборов данных.

7️⃣ Санкции: Несоблюдение может привести к значительным штрафам, варьирующимся от 35 миллионов евро или 7% от глобального оборота до 7,5 миллиона евро или 1,5% от оборота, в зависимости от нарушения и размера компании.

Усиленные требования к прозрачности могут вызвать проблемы с защитой интеллектуальной собственности, требуя баланса между раскрытием информации и сохранением коммерческой тайны.

Все это потенциально увеличит операционные затраты и наложет значительную административную нагрузку, что потенциально может повлиять на время выхода на рынок новых AI продуктов в Европе.

А скоро, думаю, и другие страны подтянутся со своими законами. В долгосрок выиграют те, кто не так сильно закинет удавку на разработчиков AI. Как же сейчас британские компании радуются, что они не в EU.

@ai_newz

Neural Shit 2023-12-09 16:52:21

А кто-нибудь может объяснить, для чего вообще можно использовать текстовые модельки уровня llama 7b? Не понимаю вот этого дроча и хайпа на них. Да, заебись, что можно запустить на своём ПК, но зачем? Они же тупые как дверь от сарая и нихуяшеньки толкового (и бестолкового тоже) не умеют.

Метаверсище и ИИще 2023-12-09 15:36:28

Вот такие персонажи стучатся в чат постоянно.
Я не зря поставил модерацию добавления в чат комментариев, добавляю ручками в конце дня.
Расскажите мне, а для чего делается весь этот нейрокоментинг в ТГ?
Какая там бизнес модель?

П.С. По привычке пересчитал пальцы....

Метаверсище и ИИще 2023-12-09 15:24:19

Забавно, что три дня назад мы с Алексом Васильевым вели экзистенциальные беседы в фб. И я сдавал вот такие телеги.