Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 28 (50 постов)

Репосты из тематических каналов

Neural Shit 2023-12-09 14:51:51

Немножко охуенных боевых вертолётов.

Было бы хорошо, если бы такие делали irl вместо скучных обычных.

взял отсюда

Метаверсище и ИИще 2023-12-09 14:17:14

Галлюцинация - это не ошибка, это величайшая особенность LLM

"Я всегда испытываю некоторое затруднение, когда меня спрашивают о "проблеме галлюцинаций" у LLM. Потому что в каком-то смысле галлюцинации - это все, чем занимаются LLM. Они - машины сновидений.

Мы управляем их снами с помощью подсказок. Подсказки запускают сон, и, основываясь на смутных воспоминаниях LLM об обучающих документах, в большинстве случаев результат оказывается полезным.

И только когда сновидения переходят на заведомо неверную территорию, мы навешиваем на них ярлык "галлюцинация". Это выглядит как ошибка, но LLM просто делает то, что он всегда делает.

С другой стороны, рассмотрим поисковую систему. Она принимает запрос и просто возвращает один из наиболее похожих "учебных документов", имеющихся в ее базе данных, дословно. Можно сказать, что у этой поисковой системы "проблема с креативностью" - она никогда не ответит чем-то новым. LLM - это 100 % сновидений и проблема галлюцинаций. Поисковая система - это 0% сновидений и проблема креативности.

При всем этом я понимаю, что на самом деле люди имеют в виду, что они не хотят, чтобы LLM Assistant (продукт типа ChatGPT и т.д.) галлюцинировал. LLM Assistant - это гораздо более сложная система, чем просто сам LLM, даже если она лежит в ее основе. Есть много способов уменьшить галлюцинации в таких системах -
использование Retrieval Augmented Generation (RAG) для более сильной привязки сновидений к реальным данным через контекстное обучение, возможно, самый распространенный из них. Разногласия между несколькими образцами, размышления, цепочки проверки. Декодирование неопределенности из активаций. Использование инструментов. Все это активные и очень интересные области исследований.

TLDR Я знаю, что веду себя очень педантично, но у LLM нет "проблемы галлюцинаций". Галлюцинация - это не ошибка, это величайшая особенность LLM. У помощника LLM есть проблема с галлюцинациями, и мы должны ее решить."


Андрей Карпаты. Только что:
https://twitter.com/karpathy/status/1733299213503787018

gonzo-обзоры ML статей 2023-12-09 11:27:02

For those who prefers reading in web and in English

https://gonzoml.substack.com/p/conways-game-of-life-is-omniperiodic

gonzo-обзоры ML статей 2023-12-09 10:54:26

Conway's Game of Life is Omniperiodic
Nico Brown, Carson Cheng, Tanner Jacobi, Maia Karpovich, Matthias Merzenich, David Raucci, Mitchell Riley
Статья: https://arxiv.org/abs/2312.02799

Прекрасное субботнее!

Доказано, что игра Жизнь омнипериодическая (omniperiodic), то есть в ней есть конструкции с любым периодом.

Напомню, что игра Жизнь (The Game of Life) -- это клеточный автомат, предложенный британцем Джоном Конуэем в 1970-м. У нас тут было сколько-то постов про Жизнь (https://t.me/gonzo_ML/1817), Конуэя (https://t.me/gonzo_ML/1825), и всё такое (https://t.me/gonzo_ML/1042), в нашем чате были также обсуждения развития игры, например, Lenia (https://t.me/c/1334131803/12841, https://t.me/c/1334131803/14282). Но сегодня про классическую классику.

В игре клетки живут на двумерной плоскости с квадратной сеткой, и у каждой клетки 8 соседей. Клетка может быть либо живая (закрашенная), либо мёртвая (пустая). Игра пошаговая, в каждый дискретный момент времени всё поле изменяется в соответствии с двумя правилами:
* Если вокруг мёртвой клетки ровно три живых соседа, то она становится живой.
* Если вокруг живой клетки два или три живых соседа, то она остаётся живой.
* В остальных случаях живая клетка умирает.

Период -- это время, через которое конфигурация клеток в игре повторяется. Сама такая конфигурация называется осциллятором.

Уже в самом начале были найдены простенькие (да и простые тоже) осцилляторы, типа квадратного блока 2x2 (p1), мигалки (p2), пульсара (p3) или глайдера (который не совсем осциллятор, он ещё и в пространстве перемещается, поэтому он космический корабль, spaceship). Многие из них получаются сами из рандомной начальной конфигурации.

При этом долго существовала гипотеза, что в Жизни должны существовать осцилляторы любого периода >=1. Важно, что тут речь про конечные осцилляторы, потому что с бесконечными всё просто -- сделал цепочку глайдеров на нужном расстоянии и усё.

Осцилляторы периода <=15 были найдены вручную. В 1996 David Buckingham показал, что можно создать любой осциллятор периода >=61 с помощью трубопроводов Гершеля (Herschel conduits), где сигнал пересылается по замкнутому пути (пример). Затем этот порог снизили до 43, обнаружив Снарка (Snark), отражатель глайдеров под углом в 90 градусов.

Оставалась неясная часть с 15 < p < 43, особенно сложно было с простыми числами. В начале тысячелетия недоставало осцилляторов периодов 19, 23, 27, 31, 34, 37, 38, 39, 41, 43, 51 и 53. Последними держались периоды 19 (https://conwaylife.com/wiki/Cribbage) и 41 (https://conwaylife.com/wiki/204P41). Но теперь найдены и они, и Жизнь доказанно омнипериодическая. Откроем шампанское!

Дальше советую занырнуть в статью, там во второй главе прекрасное историческое описание поисков, которое надо читать as is, а не пересказывать. Также в статье кликабельные картинки всех осцилляторов, ведущие на интерактивную демонстрацию, с которой можно поиграть. Мы с детьми теперь там сидим.

Тема с периодами теперь закрыта, но открыты другие интересные темы. Например, про максимальную скорость космических кораблей. Мне кажется, у Конрада Цузе в его Rechnender Raum (https://philpapers.org/archive/ZUSRR.pdf) тоже про что-то такое было, но давно читал, надо пересмотреть. В любом случае привет Теории Относительности :)

Также ещё не найдены глайдерные пушки всех периодов. Желающие могут поискать периоды 14 ≤ p ≤ 19, и p = 23, 26, 29, 31, 35, 38, 39, 47, 53. Есть и другие интересные темы, например, про оптимизацию осцилляторов (собрать минимальную по количеству клеток конфигурацию) или про strictly volatile осцилляторы, у которых каждая клетка пульсирует с заданным периодом. Интересно, кстати, что для поисков используются SAT-солверы, но это недоисследованная тема.

В общем круть даже в классике. И ждём также развития темы про клеточные автоматы, в частности были упомянутые по ссылкам выше многообещающие заходы на нейронные клеточные автоматы (https://distill.pub/2020/growing-ca/) от нашего любимого Майкла Левина.

Всем хороших выходных!

Derp Learning 2023-12-09 08:31:45

Марк Цукерберг показал технологию, которую использует чтобы выглядеть как обычный человек, которая позволяет в риалтайме на vr-очках показывать анимированный аватар, с учётом мимики лица и движения глаз, которые считывают vr-очки.

В основе лежит лайтовый меш лица, поверх которого рендерятся gaussian splats, причем для specular в том числе. Все это с динамическим освещением.
Говорят, моделировать мелкие детали и волосы так быстрее, чем существующими методами.

Интересно, быстрее ли это классического рендеринга.

Подробнее
Пдф

Сиолошная 2023-12-09 05:18:45

Рубрика «Мемы и экономика».

Для меня загадка, почему акции гугла подскочили на фоне релиза Gemini и всё еще не упали (в пятницу на закрытии торгов).

Особенно странно, если знать, что основное демо-видео с прикольными юзкейсами было смонтировано, и за кадром использовались другие промпты, более детальные, часто с указанием того, что хочется получить от модели. В новостях даже промелькнул заголовок, что Google БЫЛ РАЗОБЛАЧЁН после обмана, но на самом деле все запросы они описали в блоге (но не в видео, конечно. Судить о поcтупке вам).

[opinions are my own]
Но если честно Google выглядит сейчас слабо с точки зрения пиара. Ясно, что из нескольких сотен миллионов пользователей 98% и знать не будут про это, но всё же. Что мы увидели: за год компания может пересобрать свои отделы, выделить 800 человек — даже основателя компании Sergey Brin вернуть обратно — и сделать модель (не продукт?) как у конкурента. ГОД. Да там уже GPT-5 дотренировалась, господи...👁

эйай ньюз 2023-12-09 01:04:19

Не хотел писать про Gemini, который на днях анонсировали как мультимодальную модель уровня GPT-4, пока сам не пощупаю. Но Google обделался в пиаре своего Gemini, что тут грех не написать.

Демо-видео Gemini оказалось смонтированным, а не отражающим реальные возможности модели в реал-тайм. Видео нарезали, ускорили и смонтировали, выбросив то, какие именно промпты и какие кадры подавались модели, чтобы получить красивые ответы для демки.

Google признал монтаж, но утверждает, что целью было вдохновить разработчиков. ПРОСТО ГЕНИИ 🤣.

Кстати, у Гугла был похожий PR-провал во время анонса Bard 👍.

@ai_newz

эйай ньюз 2023-12-08 17:30:16

Хочу еще заметить, что всякие Latent Consistency Models (LCM) и SDXL-Turbo, работающие за ≤ 4 шага - это ортогональные к кешингу работы. При таком сильном снижении числа шагов, как правило значительно страдает чувствительность к промпту (так называемый text faithfulness). То есть ты просишь сгенерить "кота в сапогах и собаку", а модель теряет собаку.

На видео видно как лажает SDXL-Turbo на промптах с несколькими объектами. Да и сама картинка сильно хуже выглядит чем при 20 шагах, например.

@ai_newz

эйай ньюз 2023-12-08 17:07:33

Вы уже заметили, что есть две конкурентные статьи со схожей идеей: Наша Cache Me if You Can и работа DeepCache, которая появилась на архиве пару дней назад.

Основная разница в том, что в DeepCache алгоритм кеширования примитивный, мы же предлагаем более общий и адаптивный подход:

1️⃣ В DeepCache авторы вручную выбирают, какие блоки кешируются, и алгоритм пересчета кеша для всех блоков фиксированный. У нас же все адаптивно - автоматически подбираем какие блоки кешировать и как часто пересчитывать кеш. На картинке как раз показан алгоритм пересчета кеша, котрый мы получили для LDM c 20 шагами DPM++.

2️⃣ За счет этого наш алгоритм из коробки работает на разных text2image архитектурах, мы протестили на LDM c 900 млн параметров (аналог SD 1.5) и на Emu с 2.7 млрд параметров.

3️⃣ Мы предложили трюк с обучением shift & scale для кешируемых блоков, что сильно добрасывает качества, убирая мелкие артифакты.

4️⃣ У нас метрики от кеширования не падают как в DeepCache. И картинки получаются лучшего качества.

5️⃣ Мы показали, что при фиксированном бюджете на вычисления, Cache Me if You Can улучшает результаты генерации по сравнению с бейзлайном без кеширования, так как с нашим кешированием можно успеть прогнать большее число шагов солвера за фиксированное время. Например, вместо 14 шагов DPM++ для бейзлайна можно успеть прогнать 20 шагов DPM++ с нашим кешированием.

6️⃣ У нас можно варьировать trade-off между скоростью и качеством, меняя один гиперпараметр, который адаптивно определяет время жизни кеша для разных блоков. Чем больше врмя жизни кеша - тем быстрее инференс. После определенного порога скорость идет в урон качеству.

@ai_newz

Метаверсище и ИИще 2023-12-08 15:23:00

Обожаю общаться с DALL·E 3 в chatGPT.
В среду читал лекцию для одной компании (как водится в кафе-баре, так у нас заведено на Кипре). Исполнял в интерактив.
Сфоткал аудиторию и спрашиваю, "чо видишь тут, chatGPT?".
Он такой: вижу группу людей в неформальной обстановке в помещении, вероятно, в кафе или на мероприятии. Несколько рядов стульев, на которых сидят люди, смотрящие в камеру, некоторые улыбаются. Большинство из них - молодые взрослые, и есть разнообразный состав мужчин и женщин. На заднем плане стоят люди возле прилавка, на котором, по-видимому, находится оборудование для обслуживания еды, что предполагает, что это может быть социальное мероприятие, семинар или неформальная беседа. Некоторые люди держат в руках устройства, такие как смартфоны и ноутбуки, что указывает на расслабленную атмосферу, дружественную к технологиям. На стенах висят праздничные баннеры, что добавляет неформальности и праздничного настроения обстановке.

Все верно, говорю, дай теперь картинку по этому промпту.
Апажалста!

И тут выясняется, что глаз у него замылен, ну или заужен.
На картинке все как один - китайцы.
И тут напоминаю про то, что когда вы заводите новый чат в chatGPT, вы общаетесь с новой личностью. Я в этот раз нарвался на южно-азиатского оператора. Он так видит.

Нет, говорю, брат, давай мне кавказцев, ну то есть белых людей: less asian and more caucausian people

Он такой, нет!
Я свирипею и тупо повторяю запрос. На четвертый раз он соглашается.

И тут прилетает вопрос из зала: "а можно нас превратить в животных?" (фантазии у всех свои). Делать нечего, интерактив так интерактив, кидаю промпт из шести слов.

Он верещит, но я тупо настаиваю.

В итоге получаем если не Скотный двор, то Зверополис.

Все довольны.

Жду в коментах зверополисов, а сам запилю джипитишку типа "Озверей людей на фото".

Метаверсище и ИИще 2023-12-08 15:05:37

Gaussian Splatting scans in a virtual reality: 550 FPS on an RTX4090 at 2x2224x2160!

Пока все сходят с ума по GTA6, взрослые ребята пилят VR-вьюеры, которые работают на 550 фпс.
Артем прислал мне ссылку на свой VR Gaussian Splatting viewer, превращенный в (бесплатный) продукт.
Можете даже уже попробовать на своих .ply файлах!

Приложение построено исключительно на DirectX12/OpenXR, поэтому оно должно работать на любом совместимом GPU. Протестировано на младших моделях AMD, и даже там оно отлично работает.

Все подробности тут:
https://twitter.com/s1ddok/status/1731733361314402551
https://twitter.com/gracia_vr/status/1731731549886787634

Сиолошная 2023-12-08 14:54:33

Заметка на полях канала: самое большое разочарование это когда сидишь делаешь один материал/единицу контента, и хочется начать делать ещё 2-3 других, но они просто в список TODO'шек не помещаются уже.
(речь не про посты в канале, а чуть более масштабную работу вроде блогпостов)

Что делатб...может собрать 3-4 человека, давать им темы, объяснять куда и как, и потом просто ревьюить финальные версии?

Метаверсище и ИИще 2023-12-08 14:31:40

Тренд на запихивание LLM в телефоны, я думаю, будет мейнстримом начала 2024.
Гугль анонсирует Gemini Nano для Pixel8
Самсунг показывает свои решения.
Снапдрагон гоняет Stable Diffusion на телефонах.
И тут вот Stability AI, как обычно, хайпует на тренде.
Выпустили Зефирку-3B - позиционируют именно как On Edge LLM, для работы на оконечных устройствах.
Все что делает Stability в области LLM мне откровенно не нравится, но нравится тренд, на котором они хайпуют.
Как только ллм-ки начнут запускать на телефонах массово, придут нормальные интерфейсы, а не командная строка с питоном наперевес. Начнется хоть какая-то стандартизация.
https://stability.ai/news/stablelm-zephyr-3b-stability-llm

Метаверсище и ИИще 2023-12-08 14:21:12

За Gemini

Теперь когда все проплакались кипятком по поводу новой модели от Гугла можно немного подвести итоги.

1. В анонса и презентациях, где Gemini "бьет" GPT-4, упоминается Gemini Ultra, которой как бы нет и неизвестно когда будет. "В начале следующего года" - это как бы "когда-нибудь".

2. На реддите и в ютюбчике уже внимательно посмотрели результаты "побития" GPT-4 и обнаружили некоторое количество читов. При сравнении Gemini и GPT-4 тестах использовались немного разные промпты для Gemini, чем для GPT-4. Умно, но нещитово. В результате доверия ко всем этим тестам и превосходствам нет.

3. Педантичние реддиторы рассмотрели это феерическое видео под микроскопом и обнаружили, что мало того, что там вырезаны куски где модель думает над ответами, так там еще есть моменты, когда модель просят об одном, а она отвечает на другой вопрос. Ну то есть жесткий читерский монтаж.
https://www.bloomberg.com/opinion/articles/2023-12-07/google-s-gemini-ai-model-looks-remarkable-but-it-s-still-behind-openai-s-gpt-4

4. Gemini Pro, которую закатывают в Бард сейчас, это в лучшем случае уровень GPT-3.5, о чем скромно молчит Гугл и нескромно кричит о другом.

5. Суровые мужики уже изнасиловали Бард вопросами и обнаружили что он дико лажает на фактографии, причем не может толком разобраться со своими же поисковыми запросами. Иногда просто шлет пользователей на Гугл. chatGPT с доступом в интернет справляется с похожими задачами в разы лучше. Полный список факапов тут (от генерации кода до математики):
https://techcrunch.com/2023/12/07/early-impressions-of-googles-gemini-arent-great/

Что на итоге?

Гугл беспардонно сравнивает свои пока несуществующие продукты, с GPT-4, который вышел в марте.

До непонятного "начала следующего года" OpenAI может выкатить пару апдейтов, от которых у Гугла сильно пригорит в очередной раз. Они, например, уже зарегали торговые марки GPT-5 и GPT-6 в Китае.

Китайцы тоже не спят. Директор ByteDance пишет: Насчет GPT-5 пока ничего не известно, но ожидается, что сверхмощная модель (более мощная, чем Gemini) появится в ближайшее время. https://twitter.com/QuanquanGu/status/1732484036160012798

У OpenAI прекрасно выстроенная среда для разработчиков. Понятная, компактная, уже раскачанная. У Гугла какой-то конский зоопарк из продуктов, начиная от Duet AI и заканчивая выводком разных названия. Фокус в расфокусе.
У OpenAI - ПРОДУКТ, у Гугла - продукты, продукты, продукты.

В общем Гугл огорчает, даже не продуктами, а дешевыми трюками в маркетинге.

Метаверсошная 2023-12-08 13:12:38

Это очень смешно.

ChatGPT не хочет генерить картинки с персонажами, которые защищены копирайтом.
Но если принести ему записку от Сэма Альтмана, то сгенерит.

Когда-то давно такая фигня работала на продавщицах.

Приносишь им записку от родителей типа "0,5 охоты крепкой для меня, Васи, 63го года рождения" - и продавали.

С продавцами лазейку пофиксили небыстро, думаю с ИИ справятся гораздо быстрее.

Neural Shit 2023-12-08 12:26:07

Да

эйай ньюз 2023-12-08 00:57:06

А вот и наша статья подоспела - Cache Me if You Can: Accelerating Diffusion Models through Block Caching

Как я уже упоминал, наша команда в Meta GenAI занимается ускорением диффузии. В этой статье мы ускоряем генерацию изображений до x1.8 раза без потери качества с помощью умного кеширования во время инференса.

Как?
Для генерации одной картинки обычно требуется сделать много прогонов через модель Unet, например 50 DDIM шагов. Мы тут подметили, что активации Spatial-Attention блоков довольно гладко меняются от шага к шагу, и паттерн их изменения не зависит от промпта. Естественно, мы подумали, почему бы не кешировать фичи тех блоков, которые меняются наиболее медленно и пересчитывать их только раз в несколько шагов. Понт в том, что львиная доля всех вычислений происходит именно в attention блоках, поэтому пропуская их вычисления хотя бы на некоторых шагах, мы сильно ускоряем генерацию.

Все блоки разные, и их активации меняются с разной скоростью. Поэтому мы построили графики изменений активаций для каждого блока (усреднили по 64 запросам) и использовали их чтобы автоматически найти когда и какие блоки можно кешировать, и как долго должен жить кеш для каждого из блоков.

Чтобы убрать мелкие артифакты после кеширования, мы дополнительно обучаем time-dependent scale и shift параметры для каждого выходнрго канала кешируемых блоков. Это помогает сгладить разницу распределений между "честно посчитанными" фичами и закеширвоанными.

В итоге, получили x1.5-1.8 ускорение, причем FID скор даже улучшился после применения кеширования. А результаты Human Eval показали, что при фиксированном времени генерации модель с кешированием выдает более качественные картинки чем бейзлайн.

На каких архитектурах тестировали:
- LDM 512x512 (та же архитектура как у SD 1.5, но натренированная нами внутри GenAI)
- Наша Emu 768x768 с 2.7B параметров.

То есть метод гибок и может подстраиваться под модели разных размеров, причем расписание кеширования разных блоков строится автоматически. Взлетит и на SDXL тоже.

Статья на Arxiv

@ai_newz

Сиолошная 2023-12-07 18:21:50

Команда SpaceX опубликовала двухминутное обзорное видео о втором полёте Starship. В нём же видно, что у команды был обзор с камер на корабле - просто на трансляции их не показывали, немножко переживал.

Вот, например, момент разделения ускорителя и корабля (фото с верхней части бустера, Starship находится около опоры в центре кадра снизу).

Ждём следующий запуск и надеемся, что покажут больше вкусных кадров! В полёт отправится пара Ship 28 + Booster 10

Сиолошная 2023-12-07 17:25:59

Апдейт по тестированию in-context retrieval новой модели Anthropic. У исследователей, видимо, немного пригорело, что они дали человеку из твиттера доступ к модели, кредиты, а он взял и показал, что модель плохо выцепляет детали из длинного контекста. Их можно понять...

В общем, в свежем блогпосте они делятся своими тестами. Если немного переделать промпт, добавив первую фразу ответа AI-ассистента «Here is the most relevant sentence in the context:» (см. картинку), то качество вырастает с 27% до 98%. Кроме этого, описывается ещё пара схожих бенмарков, где показывается, что трюк работает. Интересная механика работы LLM, в общем — нужно менять не только свою инструкцию, ну и конструировать первую часть ответа модели.

Бонус: в посте указывается, что Claude 2.1 была обучена с использованием большого количества разметки для задач над длинными документами, которые пользователи находят важными. Например, суммаризация «S-1 length document». Если я правильно загуглил, S-1 — это типовая форма, которую заполняют компании в США при подаче заявки на IPO (в WIki пишут, что на заполнение уходит почти тысяча часов, хоть сама форма и занимает 8 страниц). Эти и десятки прочих документов действительно могут являться хорошим источником качественных данных, для которых можно придумать кучу задач при дообучении моделей — берём на заметку.

UPD: в комментариях указали, что заполненная форма может достигать нескольких сотен страниц (у AirBNB было 300+, к примеру, у WeWork 220).

Метаверсище и ИИще 2023-12-07 13:07:43

Есть еще тут кто-то из графики?
Глядите какая прелесть.
Берем Метахьюмана со всеми риг-потрохами и переносим на любую антропоморфную (или не очень) тварь.

Бонусом генерация 3Д из пнг-шек. Но смешно, надуванием, без нейросеток.

Вейтлист, обещают в январе бесплатную бету.
https://www.loading-studios.com/tools

Метаверсище и ИИще 2023-12-07 12:51:40

А теперь Midjourney!
"a shark swimming below a kayaker"

Midjourney знает толк в извращениях!

Спасибо подписчикам в коментах.

Метаверсище и ИИще 2023-12-07 12:12:12

"a shark swimming below a kayaker" по версии DALL·E 3

Тут качество отличное, но вот эта путаница в пространственных отношениях до сих пор присутствует во всех генераторах.

Понятно, что промптом можно все уточнить, но забавно видеть, что трактовка такой на вид простой фразы может причудливо преломляться в мозгах ИИ.

Метаверсище и ИИще 2023-12-07 12:06:30

"a shark swimming below a kayaker"

Версия Stable Diffusion в Фокусе.

Neural Shit 2023-12-07 12:05:28

Реклама. ООО "Яндекс", ИНН 7736207543, Erid: LdtCKYRZa

ТЕХНО: Яндекс про технологии 2023-12-07 12:05:20

😍Разыгрываем Станцию Миди!
Компактная, но мощная умная колонка с нейропроцессором внутри. Это первая колонка Яндекса, которая может управлять Zigbee-устройствами умного дома голосом без интернета.

15 декабря в 12:00 бот случайным образом выберет победителя. Для участия подпишитесь на телеграм-каналы Яндекс и ТЕХНО и нажмите кнопку «Участвовать».

▶️ А пока посмотрите, как производят и тестируют умные устройства Яндекса на заводе в Гуанчжоу, в мини-сериале YaC 2023 — на Кинопоиске и YouTube.

Метаверсище и ИИще 2023-12-07 12:04:16

Тут наметился микрочеллендж, навеянный вчерашним выходом генератора картинок от Метачки.
Я утащил вот такой вот простой промпт

"a shark swimming below a kayaker"
из поста про тестирование Imagine with Meta. А потом прогнал его на:
INCYMO
DALL·E 3
Stable Diffusion в Фокусе

chatGPT, конечно, на голову выше, хотя но сих пор путает отношения в пространстве (помните "лошадь верхом на астронавте").

INCYMO и SDXL выступают примерно в одной лиге, хотя INCYMO лучше справляется с пространством и композицией.

Здесь картинки от INCYMO

Накидайте в коменты вариантов из Midjourney.

Сиолошная 2023-12-07 11:13:23

Когда мне было ~19, подруга рассказывала, что однажды взяла отпуск на полгода и поехала по Индии путешествовать — а я так ей завидовал! Думал, вот же люди могут себе позволить, и отдохнуть можно, и повидать мир.

Сбылась мечта дурака — в последние полтора года тема кочевничества по странам стала для меня как никогда акутальной (по понятным причинам). Не скажу, что привык к постоянным перемещениям, но теперь они кажутся простыми. Взял, поехал в аэропорт, туда сюда — готово. Потихоньку начал приближаться к понимании романтики всего процесса 🙂

Среди кочевников есть отдельная группа digital nomad'ов — людей, которые путешествуют по миру и работают удаленно (ха-ха ето же я). Чаще всего для легализации процесса получения зарплаты и оплаты налогов необходимо быть резидентом где-либо. Очень многие знания по теме я подчерпнул в канале Кирилла Куликова @kyrillic.

Кирилл — путешественник со стажем. Он, кажется, начал этим промышлять тогда, когда я в школу ходил 🤨. Из его канала я не то что сам беру информацию — а в прошлом году так и вовсе часто пересылал своим коллегам и приятелям. Ответы варьировались от "да, согласен со всем" до "блин, а чё ты раньше не скинул??". Особенно ценой кажется информация про налоги 😳 хочешь-не хочешь, а платить где-то надо.

Вот я, например, свой план путешествий на 2023й я слизал вот с этого поста Кирилла с фантазиями об идеальном годе номада. Пришлось внести правки касательно Европы, но вышло вполне себе.

А ещё автор пишет (а кто не грешен?) и про LLM/перспективы AGI — мне очень зашел пост про бизнесовую сторону внедрения LLM в процессы. К сожалению, не могу согласиться со всеми точками зрения (например, тут я даже врываюсь в комментарии 😀), но ведь это здорово, когда можно посмотреть на что-то под разными углами!

Но вы не подумайте, @kyrillic это не блог про путешествия. Кирилл является сооснователем компании, прошедшей в YC, и пишет много про менталитет, бизнес и стартапы. Могу смело рекомендовать!

Neural Shit 2023-12-07 11:10:11

Чот далеко гугловскому Gemini до GPT4, максимум на 3.5 тянет.

Хотя, если Open AI продолжит лоботомировать свои модели цензурой, то скоро и мои всратообученные gpt3 для генерации гороскопов да рецептов станут умнее GPT-4, лол.

Метаверсище и ИИще 2023-12-07 10:44:08

Врожденная грамотность и ИИ.
Не могу похвастать прям абсолютной грамотностью, но уже давно (очень давно) пишу (и читаю) на "чувстве языка". Примерно так, как описывают этот самый феномен врожденной грамотности. Ошибки в тексте просто "режут" глаз, правила вспоминаются в последнюю очередь. Чтобы вспомнить, как правильно, я часто печатаю слово и просто смотрю на него. Если не помогает, лезу-таки в гугл. Но обычно помогает.
Как я понимаю, никакой "врожденной" грамотности нет и быть не может, а вот, похоже, врожденная способность к определенному виду памяти может вызывать такой эффект. Этакий подвид визуалов с акцентом на текстовые символы, если утрировать. Кто-то запоминает лучше и (похоже) на всю жизнь, кто-то не запоминает совсем (аудиалы? кинестетики?).

У этого явления может быть не только генетическая составляющая (типа такой родился), но и приобретенная способность.

Берется подходящая архитектура (хорошая визуальная память) и кормится данными (интенсивное чтение в определенном периоде). В какой-то момент нейросеть обучена и начинает сама определять, где правильно, а где "режет глаз". Без всякого знания правил. Тупо знает, как надо и все. Да, будут проколы: незнакомые слова (неполный датасет), "не" с причастиями (неполный контекст) и пр. Но в целом мне все это напоминает "чувство языка".

А тут оказалось, что эта самая хорошая визуальная память на текстовый контент, может быть обусловлена не только генетическим компонентом, но и формированием мозга в определенный период. Причем, раннее развитие и ранее чтение тут ни при чем, не надо путать подбор архитектуры и процесс обучения на датасете. Подготовка ребенка к чтению и письму не есть обучение чтению и письму. Хоть это и звучит контринтуитивно.
Подготовка(разработка) модели не есть обучение модели.

P. S. Возможно именно для людей с "врожденкой" (внимание, тут были кавычки) все эти коверканья слов выглядят особенно смешно и абсурдно. Я сам часто люблю этим пользоваццо, вызывая праведный гнев некоторых хранителей языка. Но для меня это не ашыпко, а скорее черный юмор. Прошу пардона, если задел чьи-то скрепы.
Ну и вот как избавиться от опечаток и заученных ошибок, непонятно. Пока набивал текст, наделал оных, каюсь.
И в школе я был чемпион по опечаткам и переставлению слогов при написании. Типа "мгоно" вместо "много". Надо изучить вопрос происхождения дисграфии.
Найдете ошибки, пишите в коментах, с удовольствием исправлю и переобучу сеть. Правда, пост не об этом.

P. P. S. А что делать тем, у кого нет "врожденной грамотности"(архитектуры, спец. вида памяти)? Помнить правила или использовать словари и спелчекеры - тут традиционный процедурный подход и классические базы данных.

Метаверсище и ИИще 2023-12-06 22:17:45

В общем, пока не очень, за пределами черри-пикинга с новостных сайтов.

Метаверсище и ИИще 2023-12-06 21:58:05

Подождите, новостей слишком много.
Метачка сделала веб-морду к своему недавно анонсированному генератору изображений Emu.

Imagine with Meta, работающая на основе Emu, бесплатна (по крайней мере, пока) для пользователей в США и генерирует четыре изображения на одну подсказку.

Меня не пустило, нет такого аккаунта, говорит, хотя имейл указал правильный, из фб. Видать и правда только для штатов.

Подробнее тут:
https://about.fb.com/news/2023/12/meta-ai-updates/
https://techcrunch.com/2023/12/06/meta-launches-a-standalone-ai-powered-image-generator/

Метаверсище и ИИще 2023-12-06 21:43:10

Смотрим, как лихо работает мультимодальная Gemini.
Ну и кстати, вот это вот "обходит GPT-4 по тестам" относится к версии Ultra, которая будет доступна примерно неизвестно когда.
А в Барде сейчас раскатывают версию Pro. Которая как бы на уровне GPT-3.5.
Впрочем, не попробуешь сам, не поймёшь...

Neural Machine 2023-12-06 20:59:20

Очень хорошо, сейчас я буду выгорать

Сиолошная 2023-12-06 20:35:37

Может, я не понимаю маркетинг, может, не знают работяги в Google, а может технология очень сырая и появится не скоро — но я чуть не пропустил ОЧЕНЬ крутую фичу, которую представили вместе с Gemini. На странице анонса модели и в ключевом видео просто места не уделили...ужас.

Предлагаю посмотреть видео

📹, а не читать слова...но если вы остались тут, то ОК!

Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke 🤔) веб-сайт с разными блоками. И с каждым из них пользователь может углубить взаимодействие — выделить, попросить дописать или переписать.

Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.

Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.

Как думаете, зря не показали всем?)

gonzo-обзоры ML статей 2023-12-06 19:57:19

И про TPU

gonzo-обзоры ML статей 2023-12-06 19:49:33

[Google] Gemini: A Family of Highly Capable Multimodal Models
Статья: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Блог: https://blog.google/technology/ai/google-gemini-ai
Сайт: https://deepmind.google/technologies/gemini/
Пощупать: https://bard.google.com (вроде как доступна средняя версия модели Pro)

Как обычно, продолжая “лучшие” традиции GPT-4 (https://t.me/gonzo_ML/1413) и PaLM 2 (https://t.me/gonzo_ML/1559), статья скудна на технические детали.

Текущая версия Gemini 1.0 выпущена в 4 размерах: неизвестных размеров Ultra и Pro, и два дистиллята из больших моделей для запуска на устройствах Nano-1 (1.8B параметров) и Nano-2 (3.25B).

Архитектура: декодер трансформера. Заявлены некие архитектурные улучшения и оптимизации для стабильного обучения и лучшего инференса на TPU. Но как теперь принято “У нас есть ТАКИЕ приборы! Но мы вам о них не расскажем”.

Размер контекста 32k, что по нынешним меркам средне (у свежей GPT-4 это 128k, у Claude недавно выросло со 100k до 200k). Но дьявол, конечно, в деталях. Не все йогурты одинаково полезны.

Модель мультимодальная.

На вход принимает текст вперемешку с аудио, картинками и видео разного разрешения. Видео кодируется как последовательность кадров. Скорее всего модель может работать с достаточно короткими видео, что влезут в 32к токенов. Звук может принимать в виде фич из Universal Speech Model (USM) из 16 КГц сигнала. Примеры мультимодального промптинга здесь: https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html.

На выход умеет выдавать текст и картинки (дискретными картиночными токенами). То есть мультимодальность повыше уровнем, чем у конкурентов, типа GPT-4V, где кроме текста только картинки и только на входе (https://t.me/gonzo_ML/1920).

Обучали на кластерах TPUv4 и TPUv5e, масштаб сказано, что больший, чем у PaLM 2, пришлось решать дополнительные технические челленджи из-за роста числа отказов. Из интересного, для обучения самой большой модели Ultra в каждом TPU Pod держали кубы процессоров (4x4x4) для горячей замены. Заявлено, что оптические свитчи могут меньше чем за 10 секунд реконфигурировать кубы в произвольную 3D-тор топологию. Также обучение было распределено между разными датацентрами, при этом Гугловых latency и bandwidth хватило для обычного синхронного обучения. Внутри супер-подов был model parallelism, между ними -- data parallelism.

* Сегодня же анонсировали TPUv5p (https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer), который по сравнению с TPUv4 имеет в два раза больше FLOPS и в три раза больше HBM памяти. Надо уже конечно обновить старый пост про ASIC (https://blog.inten.to/hardware-for-deep-learning-part-4-asic-96a542fe6a81).

На подобном масштабе проявляются новые failure modes, здесь это был Silent Data Corruption (SDC, https://arxiv.org/abs/2102.11245), когда данные по-тихому портятся и это не детектится железом. Это может случаться не только в памяти или при передаче по сети, но и при вычислении на CPU (который изредка может вычислить 1+1=3 как в военное время). По оценке это должно было случаться раз в одну-две недели. Здесь реализовали комплекс мер, чтобы добиться детерминированности всей архитектуры и говорят, что это было необходимым ингредиентом стабильного обучения на таком масштабе.

Для обучения использовался JAX и Pathways.

Про датасет известно мало что, но он мультимодальный и мультиязычный. Включает веб, книги, код, картинки, аудио и видео.

Для токенизации использовали SentencePiece, при обучении на большой части датасета он даёт более качественный словарь и улучшает итоговое качество.

Количество токенов для обучения выбирали по рецептам Шиншиллы (https://t.me/gonzo_ML/1216). Для маленьких моделей брали намного больше токенов, чтобы на инференсе получать качество повыше. Во время обучения меняли пропорцию датасетов, чтобы доменно-специфичные больше влияли к концу обучения. Подтверждают, что качество данных критично.

gonzo-обзоры ML статей 2023-12-06 19:49:33

Самая большая версия Gemini Ultra получила SOTA на 30 из 32 отобранных бенчмарков, а также она первая достигшая human-expert performance (89.8%) на MMLU (>90%). Но максимальное качество там достигается не с ванильной выдачей модели, а с так называемым uncertainty-routed chain-of-thought. Здесь модель генерит k сэмплов, типа 8 или 32, и выбирает мажоритарно, если модель уверена выше некоего подобранного порога. В противном случае делается откат к жадному семплингу без CoT. Похоже на апгрейженный CoT-SC (https://t.me/gonzo_ML/1885). Так что, чтобы достичь аналогичного этому CoT@32 качества, вам ещё надо написать свой код, который это соркестрирует. У GPT-4, если это реализовать, качество повышается с 86.4% до 87.3%. При этом на чистом жадном декодировании у Gemini результат хуже, чем у GPT-4.

В общем про цифры на бенчмарках смотрите красивые таблицы из статьи. На мультимодальных бенчмарках заявлена уверенная победа над GPT-4V. На текстовых чуть менее уверенная. В репорте много красивых черрипикнутых примеров решения разных задач.

Ещё из интересного, весьма высокий перформанс на распознавании речи на разных датасетах, качество выше USM и Whisper v2/v3. Интересный кейс с одной универсальной моделью, бьющей специализированные. Но, конечно, вопрос с размером, можно ли вообще сравнить. Хотя оно даже в случае Nano-1 лучше, а там сравнимо по размеру.

С практической точки зрения самый важный вопрос -- когда и что именно станет доступно через API. Вроде как заявлено появление версии Pro на Vertex AI 13 декабря. Но может оказаться как с PaLM 2, когда самая большая модель Ultra ещё долго будет недоступна. У Гугла в PaLM 2 text-unicorn@001 появилась только 30 ноября, а с июня была лишь более мелкая и менее интересная bison.

В Bard сейчас заявлена файнтюненная версия Pro. В следующем году обещают Bard Advanced с Ultra (https://blog.google/products/bard/google-bard-try-gemini-ai/).

Попутно на Gemini Pro собрали AlphaCode 2 (https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf). Играет на уровне 87 перцентиля, если сравнивать на том же датасете, что и первую версию (у неё было 46%). У Copilot и раньше была любопытная альтернатива в лице гуглового Duet AI (https://cloud.google.com/duet-ai), но в деле я не успел их сравнить. Наверняка новую модель туда тоже протянут, как и в Bard.

Надеюсь, в этот раз Гугл всё-таки будет пошустрее.

Сиолошная 2023-12-06 18:21:45

Свершилось: Google разродились своей моделью-конкурентом GPT-4.

🌐 Блогпост: https://blog.google/technology/ai/google-gemini-ai/
🌐 Более красиво оформленный блогпост: https://deepmind.google/technologies/gemini/

Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano. Последняя создана для работы на смартфонах (обещают нативную поддержку в Pixel 8 и далее) и существует в двух размерах: 1.8B и 3.25B. Эти модели получились методом дистилляции из старших братьев.

🔼 Заявляется State-of-the-Art качество на широком круге задач, но огромных разрывов на текстовых задачах нет (хотя в парочке всё же приятные приросты).

😮 Главная фишка — модели семейства Gemini мультимодальны, то есть поддерживают и картинки, и аудио, и даже видео. Так, например, распознавание голоса работает гораздо лучше, чем у OpenAI Whisper V2/V3.

И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. Хотя не ясно, доступен ли он всем и прямо сейчас — возможно, писать ответы будет модель предыдущего поколения. Так что не спешим с выводами на основе пары тестов!

В начале 2024го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!

📄 PDF с тех. репортом: тык, но деталей почти нет.

Сиолошная 2023-12-06 18:21:45

UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat

НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял Browsec, вот ссылка для Google Chrome.

2️⃣нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language

Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху: Bard has been updated in English with Gemini Pro.

Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (cmd/ctrl+shift+R ) и не забыть про cookies.

gonzo-обзоры ML статей 2023-12-06 16:36:47

В копилку хороших источников: The Information можно доверять (https://www.theinformation.com/articles/google-postpones-big-ai-launch-as-openai-zooms-ahead)

gonzo-обзоры ML статей 2023-12-06 15:56:51

Gemini announced!

Looks like the most capable GPT competitor with better multimodal capabilities.

Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Сиолошная 2023-12-06 14:05:11

Так будет выглядеть обложка декабрьского номера журнала Time.

Кроме этого, редакторы подготовили объемный пост про личность Sam Altman, с комментариями его близких знакомых:

https://time.com/6342827/ceo-of-the-year-2023-sam-altman/

Краткий пересказ будет в канале позже (мб ночью).

————————————
А человеком года стала... Taylor Swift 😳

🤦‍♂️👁

Derp Learning 2023-12-06 12:22:44

Коварные зефирки наступают, пока вы спите!

Сперто

Метаверсище и ИИще 2023-12-06 11:50:18

Readout Guidance: Learning Control from Diffusion Features
Вот еще одна интересная работа от Гугла (обещают код).
Тут суперпозиция быстрых и дешевых Control Net-ов для моментальных манипуляций с картинками. Меня больше всего впечатляет перетаскивание в духе DragGAN.
Ну и если посмотреть в пределе (как мы любим), то представьте себе картинку, которую вы сгенерили, во вьюпорте 3Д программы.
Вы поворачиваете камеру - картинка обновляется.
Призумливаетесь - картинка обновляется.
Берете и тащите объект - картинка обновляется.
Ставите персонаж в позу - картинка обновляется.
Деформируете объект - картинка обновляется.
В общем у вас такой странно управляемый рендер, который, как chatGPT, лихо отвечает на все ваши безумные запросы, иногда не в тему.
https://readout-guidance.github.io/

Нейронавт | Нейросети в творчестве 2023-12-06 11:35:20

DemoFusion: Democratising High-Resolution Image Generation With No $$$

Генерация изображений высокого разрешения
SDXL может синтезировать изображения с разрешением до 1024 × 1024, в то время как DemoFusion позволяет SDXL генерировать изображения с разрешением 4 ×, 16 × и даже выше без какой-либо настройки и значительных требований к памяти. Все сгенерированные изображения создаются с использованием одного RTX 3090

Код
Демо

#upscale #text2image

Метаверсище и ИИще 2023-12-06 11:21:14

Похоже, что дни D-ID сочтены.
Я уже много писал, что в наше ИИ-время Time To Market становится практически единственным критерием при оценке ИИ-стартапа, не работающего в вертикальной нише или в NSFW. Через 2-3 месяца приходит какой-нибудь гигант и превращает стартаптный функционал либо в конструктор для всех, либо выкладывает в опен сорс (превращая в конструктор для всех).
Смотрите, что творит Микрософт. Полное копирование того, что делает D-ID с улучшением качества по дороге. И, о боги, там есть контроль позы.

Поглядите примеры на сайте - просто огонь.

Как только выложат код (обещают), ждите выводка стартапов и сервисов типа "мы делаем это удобно за подписку". Хотя куда уж удобнее, загрузил фотку и текст/речь и жмешь сгенерить.
В общем тема нейроаватаров летит to the moon, запрыгивайте.
https://microsoft.github.io/GAIA/

Neural Shit 2023-12-06 08:29:48

Нейронные вариации наборов лего — мой любимый жанр

Neural Shit 2023-12-06 08:01:45

Вижу, как многие каналы меняют аватарки на новогодние. А мне не надо (потому что я как-то проебал момент и не сменил новогоднюю аватарку ещё с прошлого года)

эйай ньюз 2023-12-05 21:52:42

А вот так выглядит схема того, какие блоки кешируются, а какие пересчитываются во время DeepCache.

Песесчитываются только крайние ко входу и к выходу блоки энкодера (D) и декодера (U).

@ai_newz

эйай ньюз 2023-12-05 21:50:22

DeepCache: Accelerating Diffusion Models for Free

Во время инференса диффузионной модели мы делаем десятки шагов солвера, чтобы сгенерить одну картинку. Понятно, что это не очень эффективно. Отсюда растут ноги у многих работ по ускорению диффузии и уменьшению количества шагов на инференсе. Хочется как-то уменьшить количество компьюта требуемых для генерации одной картинки.

Тут как раз вышла работа про кеширование промежуточных активаций в Latent Diffusion. Хай-левел суть в том, что можно закешировать часть выходов блоков с предыдущих шагов и переиспользовать их на следующих шагах солвера. Активации более шлубоких блоков, те что работают на более низком разрешении, сильно коррелированы между двумя последовательными шагами. А вот активации первых и последних блоков как правило меняются довольно сильно от шагу. Вот авторы и предложили не пересчитывать активации глубоких блоков, а кешировать их.

Это позволяет ускорить инференс SD v1.5 до 2-3 раз без существенной потери качества.

Прикол в том, что мы написали статью на очень схожую тему (тоже про кешинг) - она скоро появится на архиве. Китайцы нас слегка опередили с загрузкой на Arxiv.

На гифке результаты SD v1.5. Слева: 50 PLMS шагов.
Справа: 2.3x ускорение 50 PLMS шагов с кешем.

Статья
Код

@ai_newz