Нейролента Mikitos.ru 2736 постов. Страница 28 (50 постов)
Neural Shit 2023-12-09 14:51:51
Немножко охуенных боевых вертолётов.
Было бы хорошо, если бы такие делали irl вместо скучных обычных.
взял отсюда
Метаверсище и ИИще 2023-12-09 14:17:14
Галлюцинация - это не ошибка, это величайшая особенность LLM
"Я всегда испытываю некоторое затруднение, когда меня спрашивают о "проблеме галлюцинаций" у LLM. Потому что в каком-то смысле галлюцинации - это все, чем занимаются LLM. Они - машины сновидений.
Мы управляем их снами с помощью подсказок. Подсказки запускают сон, и, основываясь на смутных воспоминаниях LLM об обучающих документах, в большинстве случаев результат оказывается полезным.
И только когда сновидения переходят на заведомо неверную территорию, мы навешиваем на них ярлык "галлюцинация". Это выглядит как ошибка, но LLM просто делает то, что он всегда делает.
С другой стороны, рассмотрим поисковую систему. Она принимает запрос и просто возвращает один из наиболее похожих "учебных документов", имеющихся в ее базе данных, дословно. Можно сказать, что у этой поисковой системы "проблема с креативностью" - она никогда не ответит чем-то новым. LLM - это 100 % сновидений и проблема галлюцинаций. Поисковая система - это 0% сновидений и проблема креативности.
При всем этом я понимаю, что на самом деле люди имеют в виду, что они не хотят, чтобы LLM Assistant (продукт типа ChatGPT и т.д.) галлюцинировал. LLM Assistant - это гораздо более сложная система, чем просто сам LLM, даже если она лежит в ее основе. Есть много способов уменьшить галлюцинации в таких системах -
использование Retrieval Augmented Generation (RAG) для более сильной привязки сновидений к реальным данным через контекстное обучение, возможно, самый распространенный из них. Разногласия между несколькими образцами, размышления, цепочки проверки. Декодирование неопределенности из активаций. Использование инструментов. Все это активные и очень интересные области исследований.
TLDR Я знаю, что веду себя очень педантично, но у LLM нет "проблемы галлюцинаций". Галлюцинация - это не ошибка, это величайшая особенность LLM. У помощника LLM есть проблема с галлюцинациями, и мы должны ее решить."
Андрей Карпаты. Только что:
https://twitter.com/karpathy/status/1733299213503787018
gonzo-обзоры ML статей 2023-12-09 11:27:02
For those who prefers reading in web and in English
https://gonzoml.substack.com/p/conways-game-of-life-is-omniperiodic
gonzo-обзоры ML статей 2023-12-09 10:54:26
Conway's Game of Life is Omniperiodic
Nico Brown, Carson Cheng, Tanner Jacobi, Maia Karpovich, Matthias Merzenich, David Raucci, Mitchell Riley
Статья: https://arxiv.org/abs/2312.02799
Прекрасное субботнее!
Доказано, что игра Жизнь омнипериодическая (omniperiodic), то есть в ней есть конструкции с любым периодом.
Напомню, что игра Жизнь (The Game of Life) -- это клеточный автомат, предложенный британцем Джоном Конуэем в 1970-м. У нас тут было сколько-то постов про Жизнь (https://t.me/gonzo_ML/1817), Конуэя (https://t.me/gonzo_ML/1825), и всё такое (https://t.me/gonzo_ML/1042), в нашем чате были также обсуждения развития игры, например, Lenia (https://t.me/c/1334131803/12841, https://t.me/c/1334131803/14282). Но сегодня про классическую классику.
В игре клетки живут на двумерной плоскости с квадратной сеткой, и у каждой клетки 8 соседей. Клетка может быть либо живая (закрашенная), либо мёртвая (пустая). Игра пошаговая, в каждый дискретный момент времени всё поле изменяется в соответствии с двумя правилами:
* Если вокруг мёртвой клетки ровно три живых соседа, то она становится живой.
* Если вокруг живой клетки два или три живых соседа, то она остаётся живой.
* В остальных случаях живая клетка умирает.
Период -- это время, через которое конфигурация клеток в игре повторяется. Сама такая конфигурация называется осциллятором.
Уже в самом начале были найдены простенькие (да и простые тоже) осцилляторы, типа квадратного блока 2x2 (p1), мигалки (p2), пульсара (p3) или глайдера (который не совсем осциллятор, он ещё и в пространстве перемещается, поэтому он космический корабль, spaceship). Многие из них получаются сами из рандомной начальной конфигурации.
При этом долго существовала гипотеза, что в Жизни должны существовать осцилляторы любого периода >=1. Важно, что тут речь про конечные осцилляторы, потому что с бесконечными всё просто -- сделал цепочку глайдеров на нужном расстоянии и усё.
Осцилляторы периода <=15 были найдены вручную. В 1996 David Buckingham показал, что можно создать любой осциллятор периода >=61 с помощью трубопроводов Гершеля (Herschel conduits), где сигнал пересылается по замкнутому пути (пример). Затем этот порог снизили до 43, обнаружив Снарка (Snark), отражатель глайдеров под углом в 90 градусов.
Оставалась неясная часть с 15 < p < 43, особенно сложно было с простыми числами. В начале тысячелетия недоставало осцилляторов периодов 19, 23, 27, 31, 34, 37, 38, 39, 41, 43, 51 и 53. Последними держались периоды 19 (https://conwaylife.com/wiki/Cribbage) и 41 (https://conwaylife.com/wiki/204P41). Но теперь найдены и они, и Жизнь доказанно омнипериодическая. Откроем шампанское!
Дальше советую занырнуть в статью, там во второй главе прекрасное историческое описание поисков, которое надо читать as is, а не пересказывать. Также в статье кликабельные картинки всех осцилляторов, ведущие на интерактивную демонстрацию, с которой можно поиграть. Мы с детьми теперь там сидим.
Тема с периодами теперь закрыта, но открыты другие интересные темы. Например, про максимальную скорость космических кораблей. Мне кажется, у Конрада Цузе в его Rechnender Raum (https://philpapers.org/archive/ZUSRR.pdf) тоже про что-то такое было, но давно читал, надо пересмотреть. В любом случае привет Теории Относительности :)
Также ещё не найдены глайдерные пушки всех периодов. Желающие могут поискать периоды 14 ≤ p ≤ 19, и p = 23, 26, 29, 31, 35, 38, 39, 47, 53. Есть и другие интересные темы, например, про оптимизацию осцилляторов (собрать минимальную по количеству клеток конфигурацию) или про strictly volatile осцилляторы, у которых каждая клетка пульсирует с заданным периодом. Интересно, кстати, что для поисков используются SAT-солверы, но это недоисследованная тема.
В общем круть даже в классике. И ждём также развития темы про клеточные автоматы, в частности были упомянутые по ссылкам выше многообещающие заходы на нейронные клеточные автоматы (https://distill.pub/2020/growing-ca/) от нашего любимого Майкла Левина.
Всем хороших выходных!
Derp Learning 2023-12-09 08:31:45
Марк Цукерберг показал технологию, которую использует чтобы выглядеть как обычный человек, которая позволяет в риалтайме на vr-очках показывать анимированный аватар, с учётом мимики лица и движения глаз, которые считывают vr-очки.
В основе лежит лайтовый меш лица, поверх которого рендерятся gaussian splats, причем для specular в том числе. Все это с динамическим освещением.
Говорят, моделировать мелкие детали и волосы так быстрее, чем существующими методами.
Интересно, быстрее ли это классического рендеринга.
Подробнее
Пдф
Сиолошная 2023-12-09 05:18:45
Рубрика «Мемы и экономика».
Для меня загадка, почему акции гугла подскочили на фоне релиза Gemini и всё еще не упали (в пятницу на закрытии торгов).
Особенно странно, если знать, что основное демо-видео с прикольными юзкейсами было смонтировано, и за кадром использовались другие промпты, более детальные, часто с указанием того, что хочется получить от модели. В новостях даже промелькнул заголовок, что Google БЫЛ РАЗОБЛАЧЁН после обмана, но на самом деле все запросы они описали в блоге (но не в видео, конечно. Судить о поcтупке вам).
[opinions are my own]
Но если честно Google выглядит сейчас слабо с точки зрения пиара. Ясно, что из нескольких сотен миллионов пользователей 98% и знать не будут про это, но всё же. Что мы увидели: за год компания может пересобрать свои отделы, выделить 800 человек — даже основателя компании Sergey Brin вернуть обратно — и сделать модель (не продукт?) как у конкурента. ГОД. Да там уже GPT-5 дотренировалась, господи...
эйай ньюз 2023-12-09 01:04:19
Не хотел писать про Gemini, который на днях анонсировали как мультимодальную модель уровня GPT-4, пока сам не пощупаю. Но Google обделался в пиаре своего Gemini, что тут грех не написать.
Демо-видео Gemini оказалось смонтированным, а не отражающим реальные возможности модели в реал-тайм. Видео нарезали, ускорили и смонтировали, выбросив то, какие именно промпты и какие кадры подавались модели, чтобы получить красивые ответы для демки.
Google признал монтаж, но утверждает, что целью было вдохновить разработчиков. ПРОСТО ГЕНИИ
Кстати, у Гугла был похожий PR-провал во время анонса Bard
@ai_newz
эйай ньюз 2023-12-08 17:30:16
Хочу еще заметить, что всякие Latent Consistency Models (LCM) и SDXL-Turbo, работающие за ≤ 4 шага - это ортогональные к кешингу работы. При таком сильном снижении числа шагов, как правило значительно страдает чувствительность к промпту (так называемый text faithfulness). То есть ты просишь сгенерить "кота в сапогах и собаку", а модель теряет собаку.
На видео видно как лажает SDXL-Turbo на промптах с несколькими объектами. Да и сама картинка сильно хуже выглядит чем при 20 шагах, например.
@ai_newz
эйай ньюз 2023-12-08 17:07:33
Вы уже заметили, что есть две конкурентные статьи со схожей идеей: Наша Cache Me if You Can и работа DeepCache, которая появилась на архиве пару дней назад.
Основная разница в том, что в DeepCache алгоритм кеширования примитивный, мы же предлагаем более общий и адаптивный подход:
@ai_newz
Метаверсище и ИИще 2023-12-08 15:23:00
Обожаю общаться с DALL·E 3 в chatGPT.
В среду читал лекцию для одной компании (как водится в кафе-баре, так у нас заведено на Кипре). Исполнял в интерактив.
Сфоткал аудиторию и спрашиваю, "чо видишь тут, chatGPT?".
Он такой: вижу группу людей в неформальной обстановке в помещении, вероятно, в кафе или на мероприятии. Несколько рядов стульев, на которых сидят люди, смотрящие в камеру, некоторые улыбаются. Большинство из них - молодые взрослые, и есть разнообразный состав мужчин и женщин. На заднем плане стоят люди возле прилавка, на котором, по-видимому, находится оборудование для обслуживания еды, что предполагает, что это может быть социальное мероприятие, семинар или неформальная беседа. Некоторые люди держат в руках устройства, такие как смартфоны и ноутбуки, что указывает на расслабленную атмосферу, дружественную к технологиям. На стенах висят праздничные баннеры, что добавляет неформальности и праздничного настроения обстановке.
Все верно, говорю, дай теперь картинку по этому промпту.
Апажалста!
И тут выясняется, что глаз у него замылен, ну или заужен.
На картинке все как один - китайцы.
И тут напоминаю про то, что когда вы заводите новый чат в chatGPT, вы общаетесь с новой личностью. Я в этот раз нарвался на южно-азиатского оператора. Он так видит.
Нет, говорю, брат, давай мне кавказцев, ну то есть белых людей: less asian and more caucausian people
Он такой, нет!
Я свирипею и тупо повторяю запрос. На четвертый раз он соглашается.
И тут прилетает вопрос из зала: "а можно нас превратить в животных?" (фантазии у всех свои). Делать нечего, интерактив так интерактив, кидаю промпт из шести слов.
Он верещит, но я тупо настаиваю.
В итоге получаем если не Скотный двор, то Зверополис.
Все довольны.
Жду в коментах зверополисов, а сам запилю джипитишку типа "Озверей людей на фото".
Метаверсище и ИИще 2023-12-08 15:05:37
Gaussian Splatting scans in a virtual reality: 550 FPS on an RTX4090 at 2x2224x2160!
Пока все сходят с ума по GTA6, взрослые ребята пилят VR-вьюеры, которые работают на 550 фпс.
Артем прислал мне ссылку на свой VR Gaussian Splatting viewer, превращенный в (бесплатный) продукт.
Можете даже уже попробовать на своих .ply файлах!
Приложение построено исключительно на DirectX12/OpenXR, поэтому оно должно работать на любом совместимом GPU. Протестировано на младших моделях AMD, и даже там оно отлично работает.
Все подробности тут:
https://twitter.com/s1ddok/status/1731733361314402551
https://twitter.com/gracia_vr/status/1731731549886787634
Сиолошная 2023-12-08 14:54:33
Заметка на полях канала: самое большое разочарование это когда сидишь делаешь один материал/единицу контента, и хочется начать делать ещё 2-3 других, но они просто в список TODO'шек не помещаются уже.
(речь не про посты в канале, а чуть более масштабную работу вроде блогпостов)
Что делатб...может собрать 3-4 человека, давать им темы, объяснять куда и как, и потом просто ревьюить финальные версии?
Метаверсище и ИИще 2023-12-08 14:31:40
Тренд на запихивание LLM в телефоны, я думаю, будет мейнстримом начала 2024.
Гугль анонсирует Gemini Nano для Pixel8
Самсунг показывает свои решения.
Снапдрагон гоняет Stable Diffusion на телефонах.
И тут вот Stability AI, как обычно, хайпует на тренде.
Выпустили Зефирку-3B - позиционируют именно как On Edge LLM, для работы на оконечных устройствах.
Все что делает Stability в области LLM мне откровенно не нравится, но нравится тренд, на котором они хайпуют.
Как только ллм-ки начнут запускать на телефонах массово, придут нормальные интерфейсы, а не командная строка с питоном наперевес. Начнется хоть какая-то стандартизация.
https://stability.ai/news/stablelm-zephyr-3b-stability-llm
Метаверсище и ИИще 2023-12-08 14:21:12
За Gemini
Теперь когда все проплакались кипятком по поводу новой модели от Гугла можно немного подвести итоги.
1. В анонса и презентациях, где Gemini "бьет" GPT-4, упоминается Gemini Ultra, которой как бы нет и неизвестно когда будет. "В начале следующего года" - это как бы "когда-нибудь".
2. На реддите и в ютюбчике уже внимательно посмотрели результаты "побития" GPT-4 и обнаружили некоторое количество читов. При сравнении Gemini и GPT-4 тестах использовались немного разные промпты для Gemini, чем для GPT-4. Умно, но нещитово. В результате доверия ко всем этим тестам и превосходствам нет.
3. Педантичние реддиторы рассмотрели это феерическое видео под микроскопом и обнаружили, что мало того, что там вырезаны куски где модель думает над ответами, так там еще есть моменты, когда модель просят об одном, а она отвечает на другой вопрос. Ну то есть жесткий читерский монтаж.
https://www.bloomberg.com/opinion/articles/2023-12-07/google-s-gemini-ai-model-looks-remarkable-but-it-s-still-behind-openai-s-gpt-4
4. Gemini Pro, которую закатывают в Бард сейчас, это в лучшем случае уровень GPT-3.5, о чем скромно молчит Гугл и нескромно кричит о другом.
5. Суровые мужики уже изнасиловали Бард вопросами и обнаружили что он дико лажает на фактографии, причем не может толком разобраться со своими же поисковыми запросами. Иногда просто шлет пользователей на Гугл. chatGPT с доступом в интернет справляется с похожими задачами в разы лучше. Полный список факапов тут (от генерации кода до математики):
https://techcrunch.com/2023/12/07/early-impressions-of-googles-gemini-arent-great/
Что на итоге?
Гугл беспардонно сравнивает свои пока несуществующие продукты, с GPT-4, который вышел в марте.
До непонятного "начала следующего года" OpenAI может выкатить пару апдейтов, от которых у Гугла сильно пригорит в очередной раз. Они, например, уже зарегали торговые марки GPT-5 и GPT-6 в Китае.
Китайцы тоже не спят. Директор ByteDance пишет: Насчет GPT-5 пока ничего не известно, но ожидается, что сверхмощная модель (более мощная, чем Gemini) появится в ближайшее время. https://twitter.com/QuanquanGu/status/1732484036160012798
У OpenAI прекрасно выстроенная среда для разработчиков. Понятная, компактная, уже раскачанная. У Гугла какой-то конский зоопарк из продуктов, начиная от Duet AI и заканчивая выводком разных названия. Фокус в расфокусе.
У OpenAI - ПРОДУКТ, у Гугла - продукты, продукты, продукты.
В общем Гугл огорчает, даже не продуктами, а дешевыми трюками в маркетинге.
Метаверсошная 2023-12-08 13:12:38
Это очень смешно.
ChatGPT не хочет генерить картинки с персонажами, которые защищены копирайтом.
Но если принести ему записку от Сэма Альтмана, то сгенерит.
Когда-то давно такая фигня работала на продавщицах.
Приносишь им записку от родителей типа "0,5 охоты крепкой для меня, Васи, 63го года рождения" - и продавали.
С продавцами лазейку пофиксили небыстро, думаю с ИИ справятся гораздо быстрее.
эйай ньюз 2023-12-08 00:57:06
⚡А вот и наша статья подоспела - Cache Me if You Can: Accelerating Diffusion Models through Block Caching
Как я уже упоминал, наша команда в Meta GenAI занимается ускорением диффузии. В этой статье мы ускоряем генерацию изображений до x1.8 раза без потери качества с помощью умного кеширования во время инференса.
Как?
Для генерации одной картинки обычно требуется сделать много прогонов через модель Unet, например 50 DDIM шагов. Мы тут подметили, что активации Spatial-Attention блоков довольно гладко меняются от шага к шагу, и паттерн их изменения не зависит от промпта. Естественно, мы подумали, почему бы не кешировать фичи тех блоков, которые меняются наиболее медленно и пересчитывать их только раз в несколько шагов. Понт в том, что львиная доля всех вычислений происходит именно в attention блоках, поэтому пропуская их вычисления хотя бы на некоторых шагах, мы сильно ускоряем генерацию.
Все блоки разные, и их активации меняются с разной скоростью. Поэтому мы построили графики изменений активаций для каждого блока (усреднили по 64 запросам) и использовали их чтобы автоматически найти когда и какие блоки можно кешировать, и как долго должен жить кеш для каждого из блоков.
Чтобы убрать мелкие артифакты после кеширования, мы дополнительно обучаем time-dependent scale и shift параметры для каждого выходнрго канала кешируемых блоков. Это помогает сгладить разницу распределений между "честно посчитанными" фичами и закеширвоанными.
В итоге, получили x1.5-1.8 ускорение, причем FID скор даже улучшился после применения кеширования. А результаты Human Eval показали, что при фиксированном времени генерации модель с кешированием выдает более качественные картинки чем бейзлайн.
На каких архитектурах тестировали:
- LDM 512x512 (та же архитектура как у SD 1.5, но натренированная нами внутри GenAI)
- Наша Emu 768x768 с 2.7B параметров.
То есть метод гибок и может подстраиваться под модели разных размеров, причем расписание кеширования разных блоков строится автоматически. Взлетит и на SDXL тоже.
Статья на Arxiv
@ai_newz
Сиолошная 2023-12-07 18:21:50
Команда SpaceX опубликовала двухминутное обзорное видео о втором полёте Starship. В нём же видно, что у команды был обзор с камер на корабле - просто на трансляции их не показывали, немножко переживал.
Вот, например, момент разделения ускорителя и корабля (фото с верхней части бустера, Starship находится около опоры в центре кадра снизу).
Ждём следующий запуск и надеемся, что покажут больше вкусных кадров! В полёт отправится пара Ship 28 + Booster 10
Сиолошная 2023-12-07 17:25:59
Апдейт по тестированию in-context retrieval новой модели Anthropic. У исследователей, видимо, немного пригорело, что они дали человеку из твиттера доступ к модели, кредиты, а он взял и показал, что модель плохо выцепляет детали из длинного контекста. Их можно понять...
В общем, в свежем блогпосте они делятся своими тестами. Если немного переделать промпт, добавив первую фразу ответа AI-ассистента «Here is the most relevant sentence in the context:» (см. картинку), то качество вырастает с 27% до 98%. Кроме этого, описывается ещё пара схожих бенмарков, где показывается, что трюк работает. Интересная механика работы LLM, в общем — нужно менять не только свою инструкцию, ну и конструировать первую часть ответа модели.
Бонус: в посте указывается, что Claude 2.1 была обучена с использованием большого количества разметки для задач над длинными документами, которые пользователи находят важными. Например, суммаризация «S-1 length document». Если я правильно загуглил, S-1 — это типовая форма, которую заполняют компании в США при подаче заявки на IPO (в WIki пишут, что на заполнение уходит почти тысяча часов, хоть сама форма и занимает 8 страниц). Эти и десятки прочих документов действительно могут являться хорошим источником качественных данных, для которых можно придумать кучу задач при дообучении моделей — берём на заметку.
UPD: в комментариях указали, что заполненная форма может достигать нескольких сотен страниц (у AirBNB было 300+, к примеру, у WeWork 220).
Метаверсище и ИИще 2023-12-07 13:07:43
Есть еще тут кто-то из графики?
Глядите какая прелесть.
Берем Метахьюмана со всеми риг-потрохами и переносим на любую антропоморфную (или не очень) тварь.
Бонусом генерация 3Д из пнг-шек. Но смешно, надуванием, без нейросеток.
Вейтлист, обещают в январе бесплатную бету.
https://www.loading-studios.com/tools
Метаверсище и ИИще 2023-12-07 12:51:40
А теперь Midjourney!
"a shark swimming below a kayaker"
Midjourney знает толк в извращениях!
Спасибо подписчикам в коментах.
Метаверсище и ИИще 2023-12-07 12:12:12
"a shark swimming below a kayaker" по версии DALL·E 3
Тут качество отличное, но вот эта путаница в пространственных отношениях до сих пор присутствует во всех генераторах.
Понятно, что промптом можно все уточнить, но забавно видеть, что трактовка такой на вид простой фразы может причудливо преломляться в мозгах ИИ.
Метаверсище и ИИще 2023-12-07 12:06:30
"a shark swimming below a kayaker"
Версия Stable Diffusion в Фокусе.
Neural Shit 2023-12-07 12:05:28
Реклама. ООО "Яндекс", ИНН 7736207543, Erid: LdtCKYRZa
ТЕХНО: Яндекс про технологии 2023-12-07 12:05:20
😍Разыгрываем Станцию Миди!
Компактная, но мощная умная колонка с нейропроцессором внутри. Это первая колонка Яндекса, которая может управлять Zigbee-устройствами умного дома голосом без интернета.
15 декабря в 12:00 бот случайным образом выберет победителя. Для участия подпишитесь на телеграм-каналы Яндекс и ТЕХНО и нажмите кнопку «Участвовать».
▶️ А пока посмотрите, как производят и тестируют умные устройства Яндекса на заводе в Гуанчжоу, в мини-сериале YaC 2023 — на Кинопоиске и YouTube.
Метаверсище и ИИще 2023-12-07 12:04:16
Тут наметился микрочеллендж, навеянный вчерашним выходом генератора картинок от Метачки.
Я утащил вот такой вот простой промпт
"a shark swimming below a kayaker"из поста про тестирование Imagine with Meta. А потом прогнал его на:
INCYMO
DALL·E 3
Stable Diffusion в Фокусе
chatGPT, конечно, на голову выше, хотя но сих пор путает отношения в пространстве (помните "лошадь верхом на астронавте").
INCYMO и SDXL выступают примерно в одной лиге, хотя INCYMO лучше справляется с пространством и композицией.
Здесь картинки от INCYMO
Накидайте в коменты вариантов из Midjourney.
Сиолошная 2023-12-07 11:13:23
Когда мне было ~19, подруга рассказывала, что однажды взяла отпуск на полгода и поехала по Индии путешествовать — а я так ей завидовал! Думал, вот же люди могут себе позволить, и отдохнуть можно, и повидать мир.
Сбылась мечта дурака — в последние полтора года тема кочевничества по странам стала для меня как никогда акутальной (по понятным причинам). Не скажу, что привык к постоянным перемещениям, но теперь они кажутся простыми. Взял, поехал в аэропорт, туда сюда — готово. Потихоньку начал приближаться к понимании романтики всего процесса 🙂
Среди кочевников есть отдельная группа digital nomad'ов — людей, которые путешествуют по миру и работают удаленно (ха-ха ето же я). Чаще всего для легализации процесса получения зарплаты и оплаты налогов необходимо быть резидентом где-либо. Очень многие знания по теме я подчерпнул в канале Кирилла Куликова @kyrillic.
Кирилл — путешественник со стажем. Он, кажется, начал этим промышлять тогда, когда я в школу ходил
Вот я, например, свой план путешествий на 2023й я слизал вот с этого поста Кирилла с фантазиями об идеальном годе номада. Пришлось внести правки касательно Европы, но вышло вполне себе.
А ещё автор пишет (а кто не грешен?) и про LLM/перспективы AGI — мне очень зашел пост про бизнесовую сторону внедрения LLM в процессы. К сожалению, не могу согласиться со всеми точками зрения (например, тут я даже врываюсь в комментарии
Но вы не подумайте, @kyrillic это не блог про путешествия. Кирилл является сооснователем компании, прошедшей в YC, и пишет много про менталитет, бизнес и стартапы. Могу смело рекомендовать!
Neural Shit 2023-12-07 11:10:11
Чот далеко гугловскому Gemini до GPT4, максимум на 3.5 тянет.
Хотя, если Open AI продолжит лоботомировать свои модели цензурой, то скоро и мои всратообученные gpt3 для генерации гороскопов да рецептов станут умнее GPT-4, лол.
Метаверсище и ИИще 2023-12-07 10:44:08
Врожденная грамотность и ИИ.
Не могу похвастать прям абсолютной грамотностью, но уже давно (очень давно) пишу (и читаю) на "чувстве языка". Примерно так, как описывают этот самый феномен врожденной грамотности. Ошибки в тексте просто "режут" глаз, правила вспоминаются в последнюю очередь. Чтобы вспомнить, как правильно, я часто печатаю слово и просто смотрю на него. Если не помогает, лезу-таки в гугл. Но обычно помогает.
Как я понимаю, никакой "врожденной" грамотности нет и быть не может, а вот, похоже, врожденная способность к определенному виду памяти может вызывать такой эффект. Этакий подвид визуалов с акцентом на текстовые символы, если утрировать. Кто-то запоминает лучше и (похоже) на всю жизнь, кто-то не запоминает совсем (аудиалы? кинестетики?).
У этого явления может быть не только генетическая составляющая (типа такой родился), но и приобретенная способность.
Берется подходящая архитектура (хорошая визуальная память) и кормится данными (интенсивное чтение в определенном периоде). В какой-то момент нейросеть обучена и начинает сама определять, где правильно, а где "режет глаз". Без всякого знания правил. Тупо знает, как надо и все. Да, будут проколы: незнакомые слова (неполный датасет), "не" с причастиями (неполный контекст) и пр. Но в целом мне все это напоминает "чувство языка".
А тут оказалось, что эта самая хорошая визуальная память на текстовый контент, может быть обусловлена не только генетическим компонентом, но и формированием мозга в определенный период. Причем, раннее развитие и ранее чтение тут ни при чем, не надо путать подбор архитектуры и процесс обучения на датасете. Подготовка ребенка к чтению и письму не есть обучение чтению и письму. Хоть это и звучит контринтуитивно.
Подготовка(разработка) модели не есть обучение модели.
P. S. Возможно именно для людей с "врожденкой" (внимание, тут были кавычки) все эти коверканья слов выглядят особенно смешно и абсурдно. Я сам часто люблю этим пользоваццо, вызывая праведный гнев некоторых хранителей языка. Но для меня это не ашыпко, а скорее черный юмор. Прошу пардона, если задел чьи-то скрепы.
Ну и вот как избавиться от опечаток и заученных ошибок, непонятно. Пока набивал текст, наделал оных, каюсь.
И в школе я был чемпион по опечаткам и переставлению слогов при написании. Типа "мгоно" вместо "много". Надо изучить вопрос происхождения дисграфии.
Найдете ошибки, пишите в коментах, с удовольствием исправлю и переобучу сеть. Правда, пост не об этом.
P. P. S. А что делать тем, у кого нет "врожденной грамотности"(архитектуры, спец. вида памяти)? Помнить правила или использовать словари и спелчекеры - тут традиционный процедурный подход и классические базы данных.
Метаверсище и ИИще 2023-12-06 22:17:45
В общем, пока не очень, за пределами черри-пикинга с новостных сайтов.
Метаверсище и ИИще 2023-12-06 21:58:05
Подождите, новостей слишком много.
Метачка сделала веб-морду к своему недавно анонсированному генератору изображений Emu.
Imagine with Meta, работающая на основе Emu, бесплатна (по крайней мере, пока) для пользователей в США и генерирует четыре изображения на одну подсказку.
Меня не пустило, нет такого аккаунта, говорит, хотя имейл указал правильный, из фб. Видать и правда только для штатов.
Подробнее тут:
https://about.fb.com/news/2023/12/meta-ai-updates/
https://techcrunch.com/2023/12/06/meta-launches-a-standalone-ai-powered-image-generator/
Метаверсище и ИИще 2023-12-06 21:43:10
Смотрим, как лихо работает мультимодальная Gemini.
Ну и кстати, вот это вот "обходит GPT-4 по тестам" относится к версии Ultra, которая будет доступна примерно неизвестно когда.
А в Барде сейчас раскатывают версию Pro. Которая как бы на уровне GPT-3.5.
Впрочем, не попробуешь сам, не поймёшь...
Neural Machine 2023-12-06 20:59:20
Очень хорошо, сейчас я буду выгорать
Сиолошная 2023-12-06 20:35:37
Может, я не понимаю маркетинг, может, не знают работяги в Google, а может технология очень сырая и появится не скоро — но я чуть не пропустил ОЧЕНЬ крутую фичу, которую представили вместе с Gemini. На странице анонса модели и в ключевом видео просто места не уделили...ужас.
Предлагаю посмотреть видео
Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke
Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.
Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.
Как думаете, зря не показали всем?)
gonzo-обзоры ML статей 2023-12-06 19:57:19
И про TPU
gonzo-обзоры ML статей 2023-12-06 19:49:33
[Google] Gemini: A Family of Highly Capable Multimodal Models
Статья: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Блог: https://blog.google/technology/ai/google-gemini-ai
Сайт: https://deepmind.google/technologies/gemini/
Пощупать: https://bard.google.com (вроде как доступна средняя версия модели Pro)
Как обычно, продолжая “лучшие” традиции GPT-4 (https://t.me/gonzo_ML/1413) и PaLM 2 (https://t.me/gonzo_ML/1559), статья скудна на технические детали.
Текущая версия Gemini 1.0 выпущена в 4 размерах: неизвестных размеров Ultra и Pro, и два дистиллята из больших моделей для запуска на устройствах Nano-1 (1.8B параметров) и Nano-2 (3.25B).
Архитектура: декодер трансформера. Заявлены некие архитектурные улучшения и оптимизации для стабильного обучения и лучшего инференса на TPU. Но как теперь принято “У нас есть ТАКИЕ приборы! Но мы вам о них не расскажем”.
Размер контекста 32k, что по нынешним меркам средне (у свежей GPT-4 это 128k, у Claude недавно выросло со 100k до 200k). Но дьявол, конечно, в деталях. Не все йогурты одинаково полезны.
Модель мультимодальная.
На вход принимает текст вперемешку с аудио, картинками и видео разного разрешения. Видео кодируется как последовательность кадров. Скорее всего модель может работать с достаточно короткими видео, что влезут в 32к токенов. Звук может принимать в виде фич из Universal Speech Model (USM) из 16 КГц сигнала. Примеры мультимодального промптинга здесь: https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html.
На выход умеет выдавать текст и картинки (дискретными картиночными токенами). То есть мультимодальность повыше уровнем, чем у конкурентов, типа GPT-4V, где кроме текста только картинки и только на входе (https://t.me/gonzo_ML/1920).
Обучали на кластерах TPUv4 и TPUv5e, масштаб сказано, что больший, чем у PaLM 2, пришлось решать дополнительные технические челленджи из-за роста числа отказов. Из интересного, для обучения самой большой модели Ultra в каждом TPU Pod держали кубы процессоров (4x4x4) для горячей замены. Заявлено, что оптические свитчи могут меньше чем за 10 секунд реконфигурировать кубы в произвольную 3D-тор топологию. Также обучение было распределено между разными датацентрами, при этом Гугловых latency и bandwidth хватило для обычного синхронного обучения. Внутри супер-подов был model parallelism, между ними -- data parallelism.
* Сегодня же анонсировали TPUv5p (https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer), который по сравнению с TPUv4 имеет в два раза больше FLOPS и в три раза больше HBM памяти. Надо уже конечно обновить старый пост про ASIC (https://blog.inten.to/hardware-for-deep-learning-part-4-asic-96a542fe6a81).
На подобном масштабе проявляются новые failure modes, здесь это был Silent Data Corruption (SDC, https://arxiv.org/abs/2102.11245), когда данные по-тихому портятся и это не детектится железом. Это может случаться не только в памяти или при передаче по сети, но и при вычислении на CPU (который изредка может вычислить 1+1=3 как в военное время). По оценке это должно было случаться раз в одну-две недели. Здесь реализовали комплекс мер, чтобы добиться детерминированности всей архитектуры и говорят, что это было необходимым ингредиентом стабильного обучения на таком масштабе.
Для обучения использовался JAX и Pathways.
Про датасет известно мало что, но он мультимодальный и мультиязычный. Включает веб, книги, код, картинки, аудио и видео.
Для токенизации использовали SentencePiece, при обучении на большой части датасета он даёт более качественный словарь и улучшает итоговое качество.
Количество токенов для обучения выбирали по рецептам Шиншиллы (https://t.me/gonzo_ML/1216). Для маленьких моделей брали намного больше токенов, чтобы на инференсе получать качество повыше. Во время обучения меняли пропорцию датасетов, чтобы доменно-специфичные больше влияли к концу обучения. Подтверждают, что качество данных критично.
gonzo-обзоры ML статей 2023-12-06 19:49:33
Самая большая версия Gemini Ultra получила SOTA на 30 из 32 отобранных бенчмарков, а также она первая достигшая human-expert performance (89.8%) на MMLU (>90%). Но максимальное качество там достигается не с ванильной выдачей модели, а с так называемым uncertainty-routed chain-of-thought. Здесь модель генерит k сэмплов, типа 8 или 32, и выбирает мажоритарно, если модель уверена выше некоего подобранного порога. В противном случае делается откат к жадному семплингу без CoT. Похоже на апгрейженный CoT-SC (https://t.me/gonzo_ML/1885). Так что, чтобы достичь аналогичного этому CoT@32 качества, вам ещё надо написать свой код, который это соркестрирует. У GPT-4, если это реализовать, качество повышается с 86.4% до 87.3%. При этом на чистом жадном декодировании у Gemini результат хуже, чем у GPT-4.
В общем про цифры на бенчмарках смотрите красивые таблицы из статьи. На мультимодальных бенчмарках заявлена уверенная победа над GPT-4V. На текстовых чуть менее уверенная. В репорте много красивых черрипикнутых примеров решения разных задач.
Ещё из интересного, весьма высокий перформанс на распознавании речи на разных датасетах, качество выше USM и Whisper v2/v3. Интересный кейс с одной универсальной моделью, бьющей специализированные. Но, конечно, вопрос с размером, можно ли вообще сравнить. Хотя оно даже в случае Nano-1 лучше, а там сравнимо по размеру.
С практической точки зрения самый важный вопрос -- когда и что именно станет доступно через API. Вроде как заявлено появление версии Pro на Vertex AI 13 декабря. Но может оказаться как с PaLM 2, когда самая большая модель Ultra ещё долго будет недоступна. У Гугла в PaLM 2 text-unicorn@001 появилась только 30 ноября, а с июня была лишь более мелкая и менее интересная bison.
В Bard сейчас заявлена файнтюненная версия Pro. В следующем году обещают Bard Advanced с Ultra (https://blog.google/products/bard/google-bard-try-gemini-ai/).
Попутно на Gemini Pro собрали AlphaCode 2 (https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf). Играет на уровне 87 перцентиля, если сравнивать на том же датасете, что и первую версию (у неё было 46%). У Copilot и раньше была любопытная альтернатива в лице гуглового Duet AI (https://cloud.google.com/duet-ai), но в деле я не успел их сравнить. Наверняка новую модель туда тоже протянут, как и в Bard.
Надеюсь, в этот раз Гугл всё-таки будет пошустрее.
Сиолошная 2023-12-06 18:21:45
Свершилось: Google разродились своей моделью-конкурентом GPT-4.
Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano. Последняя создана для работы на смартфонах (обещают нативную поддержку в Pixel 8 и далее) и существует в двух размерах: 1.8B и 3.25B. Эти модели получились методом дистилляции из старших братьев.
И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. Хотя не ясно, доступен ли он всем и прямо сейчас — возможно, писать ответы будет модель предыдущего поколения. Так что не спешим с выводами на основе пары тестов!
В начале 2024го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!
📄 PDF с тех. репортом: тык, но деталей почти нет.
Сиолошная 2023-12-06 18:21:45
UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat
НО! Есть два предварительных шага:
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху: Bard has been updated in English with Gemini Pro.
Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (cmd/ctrl+shift+R
) и не забыть про cookies.
gonzo-обзоры ML статей 2023-12-06 16:36:47
В копилку хороших источников: The Information можно доверять (https://www.theinformation.com/articles/google-postpones-big-ai-launch-as-openai-zooms-ahead)
gonzo-обзоры ML статей 2023-12-06 15:56:51
Gemini announced!
Looks like the most capable GPT competitor with better multimodal capabilities.
Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Сиолошная 2023-12-06 14:05:11
Так будет выглядеть обложка декабрьского номера журнала Time.
Кроме этого, редакторы подготовили объемный пост про личность Sam Altman, с комментариями его близких знакомых:
https://time.com/6342827/ceo-of-the-year-2023-sam-altman/
Краткий пересказ будет в канале позже (мб ночью).
————————————
А человеком года стала... Taylor Swift
Derp Learning 2023-12-06 12:22:44
Коварные зефирки наступают, пока вы спите!
Сперто
Метаверсище и ИИще 2023-12-06 11:50:18
Readout Guidance: Learning Control from Diffusion Features
Вот еще одна интересная работа от Гугла (обещают код).
Тут суперпозиция быстрых и дешевых Control Net-ов для моментальных манипуляций с картинками. Меня больше всего впечатляет перетаскивание в духе DragGAN.
Ну и если посмотреть в пределе (как мы любим), то представьте себе картинку, которую вы сгенерили, во вьюпорте 3Д программы.
Вы поворачиваете камеру - картинка обновляется.
Призумливаетесь - картинка обновляется.
Берете и тащите объект - картинка обновляется.
Ставите персонаж в позу - картинка обновляется.
Деформируете объект - картинка обновляется.
В общем у вас такой странно управляемый рендер, который, как chatGPT, лихо отвечает на все ваши безумные запросы, иногда не в тему.
https://readout-guidance.github.io/
Нейронавт | Нейросети в творчестве 2023-12-06 11:35:20
DemoFusion: Democratising High-Resolution Image Generation With No $$$
Генерация изображений высокого разрешения
SDXL может синтезировать изображения с разрешением до 1024 × 1024, в то время как DemoFusion позволяет SDXL генерировать изображения с разрешением 4 ×, 16 × и даже выше без какой-либо настройки и значительных требований к памяти. Все сгенерированные изображения создаются с использованием одного RTX 3090
Код
Демо
#upscale #text2image
Метаверсище и ИИще 2023-12-06 11:21:14
Похоже, что дни D-ID сочтены.
Я уже много писал, что в наше ИИ-время Time To Market становится практически единственным критерием при оценке ИИ-стартапа, не работающего в вертикальной нише или в NSFW. Через 2-3 месяца приходит какой-нибудь гигант и превращает стартаптный функционал либо в конструктор для всех, либо выкладывает в опен сорс (превращая в конструктор для всех).
Смотрите, что творит Микрософт. Полное копирование того, что делает D-ID с улучшением качества по дороге. И, о боги, там есть контроль позы.
Поглядите примеры на сайте - просто огонь.
Как только выложат код (обещают), ждите выводка стартапов и сервисов типа "мы делаем это удобно за подписку". Хотя куда уж удобнее, загрузил фотку и текст/речь и жмешь сгенерить.
В общем тема нейроаватаров летит to the moon, запрыгивайте.
https://microsoft.github.io/GAIA/
Neural Shit 2023-12-06 08:29:48
Нейронные вариации наборов лего — мой любимый жанр
Neural Shit 2023-12-06 08:01:45
Вижу, как многие каналы меняют аватарки на новогодние. А мне не надо (потому что я как-то проебал момент и не сменил новогоднюю аватарку ещё с прошлого года)
эйай ньюз 2023-12-05 21:52:42
А вот так выглядит схема того, какие блоки кешируются, а какие пересчитываются во время DeepCache.
Песесчитываются только крайние ко входу и к выходу блоки энкодера (D) и декодера (U).
@ai_newz
эйай ньюз 2023-12-05 21:50:22
⚡DeepCache: Accelerating Diffusion Models for Free
Во время инференса диффузионной модели мы делаем десятки шагов солвера, чтобы сгенерить одну картинку. Понятно, что это не очень эффективно. Отсюда растут ноги у многих работ по ускорению диффузии и уменьшению количества шагов на инференсе. Хочется как-то уменьшить количество компьюта требуемых для генерации одной картинки.
Тут как раз вышла работа про кеширование промежуточных активаций в Latent Diffusion. Хай-левел суть в том, что можно закешировать часть выходов блоков с предыдущих шагов и переиспользовать их на следующих шагах солвера. Активации более шлубоких блоков, те что работают на более низком разрешении, сильно коррелированы между двумя последовательными шагами. А вот активации первых и последних блоков как правило меняются довольно сильно от шагу. Вот авторы и предложили не пересчитывать активации глубоких блоков, а кешировать их.
Это позволяет ускорить инференс SD v1.5 до 2-3 раз без существенной потери качества.
На гифке результаты SD v1.5. Слева: 50 PLMS шагов.
Справа: 2.3x ускорение 50 PLMS шагов с кешем.
Статья
Код
@ai_newz