Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 4 (50 постов)

Репосты из тематических каналов

Метаверсище и ИИще 2024-04-17 14:53:40

Мне основную массу новостей приносит твиттор, реддит и подписчики (которые иногда присылают прям шедевры, за что им спасибо).

Также я подписан на ряд широко известных каналов в узких кругах админов ИИ-каналов.

Выделил для себя следующие:

Бурый — Серега красавчик, потому, что пишет авторские тексты, с юмором, тестирует ИИ сам и пишет максимально субъективно (это плюс).

Нейронавт | Нейросети в творчестве — Нейронавтика знаю лично еще по Питерским Ивентам и прошлой жизни в CG и VFX. Фильтрует интересные бумаги, экономит время.

Tips AI | IT & AI — много про графику, мне это нравится и много смешного, иногда хочется отдохнуть от гитхаба.

ИИволюция — канал Сергея Пахандрина, хорошая подборка новостей и лайфхаков по применению ИИ для решения разных задач.

Psy Eyes — дико полезные полезные дайджесты от Андрея, просматриваю регулярно, много технической годноты. Нахожу много пропущенного. Увожение.

Метаверсище и ИИще 2024-04-17 11:23:09

Про Stable Diffusion 3 пока невеселые новости. Сроки вообще непонятны.

Как пишет главный SD3 инфлюенсер Лыкон: Архитектура все еще меняется, не имеет смысла выпускать это сейчас, это только внесет путаницу. Может быть, API.

Подробности вот тут.
https://twitter.com/Lykon4072/status/1780173231334236367

Метаверсище и ИИще 2024-04-17 11:16:17

Нейрорендер набирает обороты.

Хави Лопес пишет "В будущем каждый пиксель в видеоигре будет не РЕНДЕРИТЬСЯ, а ГЕНЕРИРОВАТЬСЯ в реальном времени. Но люди уже сегодня создают безумные "рендеры с искусственным интеллектом".

Я тоже давно топлю за то, что нейрорендер может заменить огромную часть пайплайнов, особенно в архитектурке и продуктовом дизайне.

Но посмотрите на эти 18 фантастических примеров по ссылке:
https://twitter.com/javilopen/status/1780236456835072257

Да, это пока статика, но какая статика!

Конечно Хави топит за свой Magnific_AI, где он Founder.

Но все это великолепие перекладывается на любые другие генераторы, от Креа и Визкома до экстеншенов к A1111 и ComfyUI. Или плагинов к Синьке, о которых я писал.

Просто поглядите этот твиттор.

А я вынес в шапку традиционный рендер-бокс. Чтобы вы оценили, как надо было бы упороться в щейдинг, текстуринг и лайтинг, чтобы отредерить такое безобразие. И разнообразие.

И да, на входе просто скетч. И промпт-хотелка. И это НЕ 3Д.

Метаверсище и ИИще 2024-04-17 10:57:56

ИИпиляция и бриитьё в реальном времени.
Это вам не бьютификация в Фотошопе!

Корейцы из soy.lab жгут, конечно.
Пора пересаживаться в ComfyUI.

Метаверсище и ИИще 2024-04-17 10:52:24

Harmonai, которые на самом деле делали Stable Audio 2.0, выпустили статью с техническими подробностями, демо, и даже плейлист на Soundcloud.
Забирайте все ссылки вот отсюда.

Сиолошная 2024-04-17 10:50:57

Вот так выглядит пайплайн:
1) выделение фактов
2) корректировка фактов для достижения атомарности
3) оценка релевантности
4) оценка ответа через гугл (тут на самом деле под капотом много работы: составление запросов, поиск противоречий, формирование вывода— смотри вторую картинку как пример)

Сиолошная 2024-04-17 10:49:25

LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Принято считать, что LLM часто галлюцинируют, и вообще у них большие проблемы с фактической информацией. Вот если GPT-4 мне ответит: «...и Эйфелева башня, открытая в 20м веке, обязательны к посещению» — я должен проверять период открытия? Наверное, да — уже не одна сотня людей на подобном погорела (вспомните случай с адвокатом).

Сотрудники DeepMind решили подойти к вопросу более системно и исследовать вопрос: могут ли модели текущего поколения успешно перепроверять сами себя при условии наличия доступа к гуглу? Для тех, кому лень читать, краткие выводы:
1) LLM ЛУЧШЕ ЛЮДЕЙ в перепроверке информации
2) LLM в 20 раз дешевле ручной валидации фактов
3) (конечно же) бОльшие модели лучше (косой взгляд в сторону тех, кто использует GPT-3.5)
4) GPT-4-Turbo значимо лучше остальных моделей
===

Сначала авторы генерируют 2280 относительно длинных ответов модели, запромченной упоминать как можно больше фактов - на этой выборке будут производиться замеры. Для того, чтобы перевалидировать текст, предлагается следующая многоступенчатая схема:
1) разбить текст на отдельные факты
2) сделать каждый факт самодостаточным и атомарным (например, заменив местоимения «она» на «Эйфелева башня»)
3) для каждого факта проверить релевантность оригинальному запросу
4) наконец, запустить агента в интернет с целью проверки каждого атомарного факта. Такой агент сам пишет запросы, сам открывает и читает страницы, сам может найти противоречие между разными источниками и в теории определить, какой более приоритетен
(и для всех пунктов, конечно же, используются LLM - никаких людей)

Такой пайплайн авторы называли SAFE (Search-Augmented Factuality Evaluator). На своём датасете они тоже метрики меряют, но отдельно сравнивают с людьми на датасете, созданном в рамках одной из прошлых работ в 2023м году. Там ~500 промптов, в ответах на которые выделено 16k фактов. Для каждого живой человек искал подтверждение, правда, только в рамках Википедии, а не во всем интернете.

В 72% случаев SAFE выдаёт тот же ответ, что и человек (то есть соглашается, что факт либо правильный, либо неправильный). «Пффф! ошибается в четверти случаев» — скажут одни. «Ща мы тут проверим, кто ошибается» — отвечают авторы. Затем они берут 100 примеров, где ответы модели и людей отличаются, и перепроверяют уже сами, глядя на результат. Оказывается, в 76% случаев они согласны с моделью — просто люди либо ошиблись, либо у них не было всего контекста (вне Википедии).

Код с промптами: тут и тут (разные папки одного репозитория, мб ещё где-то есть)

Метаверсище и ИИще 2024-04-17 10:31:41

Я уже писал год назад про Spline. Это такой смешной 3Д-моделинговый софт, который работает прямо в браузере, там как бы нет рендера - все во вьюпорте, там есть events - как в наноигровом движке и всякие транзишены.
Этакий 3Д-вордпрессик для хипстеров.
Так вот, софтинка как-то жила, никого не трогала.

А потом - бум! Ребята просто сказали, что они прикручивают text-to-3D. Как и многие другие.

И что вы думаете - сразу подняли 16 миллионов. Долларов.

Вчера выкатили фичу генерации.

Я, конечно, прибежал, высунув язык, но эти алчные стартаперы сходу просят 30 долларов, протестировать не дают, бесплатных кредитов не насыпают, просят верить на слово.

По видосу выглядит все сладко, но сдается мне видос собран из их собственной базы объектов.

Кто протестировал, пишите.
https://spline.design/ai-generate

эйай ньюз 2024-04-17 10:21:44

Кажется, мы стали забывать, сколько стоит тренировка Gemini Ultra... ее оценивают в 191.4 миллиона долларов $$$!

Это почти в 2.5 раза больше чем GPT-4, и тут еще не учтены остальные эксперименты, которые не выгорели.

Но и инференс же тоже не дешевый. Уверен, что гугл сейчас в убыток раскатывает свои модели в прод.

@ai_newz

эйай ньюз 2024-04-17 10:05:00

Вышел AI Index Report 2024 - ежегодный отчет от Стенфорда про тренды в AI (не только в ресерче).

1. AI местами уже обходит людей в задачах связанных с классификацией изображений и пониманием (английского) языка. Но еще не везде (пока).

2. Бигтех продолжает жестко доминировать в АИ ресерче выпустив, помимо прочего, 51 достойную модель, пока академия лишь 15.

3. По оценкам AI Index, затраты на обучение современных моделей ИИ достигли беспрецедентного уровня, например, на обучение GPT-4 от OpenAI было потрачено около 78 млн $, а на Gemini Ultra от Google - 191 млн $ .

4. США – лидер в AI гонке, а Китай в робототехнике. Китай клепает много статей, но реально крутых моделей у них меньше чем у Американцев.

5. Остро стоит вопрос алайнмента. Сейчас нет каких-то бенчмарков или утвержденных эталонов для оценки ответственности LLM, что затрудняет систематическое сравнение рисков и регуляцию моделей между сосбой.

6. Инвестиции в AI резко возросли, почти в восемь раз по сравнению с 2022 годом и достигли 25,2 миллиарда долларов, несмотря на общее снижение частных инвестиций в нишу в прошлом году.

7. AI повышает производительность труда, а также сужает разрыв между начинающими и опытными сотрудниками. Так что учимся пользоваться!

8. Научный прогресс ускоряется еще больше благодаря AI. В 2023 году были запущены AI-интсрументы во всех сферах научной деятельности, начиная с AlphaDev, повышающего эффективность алгоритмической сортировки, до GNoME, облегчающего процесс открытия новых материалов.

9. Мы видим все больше регуляций AI со стороны государств. Количество нормативных актов, связанных с AI, в США резко возросло за последний год и последние пять лет, в 2023 году их было 25, а в 2016 – всего один.

10. До людей постепенно доходит что AI это вам не NFT, согласно опросу Ipsos, доля тех, кто считает, что искусственный интеллект кардинально повлияет на их жизнь в ближайшие три-пять лет, увеличилась с 60% до 66%, а 52% выражают обеспокоенность в отношении AI. Люди боятся того, чего не понимают.

Репорт в PDF

@ai_newz

Метаверсище и ИИще 2024-04-17 09:55:48

Ну и завершим марафон за красоту вот таким девайсом.

Про секс-игрушки Myhixel на основе ИИ и оргазмы "с умом" на основе ЭЭГ я уже писал.

Но тема настолько горячая, что пошла в народ. Один чувак сделал умную вагину, которая:
-подстраивается под действия пользователя
-кличет его по имени и изрыгает непристойности
-умеет имитировать оргазм
-вся светится от щастя в лучших цветах RGB
-внутри у нея неонка и нейронка


Видео получилось с одной стороны очень непристойным(на слух), а с другой - там ничего такого, чувак просто занимается A\B тестами с использованием пальпируя руками железяку. А на экране просто железные (ну ок, силиконовые) внутренности девайса.

Смотреть больше видео тут:
https://orifice.ai/

Ну и все это мне напомнило (ни с того ни с сего) мой вчерашний секс с Илоном Маском. И слова лип синк заиграли совершенно новыми красками.

Так, автор, угомонись.

Метаверсище и ИИще 2024-04-17 09:24:04

Продолжим за красоту. И за попытки ея измерить.

Вот вы\мы тут шутили, что генерить картинки и тексты будет ИИ, а смотреть и читать все это .. тоже будет ИИ.

Дошутились, вангоиды.

Держите, футурологи: Конкурс "Мисс ИИ", где традиционные конкурсы красоты переходят в мир создателей искусственного интеллекта. Конкурсанток будут оценивать по красоте, технологиям и влиятельности.

А теперь внимание, в составе жюри те самые:
Aitana Lopez, International AI Creator & +$100k fanvue earner
и
Emily Pellegrini, International AI Creator & +$100k fanvue earner

Цифровые твари, про которых я уже писал.

ИИ генерит красоту, ИИ ее же и оценивает. И награждает. Там призов на 20 000 долларов. Первое место 13К.

И интересно, что на сайте написано:
Конкурсанток будут оценивать по некоторым классическим аспектам конкурса, включая красоту, самообладание и уникальные ответы на ряд вопросов, таких как "Если бы у вас была одна мечта сделать мир лучше, что бы это было?".

Я вот не уверен, что там будут битвы чат-ботов.
Ведь за за всей этой затеей стоит агенство Fanvue, которое и выводит Аитану или Эмили в топы инсты. И там на бекстейдже кожаные копирайтеры и сммщики.

Так что в принципе - это просто хороший маркетинг ход агенства с громким названием
The World AI Creator Awards.

Ну и вишенка на торте.
Вам ничего не светит, если у вашей ИИ-модели нет тонны подписчиков в соц-сетях. Конкурс для богатых ИИ-инфлюенсеров, нищеброды. Лайки - новое золото.

В общем ИИ-илита и ИИ-богема начинают жить своей жизнью.
Генерить ИИ контент, потреблять его, зарабатывать на нем. И на кожаных.
https://www.waicas.com/

Neural Shit 2024-04-17 07:17:43

Авторский сервис VseGPT.ru предоставляет вебчат и OpenAI API для топовых мировых нейросетей (ChatGPT, GPT-4, Claude 3 Opus/Sonnet/Haiku, Google Gemini 1M, Mixtral...) с оплатой российскими картами всего за 199 р в месяц.

- Профессиональный выбор из топовых нейросетей: ChatGPT, GPT-4-Turbo, Claude 3 (200k контекст, топовая сеть по рейтингам), Google Gemini Pro, Perplexity и множество опенсорс - всего более 50 нейросетей.
- Подключаем свежие новинки: Claude 3 Opus, Google Gemini Pro, Cohere Command-R+, Mixtral 8x22B.
- Веб-чат, обработка файлов и расширение для браузера - используйте ChatGPT там, где вам удобно!
- Поддержка OpenAI API: можно подключать скрипты и сторонние инструменты, если они используют OpenAI API.
- Встроенный в API переводчик для эффективного общения с англоязычными опенсорс-нейросетями и ролеплея (опционально)
- Бесплатный тестовый доступ сразу после регистрации
- От 199 р. в месяц
- Оплата российскими картами

https://vsegpt.ru

Или читайте авторскую статью на Хабре: "GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?" https://habr.com/ru/companies/timeweb/articles/805261/

#реклама

Neural Shit 2024-04-16 22:28:56

Лол

Метаверсище и ИИще 2024-04-16 18:32:09

Недавно писал про бенчмарки для изображений. Не поленился, посмотрел в интернетике, как оценивают картинки на разных ресурсах. Причем не в бумагах или пресс-релизах к новой модели, где черипикнутые картинки уделывают конкурентов, а просто на технических сайтах.

Нашел вот такое описание метрик.

Соблюдение семантической нагрузки: Насколько точно созданное изображение отражает основную концепцию или сообщение, переданное в подсказке?
Композиционная гармония: Является ли изображение сбалансированным и эстетически приятным расположением элементов?
Художественный подтекст:
Вызывает ли изображение какие-либо более глубокие эмоции, идеи или символизм, выходящие за рамки буквальной интерпретации подсказки?
Верность передачи техники: Если в задании требовались определенные художественные стили, насколько эффективно модель передала суть этой техники?

Вот один из примеров такого хит-парада.

Из интересного пишут такое:
В ходе эксперимента особое внимание было уделено сервисам, построенным на основе проприетарных моделей, что позволило выявить удивительно ограниченный ландшафт, в котором доминируют США, Россия, Индия и Китай - иллюстрация необходимых огромных технологических и финансовых ресурсов для разработки таких проектов.
Также из интересного: Кандинский занял пятое место, а ЯндексАРТ - десятое.
Про китайцев из Tongyi Wanxiang уже писал.
А вот про индийский Kalaido я ничего не слышал, пойду погляжу, что это.
И похоже что Turbo вписали по ошибке..

Какая картинка из какого генератора можете поглядеть по ссылке:
https://techbullion.com/a-showdown-of-creativity-a-comparative-analysis-of-proprietary-generative-ai-image-models/

А мне по прежнему интересно, как можно так измерять неизмеримое?

Или измеримое?

Сиолошная 2024-04-16 14:12:41

Boston Dynamics опубликовали видео «Farewell to HD Atlas»

Atlas — это тот самый робот, которого вы долгие годы видели в демонстрациях: его пинали, били, клюшкой выбивали предметы из рук, заставляли бегать и делать сальто.

Вероятнее всего, нас ждёт анонс новой платформы (может быть гуманоидной, а может быть и нет) — будем следить. Этот год должен стать большим для робототехники (даже первые посты в канале в январе — про роботов!), тема очень горячая.

В самом же видео показываются моменты неудач, взлёты падения и падения — можно посмотреть, посмеяться, приговаривая «ха-ха тупая железка»

Метаверсище и ИИще 2024-04-16 14:02:14

Нейро: Яндекс запустил новый продукт на стыке поиска, LLM и генеративных нейросеток.

Позиционирование довольно интересное.

Нейро — это не ассистент, не бот, не собеседник и даже не поиск. Он не ведёт беседу, он, скажем так, делает рисёрч.

Это некий метапоиск на максималках: Нейро собирает из источников готовый ответ. Обещают «Ответ, в котором весь интернет».

По замыслу это ближе всего к Gemini или даже к Perplexity, но Нейро лучше всего понимает русский язык и отвечает на нём. Спрашивать можно разговорным языком, а когда не хватает слов, можно подключить картинки (!). А в ответах всегда есть ссылки на источники.

Всё это хорошо бьётся с другими «нейробрендами» от Яндекса. Нейробраузер, Нейроперевод. Такими темпами у нас скоро будет Нейроинтернет.

Надо тестировать, звучит интригующе.

Метаверсище и ИИще 2024-04-16 13:41:09

Кунг-Фу Панда 4.

Добавлю немного воздуха в канал. Посмотрел много разного: Сёгун, Фоллаут, Шугар. Оценки 5, 1, 10 соответственно. Но больше всего ждал Панду 4.
Я не знаю, почему все так взъелись на четвертую часть. Это хорошее, крепкое продолжение франшизы. У нее непростая судьба - запустили еще до короны, потом замораживали, потом размораживали.
Но как обычно, анимация великолепна, юмор прекрасен, картинка топ.
Да, история не так глубока, как в первой и третьей частях, но моя лояльность к Панде так велика, что я прощаю этот недостаток. У меня слишком много связано и с ДримВоркс, куда я захаживал еще в нулевых и докладами на Ивентах про производство франшизы.
В общем я обусловленный добрый зритель и мне понравилось. И это нечастый случай, когда я смотрю в русской озвучке - исключительно ради Галустяна.
Вы спросите, а шозахрень на видео?
Это я нашел идеальный референс, с которого делали сцену заточения Тайлунга в тюрьме в самой первой серии. Помните его, закованного в броню и цепи? А в жизни он серый и относительно пушистый.
Всем хорошего добродушного просмотра.

эйай ньюз 2024-04-16 12:23:46

До сих пор довольно мало инфы известно о реализации модели SORA. Есть только спекуляции, и часто ошибочные. Основная идея — это то, что там огромный и медленный DiT (диффузионный трансформер), натренированный на большом объеме качественных видео.

Я наткнулся на запись доклада, где основные авторы SORA Tim Brooks & Bill Peebles трут о модели на каком-то митапе в Долине. Запись шакальная, как экранная копия кино, снятого с сони-эриксона в кинотеатре (ну зато субтитры приделали). Но все равно, думаю, интересно послушать про Сору от самих авторов, хоть и глубоких деталей они все равно не дают, конечно.

@ai_newz

эйай ньюз 2024-04-16 12:00:54

TikTok тестирует AI-инфлуенсеров для интеграции в рекламный кабинет.

Уже были попытки реализовать что-то подобное, завирусившееся в твиттере, правда там было не совсем ai generated (там был простой липсинк). Но выглядело очень правдоподобно – говорящая голова эмоционально зачитывает любой рекламный текст за несколько десятков $.

И вот в сеть утекла информация, что тикток и сам пробует нечто похожее. Неясно, как это будет реализовано и еще более неясно, как на это отреагирует аудитория. А вот криэйторам стоит побеспокоиться, ведь их доход в основном состоит из таких вот партнерств с брэндами, которые AI-аватары могут перетянуть на себя. Криэйторам там и так не платят, а теперь еще и спонсоров хотят отжать. О этот новый дивный мир!

@ai_newz

Метаверсище и ИИще 2024-04-16 10:37:50

И снова 3Д!

Мне пришел доступ в бету Родена:
https://hyperhuman.deemos.com/rodin

Причем пускает с двух имейлов, что наводит меня на мысль, что бета открыта для всех, надо только залогиниться.

Дают 10 кредитов (мне дали еще 10 как бетатестеру).

Я быстро закинул туда неорганику с плоскими гранями (майнкрафт, генерация из текста) и органику (картинку из какой-то японской рисовалки типа Креа).
Чтобы поглядеть на качество и сетку.

Ну что сказать, интерфейс конечно очень мудреный, но если успокоиться и пристально поглядеть можно разобраться.

Генерит PBR-материалы, честно старается заретопить, причем квадами(!), что очень похвально.

На плоских гранях, конечно, лажает. Нужен дополнительный ИИ, который будет работать с плоскими гранями и острыми углами.

Кредиты берут за выгрузку модели (obj, fbx, glb, usd), превьюить можно просто так. Есть Функция Redo, которая как бы уточняет результат.

Шаг вправле-влево, просят денег. Но 10 кредитов хватит да пару тестов.

Го тестировать, а я вам пару скриншотов сброшу.

P.S. Там даже есть Toon Shader

А еще он смешно пишет "я не могу показать, по какому промпту я сгенерил эту девушку, но я сделаль". См скрины.

Метаверсище и ИИще 2024-04-16 09:39:41

AI Assistants on Demand.

Или Сири с любыми мозгами, голосом или лицом. В вашем телефоне.

Короче, я провел воскресенье вот с этой штукой: https://github.com/Mozer/talk-llama-fast

Поплясав часа три мне удалось собрать из гугла и палок работающий вариант на моем домашнем компе (Intel Nuke с RTX 3060 12G VRAM, 16G RAM, Win10). Моя задача была именно запустить все это хакерское хозяйство, а не доводить это до идеальных ответов, поэтому, когда Илончик стал хотя бы отвечать и попадать губами в звук, я остановился.
Я просто прошу у него денег, от отказывается, покуривая косяк, и отвечает мне МГНОВЕННО, используя mistral-7b-instruct-v0.2 как мозги, whisper.cpp и XTTSv2 как озвучку, и wav2lip как липсинк. На моем компе! Задержки действительно почти нет.

Еще раз, это не проверка качества, это тестирование будущих прототипов. Не ищите блох. А просто представьте следующее.

Вы запускаете приложение и:

- выбираете мозги (любую LLM, хоть закрытую(вводя ключ) хоть открытую из 15 000 вариантов). Мозги под настроение или задачу.
- выбираете скин - тоже под настроение, это может быть фото, видео или описание, можете сгенерить, селфануть, нарисовать.

А дальше у вас есть собеседник, аватар, ассистент, банковский ресепшен, бой\гёл\френд, whatever - цифровая тварь, с которой вы общаетесь как в зуме или мессенджере.

Мозги или лицо можно также менять динамически.

В общем, я когда это запустил, то подумал, что цифровые твари уже за углом.

Пока это, конечно, архинедружественно, сложно, глючит, падает. Чего стоит установка двух анаконд для разных серверов. Ну и за год, кстати, мало что поменялось. Работа с опенсорсными LLM - это такая мизантропия по отношению к пользователю. Я описывал этот тут.

Но рано или поздно это зайдет на уровень операционной системы, в этом смысле я очень жду чего там Эппле покажут в июне.

Я пока можете сами попробовать, вот тут есть ответы, что и куда надо прописать, чтобы MS библиотеки завелись.

P.S. Мистраль, конечно, вообще без тормозов. Ругается матом, требует денег. Идеальный вариант для NSFW.

эйай ньюз 2024-04-16 09:25:34

Решил я стать промпт-инженером и получать $300кк/сек, поэтому посмотрел курс Эндрю Ына "ChatGPT Prompt Engineering for Developers". Шучу, конечно. Просто хотелось понять, насколько полезны такого рода курсы, может там действительно учат заклинать нейронки – я впервые смотрел лекции по промпт-инжинирингу.

Мой честный отзыв:
– Курс будет полезен для новичков, которые слабо представляют как работать с LLM, и что у нее можно просить (и как). Классно, что параллельно с видео можно самому играться с промптами и вызывать GPT-3.5 через API в бесплатном ноутбуке, который встроен в интерфейс курса.
– Кроме этого, особо ничему там не научат. Разве, что я увидел прикольную тулзу redlines для подсветки разницы между двумя текстами в python (см скрин в первом коммментарии).

Так что для новичков — рекомендую. Для остальных — нет, лучше почитайте статьи какие-нибудь.

Ссылка на курс (бесплатно)

#туториал
@ai_newz

CGIT_Vines 2024-04-16 06:58:26

Только что Tencent выкатил модель Instant Mesh, попробовать уже можно тут.

В отличие от остальных моделей, которых я, наверное, тонну перепробовал, в этой показан процесс генерации дополнительных ракурсов, т. к. модель на входе работает только с одним ракурсом и на основе дополнительных видов достраивает геометрию. Вполне неплохо держит контекст исходной картинки.

Прекрасно, дайте нам возможность управлять этими ракурсами, пусть мы сможем догенерировать с каждого вида то, что нам нужно. И раз геометрия почти на лету просчитывается, дайте возможность примитивами ее достраивать.

То, что сетка и текстуры такие мыльные, это вообще не проблема для демки, у нее задача другая. В целом это вообще не проблема, как вы понимаете.

Метаверсище и ИИще 2024-04-15 19:56:39

Пруф про SORA и OpenAI в Adobe Premiere.

Метаверсище и ИИще 2024-04-15 19:52:37

Нейрокомпоз от Адобченко.

Так, мы все бросаем и смотрим вот сюда:
https://www.youtube.com/watch?v=6de4akFiNYM

До конца. Потому что там не только автокей, удаление или добавление объектов и прочий нейрокомпоз в Премьере. Там еще можно выделить видеотрек и сказать, а продолжи его дальше (а то у меня съемочный видос закончился). Он его продолжит, как Суно или Удио продолжают музыкальные треки.
Дальше совсем уж дичь, ибо в демо появляется лого OpenAI и всуе поминается великая и ужасная SORA. Которая лихо генерит Би-Роллы для выбранных видосов. Между строк также поминают Пику и Рунвей, как подключаемые внешние модели для генерации видосов. Ну и конечно Firefly Video Model.
Обещают в релизе в конце года, хотя начнут раскатывать на пользователей в мае.

Крутизна в том, что все это генеративное видео перестает быть сферическим контентом в вакууме, сгенеренным в градио-интерфейсах, а становится частью пайплайна и встраивается в ИНСТРУМЕНТЫ, а не в кнопки.

Браво, Адобченко. Тащи также музыкальные генераторы в свои софты, чтобы был нормальный таймлайн и крутилки.

эйай ньюз 2024-04-15 19:50:06

Adobe закупается видосиками

По интернету и так ходят слухи, что в нём закончилась дата для тренировки диффузионок. А если ты Adobe и хочешь все делать на лицензионном контенте, то и того хуже. Так что теперь адобченко платят по 3 доллара (доходит и до $7) за минуту видео-контента для своих моделей. При чем на видео люди просто живут, двигают руками, ногами; злятся и говорят по телефону. Что, наверное, не так часто снимают специально. Может быть, таких данных действительно не хватает.

Никогда бы не подумал, что для того чтобы успеть в гонке ии-моделек, весь бигтех дружно перейдет на пиратский контент (хотя, считать это fair use или нет все еще является дилеммой). Кстати, слышал где-то, что 6-ю версию Midjourney тренировали на кадрах из фильмов. Поэтому там такие красивые картинки. Файнтюн на эстетику.

Ну, и теперь, очевидно, что Adobe готовят свою видео модель, конкурента SORA.

@ai_newz

Метаверсище и ИИще 2024-04-15 15:55:15

И снова 3D AI меня настигает из твиттора.

Про Deemos Tech и их Родена (Rodin Gen-1) я писал много раз.
Но тут они замыслили совсем уж 3Д-безобразие.
Сейчас, говорят, запустим свой Rodin Gen-1, а потом опенсорснем вот такую модель!

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

Будем, говорят, ИИ-создавать высококачественные 3Д-ассеты.

И ну выкладывать две картинки на Гитхаб!

Выглядит нарядно, но ни кода, ни даже бумаги пока нет. Только две картинки и твиттор:
https://twitter.com/DeemosTech/status/1777376590743359911

Судя по демкам Rodin Gen-1 потенциал у них явно есть. Очень ждем.

Метаверсище и ИИще 2024-04-15 15:20:40

Генеративное интерактивное 3Д.

В прошлом посте было про ИИ-создание миров, а вот вам связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.

Выглядит просто убойно, потому интерактив и реалтайм.
Как пишет автор: 3d-модель в конце видео была сгенерирована из результатов работы Dreams+Krea всего за 15 секунд. Только модель слева является "настоящей" 3d-моделью.

Да, это не продакшен качество, но это пайплайн, который взрывает мне мозг. Просто посмотрите на это безобразие глазами себя двухлетней давности.

Метаверсище и ИИще 2024-04-15 14:37:40

Вот вам прототипы будущих метаверсов.
Не убогие мирки с лоу-поли персонажами, которые не знают, что делать.
А, скажем так, world-on-demand.
Берешь в руки шашки (в данном случае Dreams плюс Krea.ai) и начинаешь создавать мир ПРЯМО у себя в голове.
Автор пишет, что записанный видос в таком качестве не передает того катарсиса, который он испытал.

Именно поэтому интерактивные инструменты, а не кнопкожательство будут важны при построении миров.

Ну и в пределе ИИ будет читать ваши мыслишки и строить картинки сам. У вас в голове. Примерно вот так, как на видео.

gonzo-обзоры ML статей 2024-04-15 12:20:51

Новый AI Index Report 2024 опубликован!

Сайт: https://aiindex.stanford.edu/report/
PDF: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf

Метаверсище и ИИще 2024-04-15 11:45:49

Музыкальные бенчмарки.

Предлагаю коллективно поразмышлять над стремлением кожаных все измерить, дать оценки, придумать метрики и расставить все по рейтингу.
(За рамками остается дискуссия про оценки в школе, всякие IQ-тесты и лекции Сапольского на эту тему).

Мы наблюдаем битвы бенчмарков и всякие чат-арены, где LLM хлещутся за первые места в хит-параде. Разработчики тоже не дураки, включают тесты из этих бенчмарков в обучающие датасеты, читеринг поставлен на поток. Немного напоминает ситуацию с экзаменами - выучил билеты, ответил на вопросы - хороший образованный мальчик. Смышленые мальчики пишут шпоры и сдают на отлично. Метрика простая и понятная.

Интереснее с "эстетическими бенчмарками" для картинок. Разработчики уверяют нас в своих бумагах, что "мы показали кожаным наши картинки, и они нравятся им больше, чем картинки от конкурентов". Гусарам верят на слово, но холивары между свидетелями Midjourney и технократами от Stable Diffusion не утихают. Любимое занятие - присовывать похожие промпты в разные генераторы и сравнивать пиксели на уровне "наши пиксели лучше".

Теперь на сцену выходят музыкальные генераторы. Я наблюдаю в ютюпчике битвы между Suno и Udio, когда в них вонзают одинаковые промпты и сравнивают полученные треки. Как вы понимаете, получается битва вкусовщины.

Наверное, стоит ожидать появления "Музыкального Ринга", где юзеры будут генерить треки вслепую, не зная, какой генератор пишет музыку и ставить лайки, по аналогии с чат-бот-ареной.

И кожаные будут продолжать биться за внимание, количество лайков, прослушиваний, оценок.

Соц сети прочно поселили в нас желание сравнивать себя и других с какими-то умозрительными метриками. И платим мы за это тревогой.

Может хотя бы музыку и картинки мы будем воспринимать просто так, для удовольствия?

Держите еще один (уже не новый) генератор фоновой музыки. Его плюс в довольно ловком механизме редактирования и допинывания результата до годного. Для музыкальный "фонов" самое то.

А в коментах можно продолжить битвы, кто круче. Мы ж по другом не умеем...

https://soundraw.io/

Сиолошная 2024-04-15 10:59:01

Так в чём же фишка? Авторы замечают, что не все токены одинаково полезны при тренировке. Есть какой-то мусор, который не нужно предсказывать, есть вещи, которые сами по себе сложно предсказать (например, вымышленные фамилии).

Они берут игрушечную модель TinyLlama-1B, тренируют её, а затем анализируют изменение предсказаний на отложенной выборке. Оказывается, что:
— 51% токенов как предсказывались хорошо, так и продолжают
— лишь для 26% токенов появляется существенное улучшение в точности их предсказаний
— (и ещё есть 12% где предсказания ухудшаются, но это пофиг)

При этом если посмотреть на динамику изменения лосса (того, насколько хорошо модель предсказывает), то во время тренировки будут заметны большие флуктуации, которые мешают сходимости модели. Её как-бы шатает туда-сюда, делается бесполезная работа. Давайте сфокусируемся на основном!

Для этого отбираем очень высококачественный датасет, тренируем на нём 7B модель, а затем используем её для разметки «грязного» тренировочного корпуса. Для каждого токена мы оцениваем лосс предсказаний. Это значение называется референсным.

Затем во время тренировки мы считаем лосс текущей модели и сравниваем с референсным. И тут и кроется весь трюк:
— если и то, и другое очень маленькое — то и хрен с ним! Модели уже хорошо предсказывают
— если и то, и другое очень большое — то и хрен с ним! Модель не может это предсказывать
— и самое интересное: если референсная модель научилась предсказывать хорошо (лосс маленький), а текущая модель предсказывает плохо — то это непорядок, надо исправлять.

И вот токены, попадающие в последнюю группу, и являются наиболее важными для обучения! В них и кроется весь смысл. Авторы добавляют динамический отбор в рамках батча, по их замерам лучше всего брать топ-60% токенов, оцененных по разнице референсного значения и предсказания текущей модели. То есть на 40% слов мы не учимся (но они участвуют в формировании контекста) — отсюда не течёт градиент.

Давно ждал такой работы, идея на поверхности — перевзвешивать примеры во время обучения, игнорировать шлак. Правда, я не до конца удовлетворён исследованием:
— маленькая модель получила прирост метрик, в то время как большая только сравнялась с DeepSeek. Не ясно, получится ли улучшить и тут.
— тестировали только 7B модели, быть может на 70B+ не будет работать — например, они могли естественным образом развить склонность к выявлению и использованию полезных данных (про это я кажется третий раз за неделю пишу?)

Сиолошная 2024-04-15 10:58:54

RHO-1: Not All Tokens Are What You Need

Статья от Microsoft про то, как более эффективно дообучать LLM-ки, то есть как за меньшее количество шагов обучения (и потреблённых данных) получать качество лучше. В рамках данной работы делается фокус на способности модели решать математические задачи.

Начнём с вот такого графика, чтоб было понятно. Слева модель на 1B параметров, справа — на 7B. Серая пунктирная линия сверху показывает уровень моделей семейства DeepSeekMath — китайских LLM'ок, специально обученных на 150B/500B токенов, релевантных решению математических задач (они по-умному фильтровали данные). До недавнего времени эти модели были лучшими в своём классе.

По оси X — количество тренировочных токенов, максимум 15B — то есть в 10/33 раза меньше, чем у азиатов. По оси Y — качество модели. Видно, что новый подход позволяет добиться тех же результатов за куда меньший срок (для мелкой модели — даже улучшить результат). В обоих случаях речь идёт про дообучение, а не тренировку с нуля — то есть модель сама по себе уже что-то знает (модель на 7B это Mistral, крепкая штучка).

Модели выложены, код (без данных для обучения) и ссылки тут.

эйай ньюз 2024-04-15 10:02:36

Chatbot Arena: Альтман наносит ответный удар

Пару недель назад Claude 3 Opus сместил GPT-4 с вершины пищевой цепочки по общему рейтингу, но тут подоспели результаты новой GPT-4 Turbo 2024-04-09 в чатбот арене. Новая модель OpenAI смогла победить Opus, который продержался на первом месте чуть меньше трёх недель. Claude 3 Opus всё ещё лучше в отдельных задачах: понимании длинного контекста и китайском языке.

А ещё появились результаты DBRX, всё плохо: модель оказалась на 26 месте и отстаёт от Mixtral, у которого в два раза меньше параметров.

Под конец приведу цитату классика: "Сейчас я доверяю только двум бенчмаркам LLM: Chatbot Arena и разделу комментариев r/LocalLlama."

@ai_newz

gonzo-обзоры ML статей 2024-04-15 08:58:21

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models
DeepMind: Griffin, RLHF, Gemma Teams
Статья: https://arxiv.org/abs/2404.07839
Модель: https://ai.google.dev/gemma/docs/recurrentgemma
Репа: https://github.com/google-deepmind/recurrentgemma

И сразу вдогонку про рекуррентную Gemma, построенную на архитектуре Griffin.

DeepMind только что выпустил обновление для классической Gemma — версию 1.1 (https://t.me/gonzo_ML/2498), а теперь есть ещё и RecurrentGemma, пока только 2B. Выложена обычная предобученная модель и instruction tuned версия.

Основное преимуществе Griffin здесь — это внутреннее состояние фиксированного размера, нет нужды растить KV кеш с ростом длины последовательности. Отличия RecurrentGemma от Грифона минимальны -- входные эмбеддинги скейлятся на константу равную корню из ширины модели.

Обучали на последовательностях длины 8192 токенов. Те же данные, что и у Gemma-2B (то есть в основном английский, математика и код). Обучалась на 2T токенов -- это круче, чем в работе про Griffin (там было 300B), но меньше, чем у Gemma-2B (там 3T). Также был аналогичный Gemma instruction fine-tuning плюс заявлен новый RLHF.

Результат в целом сравнимый с Gemma-2B, хоть та и обучалась на 1.5x токенов. На человеческой оценке с Mistral 7B v0.2 Instruct, RecurrentGemma-2B-IT лишь чуть хуже Gemma-1.1-2B-IT.

Поскольку внутреннее состояние модели фиксированного размера и нет необходимости держать KV кеш, модель может генерить последовательности любой длины, обычная Gemma была ограничена памятью хоста. Также можно обрабатывать более крупные батчи.

Throughput чисто на авторегрессионную генерацию, без учёта обработки промпта, выше в разы, особенно на длинной генерации, типа 8к токенов. Получается порядка 6k токенов в секунду на TPUv5e и оно не падает с ростом длины.

Процессинг промпта не сильно быстрее обычной Gemma, потому что и та делает это впараллель. Но всё равно быстрее. На TPUv5e это порядка 40k токенов в секунду.

Это прям интересная альтернатива для on-device моделей.

gonzo-обзоры ML статей 2024-04-15 08:36:35

Модели отскейлили от 100M до 7B параметров, Griffin до 14B. Количество токенов в обучении скейлили по рецептам Шиншиллы (https://t.me/gonzo_ML/1216), для оценки на разных задачах модели обучали на 300B токенов. Все модели демонстрируют красивую степенную зависимость между лоссом и training FLOPs. Лоссы грифона стабильно чуть ниже трансформерного бейзлайна при том же бюджете. У ястреба повыше, но с тенденцией к уменьшению по мере роста бюджета.

Внешними бейзлайнами выступили Mamba-3B и Llama-2 (7B, 13B). Они обучены на больших (600B/2T) и отличающихся датасетах. Hawk и Griffin весьма хороши, бьют Мамбу, хоть и обучались на меньших датасетах.

Для обучения больших моделей на наборе устройств реализовали model parallel training через шардинг слоёв. Отдельный челлендж -- эффективная реализация рекуррентностей на устройствах, так как в отличие от классических архитектур они работают в режиме низкого FLOPs-to-byte ratio, и вычисления оказываются memory bound. Кастомные кернелы написали на Pallas (https://jax.readthedocs.io/en/latest/pallas/index.html), специальном расширении JAX. Как это выглядит, можно посмотреть в репе RecurrentGemma (https://github.com/google-deepmind/recurrentgemma/blob/main/recurrentgemma/jax/pallas.py). Использовали linear scan, получилось в три раза быстрее родной реализации. Через associative scan (использовался в S5, https://arxiv.org/abs/2208.04933) получается медленнее, а через свёртки это не получается, механизм гейтинга RG-LRU не совместим со свёрточным представлением.

С ростом длины последовательности обучение Грифона идет быстрее обучения трансформера. Особенно эта разница заметна, когда длина последовательности заметно больше размерности модели и вычисление внимания занимает значимую долю всего времени.

По latency на инференсе Hawk и Griffin быстрее MQA трансформера (который в свою очередь быстрее классического MHA). Заметная разница проявляется на больших длинах, в основном после 2048 токенов. Throughput у новых моделей тоже лучше (особенно у Hawk), частично от лучшего latency, частично от меньшего размера кешей и возможности запихнуть больший батч на тот же девайс. Griffin поэтому же медленнее Hawk, его кеш локального внимания растёт с ростом батча.

На предсказании следующего токена в длинной последовательности новые модели лучше трансформеров и экстраполируют на сильно более длинные последовательности (по крайней мере 4x), чем были в обучении. Из интересных наблюдений, модели, обученные на меньшей длине (2k против 8k), перформят на малых длинах лучше. Поэтому важно выбирать длину последовательности при обучении под будущие задачи.

Одна свежая работа “Repeat After Me: Transformers are Better than State Space Models at Copying” (https://arxiv.org/abs/2402.01032) показала, что трансформеры лучше работают на задачах типа копирования или retrieval’а, чем SSM. Проверили новые модели на задачах Selective Copying и Induction Heads (как в работе про Мамбу, https://t.me/gonzo_ML/2149). Все три модели могут идеально решить задачу копирования (но Hawk обучается медленнее). На induction jeads все три решают задачу до определённого предела длины, дальше трансформер фейлится, не может экстраполировать. На этих задачах и у Мамбы всё было хорошо (https://t.me/gonzo_ML/2154).

В упомянутой работе про “Repeat After Me” была предложена задача retrieval с синтетической телефонной книгой, где по имени надо выбрать номер телефона. В промпте содержится “книга”, затем два примера и имя для которого надо извлечь телефон. На этой задаче Hawk быстро скатывается в ноль с ростом длины книги, это похоже на поведение Мамбы. Что в общем неудивительно, размер состояния у него маленький. Трансформер держится до длин знакомых по обучению и после скатывается в ноль. Griffin идеально держится до длины контекста локального внимания, затем начинает деградировать, но зато экстраполирует дальше трансформера.

Интересное развитие!

gonzo-обзоры ML статей 2024-04-15 08:36:34

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
Soham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru, Albert Gu, Ruba Haroun, Leonard Berrada, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, Arnaud Doucet, David Budden, Yee Whye Teh, Razvan Pascanu, Nando De Freitas, Caglar Gulcehre
Статья: https://arxiv.org/abs/2402.19427

На днях вышла открытая RecurrentGemma (https://arxiv.org/abs/2404.07839), построенная на архитектуре Griffin. Сам Griffin был опубликован DeepMind’ом в конце февраля 2024. Разберём же его.

Работа вертится вокруг нового рекуррентного блока, RG-LRU, на котором построены архитектуры Hawk (чередование RG-LRU и MLP) и Griffin (чередование MLP со смесью RG-LRU и локального внимания). Hawk при этом бьёт Mamba (https://t.me/gonzo_ML/2148) аналогичного размера, а Griffin обходит Llama-2, обучаясь на вшестеро меньших данных.

Архитектура строится на повторяющихся residual blocks, похожих на используемые в pre-norm трансформерах: (RMSNorm + Temporal mixing block) и (RMSNorm + MLP block), оба с residual connection поверх.

В качестве MLP block используется gated блок аналогичный GeGLU имени Ноама Шазира (https://arxiv.org/abs/2002.05202, в текущей работе его назвали GeGeLU): с двумя ветвями размерности M*D каждая (в работе выбрано M=3, то есть эмбеддинги расширяются), в одной ветви сидит нелинейность GeLU, а в другой считаются коэффициенты для поэлементного умножения, после которого слитые ветви обрабатываются ещё одним линейным слоем.

Самая интересная и вариабельная часть -- Temporal mixing block. Их три варианта: 1) global Multi-Query Attention (MQA), 2) local (sliding-window) MQA 3) и новый рекуррентный блок.

Вариант 1 (MQA, https://arxiv.org/abs/1911.02150 тоже имени Ноама Шазира) это замена классического Multi-Head Attention (MHA), где K и V общие для всех голов. Используются позиционные эмбеддинги RoPE.

Вариант 2 с локальным вниманием (оно же sliding window attention) аналогичен локальному вниманию в Longformer (https://t.me/gonzo_ML/294). Окно локального внимания установлено в 1024 токена.

Наконец вариант 3 напоминает блок из Мамбы (https://t.me/gonzo_ML/2153), где тоже две ветви, в одном из которых всё тот же GeLU как в MLP, а в другом одномерная свёртка + RG-LRU слой.

Сам RG-LRU (Real-Gated Linear Recurrent Unit) -- это развитие LRU (https://t.me/gonzo_ML/1734) с двумя добавленными гейтами, не зависящими от предыдущего рекуррентного состояния, только от входа. Input gate 𝑖_t аналогичен таковому из LSTM, он фильтрует или масштабирует вход. Второй гейт, recurrence gate 𝑟_t, нов и может приближённо интерполировать между стандартным апдейтом LRU из оригинальной работы и предыдущим скрытым состоянием, тем самым отбрасывая входные данные и сохраняя информацию из прошлого. В приложении A подробнее разбирается поведение рекуррентного гейта.

Для инициализации RG-LRU _не_ используются полиномы по типу HiPPO или дискретизация по типу SSM. Также не используются комплексные числа в рекуррентности, как это было в LRU. В приложении B также рассмотрен комплекснозначный вариант под названием CG-LRU (Complex-Gated Linear Recurrent Unit). Он более выразителен, но языковому моделированию на практике не помогает.

Результаты интересные. Рассматриваются три варианта:

1) MQA-Transformer в качестве бейзлайна

2) Hawk с тем же residual и MLP как у трансформерного бейзлайна, но с рекуррентным блоком с RG-LRU в качестве temporal mixing block.

3) Griffin с тем же residual и MLP как у трансформерного бейзлайна, но с миксом рекуррентных и локальных MQA блоков (через каждые два residual блока c RG-LRU, один блок с локальным вниманием).

Сиолошная 2024-04-14 22:53:05

Разговоры про AI и эволюцию в 6 утра be like:

Сиолошная 2024-04-14 20:57:39

Метрики показывают, насколько же большой разрыв между опенсурсными моделями (которые по Elo-рейтингу на LMSYS Arena почти-почти достают GPT-4) и приватными в контексте задач, требующих автономности и агентности, а не просто односложного ответа, выраженного текстом (прощающим мелкие огрехи). Смотрим на самую правую колонку: GPT-4 12.24% решенных задач, Mixtral 2.98... (и это — по тексту, без картинок)

(Gemini от Google в сделку не входила хахахаххаха)

Сиолошная 2024-04-14 20:55:33

Есть что-то завораживающее в наблюдении за машиной, которая сама автономно выполняет задачи — нужно просто задать цель. Сейчас это 12%, через полгода — 30%, а с выходом GPT-5 75%....

👍

Агенты ИИ | AGI_and_RL 2024-04-14 20:54:41

Там собрали окружение (на базе виртуальной машины) для тестирования мультимодальных агентиков в работе с реальной операционной системой.
Внутри стоят реальные приложения, которыми мы с вами пользуемся. Также на выбор несколько операционок.

Агент может управлять мышкой и клавиатурой.
А на входе получает скриншот экрана + XML-format accessibility (a11y) tree (дерево доступности, представляющее собой дополнительную информацию вроде позиций окон и их размеров, позиции указателя и тд), а еще инструкцию с описанием задачи.

Ещё подготовили бенчмарк с 369 задачками, на котором протестировали современные LLM/VLM.
Задачки вроде: "Можешь помочь мне очистить мой компьютер, избавившись от всех файлов cookie, которые мог сохранить Amazon?", которые проверяют способность пользоваться возможностями операционных систем и программ.

Пишут, что человек способен выполнить 72.36% всех задач.

GPT-4 показала лучший результат среди LLMок: 12.24% (получая на вход A11y tree).
GPT-4V показала результат 12.17% (Screenshot + A11y tree на входе).

Интересненько. Отсюда ведь можно еще и датасетики собирать теперь, чтобы учиться...

https://os-world.github.io/

https://github.com/xlang-ai/OSWorld

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
https://arxiv.org/abs/2404.07972

эйай ньюз 2024-04-14 17:49:29

Нейродайджест за неделю (#13)

1. Заметки
Канада выделила 1.5 млрд долларов на AI кластер. Молодежь радуется шансу разбогатеть. Государственики медленно просыпаются к AI-лихорадке.
ШАД от Яндекса - бесплатная программа по фундаменту в ML. Хороший буст по знаниям.
llm.c от Андрея Карпатого - тренируй LLM на умных лампочках
NeurIPS трек для старшеклассников. Скоро без статей на Нипсе и в шарагу не возьмут?

2. Релизы и обновления

JetMoE - очень дешевый трейн LLM. Можно юзать как основу для файнтюнов.
GPT-4 - теперь с картинками через API. В целом значительно лучше. Обнову уже завезли и в чатик.
Дроп Mixtral-8x22B. Веса уже на торренте.
Grok 1.5V от Маска с виженом и любовью. Скоро.

3. Утилиты и приложения

Креативный апскейл от Леонардо. Дают опрокинуть 5 бесплатных грузовиков с деталями в день.
Lightning Studio - альтернатива Google Colab с бесплатным хранилищем и интеграцией IDE. 22 GPU-часа бесплатно в месяц.
VoiceCraft - редактор речи. Как поменять кусок текста в аудиозаписи.

4. Подкасты
Разговор о RAG с Олой Пиктус, ресерч инженерном из Cohere. И о том как перекатиться из SWE а ресерч на ее примере.

5. Личное
Об авторе канала + подборка избранных постов для новоприбывших.

#дайджест
@ai_newz

Метаверсище и ИИще 2024-04-14 16:14:33

Держите хорошие утечки про Stable Diffusion 3.
Очень добротный разбор разных режимов работы, стилей и даже лёгкий анализ применимости.
Ничего про требования к железу и время генерации тут вы не услышите - тестирование целиком в дискорде, то есть в облаке.
Если вкратце.
Качество огонь, особенно на абстракциях, продуктовом дизайне и архитектуре.
С фото и портретами - мало информации, но фотографы хвалят.
С управляемостью композицией - беда, особенно для некожаных объектов. Вся надежда на КонтролНет.
LLM-промптинг - да, работает, меньше вуду и скобочек в промптах.
Народ усматривает некую "миджорниевость" в картинках. Наверное это плюс, ибо на файнтюнах можно будет уйти в любую картинку.
В общем поглядите, очень хорошая подача у автора. Никаких визгов "ойсморитечо". Все ровно и по делу.
https://youtu.be/mQSKoAEaIJA?si=OiZ6vkKwEYC5ywLP

Neural Shit 2024-04-14 15:42:41

Нагенерил мемов, которые понимают только нейронки и роботы, но не понимают люди.

Если вы что-то поняли или вам стало смешно — это повод задуматься.

Сиолошная 2024-04-14 13:23:56

И вот если мир будет таким, и модели будут а) очень агентными и автономными б) начать заменять части экономики, то как нам готовить к такому миру своих детей? Чему учить? Что вообще будет актуальным хотя бы через 10 лет?

«Очевидная рекомендация — просто знакомиться с технологией самому и знакомить с ней ребёнка. Научите своих детей адаптироваться, быть готовыми к миру, который меняется очень быстро. Мне хотелось бы дать ответы получше, но я думаю, что это лучшее, на что я способен» — говорит Dario. «Есть ситуации, когда в креативных задачах AI создаёт черновую версию, а затем человек её изменят и финализирует. Но для этого самому человеку нужно неплохо разбираться в предмете. Нужно ли сейчас всех заставлять использовать инстурменты по максимум или наоборот ограничить, чтобы выработать навыки самостоятельного мышления, и уже затем показать технологию? Мне ответ не очевиден» — отвечает ведущий.

Ну и раз уж мы заговорили про образование, то Dario Amodei рекомендует три книги! Сначала я обрадовался и подумал «ха-ха ну хоть какой-то позитив», а затем я услышал описания книг от него и

😨

Итак, список ✍️:
1️⃣The Making of the Atomic Bomb (
😳
) «Просто посмотрите на персонажей и то, как они на реагировали на разработку. Как люди, которые по сути были учеными, постепенно осознали невероятные последствия своей технологии, а также то, как она приведет их в мир, который сильно отличается привычному им миру»

2️⃣Серия книг «The Expanse»: «Мир в этой вселенной очень продвинут. Люди уже осваивают космос. Но они по-прежнему сталкиваются с некоторыми из тех же геополитических вопросов, вопросов неравенства и эксплуатации, которые существуют в нашем мире сейчас. Вот такой фон истории. И суть в том, что в этот мир привносится какой-то принципиально новый технологический объект и как все на него реагируют, как на него реагируют правительства, как на него реагируют отдельные люди и как на него реагируют политические идеологии. Когда я прочитал это несколько лет назад, я увидел много параллелей»
👀


3️⃣«The Guns of August» (
😳
): «Это, по сути, история Первой мировой войны. Основная идея заключается в том, что кризисы происходят очень быстро, почти никто не знает, что происходит. Просчетов много, потому что в центре всех процессов находятся люди»

===
Вот такие книги рекомендует человек, который каждый день думает, как модели из лаборатории вписать в реальный мир и экономику... Всего доброго
👋

Сиолошная 2024-04-14 13:08:23

Начинается обсуждение с RSP, Responsible Scaling Policy. Краткое напоминание: RSP определяет «Уровни безопасности искусственного интеллекта» (AI Safety Levels, ASL) для работы с потенциальными катастрофическиим рисками, которые по формату аналогичны стандартам уровней биобезопасности (BSL) правительства США для обращения с опасными биологическими материалами.

Сейчас модели находятся на уровне ASL 2. Они не несут какого-то риска и почти не предоставляют информации, которую нельзя было бы найти, вооружившись поисковиком.

ASL 3 завязан на увеличение риска от биологического и кибер-оружия. Такой риск должен быть существенно (без численной оценки) больше, чем до появления такой модели. Сейчас Anthropic работают с бывшими сотрудниками правительственной программы по биозащите для проработки точных критериев. Например, это может быть «использование модели увеличивает риск на 20%» (оценка через безопасное тестирование — как в их предыдущем исследовании, разбор тут).

Уровень ASL 4 пока слабо проработан, но:
— с точки зрения злоупотреблений такая система позволит расширить свои возможности уже на уровне целого государства (что значительно сложнее, чем помочь одному гуглящему человеку)
— с точки зрения автономности, такие системы должны быть крайне близки к способности воспроизводиться и выживать в дикой среде. Говоря иначе, если модели дать доступ в интерент — она сама себя скопирует на десятки носителей и будет зарабатывать деньги для своего поддержания. Звучит страшно, хорошо, что модели пока так не могут (вот целое исследование)

И самое интересное. Давайте разыграем сценку.
Ведущий: и какая у вас оценка появления ASL3/4?
Dario Amodei: я думаю, что ASL 3 может легко случиться уже в этом или следующем году. Я думаю, что ASL 4...
Ведущий: Господи...
Dario: не-не, я говорю тебе. Я верю в экспоненциальное развитие текущих моделей. Я думаю, ASL 4 может случиться хоть где от 2025-го до 2028-го.
Ведущий: это очень быстро...
Dario: да-да, я говорю об очень ближайшем будущем. Это не про историю на 50 лет вперёд.

Смешно? нет? а ровно это произошло на подкасте (вот ссылка).

Политика Anthropic утверждает набор тестов и критерии их прохождения для того, чтобы определить уровень системы. Схожие политики есть у OpenAI и Google. В случае достижения нового уровня компании обязуются: a) остановить разработку для обсуждения дальнейшего развития, оценки уровня угрозы б) публично анонсировать это.

У ведущего, как и у многих читателей, возникает вопрос - а остановить это вот как? Как же классический аргумент «А что Китай?». Dario говорит:
— Если, например, нам надо будет остановиться на год в 2027 году, я думаю, что это осуществимо. Если это похоже на то, что нам нужно остановить всю индустрию на 10 лет, это будет очень сложно, потому что модели будут создаваться и в других странах. Люди будем нарушать законы. Экономическое давление станет огромным.
(под «остановиться» здесь подразумевается остановка исследований по увеличению набора навыков модели для того, чтобы запустить исследования по контролю и безопасности)

Кажется, что это очень сложно, нужно будет вмешиваться государству, а компании каким-то образом должны будут начать делиться моделями и деталями обучения. Нужна кооперация. Dario считает, что такой процесс возможен, как только будут продемонстрированы реальные риски уровня ASL 4 (или некоторые отдельные с ASL 3). Это заставит всех встрепенуться и начать действовать. Интересно, какие примеры из прошлого приводятся для описания ситуации:
«Если вы посмотрите на исторические периоды, такие как Первая или Вторая мировые войны, воля промышленности может быть направлена в сторону работы на государство. Бизнесы и предпринимателей можно заставить делать вещи, которые не обязательно принесут прибыль в краткосрочной перспективе, потому что они понимают, что возникла чрезвычайная ситуация. Сейчас у нас нет чрезвычайной ситуации.»

😨
😳
и чего тогда ждать нам? (Amodei спойлерит, что хочет бескровной демонстарции, когда просто в рамках безопасного эксперимента показывается, на что способна модель)

Сиолошная 2024-04-14 12:47:27

Свежий подкаст Dario Amodei (CEO Anthropic, один из главных конкурентов OpenAI) для NYT
(подкаст)(транскрипт)

Название подкаста было многообещающим («What if Dario Amodei Is Right About A.I.?»), но в топик, к сожалению, не так глубоко ушли. Выписал для себя несколько интересных тезисов, плюс, добавил свои мысли:

— На обучение моделей текущего поколения тратится $100M, мб +- 2 раза. Уже сейчас тренируются модели, обучение которых будет стоить $1B. Из этой информации выходит, что 1) скорее всего Claude 3 Opus — не миллиардная моделька 2) в конце 24-го — начале 25-го ждём бенгеров. А ещё это описание полностью бьётся с тем, что он говорил полгода назад. Всё по графику, короче.
— при этом прогноз на будущее он поправил: теперь в 2025-2026м году он предвидит обучение моделей стоимостью $5-10B — и это всё ещё до запуска суперкомпьютера OpenAI x Microsoft за 100 миллиардов!
— пока что на этот и следующий год, по его оценке, вычислительных мощностей его компании хватит, а вот после этого уже не ясно, и главное тут - сможет ли адаптироваться индустрия полупроводников.
— с точки зрения навыков модели, Dario предвидит наибольший рост метрик в тех задачах, где легко и быстро получить обратную связь. Программирование и математика под это определение попадают — в обоих можно быстро удостовериться, что ответ правильный, а заодно покритиковать решение. Взаимодействие с реальным миром - куда сложнее (вероятно, самое сложное).
— на сложении двадцатизначных чисел у Claude 3 качество примерно 99.9% (без внешних инструментов типа калькулятора или кода). Но если проверить данные, на которых обучается модель, то там качество сильно меньше. Это как будто бы играет на руку гипотезе, что модели уже могут производить более качественные данные, чем те, на которых они были обучены. Я к сожалению потерял ссылку, но видел статью с экспериментом, где модель учат на 100% неправильных примерах, и тем не менее её качество на новых примерах отлично от нуля. То есть по полностью неправильному она смогла начать хоть что-то решать
— соответственно, эти два тезиса объединяются в гармоничную картинку мира «давайте модели будут тренировать другие модели», особенно в задачках, где понятно, как оценивать ответ.
— Про то, как модель достигает хорошего качества в сложении чисел: Dario спекулирует, что все «правды» связаны в одну большую паутину мира, и держатся друг за друга. А каждая ложь, ошибка и неправда — она своя, особенная, и выбиается из этого. Согласно исследованиям, мы знаем, что модели знают, когда они врут/пишут неправду (это не означает, что они обманывают нас намеренно). Им пришлось научиться в этом разбираться во время обучения, чтобы понимать, делать ли предсказания с ошибкой или контекст требует чёткости. Это напомнило мне о недавней статье, где показывали, что если модели во время обучения показывать домен сайта, откуда взят текст, то качество работы повысится — потому что она, видимо, разбирается, что хрень а что полезно, и меньше обращает внимания на мусор. Вывод: каждый делает сам для себя

🤷‍♂️

Дальше обсуждается тема рисков AI в контексте дальнейшего развития, ждите следующий пост!

Neural Shit 2024-04-14 10:44:34

Как же охуенно!

Сделано с помощью Viggle

gonzo-обзоры ML статей 2024-04-13 21:52:49

Сермяга