Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 12 (50 постов)

Репосты из тематических каналов

Метаверсище и ИИще 2024-03-13 16:02:57

Держите залипательное видео на 8 минут.
Я не знаю, в чем дело, но я посмотрел не отрываясь вот это вот всё.
Вроде контент в духе тиктока (в негативной коннотации), двое бородатых детей распаковывают коробку с Мокси - это такая игрушка. Домашний робот-питомец.
Больше всего это похоже на Алексу или Алису с околочеловеческим лицом.
Оно умеет слушать, говорить в ответ, ну и наверное выполнять какие-то команды. За 1500 долларов.
Но.
Посмотрите на лица пятилеток-переростков (кстати, позиционируется Мокси именно для 2-7 лет).
Посмотрите на "лицо" Мокси.
Этот тот случай, когда на первый взгляд незамысловатый дизайн становится ключевой фишкой.
Я не знаю, почему я залип (считал эмоции бородачей?), но это блин работает.
И это тот случай, когда с точки зрения инженерного подхода тут не больше жира, чем в роботе пылесосе. А вот с точки зрения продуктового и дизайнерского тут явно что-то есть. Ведь я спрашиваю себя: ты чо, дебил, смотреть на все это 8 минут.
И обратите внимание, как сделана мимика. Никакого упарывания в липсинк, "фотоматьегореалистичность" или человекоподобие.
Примитивно до жути, и до жути продумано.
Я не знаю, взлетит Мокси или нет, но отдаю должное дизайнерам.
Напишите, что думаете? Может у меня просто психотравмы из совецких мультиков.

ПС. Слушайте, так зумеры совсем перестанут размножаться... У них вот любовь какая...
@Raccoonov, тебе понравится

Сиолошная 2024-03-13 15:50:20

В начале года Mark Zuckerberg флексил тем, что они ожидают 350'000 видеокарт H100 до конца года, а суммарные мощности компании превысят эквивалент 600'000 H100.

Много это или мало? По слухам, GPT-4 тренировалась на 25'000, правда, A100 — видеокарт предыдущего поколения. Если переводить в H100, то это примерно ~9'000 H100.

Так что цифры 350/600 тысяч — очень существенные. Очень интересно, сколько Microsoft предоставляет OpenAI

🤔 но этого мы пока не знаем. Думаю, у всего Azure не меньше, но ведь помимо OpenAI и другим клиентам надо что-то подавать.

Вчера Meta отчиталась, что закончила 2 датацентра, каждый по 24'576 H100, с упором на скорость взаимодействия серверов, в которых эти карты стоят. Обучение модели на таком масштабе зачастую упирается как раз в скорость синхронизации разных частей, и даже в скорость коммуникации между этими зданиями (потому что модели обучают уже более чем на 1 кластере). Однако масштабирование одной модели, скажем, на 60'000 карт и выше — это всё еще огромный инженерный вызов, ибо эффективно утилизировать столько ресурсов крайне сложно. Одна ошибка — и часть видеокарт простаивает, ничего не считая.

Обещают, что кластера будут использоваться при обучении LLAMA-3, про которую вот сегодня такой слушок прочитал:
> it seems the scope of what they’re doing is constantly changing. I have heard credible rumors that it is done training and credible rumors that multiple teams are trying different things and the best one wins.

Ждом. Ну и напоминаю, что те модели, что есть сейчас — это так, затравочка на будущее, в конце года появятся LLM-ки, на обучение которых суммарно потратили в 10-20 раз больше вычислительных мощностей. Не зря же столько GPU закупают 😉

Сиолошная 2024-03-13 15:32:41

В комментариях этого сообщения объявляется конкурс.

Номинации две, как и приза:
— лучший мем с прифотошопленным лицом к роботу. Можно приписать текстовое облачко.
— лучшая переозвучка фрагмента видео (не менее 5 сек, не более 30 сек)

Дедлайн — AOE пятница, 15 марта.

Призы — бесплатные билеты (по 1 на номинацию) на конференцию Podlodka Product Crew, где я и другие замечательные спикеры будем затирать про AI применительно к продуктовой разработке.

За каждое сообщение не по теме — бан. Не усложняйте отбор кандидатов.

Голосуйте лайками! (Но выбираю победителей я)

UPD: победители 1, 2

Сиолошная 2024-03-13 15:29:17

Две недели назад Figure.ai, разработчики гуманоидных роботов, объявили о партнёрстве с OpenAI. Цель понятна — уже год как понятно, что языковые модели уровня GPT-4 отлично пишут код, рассуждают, обрабатывают изображения, и это очень легко вписывается в парадигму роботов.

И вот появилось первое демо, как заявлено — end-2-end полностью на нейронках. Также боту добавили слух (спасибо Whisper) и возможность говорить. Причём, теми же голосами, что и в приложении ChatGPT. И даже с той же анимацией. Считайте, что это просто ходячий ЧатГопота, да, и поджопник может дать, и коленку прострелить (наверное).

Рекомендую со звуком послушать демо, но если вкратце:
— бот описывает сцену, что видит, и рассуждает, что может сделать и какие объекты как могут взаимодействовать
— может объяснять, почему какие-то действия сделаны. Не нужно уточнять, что яблоко — съедобное, достаточно просто попросить передать еду, он разберётся. Как вы понимаете, программисты за 50 лет все такие случаи не запрограммируют.
— вся сцена держится в памяти: в конце бот пересказал, что он сделал, и дал оценку действиям.

Кажется, +1 поколение железа для улучшения быстродействия, +1 поколение LLM-ок (хотя для многих задач и этого хватит), +1 поколение моделей синтеза речи — и, ну, эээээ мегасуперполезный робот готов. Какой-то планировщик бы ещё прикрутить, чтобы декомпозировать сложные цели на простые задачи (убери комнату -> осмотреть; перечислить объекты к уборке; найти для каждого целевое место), и просто чудо.

Вот бы ещё на его ходьбу посмотреть...

Сиолошная 2024-03-13 15:00:19

Вечер будет бомбовый
*разминает пальцы*

Ai molodca 🤖 2024-03-13 09:39:39

Под покровом ночи #Midjourney выкатили долгожданную функцию Character Reference, позволяющую создавать изображения последовательных персонажей на основе вашего референсного изображения. Вот основные моменты из анонса:

Используйте --cref URL после вашего запроса с URL-адресом изображения персонажа.

--cw изменяет "силу" совпадения от 0 до 100 (по умолчанию 100 - копирует лицо, волосы и одежду).

Функция лучше работает с персонажами, созданными Midjourney, а не с реальными фото.

Можно комбинировать несколько URL для смешивания персонажей.

Также можно комбинировать с --sref для ссылки на стиль.


Сделал пару тестов со своей фоткой и... Ну, дримбус может спокойно дрим дальше. Самый частый сценарий применения подобной функции — это использование реальных фото. И здесь как раз слабо. Хорошо забирает основные черты, но полное сходство получится примерно никогда. Но если отходить от фотореализма в стилистическую абстракцию, то вполне может быть полезным инструментом для сторителлинга.

В приложении один пример из тестов — character sheet — довольно показателен.

Метаверсище и ИИще 2024-03-13 09:38:50

Тут все воскричали, что Midjourney выкатил новую уникальную фичу Character Reference. Типа констстентные персонажи по референсным картинкам выбранных вами лиц.
Пользователи Stable Diffusion такие: эээ, дык уже сто лет пользуем InstantID, IPAdapter и прочие контролнеты и не хайпуем. И у нас тысячи лор на все, что шевелится. В чем сила, МЖ?

МЖ: во-первых это красиво..

Ну ок..

Neural Shit 2024-03-12 20:13:16

И снова про VR и сортиры.

Согласитесь, так куда интереснее.

gonzo-обзоры ML статей 2024-03-12 19:05:42

Свежий релиз

https://github.com/openai/transformer-debugger

Transformer Debugger (TDB) is a tool developed by OpenAI's Superalignment team with the goal of supporting investigations into specific behaviors of small language models. The tool combines automated interpretability techniques with sparse autoencoders.

Neural Shit 2024-03-12 15:12:12

Лол

Метаверсище и ИИще 2024-03-12 15:01:20

Интеллект среднестатистического человека все больше отстаёт от метрик последних LMM. Они решают корректно все больше задач и головоломок.

На картинке загадка, которую не смог отгадать даже Claude-3, а человеку с IQ больше 100 она покажется легкой. И пусть чат-бот оказался умнее среднестатистического человека по итогам полного IQ-теста, но у человечества еще есть шанс, ведь нейросети пока так и не научились вести классные телеграм-каналы.

А люди умеют! Подписывайся на «Двоичного кота», там кожаные расскажут про тот самый эксперимент с нейросетками, поделятся актуальными новостями из мира технологий и покажут смешные мемы про айтишников.
#промо

Neural Shit 2024-03-12 14:01:43

Уже года 3 использую разные VR-гарнитуры и тоже периодически гоняю в толкан со шлемом. Полностью и во всем согласен с автором на скрине.

Метаверсище и ИИще 2024-03-12 13:25:17

Ну что, готовы к развязке?

Я собрал все странные маркеры в голове: долгое время генерации, конские нерыночные цены, странные объявы о найме моделлеров. И нереальное качество сетки по сравнению с говно-аналогами типа Z123.
И полез гуглить или линкедынить.
Короче, расходимся.

With a human-in-the-loop, Kaedim generates clean topology.

В общем в процессе участвуют кожаные моделлеры, которые либо допиливают, либо обмешивают, либо ретопят черновые непригодные к использованию результаты ИИ-генерации.

Погуглил еще:

"Благодаря сочетанию искусственного интеллекта и уникального подхода, основанного НА УЧАСТИИ ЧЕЛОВЕКА, Kaedim может каждый раз предоставлять создателям цифровых технологий 80-процентную отправную точку, чтобы им никогда не приходилось начинать с нуля."

В общем получается интересная гибридная модель. Это не сервис, это скорее студия, у которое есть некий генератор черновых моделей и ловкие скрипты, а также армия индусов, которые допиливают топологию до годного.

Ибо:
Kaedim has >250 studio customers and >7 figures in revenue.

Это B2B проект, который сидит на больших заказах. Аутсорс моделинга с помощью инхаусных разработок и толпы фриласеров.

Ну что ж, вот ваш обещанный AGI - кожаные подчищают за ИИ его косяки, а ИИ продается как выполнятель задач кожаных.

Я разочарован, но с некоторым облегчением. Все подозрения подтвердились. Не умеет ИИ в 3Д без кожаных пока.
За моделлеров, чокаясь!

Метаверсище и ИИще 2024-03-12 13:11:28

А теперь вишенка на торте.
Машинка была уже смоделена (за 2 недели). Ручками, в 3Д.

В Каедим ушел ТОЛЬКО скриншот. 1 штука.

Была получена ИИ 3Д модель. С идеальной сеткой.
Оригинальная ручная модель и сгенеренная были присунуты в 3Д Макс для сравнения.
Оцените.
Я не могу отделаться от ощущения, что меня сильно обманывают.

Ну и кстати, сайт-то вот он:
https://www.kaedim3d.com/

Метаверсище и ИИще 2024-03-12 13:00:31

А теперь вгружаем вот такую машинку, тратим очень много токенов, ждем ночь и ПОЛУЧАЕМ ВОТ ТАКОЕ!!
Как, Карл!
Он идеально смоделил задницу точилы и поглядите на сетку. Она прекрасна.
Меня продолжает мутить от подозрений и скорби.
Еще раз. Вы можете потратить 2 недели на вот такой автомоделинг, а можете потратить несколько токенов и 8 часов сна. Что-то тут не так.

Метаверсище и ИИще 2024-03-12 12:49:52

Дальше - круче. Оно еще может делать не один меш, а составную модель!
Меня начинают мучить то ли подозрения, то ли скорбь о будущем моделлеров.

Метаверсище и ИИще 2024-03-12 12:44:47

Обратите внимание на сетку, на UV-Unwrap справа и на полное соответствие требования хорошей 3Д-модели.
Офигели? Смотрим дальше.

Метаверсище и ИИще 2024-03-12 12:40:29

Полученная модель не просто впечатляет, он разрывает все представления о ИИ 3Д-генераторах. Просто поглядите на это!

Метаверсище и ИИще 2024-03-12 12:37:30

Благодаря коллегам из Метаплана, удалось припасть в процессу тестирования нового Каедима.
На входе одна (или несколько картинок), можно вонзить промпт. Требования к картинкам вот тут:
https://docs.kaedim3d.com/web-app/create/input-guidelines
А потом начинается ОЧЕНЬ долги процесс ожидания.. Это часы, а не минуты, иногда ночь.
И цены: 50 баксов 10 токенов, черепаха 2 токена, жемчужина - 2 токена. На 1 токене не делает органику. На 4 токенах можно задрать качество качество, то придется ждать ночь (настораживает? меня тоже).
Смотрим дальше.

Кстати: картинки можно брать из DALL·E 3, как выше или откуда угодно))

Метаверсище и ИИще 2024-03-12 12:25:25

Так, сегодня будет день 3Д. Ибо повод. Держите марафон постов.
Для начала: тот самый стартап Kaedim, о котором я писал еще полтора кода назад, поднял 15 миллионов у A16Z. Я советую пройтись по тегу #kaedim, чтобы вспомнить о чем шла речь.
Если вкратце, это генератор 3Д по одной картинке с ХОРОШЕЙ ТОПОЛОГИЕЙ, годной для игр и поста.
Но засада была в том, что одна триальная генерация стоила 6 баксов, занимала несколько часов, месячная подписка была от 600 долларов (или 7700 долларов в месяц за 1000 моделей!). И было очень много вопросов к тому, как они генерят модели.
Ибо в это же врем они активно хайрили индиский моделлеров, которые, внимание, "умеют делать модели с хорошей топологией за 15 минут".
В общем целый детектив по тегу #kaedim в канале, а сегодня поглядим, куда привело их Fake it until you make it.

В общем они подняли денег и запустили 3Д-маркеплейс!! Сейчас будем разбираться, что там у них такое.

Метаверсище и ИИще 2024-03-12 12:00:37

Вот такой гаджет от Самсунженко.
Он еще умеет в медицинские показатели, такие как частота сердечных сокращений и все что часы умеют.
Но.
Если с такой шнягой вы споткнетесь и сильно обопретесь на руку, пытаясь не упасть, то можете с большой долей вероятности сломать косточки на тыльной стороне ладони.
Это у меня профдеформация. На хороших курсах кайт-серфинга (и не только) учат снимать часы именно по этой причине.
За сим мой прогноз - не полетит.

Метаверсище и ИИще 2024-03-12 11:52:34

Немного воздуха:
Гай Ричи забабахал новый сериал (не фильм) "Джентельмены".
И он прекрасен. После душно-серьезного Переводчика это просто праздник.
Там он постебался сам над собой, собрал все свои любимые штампы (так любимые нами) - цыган, бокс, наркоту, банды, слоу моушен, оверлеи с текстом, непроизносимый акцент, изысканные диалоги и Винни Джонса! Все в одном флаконе из 8 серий. Мне не хватило только Стейтема в главной роли. За то есть Гус Фринг из Breaking Bad!
Если любите раннего и среднего Ричи - смотреть обязательно.

Метаверсище и ИИще 2024-03-12 11:37:47

Наброшу желтизны, уж больно повод интересный.
Бобби Котик, которого выперли из Близзард, за то, что развел непотребство и харассмент, пришел к Сэму Альтману и говорит: бро, а давай купим Тик-Ток, все равно скоро примут законопроект, по которому Тик-Току надо либо продаться американской компании или валить из Штатов.
Сама: зачем?
Котик: будете Сору учить на их бесконечных видосах!
Сама: 😮😮
https://www.businessinsider.com/ex-activision-ceo-bobby-kotick-wants-to-buy-tiktok-report-2024-3

Сиолошная 2024-03-12 03:12:11

Как вы себе представляете день работяги в DeepMind? Вот к нему приходят начальники да, просят сделать так же хорошо, как ChatGPT, а он и команда — не могут. Ну они и идут взламывать секреты OpenAI, да?

Нет. Да! Вот они выпустили статью «Stealing Part of a Production Language Model», где, как понятно из названия, показывается, как украсть ЧАСТЬ ВЕСОВ МОДЕЛИ, ЛЕЖАЩЕЙ В API.

Трюк работает (пока? Авторы говорят, что не видят, как его масштабировать дальше) только для извлечения матрицы весов финального слоя, формирующего вероятности для предсказания следующего слова. Есть более дешёвый и простой способ просто узнать размерность этого слоя (сколько вещественных чисел в векторе, описывающем каждый токен).

Сначала авторы упражняются с опенсурсными моделями и проверяют, что метод работает, затем атакуют старые модели OpenAI ada, babbage и babbage-002. Так как запросы к ним дешёвые, то узнать размерность получается, потратив на API всего $2. Полную матрицу весов получается извлечь за $12.

Ну и конечно же работяги идут и пробуют это в GPT-3.5. Авторы утверждают, что они
1) извлекли размерность эмбеддинга (стоило $200-$800)
2) доложили об этом OpenAI до публикации статьи
3) те подтвердили, что цифра правильная.
4) Авторы подсчитали, что за $2000-$8000 можно было бы и извлечь часть весов, но по этическим соображениям не стали этого делать.

Также предлагается несколько способов борьбы с этим, но это менее интересно.
В общем, ждём, пока кто-то воспроизведёт атаку за свои кровные и раскроет нам, какого размера эмбеддинги у GPT-4.

Тизер: YouTube

Сиолошная 2024-03-12 02:40:32

OpenAI выпустили отладчик... для трансформера (модели нейросети, лежащей в основе языковых моделей). Инструмент называется TDB, и это — логические продолжение прошлой работы из этого направления, Language models can explain neurons in language models.

TDB позволяет поставить генерацию LLM (хотя скорее SLM — мы пока только на них тренируемся, интерпретация — очень сложный топик) на паузу с мотать вперёд и назад, и анализировать, как разные слова влияют на конкретное поведение.

Его можно использовать для ответа на такие вопросы, как: «Почему в этом запросе модель выводит токен A вместо токена B?» или «Почему в этом промпте модель направляет своё внимание на символ T?» Делается это путем выявления конкретных компонентов (нейронов, голов внимания, и дополнительно обучаемых автоэнкодеров), которые способствуют поведению.

Вот на картинке в верхней части вы видите, что какие-то слова раскрашиваются в разные цвета. Бирюзовый показывает, какое слово передаёт свой смысл с большей степенью, а розовый — куда он передаётся. Но это один случай одной головы внимания, а их десятки, ещё и в разных слоях, коих тоже десятки. Так много глазами не насмотришь, правда?

И тут в игру вступает GPT-4 из цитируемой работы. Грубо говоря сначала находятся другие тексты, которые имеют схожий паттерн активации, а затем они подаются в GPT-4 для того, чтобы она текстом объяснила, какую зависимость видит. И вам показывается результат, который помогает понять, что заставляет какие-то части сети активироваться наиболее сильно.

Всё это нужно для того, чтобы развивать интерпретируемость модели и выявлять паттерны. Чуть более подробно рассказывал вот тут в лекции (даже ту же статью упоминал, на которой OpenAI пример приводят). Сейчас всё настолько плохо, что самая большая обнаруженная логическая схема в модели состоит из 26 компонент (суммарно в моделях их тысячи, а комбинаций...) и решает примитивнейшую задачу. И это — в самой маленькой GPT-2.

AI[ex]Time 2024-03-12 02:04:27

Небольшая заметка об изменении архитектуры трансформера с 2017 года. Читая статьи про LLM, можно увидеть фразы вроде "мы используем стандартную архитектуру трансформера". Но что означает "стандартная", и есть ли изменения с момента выхода оригинальной статьи? Давайте на примере языковой модели (т.е. decoder-only) LLaMa-2 посмотрим на основные крупные архитектурные улучшения для LLM:

Post LayerNorm → Pre LayerNorm. Это делает сходимость более устойчивой. Теперь процесс идет так, что исходные эмбеддинги просто идут сквозь блоки декодера, и к ним прибавляются “корректировки” из FFN и Attention. Выглядит изящно, на мой взгляд.

Позиционное кодирование синусом → RoPE. Сам метод заключается в том, что мы вращаем эмбеддинги токенов на угол, зависящий от позиции. И это хорошо работает. Помимо этого, метод открыл целый ряд модификаций по расширению контекста до очень больших чисел.

Функция активации ReLU → SwiGLU. Gated Linear Units (семейство методов, к которому принадлежит SwiGLU. В нем добавляется операция поэлементного умножения матриц, одна из которых прошла через сигмоиду и таким образом контролирует интенсивность сигнала, проходящего из первой матрицы) немного докидывают к качеству на ряде задач.

LayerNorm → RMSNorm. RMSNorm вычислительно проще, но работает с тем же качеством.

Модификации Attention, например, использование одной K-V пары матриц сразу на группу Q матриц. Это улучшение в основном уже влияет на оптимизацию инференса. Но здесь есть и огромное число методов, направленных в сторону снижения квадратичной сложности операции, писал об этом подробнее здесь и здесь.

gonzo-обзоры ML статей 2024-03-12 00:18:44

И для тех, кому Хинтона надо побольше, другое видео от осени прошлого года.

Оно довольно сильно перекликается с уже обсуждёнными Mortal computers (https://t.me/gonzo_ML/1910), но есть свежие добавки. Отдельного внимания заслуживает секция Q&A — лучше помогает дистилляции, чем сама лекция :)

https://www.youtube.com/watch?v=iHCeAotHZa4

gonzo-обзоры ML статей 2024-03-11 23:38:25

Вот ещё из интересных моделей, Cohere выложили Command-R.
35B параметров, контекст 128k (!), поддерживает с десяток языков.
License: CC-BY-NC

https://huggingface.co/CohereForAI/c4ai-command-r-v01

gonzo-обзоры ML статей 2024-03-11 22:29:07

А пока ждём Грока, вот вам свежего прекрасного Хинтона:

https://www.youtube.com/watch?v=N1TEjTeQeg0

эйай ньюз 2024-03-11 20:22:21

А вот это интересно. Маск сказал, что они заопенсорсят свою LLM Grok на этой неделе.

Вы же слышали, что Маск пошел в атаку на OpenAI и даже подал в суд на них (если коротко, то из-за того, что они превратились из Open в Closed).

Любопытно увидеть, что же там у Grok под капотом. Модель, конечно, не Gpt4 и не Claude3 уровень, но опенсорс — это всегда замечательно.

@ai_newz

gonzo-обзоры ML статей 2024-03-11 18:30:52

Астрологи объявили весёлую неделю:

Сиолошная 2024-03-11 16:25:44

Лол, у них есть интерактивный курс по промптингу в Google Sheets! Мать-бухгалтер будет очень рада

🤓

Полистал — выглядит интересно, для обычных пользователей должно быть интересно.

Сиолошная 2024-03-11 16:22:19

Зачастую самая сложная часть использования ChatGPT-like ассистентов — это составление промпта. Не так, чтоб в 1-2 предложениях, а вот прям по нормальному! К примеру, для перевода своего блогпоста с русского на английский я составил промпт в 1800 токенов/5k символов. Что-то придумал сам, что-то взял из прошлых итераций, а что-то докрутил конкретно под эту задачу — не без помощи GPT-4, конечно.

Anthropic в ходе подготовки к релизу Claude 3 решили сесть подумать и составить «мета-промпт», чтобы помочь в составлении промпта. Вставили промпт в промпт чтобы можно было работать над промптом пока работаешь с промптом

🙂

В их промпте, который заставит Claude 3 генерировать длинный промпт по вашему короткому описанию задаче, больше 6000 токенов (и 25'000 знаков). Мне понравилось, что по запросу дополнительно генерируются входные переменные, которые могут меняться в рамках вашей задачи. Например, при переводе важно учитывать целевую аудиторию, кто читать-то будет? Claude 3 сама прикинет, какие полезные инпуты можно получить, и впишет их в выходной промпт.

Я попробовал на двух примерах — ну, не так хорошо, как сделал бы сам за вечер, но точно поможет обычным пользователям добиваться чуть более приятных результатов.

Поиграться тут (нужен API ключ)
Официальный гайд по промптингу от Anthropic здесь

Метаверсище и ИИще 2024-03-11 14:03:57

Всегда сложно сделать выбор, что читать, когда вокруг так много бизнес-книг.

Павел Анненков — предприниматель и инвестор с 19-летним опытом сам ведет Telegram канал, где пишет обзоры на лучшие бизнес-книги и нон-фикшн литературу. А еще делится своим опытом и идеями для развития бизнеса.

Теперь вы точно будете знать, что важно прочитать и при этом не потратить время впустую на проходные и неинтересные книги.

Это не типичный канал с банальными и заезженными книгами и советами. Загляните и убедитесь в этом сами — ANNENKOV_ideas_and_books

Метаверсище и ИИще 2024-03-11 14:02:46

В общем кожаные в очередной раз провалили тест на способность отличить ИИ-генерацию (теперь) от видео.
Взяли ролики из SORA и скормили их в 1000 кожаных, перемежая реальными видосами. Кожаные, ожидаемо, не справились. И это на раннем демо продукта, которого еще нет.
И это для видео(!), не для картинок.
И это для самых ранных образцов того, что вы увидите через полгодика.

Самая интересная деталь:
Когда респондентам сообщили, что видео созданы SORA, их спросили, что они чувствуют. Реакция была: от любопытства (28%), неуверенности (27%) и open-minded(25%, вскрытие мозга?) до тревоги (18%), вдохновения (18%) и страха (2%).
https://variety.com/vip/sora-ai-video-confusion-human-test-survey-1235933647/

Все еще ищете блох на ИИ-видосах и картинках? Зачем?
Ведь пипл хавает контент и с кино-ляпами и с ИИ-ляпами.
Воздействие - вот замысел любого контента.
С этим у ИИ все в прорядке.

Сиолошная 2024-03-11 13:56:54

В выходные читал посты Daniel Kokotajlo, философа из OpenAI (да, такие позиции тоже есть). В статье GPT-4 указано, что он работал над «Acceleration forecasting», а официально он числится в команде «Futures/Governance Team».

Собственно, Daniel занимается попытками предсказания будущего, анализом различных способов это сделать, а также выявляет ориентиры, по которым можно строить хоть какие-то догадки. Есть очень интересный пост (вот TLDR-твит) про его предсказания трёхлетней давности — пока, на начало 2024-го, всё идет почти как по сценарию. Сейчас каждый комментатор, конечно, скажет, что всё было предсказуемо и вообще очевидно для «шарящих», ну окей.

На форуме LessWrong от господина Kokotajlo есть несколько постов, которые всем рекомендую почитать в оригинале (вот, этот, тут, тут и даже тут). Также интересно посмотреть комментарии, где автор отвечает на критику/вопросы, и даёт уточнения. В этих постах строятся модели, делаются предположения и оценки (которые каждый оспаривает), приводящие к проекциям.

Самое главное, что из этого вынес — это предсказание достижения AGI в очень-очень близком будущем. Эти расчёты опираются на две фунтаментальные работы (1, 2), которые подменяют вопрос на «какой объем вычислений необходим для получения AGI» (и приводят расчёт исходя из того, что называют биологическими маркерами) и «когда у нас будет столько вычислений?» (и тут чисто технический многокомпонентный прогноз). Суммарно работы занимают больше 200 страниц текста, с анализом разных сценариев. Основных точки неуверенности три:
— так сколько всё таки нужно вычислений?
— сможем ли мы получить столько до того, как столкнёмся с проблемами масштабирования производства, или упрёмся в лимиты индустрии?
— будут ли проблемы массовой интеграции технологии во все части экономики и сообщества?

Для философа из OpenAI ответы выстраиваются в такую картину, что:
1. AI сможет автоматизировать работу 99% удалёнщиков в 2027 (сможет != заменит);
2. В ~2030-31 будет нечто, близкое к суперинтеллекту (который как минимум автоматизирует научные исследования);

Если предположить, что мы всё же упрёмся в мощности (Sama не сможет $7T заменеджерить, кек), то срок двигается на 8-9 лет.

Ну, философ думает и думает, чё бубнить то, да? Может быть вам даже захотелось где-то покритиковать работы и аналитику. Наверняка и коллегам в OpenAI хотелось, и наверняка на разговоры тратились сотни часов. Но я могу заключить, что по итогу OpenAI опираются именно на такой таймлайн при планировании, он считается реалистичным, настолько, что его нельзя игнорировать. В пользу этого играет:

1. И вот оказывается Sama осенью 2023го года говорил (удивлён, что цитата не разлетелась), что AGI будет через 5 лет или чуть больше. AGI в этом контексте — система, могущая как минимум совершать научные открытия, ну и одновременно автоматизировать ~95% работников (как минимум в маркетинге).
2. OpenAI считают, что им необходимо решить проблему Alignment'а в течение 4 лет (осталось 3.5), так как времени мало. Цитата из блогпоста с анонсом: «мы считаем, что суперинтеллект может появиться в этом десятилетии» (то есть до 2030-го).

То есть можно сказать, что OpenAI живут в такой парадигме (и действуют исходя из неё). Посмотрим, как будут сбываться другие предсказания и выполняться майлстоуны из предсказаний господина Kokotajlo.

А как ваши дела

🤓

Метаверсище и ИИще 2024-03-11 13:51:28

Андрей Карпатый жжот в твитторе:

"Чтение твитов сродни загрузке (контролируемой злоумышленниками) исполняемого файла, который вы мгновенно запускаете в своем мозгу. Каждый из них вызывает эмоции, предлагает знания, подталкивает к мировоззрению.

В будущем может показаться удивительным, что мы допускали прямое поступление в мозг недостоверной информации."


Когда-то человечество научилось мыть руки, чтобы не делать потом промывание желудка.
Пора научиться промывать глаза перед взглядом на экран, чтобы вам не промыли мозг.

Впрочем, уже промыли. Но можно попробовать запустить новый бренд капель для глаз.. Антипромывочный Визин.

Метаверсище и ИИще 2024-03-11 13:46:03

За пределами языковых моделей: Байтовые модели - симуляторы цифрового мира.
Ох ничего себе заявочка!


Идея простая, коль скоро у нас все оцифровано и валяется на серверах, компах и телефонах в цифре, то есть в байтах, то давайте будем пробовать предсказывать не следующее слово или вектор, а следующий байт!
Азиатский микрософт вкупе с китайской консерваторией замахнулись на то, чтобы засимулировать весь мир, коль скоро он уже все равно оцифрован.
Ловче всего у них получилось с переводом нотной записи в МИДИ и обратно. С текстом результаты на уровне GPT-2. С картинками - примерно на уровне пост диско дифьюжен.

Но сам подход!!

Если так пойдет, что ИИ будет писать или продолжать сразу экзешники или байт-код, а мы получим универсальный продолжатель ВСЕГО!

Одна проблемка - ресурсоемкая зараза.
https://byte-gpt.github.io/
Даже код для симуляции мира есть.
https://github.com/sanderwood/bgpt

e/acc 2024-03-11 13:31:22

Наконец, статья про децентрализованный AGI, над которой я работал несколько недель. Статья доступна на сайте, в формате видео-презентации и треда в твиттере.

AGI грядёт. СЕО NVIDIA и OpenAI сходятся во мнении, что в течении ближайших пяти лет.

Приведет ли это к развитию человечества или централизации власти? Можем ли мы создать полезный AGI, доступный в равной степени всем?

Основной тезис статьи: AGI — это не гигантская back-box модель, а скорее сеть связанных между собой триллионов автономных агентов и персональных ИИ. Мы называет это кибернетической экономикой.

В первой части статьи рассматривается эволюция интернета (web 1.0 → web3) и парадигм программирования (software 1.0 → software 3.0), а так же новые свойства децентрализации, открытости, совместимости таких систем.

Во второй части обсуждаются социальные, экономические, технические и политические проблемы текущего вектора развития ИИ: централизация контроля и власти, цензура, манипуляция, неэффективная регуляция, лишение пользователей контроля над данными, проблема безопасности ИИ.

В третьей части я рассказываю о компонентах и недостающих элементах централизованного ИИ: открытые проколы, конфиденциальность данных и весов моделей, открытые рынки для вычислений/данных/работы/файн-тьюнингов/RAG'ов/агентов, системы платежей и коммуникации между агентами, алгоритмы маршрутизации для оркестровки ансамблей агентов, децентрализованное управление через DAO, репутация и механизм проектирования для предотвращения эксплуатации, структуры контрактов для достоверной координации многоагентных систем.

Cyber.fund существует, чтобы сделать киберэкономику реальностью. В ближайшие годы мы проинвестируем $100М, а так же время, ресурсы, экспертизу, технические компетенции в лучшие проекты, которые работают в этом направлении.

Ваш ретвит — самый простой вклад в это будущее :)

Метаверсище и ИИще 2024-03-11 13:20:21

Уже писал про XPANCEO - умные контактные линзы.
Писал пессимистично, как про все контактные линзы, у которых не решена проблема перегрева. Без решения этой проблемы можно, конечно, торить дорогу в метаверс без очков, но глаза пользователя могут превратиться в глазунью (тупая шутка, да).
Тем не менее на Mobile World Congress 2024 показали аж четыре модели таких линз. Однако никто эти линзы в глаза не вставлял - были только "демостенды". Интересно, что фокус в таких устройствах смещается с простого метаверсирования к датчикам и обработке информации, снимаемой с глаза пользователя. Мне кажется это очень правильно - глаз это прям клондайк для данных, как и все кожаное лицо. XPANCEO заявляют датчики уровня глюкозы, кровяного давления, уровня кортизола и другие.
Ну и вишенка на торте:
Xpanceo хочет сделать интеграцию нейроинтерфейса в линзу(!) — с линзой можно будет общаться силой мысли. Звучит прям по Маску.

Последний всплеск трафика в новостях был в октябре, тогда я и писал про XPANCEO, в феврале снова пошли новости, видать ребята снова подняли денег.

Идея превратить линзы в подкожный чип, а не в альтернативу очкам мне нравится, но что делать с перегреванием?
https://www.techradar.com/health-fitness/xpanceo-wants-to-give-you-smart-contact-lenses-that-could-tell-you-if-you-really-should-have-that-second-cup-of-coffee

LLM под капотом 2024-03-11 09:48:05

LLM Benchmark - Claude 3 радует!

Модели Claude 3 сильно улучшились на LLM бенчмарках. Похоже, что в Antropic стали прислушиваться к пожеланиям клиентов, которые используют LLM в реальных продуктах.


Opus скакнул вперед, перескочил через GPT-3.5 и оказался среди версий GPT-4. Больше всего радует сам факт рывка в правильном направлении.

Раньше 100 очков в работе с документами набирал только GPT-4 Turbo v4/0125-preview. А теперь и Claude 3 Opus. Это значит:

- системы, которые построены на работе с Knowledge Map, тут будут хорошо запускаться (бенчмарк тестирует это)
- бенчмарк придется усложнять, чтобы повысить планку))

Улучшение Sonnet не такое заметное на первый взгляд. Модель незначительно оторвалась от версий v1 и v2. Но при этом стоимость упала более, чем в два раза. Будет интересно посмотреть, что у них там с моделью Haiky.

Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro и обновление мультиязычности.

Ваш, @llm_under_hood 🤗

Сиолошная 2024-03-11 02:43:37

Проснулись-потянулись, посмотрели результаты «Оскара».

Chris Nolan взял первую в своей карьере статуэтку (!), вместе с Cillian Murphy и Robert Downey Jr.

Да, у всех троих за их долгие насыщенные карьеры не было самой главной награды!

Немного обидно за Martin Scorsese — у его «Убийц цветочной луны» было 10 номинаций, и он не выиграл ни в одной :/

gonzo-обзоры ML статей 2024-03-10 23:21:05

Свежего Джеффа Дина вам в ленту:

https://www.youtube.com/watch?v=oSCRZkSQ1CE

В целом откровений нет, но если вы не за всем происходящим (особенно у Гугла) следили, то хороший обзор, в том числе исторический.

Метаверсище и ИИще 2024-03-10 22:36:16

Удивительное лицемерие, конечно. Стоит ИИ нарисовать не то количество пальцев, как все такие "вот дебил".
А кожаные годами рисуют по 3-4 пальца на персонажах, и ничего.
Что позволено Юпитеру....

эйай ньюз 2024-03-10 14:48:28

эйай ньюз pinned a photo

эйай ньюз 2024-03-10 13:00:40

🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation


Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.

Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.

Сайт проекта
Демо (только в 1024p)
Кода пока нет

@ai_newz

gonzo-обзоры ML статей 2024-03-10 12:14:57

[Allen AI] OLMo: Accelerating the Science of Language Models
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
Статья: https://arxiv.org/abs/2402.00838
Модели: https://huggingface.co/allenai/OLMo-7B
Код: https://github.com/allenai/OLMo
Датасет: https://huggingface.co/datasets/allenai/dolma
Evaluation: https://github.com/allenai/OLMo-Eval
Adaptation: https://github.com/allenai/open-instruct
W&B Logs: https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B--Vmlldzo2NzQyMzk5

Allen AI (в основном) и представители четырех университетов анонсировали истинно открытую модель OLMo. Как они пишут “a state-of-the-art, truly Open Language Model”. Открыто, кажется, всё: кроме обычно опубликованных весов, иногда опубликованных кода для обучения и датасета, здесь открыт весь фреймворк, включая логи и скрипты оценки, всё под Apache 2.0 License. Есть и чекпойнты на HF. В первую очередь нацелены на исследователей языковых моделей.

До них похожую степень открытости демонстрировал консорциум BigScience с моделью BLOOM (https://bigscience.huggingface.co/blog/bloom), но их модели по размеру (176B) были не для простых смертных, да и по нынешним временам уже не в топе. Из более доступных были также Pythia (https://github.com/EleutherAI/pythia) и LLM360 (https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html).

OLMo это классический декодер трансформера (как GPT) с некоторыми улучшениями: no biases, non-parametric formulation of layer norm (без адаптивного линейного преобразования), SwiGLU, RoPE эмбеддинги, BPE-токенизатор (модифицированный GPT-NeoX-20B) со словарём в 50,280 с отдельными токенами для скрытия персданных (personal identifiable information, PII). Сравнение с недавней Gemma (https://t.me/gonzo_ML/2389) есть тут https://lightning.ai/lightning-ai/studios/understanding-using-and-finetuning-gemma.

В семействе три модели: 1B, 7B и 65B (ещё варится). Первые две обучены на 2T и 2.46T токенов. Это примерно те же числа, что у Llama 2 7B и Gemma 2B -- там 2T, больше чем у Phi-2 2.7B c 1.4T, но меньше Gemma 7B с 6T (https://huggingface.co/blog/gemma).

Датасет -- их же открытый Dolma (https://arxiv.org/abs/2402.00159) с 3T токенами и 5B документов. В той же работе, кстати, была и Olmo-1b обучена. Сейчас датасет в основном английский, но в будущем планируют расширить на другие языки. Как с этим можно жить, если надо не только английский, один из вариантов тут: https://inten.to/blog/when-genai-still-needs-mt/.

Предобученные модели файнтюнили для чата на Open Instruct (TÜLU, https://arxiv.org/abs/2311.10702). Для этого делали instruction fine-tuning + DPO на preferences.

Для оценки чекпойнтов модели использовали их же бенчмарк Paloma (Perplexity Analysis For Language Model Assessment, https://arxiv.org/abs/2312.10523) и фреймворк оценки Catwalk (https://arxiv.org/abs/2312.10253).

Обучали с PyTorch FSDP (https://pytorch.org/tutorials/intermediate/FSDP_tutorial.html) с mixed-precision training. Оптимизатор AdamW, обучалось одну эпоху на отобранных 2T токенах из 3T.

gonzo-обзоры ML статей 2024-03-10 12:14:57

Что прикольно, проверили на двух разных кластерах: LUMI с AMD MI250X (до 256 нод с 4 GPU каждая с 128GB) и MosaicML с NVIDIA A100 (27 нод с 8 GPU и 40GB). С незначительными отличиями в настройках (размер батча) итоговый перформанс моделей получился почти идентичный. Было бы интересно сравнить с точки зрения эффективности самих кластеров и затрат на них. По количеству GPU вроде как LUMI почти в 4 раза больше железа задействовал, а по памяти он вообще был в 15 раз больше (131TB против 8.6TB). Непонятно, почему так.

По результатам на zero-shot, OLMo где-то чуть ниже Лам (первой и второй), Falcon и MPT. В сравнении с instruction-tuned версиями где-то на уровне Llama-2-Chat. В целом по цифрам заметно отстаёт от топовых на сейчас моделей, той же Gemma 7B, но Gemma не настолько открытая, она open, но не open source.

Как теперь принято, посчитали углеродный след. В кластере LUMI он нулевой (потому что на энергии от гидроэлектростанции работает), в кластере с NVIDIA в Австралии получилось 70 tCO2eq. Если я правильно понимаю, то полёт туда-обратно между Бостоном и Лондоном даёт тонну на человека (https://climate.mit.edu/ask-mit/how-much-ton-carbon-dioxide), и если там летят условно 300 человек, то это четыре таких обучения моделей.

Ну в общем круто, что всё выложено, research делать на этом должно быть просто. А с точки зрения коммерческих применений, наверное, лучше файнтюнить Gemma 7B.

Сиолошная 2024-03-10 11:54:26

График соотношения мощности/веса. Угадайте, где начинается эпоха авиации.

Сиолошная 2024-03-10 11:53:59

Оценка таймлайна разработки летательных аппаратов с точки зрения конца 1800-х годов (диалог двух):

😏 Птицы — крылатые существа, летающие по воздуху. Это повод думать, что мы можем создавать крылатые машины, летающие по воздуху.

😑 Ага-ага, между птицами и летательными аппаратами есть множество важных различий:
— Птицы летают из-за взмахов крыльями, тогда как в современных конструкциях (спасибо машине времени за возможность заглянуть вперёд) используются пропеллеры и неподвижные крылья.
— Возможно, что грубая прикидка анатомической схемы костей, мышц и поверхности крыльев слишком неточна, чтобы смоделировать полет птицы. Однако это то, что мы уже понимаем, как переложить в конструкцию машины (замена костей стойками, а мышц моторами, итд). Если нам нужно обратить внимание на просачивание воздуха через перья и между ними, возникающие в воздухе микрозавихрения, которые ощущает птица и на которые инстинктивно реагирует, итд, то неясно, как интегрировать это в механическую парадигму.
— У меня сложилось впечатление, что некоторые биологические наблюдения над птицами не имеют правдоподобного аналога в машинах: выращивание новых перьев и набор массы, переадаптация в ответ на повреждения...

😏 Ключевыми переменными, по-видимому, являются мощность двигателя и вес двигателя. Современные двигатели недостаточно прочные и легкие, но они быстро совершенствуются.
Как только отношение мощности к весу двигателей превысит соотношение мощности к весу мускул птиц, мы, в теории, сможем построить летательный аппарат. Несомненно, предстоит проработать множество деталей. Но это не должно занять больше нескольких лет.

😑
Ага! Я не думаю, что мы доподлинно знаем, каковы ключевые переменные, влияющие на полёт. Например, птицы способны парить, преодолевая большие расстояния, вообще не взмахивая крыльями, и мы до сих пор не выяснили, как они это делают. Другой пример: мы все еще не знаем, как птицам удается управлять полетом в воздухе (т.е. стабильность и контроль полета).
Кроме того, «предстоит проработать множество деталей» — это сильное преуменьшение. Эволюции потребовались миллиарды поколений миллиардов особей, чтобы произвести птиц. Почему вы думаете, что мы сможем сделать это быстро? Вполне вероятно, что на самом деле нам придется делать это так, как это сделала эволюция, занимаясь мета-прототипированием —то есть поддерживать большую популяцию летательных аппаратов, корректируя наши чертежи каждого поколения разбившихся машин, чтобы найти лучший дизайн.
И даже если вы думаете, что мы сможем сделать это существенно быстрее, чем это сделала эволюция, довольно самонадеянно думать, что мы сможем сделать настолько быстро, чтобы имело смысл попытаться угадать дату, когда наши двигатели достигнут паритета мощности/веса с птичьими мышцами.

Аналогии проведёте сами (лааадно, можете глянуть тут)