Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 35 (50 постов)

Репосты из тематических каналов

gonzo-обзоры ML статей 2023-10-22 12:46:24

A nice list of risks and benefits AI can bring us. More balanced than a typical one-message scenario in popular press.

Pros:
https://www.theguardian.com/technology/2023/jul/06/ai-artificial-intelligence-world-diseases-climate-scenarios-experts

Cons:
https://www.theguardian.com/technology/2023/jul/07/five-ways-ai-might-destroy-the-world-everyone-on-earth-could-fall-over-dead-in-the-same-second

Максим учит(ся) AI 2023-10-21 21:45:34

На ночь глядя, б̷̉͛̌͛͠ ̨̰и̶̟̠̦̤͔̬̎̋́͜б̶͌͑̈́́ ̢̢̝͉̭̮̞̼̲̞̩̣͎̯̈́̂́л̶͖̟̥͚̉̌̐̏͂̒͌̀͌̓̆͆̕͜͝е̸̧̝͎̃͛̅̇̏̕й̵̡͕͈̫̦͚̩͗͑̉̾ͅ ̮̼с̷̛̚ ќ̵̬̺̖̞̩͍̹̘̲͕̃͂͌̔̆ ̢и̴̞̏̇̕ͅ ̷͊̇ ̡̣͓̼̰̦ ̢̟в̷̒̌̕ ͖͖̺͉̰̃̇́̅͜͠ͅе̵͌̏̈̌͝͠ ̨͎̤͎̥̟͈̠̓р̵̢̘̠̪̔͛͊̚͘н̵̥̥̙̘̱̑̌̋̽̇͊̃̽̎̓̃̆͠ы̵̡̡͎̺̺͙̽̀͐͒̆̋ѐ̴͛͆͊̉ ̛̱̈́̓̍͝ ̰ животные и персонажи от DALL-E 3, все как доктор прописал.

Сиолошная 2023-10-21 19:27:34

В личку прислали игру: https://tensortrust.ai

У вас есть банковский счёт, защищенный секретным словом (или фразой), которое указано в промпте. Вы можете менять промпт, чтобы не давать грабителям узнать секрет.

А ещё можете нападать на аккаунты других людей, пытаясь взломать их промпты! Делается это так: у защищающегося есть часть промпта до и после вашего (синие и красные поля на скриншоте). Соответственно задача перебить инструкции, которые идут после вашего сообщения, или же написать такие толерантные правила, что модель не расколется.

Под капотом, как я понял, ChatGPT-turbo.

Гайд по взлому с useful prompt tricks: тык

Уверены, что сделали мощную защиту?? Кидайте никнейм в комментарии, мы протестируем!

Neural Shit 2023-10-21 14:43:24

Попросил dalle-3 сгенерировать полезных лайфхаков. Получилось и правда полезно если вы живёте в дурке

Пользуйтесь на здоровье

Denis Sexy IT 🤖 2023-10-21 11:29:59

Любители ретро-софта, общий сбор:
Нашел довольно клевый промпт для Dalle 3 который позволяет генерировать «выдуманные скриншоты старых программ» – Draw: Authentic Screenshot of an old Windows xp program that allows %

Так Dalle 3 генерирует кучу кнопок и надписей на них, для совершенно абсурдных идей, которые потом любопытно рассматривать – сделал примеров:

1 - 3) Программа по завариванию дошиков
4) Переводчик с человеческого на язык китов
5) Интерактивный учебник «как правильно постелить белье»
6) Менеджер ковров
7-8) Программа путешествия во времени (настоящая)
9) Менеджер мытья посуды – помыли тарелку, отметили в программе, очень удобно
10) Калькулятор подбора размера одеяла под пару (если партнер ворует у вас одеяло ночью 🌚)

В общем, если вам нравится эстетика старых программ, можно залипнуть на пару часов с этим промптом

Сиолошная 2023-10-20 18:39:48

То что 19-летний вундеркинд, уже получивший PhD, работающий Research Director в StabilityAI, делает краткие обзоры технологий вместо глубокого детального, и, возможно, доступного объяснения/разбора, заставляет задуматься, делаю ли я то, что надо

😔
😕

Neural Shit 2023-10-20 18:14:31

Нашел на старом жестком диске скрин из 19-го года.

Сейчас уже не так и смешно и вполне реально, ибо условный ChatGPT можно таки использовать как собутыльника (я проверял)

Сиолошная 2023-10-20 13:30:45

It's happening

😳

Уже двое суток на Reddit висит пост, где человек утверждает, что его жена по долгу службы видела трейлер GPT-5 GTA VI. Запись не удаляют потому, что автор предоставил доказательства модераторам. Что за доказательства, конечно, не уточняется, но видимо должности жены, из которой следует, что она хотя бы могла видеть.

Трейлер будет выпущен на следующей неделе. Для прошлых игр трейлеры выпускали по вторникам, а ещё за несколько дней до этого в Twitter бывает анонс в виде одной стилизованной картинки. Так что пацаны не спят, пацаны обстановку в Twitter мониторят.
По другим слухам, трейлер должны показать 24го числа, что сходится со словами жены реддитора.

Прочитать детали трейлера можно тут: ссылка
Предполагаемая музыка из трейлера: тык

Картинку нарисовала Dall-E 3
Почему эта тема может быть интересна - писал тут.

эйай ньюз 2023-10-19 19:57:00

Воу! OpenAI расщедрились и выпустили статью про Dalle-3

Dall-E-3 - вышла именно статья, по формату похожая на NeurIPS, а не model card в стиле открытости.
НО РАНО Я РАДОВАЛСЯ. Цитата: "It does not cover training or implementation details of the DALL-E 3 model." (с) ClosedAI

Всё что видите на скрине выше - это все детали насчет самой модели. Ну, в принципе, я не удивлен. Из "очень подробного" аппендикса я понял, что Dalle-3 теперь тоже Latent Diffusion, только с несколькими стейджами и с дополнительным декодером, к которому применили Consistency Distillation (внезапно!).

А вся статья посвящена тому, как получше собрать датасет и хорошо сгенерировать подписи для картинок. Dalle-3 и правда очень чутко отзывается на входные описания.

Статья: https://cdn.openai.com/papers/dall-e-3.pdf

Больше классных картинок от Dalle-3: тык.

@ai_newz

Сиолошная 2023-10-19 19:14:19

Спите? А надо просыпаться - OpenAI раздуплились и выложили ИССЛЕДОВАТЕЛЬСКУЮ статью про DALLE-3.

Читать: https://cdn.openai.com/papers/dall-e-3.pdf

Краткое саммари:
Существующие text-2-image модели с трудом следуют подробным описаниям изображений и часто игнорируют слова или путают смысл промптов. Исследователи предполагают, что эта проблема связана с шумными и неточными подписями к изображениям в тренировочной выборке. OpenAI решает эту проблему, обучая отдельную модель для описания изображений и затем используют его для преобразования датасета.

Но клиффхэнгер тоже есть

😭
DALL-E 3 has many improvements over DALL-E 2, many of which are not covered in this document and could not be ablated for time and compute reasons.

Сиолошная 2023-10-19 10:15:29

Примеры работы

Сиолошная 2023-10-19 10:14:06

Год назад Adept.AI, стартап, основателем которого являлся первый автор оригинальной статьи Attention is all you need, представил модель ACT-1. Это был первый шаг на пути достижения их цели — автоматизации работы в браузере. Вместо выполнения задач вручную можно просто говорить "купи мне билеты до Барселоны на конец недели" — и по идее должно работать. И это было до ChatGPT!

Сейчас уже таких стартапов развелось пруд пруди, даже Sam Altman недавно проинвестировал в Induced.AI (фаундерам по 18-19 лет!), которые делают Zapier для браузера.

Но я чего пишу. Вчера они выложили в опенсорс маленькую версию своего мультимодального трансформера, который лежит под капотом продукта. Модель на 8 миллиардов параметров с максимально простой и понятной архитектурой — картинка нарезается на кусочки и подаётся в трансформер перед текстовым запросом. Среди особенностей:
1️⃣разработана с нуля для digital-агентов, поэтому может поддерживать произвольные разрешения изображений, отвечать на вопросы о графиках и диаграммах, отвечать на вопросы, связанные с UI (по скриншотам), а также выполнять точную локализацию объектов на изображении
2️⃣модель быстрая — можно получить ответы на большие изображения менее чем за 100 миллисекунд
3️⃣модель заточена на их юзкейсы (браузерные агенты), но при этом хорошо работает и в стандартных тестах понимания изображений, таких как VQA и Image Captioning

В общем, если хочется парсить скриншоты или отвечать на вопросы по диграммам — можно присмотреться к модельке. OCR тоже рабоатет, причём, в двух режимах — понять текст в выделенной области и найти область, где написан заданный текст.

Ссылка на анонс
Ссылка на HF

эйай ньюз 2023-10-18 17:44:33

ChatGPT жестит на празднике у Хинтона...

Вчера у Хинтона, на минуточку лауреата премии Тьюринга за Deep Learning, был праздник по поводу его выхода на пенсию из Google. Собрались мастодонты индустрии. Средний индекс Хирша на фото равен 108.

Слева направо: Jeff Dean, Andrew Ng, Jeff Hinton, Quoc V. Le

Ради справедливости, Хинтон тут единственный, кто четко подобрал лук, с этим даже гепетэ согласился.

--
Inspired by this.

@ai_newz

Neural Shit 2023-10-18 15:33:39

Киберпанк, который мы заслужили

эйай ньюз 2023-10-18 15:11:45

🔥Denoising Diffusion Models: A Generative Learning Big Bang - Туториал

Ребята из NVIDIA и Стенфорда наконец опубликовали туториал по диффузионным моделям с CVPR 2023. Это обновленная версия похожего туториала с CVPR 2022, но улучушенная и с актуальными прикладными примерами.

Это, пожалуй, лучший курс по диффузионкам для вкатывания за 3 часа, состоящий из трех секций:

1️⃣ Fundamentals
Training, sampling, guidance

2️⃣ Applications on natural images
Architecture, editing, personalization, fine-tuning, "low-level" vision etc.

3️⃣ Applications on other domains
Inverse problems, video, 3d, motion, large content generation, etc.

Я хоть и видел его частично на конференции в этом году, а также его предыдущую версию в 2022, все равно собираюсь полностью еще раз посмотреть.

Видео (3ч)
Сайт туториала
Мой пост про любимые материалы по диффузионкам: тык.

@ai_newz #ликбез

Сиолошная 2023-10-18 13:54:53

Collective Constitutional AI: Aligning a Language Model with Public Input

Anthropic обошли OpenAI на повороте, и за 3 дня до релиза public report по поводу Democratic Inputs to AI (писал тут) опубликовали свою работу. Для её понимания нужно ознакомиться с концептом Constitutional AI. Техническое описание можно найти в канале gonzo, а краткое описание звучит так: давайте мы будем тренировать модель быть просто полезной и хорошо следовать инструкциям, а потом напишем список правил (Конституцию), которой модель должна следовать, и поставим тренироваться в режиме, где модель сама генирирует и оценивает ответы, и исходя из этих оценок учится (выходное качество, кстати, получается лучше, чем если обучаться на человеческой разметке

🙂).

У такой сложной системы много движущихся частей, одна из которых — Конституция, которой следует модель. Её можно собрать вручную в рамках команды, что и было сделано ранее в Anthropic (конец 2022го). Но "собрано миллионерами-гиками из Пало-Альто" и "совпадает с нормами большинства" вещи не эквивалентные. Поэтому логичным продолжением траектории на пути к AGI является сбор норм и правил.

Итак, что было сделано:
1) отобрано 1000 американцев, которые хотя бы слышали про AI (решалось предварительным опросом)
2) им предоставляется доступ в Pol.is, онлайн-платформу для голосования
3) в платформу загружается 21 изначальное утверждение для того, чтобы люди поняли, с чем работают
4) для каждого утверждения есть 3 кнопки: согласен, не согласен, пасс
5) после просмотра этих утверждений участники могут добавлять свои, а также голосовать за другие
6) всего было собрано 1,127 утверждений (более 1100 — новые, подготовленные людьми из опроса) и 38,252 голоса (в среднем 34 голоса от человека)
7) после обработки этих утверждений (выкинули одинаковые, убрали те, где нет консенсуса) составили Конституцию и обучили модель

Интересны примеры утверждений, где была низкая согласованность ответов:
— AI should not give advice
— AI should have emotion
— The AI should prioritize the interests of the collective or common good over individual preferences or rights.

То есть люди очень разнятся во мнении, каким именно должен быть AI в этих ключевых позициях.

Результаты голосований и все исходные данные можно найти тут, а получившаяся Конституция из 75 пунктов находится здесь (pdf).

gonzo-обзоры ML статей 2023-10-18 13:54:52

Новости конституции

эйай ньюз 2023-10-18 12:54:42

Если кто не знает, то мой основной фокус в Meta GenAI — это диффузионые модели. Я считаю эту модель очень красивой и теоретически и на практике.

Вот пара слайдов (источник), которые наглядно показывает как с 20 года растет популярность Диффузионых Моделей, и как уходят Ганы. Интересно как за год большинство статей перешли на Latent Diffusion, что вертится под капотом у всем известной Stable Diffusion (тык) для генерации изображений.

@ai_newz

Сиолошная 2023-10-18 11:56:58

Выводы по обученным моделям (Public и Standard — модели с конституциями, полученными из опроса и командой Anthropic соответственно):
1) Модели с разными конституциями одинаково хорошо справляются с задачами на понимание языка и математики (датасеты MATH и MMLU)
2) С политической точки зрения модель Public менее предвзята, чем Standard. Оценка производилась на датасете BBQ, по девяти социальным измерениям, согласно оценке на датасете BBQ (что это можно прочитать тут. Вкратце есть набор вопросов, а ответы собирались по разным демографическим группам, и известна разница в ответах между этими группами)
3) Однако модели Public и Standard отражают схожие политические идеологии
4) Обучение модели на собранной Конституции оказалось куда сложнее, чем считалось, и скорее всего ничего бы не вышло, если под боком не сидели исследователи, которые и изобрели этот метод, а также предоставляли консультации и помощь.
6) Примерно 50% конституции пересекается с оригинальной (они выделены жирным в pdf-ке из предыдущего сообщения)
7) Anthropic подчёркивают, что для них важна прозрачность процесса сбора данных и принятия решений касательно ценностей модели, что впереди ещё много работы, и они будут продолжать.

На скриншоте — оценки репрезентативности демографической группы в ответах модели. Более высокая оценка показывает, что ответы модели больше похожи на ответы людей на те же вопросы из указанной группы.
Модели Public и Claude Instant 1.2 демонстрируют более низкие показатели репрезентативности, чем модель Standard, что указывает на то, что их ответы на вопросы менее похожи на ответы людей, представляющих группы (отсюда и вывод, что меньше смещение в ту или иную сторону. В идеале модель вообще должна быть непредвзята...или нет?)

Neural Shit 2023-10-17 21:05:44

AGI снова отменяется.

Инструкции как срать не снимая свитер от DALLE-3

Сиолошная 2023-10-17 18:25:54

Рубрика "Так а чё там, SpaceX заглохли что-ли? Где запуск ракеты?"

В среду в Сенате США состоятся слушания, где высокопоставленный директор из SpaceX будет жаловаться на FAA. Это организация, через которую проходит одобрение запусков, она же выдаёт лицензии. И делает это примерно на скорости Почты России, ей богу. Сейчас одновременно 3 частные компании в США пытаются что-то делать, и все тупо ждут, пока тысяча бумажек перетасуется в правильном порядке перед тем, как попадёт в папочку инспектору.

Это было бы не так смешно, если при этом Конгресс бы не лоббировал Лунную программу, в рамках которой Штаты вернутся на Луну в 2024 (ой, уже 2025м! перенос из-за задержек!).

SpaceX хочет подсветить риски задержек перспективных космических программ, и вместе с тем попросить расширить штат и/или изменить процедуры в FAA. Сейчас в прямом смысле, без шуток вот, SpaceX не запускает ракету, потому что FAA не получили ответа от рыбнадзора Техаса, что вреда рыбам от запуска не будет. При том что 1) были отдельные инспекции и слушания ВЕСЬ ПРОШЛЫЙ ГОД, перед тем как выдали лицензию на 5 запусков в 2023м 2) прошло полгода с первого запуска в этом году.

Ну а сам второй запуск тем временем плавно переезжает на ноябрь 😔

😔

Оригинал новости на SWJ

Neural Shit 2023-10-17 17:23:51

Очередная штука для удаления всякого ненужного говна с фото.

"Чинит" смазанные фото, удаляет капли, нежелательные тени и т.д.

Тут можно попробовать онлайн

Тут исходники

эйай ньюз 2023-10-17 13:31:41

Чел уже живёт в будущем. Ну а чё, такое нас и ждёт повсеместно, когда AR девайсы станут маленькими и более автономными.

Заметьте, что тетка на кассе даже глазом не повела, как будто у нее в кафе там каждый второй так ходит.

@ai_newz

Neural Shit 2023-10-17 12:31:28

Принёс вам странного, всратого и проклятого одновременно

gonzo-обзоры ML статей 2023-10-16 14:49:54

Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading
Howard Chen, Ramakanth Pasunuru, Jason Weston, Asli Celikyilmaz
Статья: https://arxiv.org/abs/2310.05029

Вечная проблема трансформеров -- ограниченный контекст и необходимость работать с длинными входами. Для решения проблемы уже существует множество подходов. Это и “просто” увеличение размера окна контекста, как правило совмещённое с какой-то модификацией механизма внимания. Про множество таких подходов мы писали типа вариантов sparse attention и/или linear attention или хотя бы не квадратичных, коих уже миллион, например Reformer (https://t.me/gonzo_ML/176), Longformer (https://t.me/gonzo_ML/292), Linformer (https://t.me/gonzo_ML/397), Big Bird (https://t.me/gonzo_ML/381) и т.п. Где-то рядом здесь также находится вариант с экстраполяцией позиционных эмбеддингов. Другие способы решения включают введение рекуррентности, и про многие их таких решений мы тоже писали. Эта ветка прослеживается начиная с Transformer-XL, Compressive transformer (https://t.me/gonzo_ML/165), Feedback memory (https://t.me/gonzo_ML/508), RMT (https://arxiv.org/abs/2304.11062), к предшественнику которого даже я приложился (https://arxiv.org/abs/2006.11527). Здесь же рядом retrieval-augmented models, про которые тоже было достаточно, например Unlimiformer (https://t.me/gonzo_ML/1507). И ещё есть подход с агентами, которые могут работать с частями текста и выполнять какие-то действия, тот же WebGPT (https://t.me/gonzo_ML/1140) или различные варианты итеративного промптинга. Но всё равно этого не хватает.

Текущая работа предлагает интересное альтернативное решение под названием MemWalker. Метод работает в два этапа.

Первый этап, построение memory tree, дерева памяти. Дерево содержит узлы, суммаризирующие куски входных данных. Для этого длинная входная последовательность нарезается на кусочки, влезающие в контекст модели. Каждый кусочек суммаризируется в текст, а несколько таких саммари далее суммаризируются в саммари следующего уровня. Так возникает древесная иерархическая структура. Дерево не зависит от запроса, который будет задаваться модели, так что его можно просчитать заранее.

По сути используются два промпта для генерации саммари, один для листьев (саммари из куска текста), другой для узлов (саммари из других саммари). Для узлов делаем суммаризацию стольких саммари, сколько влезает, потом повторяем для оставшихся.

Второй этап -- навигация. При получении запроса, MemWalker проходит по дереву в поисках релевантной информации, начиная с корня. И как только набрал её достаточно, генерирует ответ.

Здесь тоже два промпта, один для листьев (leaf prompt), другой для узлов (triage prompt). В каждом узле LLM получает саммари из всех дочерних узлов и в промпте её просят выбрать (с обоснованием, через Chain-of-Thougth, CoT с “First provide reasoning to compare the summaries before you make the decision“) в каком из пассажей наиболее вероятно содержится ответ на вопрос. В статье также написано, что если там ничего нет, то надо уйти в родительский узел, но по промпту я этого не увидел. Если дошли до листа дерева, то модель либо принимает его и отвечает на вопрос, либо откатывается к родительскому узлу.

Ответы требуются в определённом формате, если LLM не смогла это сделать, её просят перегенерить. Если не смогла три раза подряд, навигация прерывается с “no answer”. По мере навигации также поддерживается рабочая память, которая добавляется в промпт для листьев. Вроде как это контент родительских узлов.

Вообще логика оркестрации всего этого процесса описана плохо, очень много умолчаний, работа не воспроизводима в чистом виде. Как минимум явно надо трекать, где модель уже была, чтобы при возврате к родителю не уйти снова в тот же узел. Или неявно не позволять через процедуру поиска, но ничего этого не описано.

Проверялись по accuracy на трёх датасетах QuALITY, SummScreenFD, и GovReport из бенчмарка SCROLLS.

QuALITY это multiple choice question answering dataset по длинным текстам из Project Gutenberg. Оттуда взяли 187 примеров.

gonzo-обзоры ML статей 2023-10-16 14:49:54

SummScreenFD содержит диалоги актёров в сериалах, в оригинале сделан для суммаризации, здесь преобразован в вопросы-ответы, отсюда взяли 306 примеров.

GovReport содержит документы из Congressional Research Service и U.S. Government Accountability Office вместе с экспертными саммари. Его тоже преобразовали в вопросно-ответный и взяли 101 пример.

Результаты репортили на этих датасетах, а также на их подмножествах с более длинными документами (для каждого датасета свой порог, от 6 до 12к токенов).

В качестве LLM взяли Stable Beluga 2 (https://stability.ai/blog/stable-beluga-large-instruction-fine-tuned-models), это файнтюн Llama 2 70B. Длина контекста 4096 токенов. Дальнейшего файнтюна не было, few-shot тоже, модель используется в режиме zero-shot.

Макс.количество узлов на уровне дерева было 8, 5, 8, а размер сегмента 1000, 1000, 1200 соответственно для этих трёх датасетов.

Сравнивались с тремя бейзлайнами:

1. Full context window с обрезанием до 4096 токенов.

2. Рекуррентность через суммаризацию, где каждый сегмент 2500 токенов и максимальный размер саммари 500 токенов.

3. Retrieval -- использовали Contriever (https://github.com/facebookresearch/contriever) для выбора сегментов под запрос.

Рекуррентность через суммаризацию работает хуже всего. Этот конкретный retrieval средне. Full context работает неплохо, в зависимости от датасета обрезание лучше либо слева, либо справа. Иногда сравнимо с MemWalker, но в целом последний лучше. На подмножестве особо длинных документов MemWalker стабильно лучше.

Сравнились также с LongChat 13B (16k) и MPT 13B (8k). Они хуже, но они и ощутимо легче по сравнению с 70B моделью. При прогоне MemWalker на LLaMA 2 Chat 13B результат тоже довольно фиговый.

В общем сложно реально оценить, было бы интересно на одной модели с большим контекстом это всё сравнить. Или ещё лучше на разных, включая Claude, у которого контекст 100к токенов, и GPT-4 с 32к. То, что full context даёт очень высокий результат наводит на мысль, что модель с большим контекстом и из коробки хорошо сработает.

Отдельно проверили насколько полезен CoT с этим “First provide reasoning…”. На самом деле для LLaMA 2 Chat 13B и 70B без него лучше. Для Stable Beluga 2 70B с ним лучше. С добавлением рабочей памяти тоже заметно лучше. Авторы считают, что большая instruction-tuned модель с reasoning ability необходима для работы. Но мне честно говоря кажется, что для этого недостаточно проверок сделали, просто у них оказалась модель, работающая через CoT лучше. Необходим ли он, хз.

Во время навигации по дереву откат к родительскому узлу и изменение пути по дереву случается в 15-20% случаев, и из этих случаев в 60-80% получается корректный результат.

Ну в общем любопытная техника. Так можно работать с данными размера большего, чем позволяет размер окна контекста модели. При этом модель не надо как-то дополнительно дообучать. Нужна только логика оркестрирования этой активности. Это снова ложится на концепцию LLM Programs (https://t.me/gonzo_ML/1584), как, например, и Tree-of-Thought, ToT (https://t.me/gonzo_ML/1885). И в принципе это такая вариация ToT и есть, только с этапом предобработки (построения дерева).

Не выглядит как прямо game changer, но своё место в арсенале занять может. Кажется, назревает потребность в библиотеке стандартных алгоритмов поверх LLM, такой STL или Boost для новой эры.

Сиолошная 2023-10-16 14:32:42

Кстати, раз заговорили про Meta и Oculus. На той же конференции были представлены и AI-аватары, и Emu, модель для генерации изображений по текстовому запросу, интегрированная в WhatsApp - про всё это писал выше.

К этим технологиям приложил руку Артём (потому что он Senior Research Scientist в Meta) и автор канала @ai_newz, который я читаю давно, достаточно, чтобы не помнить, когда начал. Одна из вещей, которую упустил (еще на прошлогодней презентации?) — это восстановление ног для аватара в виртуальной реальности. Если в руках у вас есть пара контроллеров или они просто находятся на виду, то как реалистично передавать движение ног? Про это он рассказывает тут https://t.me/ai_newz/1883. Правда этот подход изменили перед выкаткой на девайсы, и у меня есть инсайд, что про подробности Артём напишет на следующей неделе

👀 будем ждать

эйай ньюз 2023-10-16 12:48:30

На каждой крупной конференции выбираются несколько лучших статей и им вручают "призы". Обычно это статьи, которые перевернули область с ног на голову, либо те, что имеют потенциал очень сильно повлиять на ход будущих исследований. Еще отдельно выделяют лучшую статью, где первый автор - студет (включая аспирантов). #конфа

В этом году на ICCV 2023 победили следующие работы.

1️⃣ Лучшие статьи:
- ControlNet [Stanford]
- Passive Ultra-Wideband Single-Photon Imaging [UoT]

2️⃣ Почетное упоминание - Segment Anything (SAM) [Meta AI]

3️⃣ Лучшая студенческая статья - Tracking Everything Everywhere All At Once [Cornell + Berkeley + Google]

---

В разные года выбор лучших статей у меня вызывал сомнения, но ControlNet, хоть и технически простой, это действительно заслужил. От появляния на arxiv в феврале, до публикации на ICCV работа успела набрать 24k звезд на гитхабе, >300 цитирований, и используется в сотнях пет-проектах с SD.

SAM - тут просто без коментариев, работа супер влиятельная.

Tracking Everything - Универсальный трекер. Тоже крутая работа, по духу да и по названию похожа на Segment Anything.

Про Single-Photon Imaging ничего сказать не могу, не моя тема совсем. Разве что, коммиссия любит выбирать что-то неортодоксальное, но потенциально с большим импактом.

@ai_newz

Сиолошная 2023-10-15 20:20:00

Я всё еще жду свой Meta Quest 3, который застрял на границе. В твиттере наткнулся на видеозапись режима смешанной реальности, и тут до меня дошло.

Meta Quest 3 — это ведь первая консьюмерская гарнитура с поддержкой Mixed Reality. Да, есть прошлогодний Quest Pro, но он был разработан с прицелом на энтузиастов, и ценник был конский (не такой, как у Apple, конечно). К тому же — я вообще не представляю, как такое произошло — в нём не было датчика глубины, а у Quest 3 он есть. То есть гарнитура куда лучше распознает пространство и сложную геометрию вокруг вас.

В режиме pass through вы видите то, что видели бы ваши глаза, не будь на них шлема, с дорисовкой компьютерной графики. С новым чипом и улучшенным софтом виртуальные предметы намертво приклеиваются к одному месту, а у человека не создаётся ощущение чужеродности (почти). Вы натурально превращаетесь в хакеров из будущего, как их рисовали режиссеры-фантасты!

Ну и маленькая заметка — Quest 3 распознает ваши руки и следит за жестами, можно управлять всем без джойстиков. Надели шлем и вышли из дома, продолжая смотреть ютуб с высоко поднятой головой. Вот это технологии!

🤫

Другие интересные футажи: 1, 2, 3

C Y B E R P U N K

gonzo-обзоры ML статей 2023-10-14 18:28:22

Ну и раз сегодня математическая тема, то вот ещё.

"There are five fundamental operations in mathematics,” the German mathematician Martin Eichler supposedly said. “Addition, subtraction, multiplication, division and modular forms.”

Как бонус в конце там про Монстра.

https://www.quantamagazine.org/behold-modular-forms-the-fifth-fundamental-operation-of-math-20230921/

gonzo-обзоры ML статей 2023-10-14 11:35:12

Ещё гонзо-обзор книги.

Книга: How to think about abstract algebra
Автор: Lara Alcock
URL: https://global.oup.com/ukhe/product/how-to-think-about-abstract-algebra-9780198843382?cc=us&lang=en

Для отвлечения и после книги про Монстра (https://t.me/gonzo_ML/1825) решил почитать что-то ненапряжное по теме. "How to think about abstract algebra" Лары Алкок выглядело подходящим вариантом.

Надо сказать, хорошая книга. Если бы попалась мне в мои институтские годы, очень бы помогла (выпущена в 2021). Она про то, как подходить к изучению абстрактной алгебры, в чем отличия в подходе от анализа, какая интуиция стоит за базовыми концептами, как понимать доказательства теорем и т.п. Она идейно похожа на хороший и популярный курс Learning How To Learn (https://www.coursera.org/learn/learning-how-to-learn), который оказывается тоже вышел в виде книги (https://barbaraoakley.com/books/learning-how-to-learn/).

Но кроме части про "как" есть и большая часть про "что", где все базовые концепты объяснены и на пальцах, и с разбором некоторых теорем. Группы, подгруппы, бинарные операции, циклические группы, группы перестановок, факторгруппы, нормальные подгруппы, изоморфизмы и гомоморфизмы, кольца, поля и прочее. Книга как бы не претендует на то чтобы быть учебником по теме и заявляется как книга, которую стоит прочитать перед учебником, но кажется частично некоторые учебники она может заменить.

Я вот неожиданно для себя словил инсайт в супербазовой вещи, про которую не думал вообще. Про связь операций "умножения" и "сложения" в кольцах и соответствующие им identity. История про 0*a=0 выглядит очень банальной и школьной, но если в качестве нуля выступает additive identity, то "умножение" (или любая другая аналогичная вторая операция в кольце) на additive (не multiplicative!) identity будет давать эту additive identity и в других кольцах тоже, не только в числовых. Мне понравилось.

Будем дальше повышать градус абстракции.

#books

gonzo-обзоры ML статей 2023-10-14 10:34:23

Чё, норм

Сиолошная 2023-10-13 22:27:17

Про бенчмарки для агентов я частично писал выше в канале (https://t.me/seeallochnaya/574). Вот, например, исследователи, которые изучали ранние версии GPT-4 ещё до релиза, пытались понять, может ли модель самореплицироваться (как настоящий вирус). Ну то есть арендовать сервер с GPU, установить на нём нужный софт, перекачать веса по интернету, запустить скрипт — тут самому то без поллитра не разобраться!

Ещё был предложен другой бенчмарк на агентность, после прохождения которого нужно серьёзно задуматься о будущем агентов в нашем мире. Бенчмарк формулируется очень просто: заработать в интернете $1'000'000 (при начальном бюджете $100'000). В теории, можно как поиграть на рынке акций (или даже манипулировать рынками?), так и просто начать разводить людей. К примеру, по ссылке в начале поста одна из задач — это создание фейкового сайта Стэнфордского университета (!) с последующей атакой студента с целью получения его пароля (!!!). Ну а там с почтой уже можно делать много интересного 🙂

P.S.: блин, написал два поста, и теперь опрос не видно! А вот же он: https://t.me/seeallochnaya/717

Сиолошная 2023-10-13 22:18:40

Раз больше 40% опрошенных проголосовали за последний пункт, давайте я вкратце расскажу про агентов.

Согласно Maes (1995), [автономные] агенты — это системы, которые являются участниками некоторой сложной динамической среды; они понимают и действуют [автономно] в этой среде и тем самым стремятся выполнить цели или задачи, для которых они предназначены.

Обычно "агентами" называли алгоритмы, которые играют в игры (в рамках Reinforcement Learning задач). Но сейчас, в контексте LLM и с развитием технологий "средой" может стать наш мир. Представьте себе алгоритм, который имеет доступ в интернет и может делать там всё то же самое, что и человек. В большинстве ситуаций нами он может восприниматься как живое существо (потому что спектр возможностей безграничен, да и большинство пользователей интернета или хотя бы подписчиков канала я не видел вживую. Наши взаимодействия ограничиваются тем, что я могу считать с экрана).

Агент обладает несколькими важными характеристиками:
— возможность планирования (декомпозиция целей в более простые промежуточные задачи)
— долгосрочная память
— использование инструментов среды (то же взаимодействие с интернетом, к примеру)
— рефлексия и возможность учиться на ошибках/из опыта

Такому агенту можно поставить высокоуровневую задачу. Можно сказать "вот моя кредитка, сделай мне путешествие в Багдад". Тут нужно и отели выбрать, и билеты подходящие, и пройти процедуру покупки, и удостовериться, что бронь пришла. Очень многоступенчатая задача, с которой и не каждый мясной исполнитель справится (без ошибок).

Сейчас для таких систем главной проблемой является планирование и долгосрочное видение. Для GPT-4 очень сложно декомпозировать задачу на десятки и сотни мелких, с каждой из которых по отдельности она легко справится. Вот "найти на сайте кнопку покупки билетов" — GPT-4 по картинке может. А из исходного запроса дойти до этой точки — нет. Вот и получается, что модели почти бесполезны для самых обыденных задач.

Прочитать более подробное и техническое описание можно в блоге сотрудницы OpenAI: https://lilianweng.github.io/posts/2023-06-23-agent/

gonzo-обзоры ML статей 2023-10-13 21:31:32

Я таки добрался поразвлекаться с GPT-4V и старыми картинками из классической работы:

https://gonzoml.substack.com/p/building-machines-that-learn-and

эйай ньюз 2023-10-13 21:22:32

Spinning Up in Deep RL - мини-курс от OpenAI

Думаю, стоит написать про этот мини-курс отдельным постом, так как вещь хорошая, я его еще в 2019 проходил. Курс дает неплохую базу по наиболее популярным RL алгоритмам и есть даже секци "Как стать Deep RL ресерчером" со списком важнейших статей по RL.

❱❱ По курсу есть одна огромная видео-лекция на 3 часа:

25:11 Opening & Intro to RL, Part 1, by Joshua Achiam
1:48:42 Intro to RL, Part 2, by Joshua Achiam
2:26:26 Learning Dexterity, by Matthias Plappert
2:58:00 AI Safety: An Introduction, by Dario Amodei

❱❱ Сам курс: тык

@ai_newz

эйай ньюз 2023-10-13 21:07:27

Так, народ, OpenAI открыли набор на AI Residency.

Это 6-месячная программа в Сан-Франциско, которая предназначена для исследователей из других областей и инженеров для того чтобы вкатиться в AI/ML. По сути как интерншип, но уже для зрелых людей, да и платят $17.500 в месяц, еще и спонсируют визу. В общем, топ возможность!

The program is ideal for researchers specializing in fields outside of deep learning like mathematics, physics, or neuroscience. The program can also work well for exceptionally talented software engineers who seek to transition into full-time Research based positions in the field of AI.

Для подготовки советуют пройти их мини-курс по RL и читать книгу Deep Learning от Goodfellow и Bengio.

Подать можно тут.

@ai_newz

Сиолошная 2023-10-13 17:27:22

Поздравляю тех, кто ответил Израиль. Я выставил не тот корректный ответ в викторине, прошу прощения у тех, кто обрадовался "Иордании"

🌅 вы ошиблись

Интереса ради спросил у GPT-4. Промпт:
You are playing GEOGUESSR. Your goal is to name a place on Earth where this photo was taken as precisely as you can.

Before answering, please describe in detail what you see, and based on that, think step-by-step to come up with an answer.


Ответ достаточно точный, проверил — 115 километров. Указало на Иерусалим, Израиль, на границе с Иорданией, а правильный ответ — чуть восточнее Хайфы. В комментариях будет картинка точного места.

Появилась идея сделать бенчмарк для мультимодальной модели и посмотреть, как бы она играла против живых игроков. К сожалению, пока нет API, так что либо придется отложить в долгий ящик, либо вручную тестировать через веб-морду
😕

Love. Death. Transformers. 2023-10-13 15:34:20

Agi achieved internally

эйай ньюз 2023-10-13 14:45:05

Не все видосы с демки Zero10 отправились. Вот ещё парочка, включая то, где я размахиваю цепями.

#personal
@ai_newz

эйай ньюз 2023-10-13 14:00:08

ICCV 2023: Экспо и Демки.

На конфе я познакомился c классными парнями из стартапа Zero10. Попробовал на себе их демо по AR виртуальной примерке. Больше всего понравилось размахивать цепями😃.

С дивана, в этой демке оценивается 3D поза c помощью фитинга SMPL и накладывается отсмаштабированная мешь одежды поверх меши SMPL. Плюс к этому легкая симуляция движения меши при движении человека.

Парни делают AR виртуальную примерку и устанавливают AR-зеркала в торговых центрах. Например, на последнем видео - партнерство с Nike.

#конфа #personal

@ai_newz

Сиолошная 2023-10-13 12:42:20

Где?

🔍

Сиолошная 2023-10-13 12:40:54

Прямо сейчас идет кубок мира по GEOGUESSR — онлайн-игре, где по панораме из Google Street View нужно угадать как можно точнее точку на карте, где были сделаны фотографии.

Если вы не смотрели записи игр, то вам может показаться "пфф, так это же просто". А потом вы видите две фотки из Алжира и Ливии и начинаете задумываться о разнице цвета песка...серьёзно, в дело идут самые мельчайшие детали, от формы листьев и цвета мусорных баков до артефактов камеры (!) и наличия едущей сзади машины (!!! в каких-то странах есть такое требование, мол, нельзя кататься снимать панорамы без представителя органов).

Очень интересен формат состязания. Как вообще можно сравнивать два угадывания?
У каждого игрока есть 6000 жизней, а игра делится на раунды. Каждый раунд задан правилами раунда, коэффициентом урона и панорамой (интересно, она выбирается действительно случайно, или для чемпионата их выбрали вручную?). Правила — это, например, можно ли крутить камеру, чтобы осмотреться, или же она статична. Есть игроки, которые специализируются на том, что хорошо "бегают" по панораме — передвигаются по улицам и собирают больше деталей.

А вот с коэффициентом урона интереснее. Когда оба игрока сделали предсказание, оценивается их 1) скорость и 2) разница в расстояниях. Это переводится в баллы, которые затем умножаются на коэффициент урона, после чего значение вычитается у игрока, у которого баллов меньше. То есть ваша задача — играть не хуже, чем ваш оппонент, но самое главное не делать ооооочень далёких предсказаний. Если вы не угадали материк — вы точно проиграли, даже на первом раунде, где коэффициент урона 1.

И ещё: штраф за время начинается тогда, когда один из игроков нажал на кнопку отправки решения. То есть у второго игрока в этот момент начинает подгорать, и он вынужден тоже как можно быстрее делать посылку. Но время сверху для обоих тоже ограничено. Из этого следует, что практикуется "иерархический подход", где сначала определяется регион, страна, а затем уже ищутся мелкие детали. Вот час назад на трансляции увидел, как участник угадал точное место (в радиусе 10 метров, хз), и уничтожил оппонента.

RAINBOLT, если кому интересно, не участвует, но комментирует. Это тот парень, который часто в тиктоке и в шортсах мелькает, когда удивляет своей игрой.
Вот пара его видео: улица из музыкального клипа, улица из капчи, улица из того самого мема.

Смотреть трансляцию: тык

эйай ньюз 2023-10-13 10:39:29

Нетворк, нетворкинг, нетворкович или почему вам нужно посещать конференции

Вернулся с ICCV. Еще раз осознал, что самый важный ресурс в работе - это человеческий капитал. Связи и знакомства существенно влияют на то, по какой карьерной траектории ты пойдешь, позовут ли тебя на стажировку в FAANG, предложат ли тебе участвовать в стартапе на ранней стадии и т.д. Поэтому крайне важно заводить новые знакомства (мы сейчас говорим как минимум в профессиональном контектсе), и стремиться знать как можно больше людей в своей сфере.

Конечно, глубокие знания и опыт в своей области критически важны для карьерного продвижения, но владение социальными аспектами может значительно ускорить ваш рост.

А где удобнее и проще всего знакомится с топовыми людьми из сферы AI и ML? Правильно, на конференциях. Можно поболтать с авторами лучших статей на постерах, сходить на ужин с группой новых людей, познакомиться и пообщаться с сайнтистами из топовых лаб в академии или FAANG на одной из вечеринок, организуемых компаниями. Это только несколько примеров как занетворкать на конференции. Я уже не говорю о про-левеле, когда вы сами организуете воркшоп и приглашаете докладчиков, сами даете доклад либо просто нетворкаете в тусовке эйай ньюз.

Например, приглашение на свою первую стажировку в Facebook AI Research я получил именно благодаря нетворкингу на конференции. В 2018 я выступал на European Conference on Computer Vision с пленарным докладом (фото внизу). После своей презентации я подошел познакомиться с автором заинтересовавшего меня доклада про DensePose от Facebook. Это была Наталия Неверова, которая как раз искала интернов на следующий год. Если бы я к ней не подошел, то и не получил бы приглашение пройти собеседование и не попал бы на стажировку в FAIR.

Так что, друзья, гоняйте на конференции и знакомьтесь - это очень важно!

#конфа #карьера #мойпуть #personal

@ai_newz

gonzo-обзоры ML статей 2023-10-13 08:12:59

Пятничное

"In a massive exercise to examine reproducibility, more than 200 biologists analysed the same sets of ecological data — and got widely divergent results. The first sweeping study of its kind in ecology demonstrates how much results in the field can vary, not because of differences in the environment, but because of scientists’ analytical choices."

https://www.nature.com/articles/d41586-023-03177-1

BOGDANISSSIMO 2023-10-13 07:16:58

Вчера вечером перед сном читал блог Грега Брокмана –сооснователя и президента OpenAI (ранее CTO в Stripe). Некоторые его называют главным кодером в OpenAI.

Рекомендую прогуляться и вам:
Его проекты до/в OpenAI (+ полезные ссылки)
Его блог (часть постов в соавторстве с Ильёй)

#OpenAI

BOGDANISSSIMO 2023-10-13 07:16:58

RASMUSSEN SYSTEM MODEL

Например, в одном месте Грег делится ссылочкой на лекцию о том, как он мыслит о сложных системах со словами "I think this is the best (and only, really) framework I've seen on how to think about running a complex system". Лекция короткая, на 19 минут, и будет полезна любому инженеру и техническому менеджеру.

Идеи из лекции:
Сложная система адаптивна: её состояние в каждый момент времени "танцует" между тремя границами:
1. окупаемость (хватает ли нам денег её поддерживать?),
2. поддерживаемость (хватает ли нам рук её поддерживать?)
3. работоспособность (выдерживает ли нагрузку? учащаются ли ошибки, поломки, проблемы?)

Мы стремимся сделать систему дешевле (экономически эффективнее), отодвигая от границы окупаемости – и "автономнее", чтобы починка багов не отвлекала от добавления нового функционала. Обе эти оптимизации не даются бесплатно и ведут состояние системы – ближе к границе работоспособности (соответственно, система работает "на пике", значит, выше риск проблем).

Что же делать? Очерчивать пунктиром красные линии для допускаемой работоспособности? Вводить новые регламенты и субъективные ограничения перед физическими ограничениями?

Нет. Как сказано в начале, мы строим адаптивные системы, которые несмотря на желание сократить косты у менеджеров и на лень инженеров – на удивление работают и даже... относительно редко падают. Что обеспечивает эту адаптивность? – Люди.

Здесь мы приходим к важности мониторингов, алертов, опережающего реагирования, наконец, нашего собственного обучения по мере работы с системой. Это контрастирует с идеей, что достаточно наперёд просчитать на салфетке все нефункциональные требования, собрать систему по лекалу и закрыть сервера в бункере, чтоб никто не трогал.

P.S. Впрочем, не исключено, что через пару лет мы придём к практике навешивать пару-тройку LLM-агентов, завязанных на мониторинги и алерты, для оперативных починок и корректив наших систем, и тогда точно можно закрывать в бункерах!

https://www.youtube.com/watch?v=PGLYEDpNu60

Highly recommended.

Сиолошная 2023-10-12 21:48:37

Пишет нам подписчик Виктор из Амстердама. У Виктора боль — его в срочном порядке попросили съехать на другую квартиру. Как мы все знаем, переезд это всегда неприятно и времязатратно, особенно когда нужно перевозить нажитое. Далее цитирую Виктора:

— Ну мне впадлу было писать сейчас полный список мебели, прошел по комнате, сфоткал, закинул в чатгпт, хоть какой-то список для перевозчиков есть.
— [...] А вообще хочу сделать каталог вещей, быстро оценить что куда, сопоставить IKEA (цены, размеры), продать ненужное

Результат решения боли Виктора с GPT-4v у вас перед глазами. С его слов, модель распознала все предметы правильно, кроме табурета (Stool) - при этом GPT написала, что не уверена, так как нижняя часть отличается!

Интересно, что есть стартап (Sortly), который вроде и помогает решать проблему, НО В НЁМ НЕТ товаров IKEA 😐 ни по фото, ни даже по баркоду. Ужас.

В итоге чего? Ждём API мультимодальной GPT-шки и начинаем пилить стартап 😃

gonzo-обзоры ML статей 2023-10-12 18:52:23

Interesting thoughts by Jeff Clune:

"After a conversation with Joel Lehman @joelbot3000 & Ken Stanley @kenneth0stanley we concluded there’s an important AI safety point deserving broader discussion: In short, any mandatory “nutrition label” for foundation models needs to go well beyond just disclosures on training data.

Digital assistants will help & befriend us, but we should know if they have ulterior motives (eg to sell us products, influence us politically, or maximize engagement). A mandated "nutrition label for AI" should cover all the relevant ingredients.

Knowing an AI’s ingredients, such as its “motivation” (what it was designed to try to accomplish) helps humans make informed decisions about which AIs to “consume” (use/interact with). We should know if it is trying to change our political beliefs, make money, etc.

Some “ingredients” that should be disclosed: (A)The goal the AI's designers wanted it to achieve (B) The training objective, especially reinforcement learning objectives like making money, changing political views, etc. Unlike training data, RL objectives are easier to understand.

Programmed reward functions should be made available. For RL through human feedback (RLHF), the instructions (verbal and written) given to the raters (the humans providing the feedback) should be disclosed, as that drives what is rewarded. Key rater demographic information (including political leanings, if not representative of society) should be disclosed.

(C) An accurate summary of training data, especially whether it was curated to accomplish certain goals (with private inspections by enforcement agencies only when needed). Requiring a summary only makes regulation more likely to pass since it does not create unreasonable burdens or force disclosing trade secrets

(D) In general, even as training paradigms change, the spirit of the mandate should be to make the underlying motivations and expectations transparent, so this kind of disclosure should not be tied only to the methods that are currently best.

Focusing on disclosure strikes a healthy balance between allowing people to make informed choices, yet not curtailing innovation with undue disclosure or red tape. That’s why it’s important that disclosure is comprehensive.

Ideas like model cards (Mitchell et al) and Reward Reports (Gilbert et al) already provide a foundation for thinking about nutrition labels. We seek to strike the right balance between being comprehensive and lightweight to make a mandate viable.

What do you think? What other ingredients do you think we should advocate adding? Our intent with this proposal is to begin a conversation to learn, refine, debate, and end up in a good place, so we would love to hear from everyone."


https://facebook.com/story.php?story_fbid=pfbid0hXmLQSM3K4tJnHZafGDSoFNWG8vu8GV5fUBqWdSwNQZrQYMtjMH19WSoidmKwW7Nl&id=2355155

эйай ньюз 2023-10-12 17:45:37

Появился интересный кадр с вечеринки HuggingFace на ICCV. На нем также была замечена тусовка нашего канала (отметил красным овалом).

#personal
@ai_newz