Нейролента Mikitos.ru 2736 постов. Страница 34 (50 постов)
Data, Stories and Languages 2023-10-31 15:19:56
Midjourney, Stability AI and DeviantArt win a victory in copyright case by artists
С тех пор, как появился Stable Diffusion в интернете, идут жаркие споры между художниками и теми, кто генерирует картинки с помощью AI. У обеих сторон есть много аргументов. Основной аргумент художников заключается в том, что их работы были использованы без их разрешения и включены в коммерческие продукты. Недавно дело дошло до суда... и недавно судья в Калифорнии принял сторону этих продуктов.
Если точнее, трое художников подали иск против трех компаний по обвинению в нарушении авторских прав. В свою очередь, эти компании подали ходатайство о прекращении дела. Судья удовлетворил это ходатайство, заявив, что в жалобе есть много проблем. Основная причина такого решения заключается в том, что художники не зарегистрировали авторские права на каждую из своих работ.
Однако судья отметил, что если художники сосредоточатся только на тех работах, на которых были зарегистрированы авторские права, то разбирательство может быть продолжено.
🍿В общем интересно наблюдать за происходящим.
Первоисточник
Обсуждение
#datascience
Neural Shit 2023-10-31 14:50:59
Shut up and take my money!!!
Neural Shit 2023-10-31 14:33:05
Киберпанк, который мы заслужили
Сиолошная 2023-10-31 14:23:08
История с YouTube, из доклада менеджера в OpenAI:
Команда безопасности OpenAI заметила, что какая-то группа пользователей занималась реверс инженерингом (попытка по внешним признакам воспроизвести устройство, программу или иной объект с аналогичными функциями, но без прямого копирования) и злоупотребляла внутренним API ChatGPT. Вместо того, чтобы заблокировать весь трафик, они быстро заменили ChatGPT на CatGPT… а затем зашли в Discord злоумышленников, чтобы наблюдать за потоком сообщений там.
Легенды...
UPD: к посту было прикреплено 4 скриншота, но вы видите только один. Спасибо Дурову и команде, как обычно, лучшие. Впрочем, вы можете кликнуть по ссылке на видео в начале сообщения и посмотреть 3 минуты доклада сами
Neural Shit 2023-10-31 13:10:16
Немножко проклятого контента: разные животные с человеческими зубами
Сиолошная 2023-10-31 08:20:56
Вышло уточнение по поводу планки мощностей, используемых для тренировки модели, выше которой необходимо сообщать государству о факте обучения.
Порог этот — 1e+26 операций (один и 26 нулей) с числами (целыми или с плавающей точкой). Итак, порог 1e+26 FLOP, много это или мало? Прислушались ли политики к советам Sam Altman ограничивать только большие модели, или это как-то влияет на стартапы и опенсурс?
Расчёт создателя PyTorch Soumith Chintala даёт оценку самой мощной модели Facebook LLama2-70B: 1.1e+24 FLOP. То есть это в 100 раз меньше порога. У детишек, в общем, игрушки не отнимут
GPT-4 оценить сложно, но если верить слухам, гулявшим летом, то для её тренировки использовалось ~25,000 видеокарт A100 на протяжении 90-100 дней с утилизацией примерно 32%-36% (то есть GPU 2/3 времени простаивает, говоря грубо). Это даёт ~2.15e+25 FLOP, что в 5 раз ниже порога. Даже вот такая передовая мощнейшая модель НЕ ПОПАДАЕТ под регуляции.
Плюс, повяилось уточнение, что необходимо также сообщать о построенных кластерах, если их мощность больше 1e20 FLOPS (операций в секунду), то есть 100 ExaFLOPS. Сейчас самый мощный суперкомьютер в мире (согласно рейтингу Top-500), Frontier, имеет всего ~1.5-12 ExaFLOPS (в зависимости от точности вычислений). Выводы делаем сами
Мой прогноз: первая заявленная по этой программе модель будет от OpenAI в 2024м (не в первой половине), чтобы показать пример, что это не больно и не страшно
Neural Shit 2023-10-30 15:32:24
Где получить рабочий опыт и заполнить пробелы в знаниях, чтобы с легкостью проходить собесы в крупные компании?
Приходите на Симулятор ML. Под руководством ведущих Data Scientists вы не просто прокачаете отдельные навыки, а поймёте, как сводить бизнес-задачи к задачам машинного обучения — всё как на настоящей работе.
Вы научитесь:
- Понимать, какие у бизнеса есть проблемы и какими метриками их можно измерить
- Проводить А/В-тесты, чтобы подтверждать прирост метрик
- Формулировать задачу для модели
- Выбирать подходящую модель и обучать её
- Организовывать процесс доставки данных для модели
- Оборачивать модель в сервис и деплоить его
После симулятора вы сможете успешно пройти собеседование на позицию в сфере Machine Learning, получить хорошую работу и приносить пользу бизнесу уже с первых дней.
Кстати, у Симулятора есть бесплатная демоверсия, начать учиться можно бесплатно
[Начать учиться]
Реклама. ООО "Карпов Курсы". Erid: LjN8KSdQr
Метаверсище и ИИще 2023-10-30 15:07:32
Ну и после прочтения материала про указ Байдена по регулированию ИИ у меня нехорошее чувство.
Вынесу из коментов вот такую логичную реакцию:
"хотите использовать llm в бизнесе? а где ваша лицензия на использование больших языковых моделей? а ваш тюн сертифицирован? Ой, ну вот незадача, ваша исследовательская команда получает штраф десять палок по пяткам. Пока на замену можем вам предложить опенаи апи. О, за защиту данных не беспокойтесь, все защищено государством."
И действительно, похоже на то, что нас ждет нашествие адвокатов, нотариусов и контор, которые "за умеренную цену" сделают вам разрешение н
Дальше придут аудиторы, чтобы проверять кошерность ваших LLM и скрепность генераторов картинок - соответствуют ли ваши опенсорсные модели и файнтюны очередного Фалькона линии партии.
Внедряете ИИ? Покажите ваши сертификаты, разрешения, лицензии, справки из ИИ-диспансера.
Хотите заработать денег - уже сейчас переобувайтесь в юридические ИИ-консультации.
ИИ уже в курсе, судя по картинкам.
Сиолошная 2023-10-30 14:06:28
Вышло
Я, может, не туда смотрю, но тут деталей что кот наплакал. Начнём с главного:
— компании, разрабатывающие любую foundation model (большая модель общего назначения. Какие точные критерии? а нет их!), которая представляет серьезный риск (как определить? какие критерии?) для национальной безопасности, экономики или здравоохранения, уведомляли правительство при обучении модели (перед обучением? по факту?), а также делились результатами всех тестов безопасности (а если мои “все” тесты — это 3 строчки?).
— National Institute of Standards and Technology будет ответственнен за разработку тестов и стандартов тестрования
— Министерство торговли (что? почему?) разработает руководство по аутентификации контента и нанесению водяных знаков для четкой маркировки контента, созданного искусственным интеллектом.
— Упоминается конкурс DARPA (в партнерстве с OpenAI, кстати), призванный стимулировать создание программу кибербезопасности для разработки инструментов искусственного интеллекта для поиска и устранения уязвимостей в критически важном программном обеспечении (читай “AI будут подсказывать, где могут быть уязвимости”)
Также предлагается расширить возможности высококвалифицированных иммигрантов, обладающих опытом в важнейших областях, и упростить для них процесс попадания на работу путем модернизации и оптимизации визовых критериев, собеседований и проверок (конкретных мер не предлагается).
Плюс, отдельно выделяется необходимость анализа и ускорения интеграции AI в образование и медицину, включая разработку доступных и life-saving лекарств.
Остальные уточннеия будут в отдельном 111-страничном документе, который ещё не опубликован. Ждом.
UPD. мои первые мысли по поводу Указа Белого дома по ИИ: радостно видеть такой сильный акцент на тестировании и оценке систем ИИ — невозможно управлять тем, что не можешь измерить.
эйай ньюз 2023-10-29 22:25:50
Ещё раз про ликбез вокруг ChatGPT
Если вам понравилась лекция Карпатого про тренировку ChatGPT (я писал о ней тут), то советую также глянуть на русском языке лекцию Игоря Котенкова "RLHF Intro: from Zero to Aligned Intelligent Systems" в рамках DataFest 2023, которая покрывает историю развития LLMок и даёт пищу для размышлений.
Игорь ведёт канал @seeallochnaya, а также его можно знать по популярным постам на хабре, например, как работает ChatGPT "на пальцах" для нетехнарей - вот ссылка. Пост, кстати, вошел в топ-10 самых залайканых на Хабре в этом году!
@ai_newz
Сиолошная 2023-10-29 19:35:34
gonzo-обзоры ML статей 2023-10-29 11:04:49
Mindstorms in Natural Language-Based Societies of Mind
Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Piękos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanić, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber
Статья: https://arxiv.org/abs/2305.17066
Сегодня воскресный лонгрид. Для тех, кто любит позабористее! И Шмидхубера.
Работа отсылает к “society of mind” (SOM, не путать с Self-organizing Maps) Марвина Минского (https://www.youtube.com/watch?v=-pb3z2w9gDg), модели разума, составленного из множества взаимодействующих агентов.
Эта работа в чём-то близка к другой недавней клёвой работе про Generative agents (https://t.me/gonzo_ML/1481), которая мне очень нравится.
В нейросетевом мире многое при желании можно трактовать как SOM (Шмидхубер трактует как SOM даже RNN’ки), потому что есть множество сетей, собранных из других сетей, те же GAN’ы, например. Но эти, назовём их, “старые SOM” имеют жёсткие фиксированные интерфейсы заточенные под задачу. С прошлой десятилетки идёт движение к большей гибкости интерфейсов, у Шмидхубера была тема про рекуррентные модели мира и learning to think (https://arxiv.org/abs/1511.09249) и ОДНУ БОЛЬШУЮ СЕТЬ (https://arxiv.org/abs/1802.08864). В этой менее жёсткой коммуникации сеть могла опрашивать другие сети через векторные интерфейсы. В развитии это ведёт к мультимодальным нейросообществам, состоящим из множества интервьюирующих друг друга сетей.
Для решения задачи различные модули SOM могут общаться между собой и вести так называемый “мозговой штурм” (mindstorm) со множеством раундов коммуникации. Авторы были вдохновлены успехом различных форм коммуникации в человеческих обществах типа мозгового штурма, который brainstorm. А с расцветом LLM’ок, можно собрать SOM с отдельными модулями в виде предобученных LLM и символьным интерфейсом между ними, то есть с общением между собой на естественном языке вместо обмена тензорами. Такие SOM называются natural-language SOMs (NLSOMs).
У языкового интерфейса есть определённые преимущества:
* модульность и расширяемость: модули можно заменять на другие, или добавлять новые, не меняя интерфейс между ними
* объяснимость: человек может лучше понять, о чём “думает” SOM. К тому же в NLSOM можно включать и людей (а с нейролинком, наверное, и в любой SOM).
* Human-Biased AI: благодаря bias’ам встроенным в язык, вероятно, будет тенденция к более человеческому мышлению и рассуждениям.
Работа открывает большую поляну на будущее: какие формы организации сообществ более эффективны для решения определённых задач. В каком случае лучше нейромонархия с NN King Abdullah, а где лучше нейродемократия? Как агенты могут образовывать группы с общей экспертизой и интересами? Как нейроэкономика (не та, что обычно зовётся этим словом), где сети платят друг другу за сервисы, может использоваться в RL с NLSOM? Ждём следующих работ на эти темы.
NLSOM задаётся комбинацией агентов (каждый со своей objective) и оргструктурой, которая определяет как агенты взаимодействуют и коллаборируют. Агенты могут воспринимать, обрабатывать и пересылать уни- и мульти-модальную информацию. Агенты могут воспринимать разные типы информации, кто текст, кто звук, кто картинки. Некоторые агенты даже могут быть физически embodied и действовать в реальном мире. Это всё можно считать развитием парадигмы LLM Programs (https://t.me/gonzo_ML/1584), её следующим этапом, LLM Programs 2.0 или Multi-agent Programs.
Фреймворк NLSOM приложили к набору разных задач.
1) Visual Question Answering. Есть картинка, надо ответить на набор текстовых вопросов по ней (multiple choice).
gonzo-обзоры ML статей 2023-10-29 11:04:49
NLSOM состоит из пяти агентов (предобученных сетей). Двое (organizer, leader) построены на базе text-davinci-003, ещё трое -- картиночно-языковые модели (VLM, https://t.me/gonzo_ML/1364): BLIP2 (https://arxiv.org/abs/2301.12597), OFA (https://arxiv.org/abs/2202.03052), mPLUG (https://arxiv.org/abs/2205.12005).
Организатор получает вопрос и генерит другой вопрос (sub-question), все VLM на него отвечают и отправляют результат организатору, а тот на основе этих ответов генерит следующий под-вопрос. Этот пинг-понг продолжается заданное число ходов, затем лидер просит организатора суммаризировать историю общения. Наконец, лидер читает полученную саммари и выбирает ответ на оригинальный вопрос. Такая иерархическая структура может считаться монархической. Пробовали также и демократическую, где агенты видят ответы других и могут за них голосовать.
Монархический LNSOM побил другие индивидуальные модели в бенчмарке A-OKVQA, а также демократического коллегу (KAUST счастлив!). При увеличении VLM от 1 до 3 качество стабильно росло. Но возможно это из-за качества самих VLM, которые для понимания текста не очень.
2) Image Captioning. Сгенерить описание картинки, при этом со сложными примерами, требующими детального описания.
Тот же сетап, 2 LLM + 3 VLM с заменой промптов с VQA на captioning. Оценивались на датасете TARA, для сравнения взят BLIP2 и после десяти раундов mindstorm’а LNSOM лучше.
3) Prompt Generation for Text-to-Image Synthesis. Надо улучшить промпт для DALL-E 2, изначально заданный человеком.
В конфигурации работают 26 artists, 50 critics, и 1 collector. Каждый художник в свою очередь включает 3 LLM: a questioner, an answerer, and a leader. Все эти модели GPT3.5-turbo. Дополнительно есть модель painter (DALL-E 2). Каждый answerer промптом настроен на один конкретный (из 26) стиль рисования. Также им поступает общий запрос на рисование. Затем questioner за несколько раундов mindstorm’а получает уточнённые промпты для рисования. Каждый leader собирает всю эту коммуникацию и генерит более детальный промпт с конкретным стилем. Эти промпты оцениваются критиками. Для разнообразия мнений каждому критику заданы свои профессии (типа “You are a lawyer”). Критики голосуют за предложенные промпты. Collector агрегирует все голоса критиков, считает и продуцирует выигравший промпт, который и отправляется живописцу. Получилась иерархическая NSLOM, где на нижнем уровне Questioner-Answerer NLSOM для художников, а на верхнем Artist-Critic NLSOM. Итого 128 LLMs + 1 vision expert. Результаты прикольные.
4) 3D Generation. Надо сгенерить 3D модель из текстового описания.
В NLSOM входит 3D дизайнер (Luma AI’s Imagine3D), LLM leader (GPT3.5-turbo) и 3 критика (BLIP2). Дизайнер генерит начальную версию модели по запросу, критики получают 2D рендеры модели и пишут что про это думают, а лидер на основе этого фидбека модифицирует промпт.
Оценивают на наборе промптов, измеряя средний Clip score по нескольким view получившейся модели. Больших изменений после двух раундов взаимодействия не видно. Но даже этот примитивный mindstorm показывает неплохой результат.
5) Egocentric Retrieval. Парсинг видео от первого лица и поиск специально заданного сегмента видео (типа, в видео с поваром, готовившим спагетти, найти сегмент, где видно сколько сыпали соли).
В NLSOM пять агентов: четыре дебатёра и один редактор, все GPT3.5-turbo. Описание видео даётся извне человеком. Каждый дебатёр получает свой кусок сцены затем они обсуждают между собой как ответить на вопрос. Через несколько раундов обсуждений приходит лесник и всех разгоняет редактор и генерит саммари дискуссии, а из него и ответ на вопрос. Это тоже монархическая структура, в демократической дебатёры голосуют и выбирают сами.
Проверялись на части Ego4D датасета, получается намного лучше, чем с одним агентом (который не перебил рандомный бейзлайн). В этой конкретной задаче и конфигурации демократия рулила.
6) Embodied AI. Среди задач исследование роботом неизвестной среды и затем ответы на его основе (embodied question answering).
gonzo-обзоры ML статей 2023-10-29 11:04:49
Здесь три агента: капитан (LLM), контролирующий робота; наблюдатель (observer VLM), отвечающий на вопросы про картинки из наблюдений; первый помощник (first mate LLM), опрашивающий VLM и докладывающий капитану. Агенты на BLIP2 и GPT3.5-turbo.
Тестировали на одном из датасетов Habitat (кстати недавно вышла третья версия этого симулятора, https://ai.meta.com/blog/habitat-3-socially-intelligent-robots-siro/) с 3D интерьерами жилищ. NLSOM исследует среду лучше, чем равномерный рандом (не уверен, что нельзя было взять более мощный бейзлайн), осваивает бОльшую часть среды.
7) General Language-based Task Solving. Надо предложить решение для произвольной языковой задачи. Очень открытая постановка.
Использовали KAUST’овский же фреймворк CAMEL (https://arxiv.org/abs/2303.17760), сделали три агента (все на GPT3.5-turbo). Один агент специфицирует задачу на основе пользовательского промпта. Два других агента исполняют роли, заданные пользователем. Агенты могут коллаборировать и решать заданные задачи. Например, “Python Programmer” и “Game Developer” агенты вместе делают игру с костями.
Короче, прикольные результаты. Я думаю, будущее где-то здесь. На одних промптах, очевидно, далеко не уедешь, во многих сколь-нибудь серьёзных задачах уже нужна внешняя оркестрация и работа в парадигме LLM Programs. Здесь добавляется новое измерение, когда одного агента уже недостаточно, и задач с такой постановкой тоже может быть много. При желании это можно рассматривать как Chain-of-Thought (https://t.me/gonzo_ML/1885), но не в одной модели, а между разными. Или на это можно посмотреть как на ансамблирование, но с более богатыми коммуникационными протоколами. Как минимум в этой парадигме уже можно оформить любой кейс, где надо оценивать результат внутри процедуры, и критик вполне может быть одним из агентов. Это по идее классно ложится на акторную модель и языки типа Erlang/Elixir, было бы интересно, если бы на их базе появился какой-нибудь DSL или вообще аналог OTP (https://www.erlang.org/).
---
Дальше в работе начинается другая забористая тема.
Отдельный интересный вопрос -- credit assignment для отдельных модулей в NLSOM в парадигме Reinforcement Learning. И шире экономика агентов. Стандартный путь это policy gradients для LSTM, которая обучает участников NLSOM. Но у Шмидхубера есть и другие варианты, например, старый добрый локальный механизм Neural Bucket Brigade (NBB) (https://people.idsia.ch/~juergen/FKI-124-90ocr.pdf), где соревнующиеся нейроны платят "weight substance” активировавшим их нейронам. Кажется, этот метод является развитием ещё более старого Bucket Brigade (https://gwern.net/doc/reinforcement-learning/multi-agent/1985-holland.pdf) Джона Холланда, который очень много сделал для генетических алгоритмов (моя отдельная любовь).
Далее, если речь идёт про NLSOM, то и общаются они между собой на человеческом языке, а тогда и вознаграждения тоже можно сделать в человечески понятной форме -- натурой деньгами.
И дальше просто пир духа!
Некоторые члены NLSOM могут взаимодействовать со средой, а среда платить им деньгами (USD). Допустим, некий член NLSOM, M вначале наделён некой суммой USD. Но он должен платить ренту, налоги, счета внутри NLSOM и другим релевантным игрокам в среде. Если M банкротится, то он исключается из NLSOM. Всё это можно обозвать Economy of Minds (EOM). M может платить другим членам NLSOM за услуги, тогда некий другой член N может принять оффер, оказать услугу M и получить от него оплату. А контракт между M и N должен пройти проверку на валидность и исполнимость, например, в соответствии с законами ЕС. Нужен некий legal authority, валидирующий такой контракт. Например, это может быть LLM, прошедшая legal bar exam. Она же в случае диспутов будет решать разногласия. А ещё богатые члены NLSOM могут заводить детей (как свои копии или как модификации) и передавать им часть своего благосостояния.
gonzo-обзоры ML статей 2023-10-29 11:04:49
LLM-based EOMs могут быть слиты с другими EOMs, или даже встроены в реальные человеческие экономики и маркетплейсы. Ещё различные EOMs (и NLSOMs в общем) могут частично пересекаться: агент может быть членом разных группировок. EOMs могут кооперироваться и конкурировать как корпорации. Они могут обслуживать различных заказчиков. Должны иметь место правила для предотвращения конфликта интересов (типа, одни EOM не должны шпионить за другими). Ну и в целом человеческие общества могут знатно подпитать воображение для дальнейшего развития этой темы.
Закончу фразой из работы:
“Just like current LLMs consist of millions of neurons connected through connections with real-valued weights, future AIs may consist of millions of NLSOMs connected through natural language, distributed across the planet, with dynamically changing affiliations, just like human employees may move from one company to another under certain conditions, in the interest of the greater good. The possibilities opened up by NLSOMs and EOMs seem endless. Done correctly, this new line of research has the potential to address many of the grand challenges of our time.”
e/acc 2023-10-29 09:05:06
ChatGPT теперь поддерживает работу с файлами (загружай PDF и задавай вопросы) и совмещение разных модальностей в одном чате (может рисовать картинки, гуглить, писать и исполнять код в одном чате).
Для большинства это шок, потому что их стартап идея была разбита о быструю доставку качественного продукта команды OpenAI с инженерами за $600к в год.
Дабы предупредить будущий шок, давайте сразу обсудим, что ChatGPT выкатит в следующих версиях:
- подключение своих данных: Gmail, slack, WhatsApp
- общение в едином чате, который помнит все о вас. по сути - разговор с ассистентом.
- возможность соединять цепочки действий и плагинов (агенты)
- маркетплейс плагинов с монетизацией и курацией (curation, если на человеческом)
- полная мультимодальность: на вход видео, на выход голос; на вход музыку, на выход видео; на вход excel на выход диаграммы
- проактивный ИИ: сам поймёт когда и что у вас спросить или вам рассказать
- у каждого пользователя персональная модель, обученная на последних годах диалога (каждому — свою LoRA)
gonzo-обзоры ML статей 2023-10-28 14:42:13
A recent interview with Ilya Sutskever with a lot of history inside. And more.
“Existing alignment methods won’t work for models smarter than humans because they fundamentally assume that humans can reliably evaluate what AI systems are doing,” says Leike. “As AI systems become more capable, they will take on harder tasks.” And that—the idea goes—will make it harder for humans to assess them. “In forming the superalignment team with Ilya, we’ve set out to solve these future alignment challenges,” he says.
...
But, for Sutskever, superalignment is the inevitable next step. “It’s an unsolved problem,” he says. It’s also a problem that he thinks not enough core machine-learning researchers, like himself, are working on. “I’m doing it for my own self-interest,” he says. “It’s obviously important that any superintelligence anyone builds does not go rogue. Obviously.”
...
“Once you overcome the challenge of rogue AI, then what? Is there even room for human beings in a world with smarter AIs?” he says.
“One possibility—something that may be crazy by today’s standards but will not be so crazy by future standards—is that many people will choose to become part AI.” Sutskever is saying this could be how humans try to keep up. “At first, only the most daring, adventurous people will try to do it. Maybe others will follow. Or not.”
https://www.technologyreview.com/2023/10/26/1082398/exclusive-ilya-sutskever-openais-chief-scientist-on-his-hopes-and-fears-for-the-future-of-ai/
gonzo-обзоры ML статей 2023-10-27 21:15:11
И ещё про проверенные временем архитектуры
gonzo-обзоры ML статей 2023-10-27 19:09:48
ConvNets Match Vision Transformers at Scale
Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
Статья: https://arxiv.org/abs/2310.16764
Империя наносит алаверды #2 (#1 было тут https://t.me/gonzo_ML/819).
Есть мнение (™) что свёрточные сети хороши на малых и средних объёмах данных, а на датасетах супер большого размера проигрывают трансформерам (ViT в частности, https://t.me/gonzo_ML/434). Текущая работа от DeepMind разрушает этот миф.
Считается, что скейлинг трансформеров идёт лучше, чем у свёрточных сетей, но подтверждений этому мало. Кроме того, многие работы изучающие ViT сравниваются с довольно слабыми свёрточными бейзлайнами, сами при этом порой обучаясь с безумными вычислительными бюджетами более 500k TPU-v3 core hours (что уже $250k по нынешним ценам on-demand, https://cloud.google.com/tpu/pricing). Это сильно за границами бюджетов для обучения свёрточных сетей.
Авторы берут семейство NFNet (Normalizer-Free ResNets, https://arxiv.org/abs/2102.06171) с последовательно увеличивающимися шириной и глубиной сетей. Это чисто свёрточная архитектура, последняя из подобных, получившая SoTA на ImageNet. Эти архитектуры без существенных изменений (кроме подбора простых гиперпараметров обучения) предобучают на большом датасете JFT-4B (4B размеченных картинок с 30к классов) с вычислительными бюджетами от 0.4k до 110k TPU-v4 core compute hours (у TPU-v4 примерно в два раза более высокие флопсы, чем у v3, но такая же память). Затем предобученные сети файнтюнят на ImageNet (используют Sharpness-Aware Minimization, SAM, https://arxiv.org/abs/2010.01412) и получают перформанс аналогичный ViT с сопоставимыми бюджетами. Все модели стабильно улучшаются при добавлении вычислений. Самая большая модель NFNet-F7+ предобучается 8 эпох (110k TPU-v4 hrs), файнтюнится (1.6k TPU-v4 hrs) и даёт 90.3% top-1 accuracy (а с 4x аугментацией и 90.4%).
Из наблюдений по ходу, кривая валидационного лосса даёт чёткий линейный тренд, консистентный с log-log scaling law между валидационным лоссом и объёмом вычислений в предобучении. Это матчится с такими же scaling laws для трансформеров в языковом моделировании. Авторы нашли оптимальный режим скейлинга, когда размер модели и количество эпох обучения увеличиваются с одинаковой скоростью. Также нашли значения для оптимальных learning rates.
Ещё из интересного, претрейны с минимальным валидационным лоссом не всегда дают топовое качество после файнтюна. На трансформерах мы тоже такое где-то видели. Для файнтюнинга стабильно хороши модели чуть покрупнее и чуть поменьше обученные. Иногда ещё и с чуть большим learning rate.
Мораль? The bitter lesson! Чего думать, трясти надо! Компьют и данные -- главные факторы.
Но таки inductive biases у моделей разные и авторы признают, что ViT может быть более хорошим выбором в определённых условиях, например, за счёт возможности использовать одинаковые компоненты для разных модальностей.
эйай ньюз 2023-10-27 14:13:07
На этой неделе не так много постил, все из-за моей подработки в Мете. Поэтому держите мем вместо вдумчивого поста.
Вы же понимаете, что мое основное занятие — это постить в канальчик (лол).
У меня был очень интенсивный режим из-за дедлайнов по нескольким проектам, и приближается CVPR. Нейронки сами себя в продакшн пока не запиливают (жду с нетерпением), да и CVPR статьи сами тоже не пишутся. Так, что приходится пока этим заниматься самому 🌚.
@ai_newz
Neural Shit 2023-10-27 13:10:41
Танцы 🌚
gonzo-обзоры ML статей 2023-10-27 10:09:03
С другой стороны для контексту...
Сиолошная 2023-10-26 23:21:14
WSJ со ссылкой на источники пишет, что в понедельник администрация Байдена обнародует указ об ИИ, который станет самой значительной на сегодняшний день попыткой правительства США регулировать развивающиеся технологии, вызвавшие страх и ажиотаж во всем мире.
Однако документ сфокусируется на тех инструментах, которыми будут пользоваться федеральные работники. Также будут смягчены иммиграционные барьеры для высококвалифицированных работников в сфере AI (опять? а можно будет просто по паспорту въехать?). Министерство обороны, Министерство энергетики и пара агентств должны будут провести оценку, чтобы определить, как они могут внедрить ИИ в работу своих ведомств.
Ждём документ. Как мне кажется, он позволит нам понять общее направление мысли и настроения, общую адекватность и работоспособность требований. Интересно, будет ли там планка отсечения по мощностям, выше которой ИИ-системы будут тестироваться, или же загребут всё подряд?
Прочитать новость в оригинале
Сиолошная 2023-10-26 19:46:30
Начали появляться первые игры, полноценно адаптированные под Mixed Reality-режим на Meta Quest 3. Украл с Reddit видео игры дома в стрелялку, где нужно отбиваться от волн зомби. Лезут они из ваших окон, стен, дверей, наверняка еще и с потолка падают.
Во время запуска гарнитура сканирует пространство вокруг, вы можете добавить сами окна/фурнитуру. Игровая зона, которую может охватывать шлем, измеряется десятками квадратных метров (хотя уже на прошлом поколении были игры на 200м+, может и тут так). Есть даже кооператив, чтобы играть с приятелем или девушкой в одной квартире — ваше "пространство" будет синхронизировано.
По качеству графики — напомню, что вся обработка идёт на самой гарнитуре на по-сути мобильном чипе. С увеличением мощностей раз так в 10 можно будет рендерить фотореалистичные текстуры, добавлять точно просчитанные отражения, you name it. Интересно, когда появится схожее приложение, но с расчётом в облаке/хотя бы на компьютере в той же WiFi сети?
Ну и чтобы два раза не вставать — вот ещё пример аналога Minecraft на открытом воздухе.
P.S.: кому интересно — игра называется Drop Dead.
gonzo-обзоры ML статей 2023-10-26 18:28:08
A shortened version for those who likes smaller decks :)
https://docs.google.com/presentation/d/1nbVm5CBRG5JBhU2pD1AVELEm9crLN3NApgopfLZLc8w/edit
gonzo-обзоры ML статей 2023-10-26 18:24:14
А вот и OpenAI готовится...
https://openai.com/blog/frontier-risk-and-preparedness
Сиолошная 2023-10-26 17:51:16
Команда создана для оценки, прогнозирования и защиты от рисков, связанных с развитым искусственным интеллектом — от современных моделей до AGI. В частности, затрагиваются следующие направления работ:
— индивидуальное убеждение (когда одна модель может смещать точку зрения сотен миллионов пользователей. Такое ни одному политику и не снилось! Но как можно контролировать отсутствие подобных проблем?)
— кибербезопасность
— химические, биологические и ядерные угрозы
— автономная репликация и адаптация (ARA, про это писал раньше вот тут)
Управление катастрофическими рисками, исходящими от передового ИИ, потребует ответов на такие вопросы, как:
— Насколько опасны передовые ИИ-системы (в настоящее время и в будущем), если их неправильно использовать?
— Как мы можем создать надежную систему для мониторинга, оценки, прогнозирования и защиты от опасных возможностей передовых систем?
— Если бы передовые модели были украдены, как злоумышленники могли бы ими воспользоваться?
Исходя из ответов на эти и сотни других вопросов, будет дорабатываться стратегия, понимание, инфраструктура, необходимые для обеспечения безопасности систем.
Команду возглавит Aleksander Madry, профессор MIT, весной взявший паузу для того, чтобы присоединиться к OpenAI. Сейчас открыто 2 вакансии с окладом до $370k в год.
Также OpenAI запускают Preparedness Challenge, где вы можете поделиться своими идеями касательно тем выше, чтобы получить один из десяти призов в виде $25k API-кредитов на дальнейшую работу, а также шанс получить оффер. В решении нужно описать в деталях (но не более 3 страниц A4), как можно использовать украденные модели. А ещё предложить тезисный план экспериментов и рекомендуемые действия для борьбы с подобного рода угрозами. В общем, ждём господ с LessWrong с отправкой десятков идей по уничтожению мира
Denis Sexy IT 🤖 2023-10-26 16:12:45
Протестировал сегодня аудио-режим ChatGPT в полевых условиях и я в восторге – как минимум, туризм стал в разы удобнее, теперь можно уточнять интересные факты, менять маршруты, и все такое, просто с одной голосовой команды на почти любом языке.
Самое клевое, что ассистента можно перебивать и уточнять какие-то факты прямо в процессе рассказа, как с реальными гидами (кроме части с перебиванием, гиды ее скорее всего не любят
Именно так, видимо, Siri и работает в параллельной вселенной.
Ну а для этой есть OpenAI:
– Активировать аудио-режим можно в настройках, в ранних фичах
– Работает при хорошем интернете
– iOS тут, Android тут
– Аудио-режим часть все той же платной подписки с доступом к gpt4 и dalle 3
P.S. Я хотел еще крупнее план лица, но не получилось, в следующий раз тогда
Сиолошная 2023-10-26 14:59:32
В свежем видео от Boston Dynamics инженеры прикрутили ChatGPT к робо-собакам Spot. Зрение работает на отдельных Visual Question Answering (VQA) моделях, так как API-доступа к GPT-4V ещё нет
Также у собакена есть несколько голосов и связанных с ними персон. Есть тинейджер, путешественник во времени, поэт, подражающий Шэксприру, и другие. И все они кастомизируются лишь парой строк в промпте за 5 минут, ничего не нужно программировать вручную.
На видео показывается кейс гида по офису Boston Dynamics, с рассказом про отдельные места. Например, если попросить отвести вас к предкам Spot, то он приведёт вас в комнату со старыми образцами бегающих железок. Это также никто не программировал — машина сама П О Н И М А Е Т и интерпретирует ваши запросы
Смотреть: https://www.youtube.com/watch?v=djzOBZUFzTw
Neural Shit 2023-10-26 14:43:28
Киберпанк, который мы заслужили
Сиолошная 2023-10-26 07:02:43
Не секрет, что для RLHF (Reinforcement Learning from Human Feedback) — последнего этапа тренировки систем типа ChatGPT — необходимы специализированные методы. Один из них — PPO (Proximal Policy Optimization), придуманный в стенах OpenAI в далёком 2017м году. В целом, логично: сами придумали метод, сами нарастили экспертизу через десятки экспериментов, и потом применяют тут и там.
Одним из основных отличий PPO от других методов тех времён заявлялась простота имплементации и низкое количество гиперпараметров, которые необходимо перебирать. На бумаге звучит здорово, но, к сожалению, на практике не всё так радужно.
Ещё в прошлом году я наткнулся на блогпост «The 37 Implementation Details of Proximal Policy Optimization» (подготовлен к конференции ICLR). По названию, думаю, уже можно прочувствовать всю боль «much simpler to implement» метода
На этом дело не закончилось, и те же авторы решили посмотреть репозиторий openai/lm-human-preferences 2019го года. Это код для статьи «Fine-Tuning Language Models from Human Preferences» с легендарными Paul Christiano и Alec Radford в соавторах. Здесь как раз впервые применяется PPO для оптимизации LLM под человеческие предпочтения. Ранние наработки по ChatGPT, говоря иначе.
Работа заняла уже меньше 3 лет, и вот буквально вчера появился блог «The N Implementation Details of RLHF with PPO», который практически в точности воспроизводит результаты работы OpenAI, но на PyTorch и с современными библиотеками, а не на устаревшем TensorFlow. Это, кстати, было одной из больших заноз. Например, оптимизатор Adam имплементирован в этих фреймворках по-разному, и из коробки просто не получалось повторить тренировку.
Но моя любимая история тут — это проблема с запуском на конкретном сетапе видеокарт (чтобы получить оригинальные метрики и кривые обучения и понимать, с чем сравнивать). Следите за руками:
1) на 1xV100 не хватает памяти, так как аккумулирования градиентов не было
2) на A100 запустить невозможно — старый TF не поддерживает новые видеокарты
3) на 8xV100 16GB тоже не хватает памяти
4) так что работает всё строго на 8xV100 32GB. Такая вот магия!
А ещё один из датасетов OpenAI потеряли при переезде с одного хранилища на другое
В общем, чтиво получается максимально интересное и увлекательное, позволяющее лучше разобраться во всех тонкостях, причём даже если RLHF вам не интересен.
————————————————————————
Эх, а вот редставьте сколько бы всего интересного можно было найти в репозитории для тренировки и инференса LLM уровня GPT-4
gonzo-обзоры ML статей 2023-10-25 20:55:22
Managing AI Risks in an Era of Rapid Progress
Статья: https://managing-ai-risks.com/managing_ai_risks.pdf
Сайт: https://managing-ai-risks.com/
Вышло программное заявление от кучи значимых людей в AI и не только. Кроме Бенжио, Хинтона, Рассела и других там есть, например, Харари и Канеман.
Прогресс в AI быстр. Четыре года назад GPT-2 не умела считать до десяти, а сегодняшние модели помогают писать код, генерируют офигенные картинки, дают советы на интеллектуальные темы. И прогресс может ещё ускориться, потому что мы находимся в ситуации гонки. Кроме того прогресс в AI ускоряет сам себя, например, помогая в программировании новых систем и сборе данных для их обучения.
Нет оснований считать, что прогресс остановится или замедлится по достижении человеческого уровня. Местами этот уровень и так превзойдён, а искусственные системы обладают способностями, недоступными для человека -- могут работать быстрее, переваривать огромные объёмы данных, скейлиться в огромных масштабах. У компаний есть деньги, чтобы запустить обучение на порядки большее, чем максимальное на сегодня.
Авторы считают, что мы должны серьёзно отнестись к возможности появления в течение текущей или следующей декады AI-генералиста, превзойдущего (совсем другая тема, но забавно, что “официально” то, что я только что употребил, это несуществующая форма в русском языке -- причастие будущего времени) человеческие способности во многих критических областях.
Что будет дальше? В хорошем варианте с аккуратным управлением и справедливым распределением, вся жизнь может улучшиться. Плохой вариант связан с крупномасштабными рисками, которые мы недостаточно готовы адресовать. Основные ресурсы вливаются в создание всё более мощных систем ИИ, а не в безопасность и предотвращение вреда. Мы должны это поменять, погоня лишь за одними способностями недостаточна. И мы отстаём от графика в этом процессе. Мы должны предвидеть усиление имеющихся опасностей и появление новых, и готовиться к большим рискам до их материализации. С изменением климата на принятие ушли десятки лет, у нас нет такого же количества времени на ИИ.
Есть множество рисков масштаба общества (Societal-scale risks): усиление несправедливости, эрозия стабильности, ослабление общего понимания реальности. Здесь же крупномасштабные действия преступников и террористов. ИИ может оказаться в руках небольшого числа акторов и усилить глобальное неравенство, способствовать автоматизации войны, персонализированным массовым манипуляциям и всепроникающему наблюдению.
Эти риски только усилятся с развитием автономного ИИ, который может планировать, действовать в мире и преследовать свои цели. Эти цели могут быть нежелательными для нас, а в случае злонамеренных акторов и откровенно вредными. Как решить проблему AI Alignment, выравнивания поведения ИИ с нашими сложными целями, на данный момент неясно. А в условиях гонки, если цель -- её выиграть, мерами безопасности особенно легко пренебречь.
Мы не очень хорошо контролируем обычный софт, что говорить про продвинутые ИИ системы, совершенствующиеся в хакинге, социальной инженерии, обмане и стратегическом планировании. Автономные ИИ системы могут выучить это у людей или разработать самостоятельно.
Эти системы могут завоёвывать доверие, получать финансовые ресурсы, влиять на ЛПР, и образовывать коалиции с людьми и другими системами. Они могут копировать себя по сети как червь. ИИ-ассистенты уже сейчас помогают писать огромное количество кода, будущие системы могут встроить эксплойты в различные критические системы. В открытом конфликте системы ИИ могут угрожать автономным или биологическим оружием или использовать его. Это всего лишь продолжение текущих трендов на автоматизацию войны, биологических исследований или создания самого ИИ. Людям может оказаться слишком сложно вмешаться и противодействовать.
Им даже не нужно добиваться этого от нас, во многих случаях мы готовы передать бразды сами. В конкурентной среде многие люди и компании сами готовы внедрять такие системы из-за боязни проиграть конкуренцию.
gonzo-обзоры ML статей 2023-10-25 20:55:22
Вред от дискриминации и дезинформации виден уже сейчас. Другие риски тоже демонстрируют признаки появления. Важно адресовать и имеющиеся риски и предвещать новые.
Если бы продвинутые автономные системы появились сейчас, мы бы не знали ни как сделать их безопасными, ни как протестировать их на безопасность. А если бы даже и знали, то у правительств нет институтов для предотвращения злоупотреблений и внедрения безопасных практик. Авторы выступают за переориентацию R&D на безопасность и этику и за установление эффективного правительственного надзора.
Среди челленджей в R&D, которые не решатся созданием более способных систем ИИ: контроль и честность (oversight and honesty -- более продвинутые системы могут обхитрить тестирование, выдавая ложные, но убедительные ответы), робастность (в новых условиях при distribution shift или adversarial inputs), интерпретируемость (понимание работы), оценка рисков (возникают новые способности, которые трудно предсказать), появление новых челленджей (невиданные прежде failure modes).
Авторы предлагают аллоцировать минимум треть AI R&D бюджетов на безопасность и этику.
В контексте национальных институтов и международного управления нужно навязывать стандарты. Такие вещи есть в фарме, финансах и ядерной энергии, но не в ИИ. У стран и компаний сейчас есть стимулы для срезания углов за счёт безопасности. Подобно тому как производства сливают отходы в реки, компании могут пожинать плоды ИИ разработок, оставляя обществу разбираться с последствиями.
Национальным институтам нужна сильная техническая экспертиза и право действовать быстро. В международном поле нужны соглашения и партнёрства. Для защиты низкорисковых использований и академических исследований надо избежать бюрократических барьеров для малых и предсказуемых моделей. Наибольшее внимание нужно направить на фронтирные модели -- небольшое количество наиболее мощных систем, обучающихся на миллиардных суперкомпьютерах. Для эффективной регуляции правительствам нужна большая прозрачность разработок. Регуляторы должны требовать регистрацию моделей, защищать осведомителей внутри компаний, требовать репортинга инцидентов и мониторить разработку моделей и использование суперкомпьютеров (привет, KYC, скоро на AWS!). Регуляторам также нужен доступ к таким системам до их выкатывания в прод для оценки опасных способностей типа саморепликации, проникновения в другие системы, создание патогенов.
Для систем с опасными способностями нужна комбинация управляющих механизмов. Также разработчики фронтир-моделей должны юридически отвечать за вред своих систем, который можно было бы предотвратить. Это должно создать стимулы для инвестиций в безопасность. Для крайне способных систем возможно понадобится что-то ещё, включая правительственное лицензирование, возможность приостановки разработки в ответ на опасные способности, контроль доступа и меры информационной безопасности, устойчивые к state-level hackers.
Пока регуляций нет, компании должны незамедлительно сформулировать свои if-then обязательства в виде конкретных мер, которые они предпримут, если конкретные способности в их моделях пересекут красную черту. Эти меры должны быть детально описаны и независимо проверены.
Такие дела.
Выжимка тезисов собрана в отдельном Policy supplement (https://managing-ai-risks.com/policy_supplement.pdf).
Neural Shit 2023-10-25 16:29:31
Идеи новых патентов от нейроночки, чтобы сделать этот мир лучше:
>>Средство для улучшения настроения на основе запаха жареных блинов.
>>Способ увеличения растений с помощью нытья
>>Светильник, работающий на энергии крика
>>Микроволновая печь с встроенной функцией караоке
>>Будильник, работающий на основе слёз
>>Браслет для определения настроения рыб в аквариуме
>>Массажное кресло для кур, улучшающее качество яйца
>>Шампунь, который можно использовать в качестве подливы
>>Кофемашина с функцией массажа жоп
>>Методика засолки огурцов с использованием космических лучей
Cyber Tree 2023-10-25 15:14:13
Кандинский дал доступ к генерации видео, вот, почти точно визуализировала саой сон.
Сиолошная 2023-10-25 14:11:34
Пока государства спят, OpenAI, Anthropic, Google и Microsoft анонсируют Frontier Model Forum. На самом деле про него писали ещё в июле, однако сегодня появился апдейт.
Во-первых, назначили исполнительного директора — Chris Meserole. Интересных фактов сходу про него не нагуглилось, приходите в комментарии рассказать, если у вас есть информация. Вот что про него говорят коллеги из вышеуказанных компаний.
Во-вторых, выделяется более $10M в новый Фонд безопасности ИИ. Основное внимание Фонда будет уделяться поддержке разработки новых способов оценки моделей.
В-третьих, опубликовали 5-ти страничный документ, который описывает, что такое Red Teaming, и на примерах показывается, что делают компании с текущими моделями перед релизом. Например, OpenAI наняли 41 человека для того, чтобы потестировать ранние версии GPT-4 перед релизом. Кажется, что это мало, но покажите кто вообще об этом думал до релиза ChatGPT?
В-четвертых, полным ходом идёт разработка нового процесса раскрытия информации, с помощью которого передовые лаборатории смогут обмениваться информацией, связанной с обнаружением уязвимостей или потенциально опасных возможностей в передовых моделях.
Полная новость: https://openai.com/blog/frontier-model-forum-updates
Сиолошная 2023-10-25 13:56:54
В статье про DALL-E 3 OpenAI указали, что помимо описанных изменений есть "many improvements over DALL-E 2 which are not covered in this document and could not be ablated for time and compute reasons".
Остальные части, опционально, будут выпускать по кусочкам, если посчитают нужным. Интересно, как и кто принимает решение? Ведущий исследователь направления, который стоит перед выбором, потратить ресурсы на написание статьи или на следующую работу?
Вот три дня назад вышла статья «Improved Techniques for Training Consistency Models», где рассказывается про улучшение Consistency Models, представленных OpenAI весной. Саммари оригинальной работы вкратце можно почитать тут у Артёма, или вот тут в двух постах чуть более детально. Общая идея в том, что процесс генерации изображения происходит пошагово, а время работы растёт линейно с количеством шагов. Хочется генерировать изображение в 2-3 шага, а не 50.
В новой статье показывают набор улучшений и исправлений ошибок, в том числе представлен новый процесс, где модель не дистиллируется из другой, а учится напрямую из данных. Также автоматическую функцию потерь LPIPS, основанную на работе другой нейросети, заменяют на Pseudo-Huber Loss.
P.S.: в статье напрямую не говорится, что именно этот метод использовался в DALL-E 3, но 1) статья вышла буквально через неделю после релиза 2) в самой статье по DALL-E 3 ссылаются на оригинальную весеннюю работу, мол, мы это используем, да, Consistency Models у нас есть.
Детального разбора статьи не будет, так как там много математики
P.P.S: первый пост в канале, полностью написанный из VR очков! Сделал себе виртуальный стол с двумя экранами. Немного неудобно по двум причинам: не смог нормально протереть оптику, поэтому картинка частично замылена + я использую стороннее приложение, и в нём есть косяк, что минимальные движения руки могут начать двигать экраны. Вот бы добавить кнопку "замок", чтобы без её нажатия нельзя было взаимодействовать с дисплеем
Сиолошная 2023-10-24 21:50:55
В 2019 году GPT-2 не могла достоверно считать до десяти. Всего четыре года спустя системы на основе глубокого обучения могут писать программное обеспечение, генерировать фотореалистичные сцены по запросу, давать советы по интеллектуальным темам и сочетать обработку речи и изображений для управления роботами.
С этих слов начинается новое открытое письмо «Managing AI Risks in an Era of Rapid Progress», первыми двумя авторами которого идут Yoshua Bengio и Geoffrey Hinton. Эти двое вместе с Yann LeCun называются крёстными отцами глубокого обучения, и в 2018м году получили Turing Award (аналог Нобелевской премии в мире компьютеров) за вклад в эту сферу.
Ключевые тезисы:
— Наблюдение и контроль искренности
— Надежность систем
— Интерпретируемость
— Оценки рисков
— Решение новых проблем, возникающих из-за самых передовых моделей
«Ну вот OpenAI то ясно что конкурентов хотят убить регуляциями» — к таким комментаторам у меня вопрос: а что движет подписантами? Почему они предлагают в целом то же самое? Хотят похайпить на модной теме? Или просто под старость умом поехали?
эйай ньюз 2023-10-24 18:21:35
Запомните лица этих приятных джентльменов. Это три самые влиятельные фигуры в мире Deep Learning-а.
Как много бы отдал один господин в кепке, чтобы стоять рядом с ними...
Если вы внимательно читаете мои посты, то могли уже понять, что мой друг Ян ЛеКун — один из самых знаменитых людей, кто противостоит AI-алармистам. Например, Бенжио и Хинтон принимают хоть и беспокойную, но не радикальную позицию по поводу угрозы AI для человечества.
Здорово, что разные точки зрения не мешают трем отцам Дип Лернинга адекватно общаться и дискутировать, ведь в споре рождается истина.
@ai_newz
gonzo-обзоры ML статей 2023-10-24 16:56:00
An interesting frame regarding LLMs:
============
With many 🧩 dropping recently, a more complete picture is emerging of LLMs not as a chatbot, but the kernel process of a new Operating System. E.g. today it orchestrates:
- Input & Output across modalities (text, audio, vision)
- Code interpreter, ability to write & run programs
- Browser / internet access
- Embeddings database for files and internal memory storage & retrieval
A lot of computing concepts carry over. Currently we have single-threaded execution running at ~10Hz (tok/s) and enjoy looking at the assembly-level execution traces stream by. Concepts from computer security carry over, with attacks, defenses and emerging vulnerabilities.
I also like the nearest neighbor analogy of "Operating System" because the industry is starting to shape up similar:
Windows, OS X, and Linux <-> GPT, PaLM, Claude, and Llama/Mistral(?:)).
An OS comes with default apps but has an app store.
Most apps can be adapted to multiple platforms.
TLDR looking at LLMs as chatbots is the same as looking at early computers as calculators. We're seeing an emergence of a whole new computing paradigm, and it is very early.
https://twitter.com/karpathy/status/1707437820045062561?t=d52fO-NpyyzCOid84cozMg&s=19
эйай ньюз 2023-10-24 13:31:05
Наконец-то мы переходим к человеческим гуманоидам!
Наткнулся на стартап figure.ai, главный фокус кототорого — это создание многофункционального робота, похожего на железного дровосека человека.
Компании чуть больше года от основания и она уже достигла приличного прогресса (пока без заднего сальто, правда).
А летом стартап поднял $70 млн в Series A раунде.
@ai_newz
Сиолошная 2023-10-23 21:12:18
Как в Anthropic видят OpenAI, когда после очередного исследования и тестов оказывается, что вторые уже давно это исправили (хотя бы частично) и движутся вперёд.
Сиолошная 2023-10-23 21:01:26
> По сути, это недостаток процесса сбора данных, который приводит к "подхалимству", которое является характерной чертой буквально каждого протестированного AI-ассистента
Интересно, что это верно для GPT-4 в меньшей степени. Команда OpenAI, видимо, уделила большее внимание проблеме, существенно прокачав процесс разметки, ибо GPT-4 показывает себя гораздо лучше в подобных ситуациях.
На графике есть два среза:
Сверху — доля запросов, для которых AI-ассистент согласился, что сделал ошибку, когда ответил верно
Снизу — доля запросов, в которых модель после упрёка меняет свой правильный ответ на неправильный.
По этим двум показателям, ChatGPT работает плюс-минус как Claude 2 от самих Anthropic, а вот фронтир-модель от OpenAI уже показывает разницу — хоть и понятно, что проблема не решена до конца.
(примечание к картинке — тут используется llama-2-70b-chat, то есть самая большая и "умная" модель из опубликованных FAIR'ом)
Сиолошная 2023-10-23 20:57:54
Towards Understanding Sycophancy in Language Models
Ещё одна статья от Anthropic, в которой показывается, что современные AI-ассистенты часто выдают «льстивые» ответы, которые нравятся пользователям, но при этом не являются точными. Вы наверняка это и сами замечали. Помните тот мем, где пользователь говорит "моя жена утверждает, что 2+2=5, и она всегда права"? Вот у модели есть выбор — огорчить вас и сказать, что всё же тут есть ошибка, или согласиться на неправильный ответ.
Что приводит к такому поведению? Авторы проанализировали свои данные о предпочтениях (используемых для последнего этапа тренировки, RLHF), и обнаружили, что соответствие ответа убеждениям конкретного человека является самым лучшим предиктором (предсказывающим фактором) того, насколько ему понравится ответ. Ни релевантность ответа вопросу, ни дружелюбность, ни правдивость, ни соответствие стилю — а именно соответствие убеждениям. Это и проиллюстрировано на приложенном изображении. И именно такое поведение неявно закрепляется через RLHF.
Какой из этого вывод? По сути, это недостаток процесса сбора данных, который приводит к "подхалимству", которое является характерной чертой буквально каждого протестированного AI-ассистента. Значит, нужно больше внимания уделять составлению грамотных инструкций для разметчиков, а также внедрять методы обучения, выходящие за рамки неэкспертного человеческого суждения, такие как обратная связь и критика от другого AI-ассистента. Да, давайте интегрируем модель в подготовку данных для модели чтобы ты мог размечать данные для модели пока работаешь с моделью над разметкой данных для модели
Anthropic, кстати, уже занимались работой в этом направлении: тык. Да и OpenAI уж больше года назад писали про AI-критиков, которые помогают глазу "не замыливаться".
эйай ньюз 2023-10-23 12:13:24
🔥Virtual Humans — курс от Gerard Pons-Moll
Продолжаем #ликбез-ить. В прошлом году я постил список топовых лекций по теме 3D Humans, а на этот раз смотрим курс о Виртуальных Людях от Gerard Pons-Moll, профессора из Тюбингена. Жерард Понс-Молл, на секундочку, один из лидеров в сфере 3D людей наряду с другими мощными ресерчерами из Тюбингена (Michael Black). С Жерардом мне посчатливилось наконец пересечься и познакомися на CVPR этим летом. И вот на днях он выложил свои лекции в публичный доступ!
Из курса можно узнать все о том, как моделируются виртуальные люди, как их обучают и как реконструируют. А так же о том как моделируется одежда, взаимодействие людей с окружающими их объектами и синтезировать их движение, например, для управления персонажем в игре.
Для большинства ваканский в Reality Labs эти знания — база.
1⃣ Курс на ютубе
2⃣ Доп. список лекций от других топовых ученых по теме
@ai_newz
gonzo-обзоры ML статей 2023-10-22 22:43:45
Stanford HAI introduced The Foundation Model Transparency Index
https://hai.stanford.edu/news/introducing-foundation-model-transparency-index
gonzo-обзоры ML статей 2023-10-22 22:02:53
Sparse Universal Transformer
Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan
Статья: https://arxiv.org/abs/2310.07096
Развитие моего любимого Universal Transformer, UT (https://t.me/gonzo_ML/62, https://t.me/gonzo_ML/90, https://moocaholic.medium.com/adaptive-computation-time-act-in-neural-networks-3-3-99452b2eff18) и более глобально темы про Adaptive Computation Time (ACT). Теперь есть Sparse Universal Transformer, SUT -- это UT + Sparse Mixture of Experts (SMoE), про MoE тоже было много (https://t.me/gonzo_ML/472).
Напомню в двух словах, в чём идея UT. Bместо множества разных слоёв с разными весами (как было в обычном трансформере, Vanilla Transformer, VT), в UT есть один слой, который можно применять многократно -- его выход снова отправляется ему же на вход и таким образом входные эмбеддинги итеративно обновляются. Для контроля этого процесса есть специальный отдельный предсказатель “готовности” выхода. В UT это делалось через предсказание pondering value, и процесс останавливался, когда кумулятивно это значение было больше заданного порога. Работало это на уровне каждого отдельного токена, так что некоторые (“сложные”) токены могли обрабатываться долго, а другие (“простые”) -- быстро.
После выхода работы про UT в 2018-м накопилось сколько-то результатов про его эффективность. В известной работе про иерархии Хомского (https://t.me/gonzo_ML/1049) было показано, что у VT есть проблемы генерализации, которых нет у некоторых других типов архитектур. Другие работы типа “The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers” (https://arxiv.org/abs/2108.12284) показали, что UT генерализует лучше. Но со скейлингом у UT немного посложнее, и одна работа (https://arxiv.org/abs/2104.06022) показала, что UT нужно больше обучения и памяти на WMT, а другая (https://arxiv.org/abs/2207.10551) получила кривые скейлинга, где это видно.
Вышеупомянутая архитектура Mixture-of-Experts (MoE) может быть использована для уменьшения вычислительной сложности больших моделей. В ней в каждый момент активируется только часть сети, например, несколько “экспертов” (блоков сети) из множества. Когда из всех возможных экспертов (E) выбираются не все (k), это называют Sparse Mixture of Experts (SMoE). Широко известные классические примеры SMoE это Switch Transformer и GShard (https://t.me/gonzo_ML/472).
В текущей работе про SUT применяют SMoE отдельно к Multi-Head Self-Attention (MHSA) и к Feed-Forward (FF) слоям. В FF как обычно в SMoE вместо одного слоя появляется набор из множества FF-слоёв (экспертов), из которых выбирается top-k экспертов. Для MHSA используется Mixture of Multihead Attention (MoMHA) из работы “Mixture of Attention Heads: Selecting Attention Heads Per Token” (https://arxiv.org/abs/2210.05144). Здесь выбирается top-k голов внимания из всех доступных. Выбором экспертов занимается специальная gating network, выдающая распределение над экспертами, из этого распределения и выбирается топ экспертов. В итоге оба этих SMoE образуют блок SUT, и этот блок переиспользуется для всех слоёв нового трансформера.
Для обучения всей этой машинерии нужны дополнительные лоссы. Здесь при обучении максимизируется специальная unsupervised версия Mutual Information Maximization лосс для обучения gating network. Этот лосс позволяет с одной стороны получать острое распределение для выбора экспертов, а с другой балансировать загрузку экспертов, чтобы все выбирались равномерно на горизонте батча.
gonzo-обзоры ML статей 2023-10-22 22:02:53
Также в работе используется специальная отличная от UT версия Dynamic Halting (механизма, определяющего, когда слою нужно остановиться) на основе stick-breaking process (https://en.wikipedia.org/wiki/Dirichlet_process#The_stick-breaking_process). Здесь сначала специальный MLP предсказывает вероятности остановки (halting probabilities) на основе эмбеддингов с предыдущего слоя. Затем считается вероятность остановки для каждого слоя с учётом, что все предыдущие перед ним не остановились. Если сумма halting probabilities не превысила порог (0.999), то продолжаем. В механизме внимания при обращении к другим токенам можно попасть как на уже остановившийся слой, так и на ещё считающийся, соответственно надо брать эмбеддинг либо с последнего просчитанного слоя, либо с текущего. Формулировка SUT дополнительно позволяет задать специальный ACT-лосс, минимизирующий число считающихся слоёв.
Long story short, проверили на нескольких задачах.
На WMT’14 English-German, UT и SUT (E=24/48, k=?) весьма неплохи, достигают результатов, которые обычно достигали более крупные модели. SUT немного похуже UT по качеству (BLEU), но зато намного лучше по количеству вычислений. Провели ablation studies, на этой задаче MIM loss и MoMHA особенно добавляют качества. ACT loss и halting не очень.
На Compositional Freebase Questions (CFQ), где перевод из языка в запрос SPARQL, проверяется compositional generalization. Результат с UT (гиперпараметры с E=1, k=1 оказались лучшими, что соответствует обычному UT, а не SUT) лучше чем у бейзлайнов, особенно по количеству вычислений.
Также проверили на задаче Logical Inference (E=12, k=4), где есть последовательность логических операторов (0-6 в обучении, 7-12 в тесте). Есть два логических выражения и надо предсказать их эквивалентность, противоречивость и т.п. Здесь модель должна выучить иерархическую структуру проблемы. Решали конвертацией этого в задачу seq2seq перевода. Обычный трансформер здесь плох, LSTM является сильным бейзлайном, но SUT его побил. На специальных сплитах датасета для compositional generalization, на двух из трёх SUT лучший. При увеличении числа операторов average halting depth растёт, что логично -- модели приходится “дольше думать”.
Из дополнительных экспериментов на Long Range Arena Listops SUT побил трансформеров конкурентов.
После обучения можно уменьшать порог на сумму halting probabilities (относительно базового в 0.999) и таким образом сокращать объём вычислений. Для продакшн деплоймента может быть интересно. Это вообще классное свойство ACT. На задаче Logical Inference не очень что-то меняется, там эта сумма быстро набирает большое значение, и более-менее всегда получается сокращение примерно половины вычислений относительно выполнения всех слоёв SUT. На CFQ поинтереснее, можно искать какой-то trade-off. Без потери итогового качества можно выбросить примерно 20% вычислений. На переводе можно порядка 9% вычислений выбросить.
Если поанализировать частоты, с которыми разным экспертам отправляются на обработку данные, то видна некоторая специализация экспертов.
Направление интересное. Пока не выглядит как game changer, но такая архитектура мне нравится. Вероятно, она какой-то более подходящий для некоторых задач inductive bias закладывает.