Нейролента - подборка новостей о нейронных сетях, ChatGPT

gonzo-обзоры ML статей

All about gonzo-обзоры ML статей

2024-05-01 20:54:24

Прекрасное на ночь.

https://www.sscardapane.it/alice-book

Book: Alice’s Adventures in a differentiable wonderlandPermalink
Neural networks surround us, in the form of large language models, speech transcription systems, molecular discovery algorithms, robotics, and much more. Stripped of anything else, neural networks are compositions of differentiable primitives, and studying them means learning how to program and how to interact with these models, a particular example of what is called differentiable programming.

This primer is an introduction to this fascinating field imagined for someone, like Alice, who has just ventured into this strange differentiable wonderland. I overview the basics of optimizing a function via automatic differentiation, and a selection of the most common designs for handling sequences, graphs, texts, and audios. The focus is on a intuitive, self-contained introduction to the most important design techniques, including convolutional, attentional, and recurrent blocks, hoping to bridge the gap between theory and code (PyTorch and JAX) and leaving the reader capable of understanding some of the most advanced models out there, such as large language models (LLMs) and multimodal architectures.

Table of contents

1. Foreword and introduction
2. Mathematical preliminaries
3. Datasets and losses
4. Linear models
5. Fully-connected layers
6. Automatic differentiation
7. Convolutive layers
8. Convolutions beyond images
9. Scaling up models
10. Transformer models
11. Transformers in practice
12. Graph layers
13. Recurrent layers
14. Appendix A: Probability theory
15. Appendix B: Universal approximation in 1D

Book draft: https://arxiv.org/abs/2404.17625

2024-05-01 12:02:47

Dejavu Transformers

TransformerFAM: Feedback attention is working memory
Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar
Статья: https://arxiv.org/abs/2404.09173

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal
Статья: https://arxiv.org/abs/2404.07143

От Гугла вышли две в чём-то близкие статьи, написанные разными множествами людей, но вероятно всё-таки одной группой, потому что многие из них пересекаются в ещё одной близкой публикации https://arxiv.org/abs/2403.19709.

Обе статьи про трансформеры, которые могут работать с неограниченными по длине последовательностями.

Первая работа про трансформер с Feedback Attention Memory (FAM) применяет механизм внимания к своим собственным латентным репрезентациям через обратную связь. Репрезентации каждого слоя подаются ему же при работе со следующим токеном. Авторы считают, что это ведёт к возникновению рабочей памяти в трансформере.

Про что они пишут, это как бы Block Sliding Window Attention (BSWA) по аналогии с Longformer (https://t.me/gonzo_ML/292), где в каждый блок добавлены виртуальные активации FAM. Механизм внимания смотрит теперь на текущий блок, предыдущие несколько сегментов (память) и предыдущий FAM (рабочая память, где потенциально всё может накапливаться бесконечно). Затем для текущего блока по его выходам и предыдущему FAM через внимание вычисляется новый FAM, то есть как бы происходит компрессия и обновление памяти. Это идейно напоминает memory tokens предложенные Мишей Бурцевым ещё давно, только с более хитрым механизмом расчёта.

Это похоже на много что известное. Transformer-XL тоже имел память в виде предыдущих сегментов и умел обращаться к активациям более низких уровней из прошлого. TransformerBSWA это практически то же самое, только в отличие от XL, здесь не используется ”stop gradient” на сегменте с памятью. А в TransformerFAM мы уже как бы обращаемся к активациям того же самого уровня.

Реализация этого достигается без добавления новых весов в трансформерные слои, всё работает на конкатенации входных данных блока и FAM, а также модификацией маски внимания, чтобы реализовать FAM. Ну если я правильно всё понял. Экспериментировали с блоками длины 1024 + FAM длины 64. Отдельная хитрая тема, как инициализировать начальный FAM. Сделали это через prompt tuning

Для экспериментов брали модели Flan-PaLM (1B, 8B, 24B). К ней добавляли BSWA или FAM и файнтюнили через LoRA. Для сравнения сделали ещё Transformer-XL, но он по результатам оказался неотличим от BSWA.

Проверяли на retrieval задаче PassKey, сравнивали с BSWA с разным количеством блоков памяти (M1-M12, от 1 до 12 блоков соответственно), FAM всех побил. Также проверили на куче требующих длинного контекста задач, использовавшихся при оценке Gemini. Тут FAM везде бьёт BSWA, где-то заметно, где-то не очень.

Ну то есть типа как бы работает. Но есть вопросы, и их много.

2024-05-01 12:02:47

Во-первых, три года назад такое уже было (Анжела Фан, Эдуард Грейв и ко, https://t.me/gonzo_ML/508), но авторы относят эту работу (как и Recurrent memory transformer, RMT, Миша Бурцев и ко) к категории, где верхний уровень залинкован на нижний, и нету связи между промежуточными нейронами. В случае RMT это наверное верно (Миша, поправь меня если что), но для работы Анжелы Фан это вообще говоря не так, так агрегируются репрезентации всех уровней и агрегат получают тоже все уровни (см. картинку тут https://t.me/gonzo_ML/510). То есть в текущей работе как бы то же самое, но без агрегации всех уровней, только с агрегацией внутри уровня. Ещё это похоже на другую ещё более старую работу того же Эдуарда Грейва про Continuous Cache (https://t.me/gonzo_ML/516), тогда это применялось ещё к RNN. Ещё одно, на что это всё похоже, это DeepMind’овский Compressive Transformer (https://t.me/gonzo_ML/165), где память копилась внутри каждого слоя (см. https://t.me/gonzo_ML/166). Выглядит всё в общем как вариация на тему и непонятно, почему этим работам отведено так мало места или они описаны как сильно другие. Про работу Анжелы Фан в двух местах вообще сказаны разные вещи (и обе неправильные):

“The first approach is linking the topmost layer to the bottommost (Fan et al., 2020; Bulatov et al., 2022). However, this cannot model feedback between interneurons, and this has only one global working memory.”

“There have been attempts to incorporate feedback mechanisms into the Transformer, but most of them involve feeding the output activations from the top layer to the bottom (Bulatov et al., 2022; Chevalier et al., 2023) or to intermediate layers (Fan et al., 2020).”

Во-вторых, ну классно, что сравнили с BSWA, но было бы реально интересно сравнить со всем перечисленным. Я ставлю на то, что оно не лучше, ибо и относительно BSWA разница не везде заметная. Уж Compressive Transformer то можно было бы проверить, как никак тоже внутри Гугла сделан. Про него сказано так:

“There were papers that compressed information blockwise (Rae et al., 2019; Guo et al., 2019; Gupta & Berant, 2020; Mohtashami & Jaggi, 2023; Mu et al., 2023). However, in those papers, the information was not propagated infinitely

Я честно говоря не понимаю, почему в Compressive Transformer информация распространяется менее infinitely. В деталях предложенный механизм конечно отличается, но я не удивлюсь, если математически он сводится к тому же, не чувствуется концептуальной разницы. Если кто более умный видит разницу, подсветите плиз.

Вторая работа “Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention” (https://arxiv.org/abs/2404.07143) делает что-то очень похожее. Она прям явно добавляет compressive memory к механизму внимания. Глубоко разбирать не хочется, вот тут есть готовый разбор: https://t.me/quant_prune_distill/247.

Про Compressive Transformer в статье сказано:

“However, the previous segment-level compression methods, including Compressive Transformers (Rae et al., 2019) still discard the memory entries of old segments in order to free up space for the new ones, limiting their context window to the most recent segments. This is in contrast to our Infini-attention that computes incremental memory updates to a fixed amount of memory parameters in a recurrent fashion.“

При этом в самой работе про Compressive Transformer явно написано:

“The TransformerXL discards past activations when they become sufficiently old (controlled by the size of the memory). The key principle of the Compressive Transformer is to compress these old memories, instead of discarding them, and store them in an additional compressed memory.”

Сравнения с ним тоже конечно нет, даже на его родном датасете PG19.

Я не понял прикола. Такое чувство, что у авторов размер контекста относительно предыдущих работ стал ограниченным, и мы теперь пересказываем старые работы с небольшими изменениями. Это какие-то дежавю трансформеры, ей богу. Просветите меня, если я чего-то важного в этих работах не понимаю.

2024-04-30 20:19:01

Свежий обзор PEFT (Parameter-Efficient Fine-Tuning) алгоритмов для LLM.

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang
https://arxiv.org/abs/2403.14608

Пересказывать не буду, читайте как справочник :)

2024-04-27 23:13:52

Chronos: Learning the Language of Time Series
Abdul Fatir Ansari, Lorenzo Stella, Caner Turkmen, Xiyuan Zhang, Pedro Mercado, Huibin Shen, Oleksandr Shchur, Syama Sundar Rangapuram, Sebastian Pineda Arango, Shubham Kapoor, Jasper Zschiegner, Danielle C. Maddix, Michael W. Mahoney, Kari Torkkola, Andrew Gordon Wilson, Michael Bohlke-Schneider, Yuyang Wang
Статья: https://arxiv.org/abs/2403.07815
Код: https://github.com/amazon-science/chronos-forecasting

TLDR: Предобученная трансформерная языковая модель для временных рядов с представлением ряда в виде последовательности токенов. Модель Chronos основана на T5, размеры от 20M до 710M.

Временные ряды -- большая и интересная тема, работ в ней поменьше чем в NLP или CV, но регулярно попадаются. Раньше была очень популярная тема с RNN (она отчасти возрождается сейчас с SSM, https://t.me/gonzo_ML/2148), ещё раньше были модели типа ARIMA и т.п. Есть фейсбучная библиотека Prophet (https://github.com/facebook/prophet). Было много подходов со специальными архитектурами, в частности можно вспомнить, например, использовавшиеся для предсказания погоды и не только Temporal Convolutional Networks (TCN, https://arxiv.org/abs/1608.08242), или околотрансформерный Informer (https://arxiv.org/abs/2012.07436). Но это далеко не всё.

За последний год-два валом повалили попытки так или иначе использовать LLM, от совсем прямолинейных типа через GPT-3 (https://arxiv.org/abs/2310.07820), Time-LLM (https://arxiv.org/abs/2310.01728) или PromptCast (https://arxiv.org/abs/2210.08964) до более специальных, например, Lag-Llama (https://arxiv.org/abs/2310.08278) или TimesFM (https://arxiv.org/abs/2310.10688). Было и есть и много всего другого, вот свежий обзор по теме (https://arxiv.org/abs/2401.13912).

Текущая работа делает шаг назад от LLM и пытается внести специфичные для временных рядов модификации в LLM, эти изменения сосредотачиваются в районе токенизации, а также в аугментации при обучении.

Представленный в работе Chronos -- это по сути фреймворк для адаптации LLM к вероятностному предсказанию временных рядов. Цель -- добиться этого минимальными изменениями.

Одна из очевидных проблем -- временные ряды обычно состоят из вещественных чисел, а не токенов из конечного словаря, поэтому чтобы работать с LLM надо временной ряд токенизировать. Для этого он сначала скейлится (делим на среднее, но можно при желании и другую схему реализовать), а затем квантуется на B бинов (использовалось B = 4094), при деквантовании возвращается центр бина. Бины (их границы и центры) могут быть равномерно распределёнными или зависимыми от данных. Кроме B временных токенов добавлены ещё два специальных PAD (для пропущенных значений и паддинга) и EOS (для обозначения конца последовательности). Никакая другая информация (например, время или частота) к данным не добавляется.

В основном в работе фокусируются на энкодере-декодере T5, экспериментально проверяют и чисто декодер в стиле GPT-2. Целевая функция -- обычная кросс-энтропия при предсказании квантованного токена. Важно, что при таком подходе по факту происходит регрессия через классификацию, в этой функции никак не учтена близость соседних бинов. Плюс в этом тот, что архитектура или процедура обучения LLM никак не меняется, можно брать готовый код из коробки. Также это не накладывает никаких ограничений на выходное распределение, а у датасетов из разных доменов они могут быть разными.

Предсказание такой моделью делается обычным авторегрессионным способом, сэмплим следующий токен, деквантизуем и скейлим обратно.

Для обучения time series моделей такого количества качественных данных, как для NLP, нету. Поэтому авторы активно использовали синтетику через mixup аугментацию в дополнение к реальным данным.

Mixup использовался для изображений, там создавалась синтетическая картинка через взвешенную комбинацию двух реальных. Авторы предложили TSMix, обобщающий Mixup до более чем двух точек -- здесь это взвешенная комбинация k последовательностей. Веса сэмплятся из симметричного распределения Дирихле, Dir(α).

2024-04-27 23:13:52

В дополнение к TSMix используется метод KernelSynth, генерящий искусственные данные через гауссовские процессы, где задаётся библиотека ядер (линейное ядро для тренда, RBF для гладких локальных изменений, периодические ядра для сезонных трендов). Ядра сэмплятся (с возвращением) из библиотеки и комбинируются через сложение или умножение. Итоговое ядро используется для генерации последовательности заданной длины.

Датасетов собрано много (всего 55 штук) и разной природы. Часть используется для обучения, другие для оценки.

Обучили модели T5 четырёх размеров (в репе есть и пятый Tiny на 8M): Mini (20M), Small (46M), Base (200M) и Large (710M), а также GPT-2 base (90M). Обучено на 10M TSMix аугментаций из 28 обучающих датасетов и 1M синтетических последовательностей, сгенерённых через Gaussian processes. Смешиваются в пропорции 9:1. Оригинальные данные включались в TSMix с вероятностью ⅓. Батч в обучении был 256 последовательностей. Размер контекста у моделей 512, длина предсказания 64. Обучалось 200K шагов, AdamW. Это одна из первых работ, где я вижу репортинг реальной цены за обучение, от ~250$ и ~8 часов на p4d.24xlarge (8xA100 40GB) для малой модели до 2066$ и 63 часов.

Для сравнения много бейзлайнов, статистических и нейросетевых. Бейзлайны разделены на группы:

1) Локальные модели, оценивающие параметры для каждой последовательности индивидуально
2) Задаче-специфичные, обучаемые (или файнтюн) для каждой задачи отдельно
3) Предобученные модели без задаче-специфичного дообучения, одна модель для всего.

Оценивали как вероятностные (weighted quantile loss, WQL) так и точечные предсказания (mean absolute scaled error, MASE). Всего оценивалось на 42 датасетах разбитых на Benchmark I (In-domain, 15 датасетов) и Benchmark II (Zero-shot, 27 датасетов).

На in-domain Chronos прям хорош. Не только лучше локальных моделей, но и лучше задаче-специфичных. На zero-shot тоже хорош, 2-3 места. Бьёт модели, которые видели в обучении эти задачи. Это прям круто для zero-shot, когда модель такого вообще не видела. А если ещё и зафайнтюнить на эти задачи, то вообще хорошо, лучше остальных.

Интересно, кстати, что декодерная Chronos GPT-2 с 90М параметров отстаёт по качеству от энкодер-декодерных Small (46M) и Mini (20M). Незначительно, но стабильно.

Судя по кривым лосса и метрик, ещё большие модели ещё улучшат результаты. Рандомная инициализация чуть получше старта с предобученных на языке (датасет C4) весов. TSMix + KernelSynth в обучении лучше, чем без одного или обоих, особенно на zero-shot. С увеличением контекста модель предсказывает лучше. С увеличением размера словаря тоже.

Качественно модель неплохо предсказывает различные паттерны: шумовой процесс, тренд, сезонность, комбинированный паттерн, AR-процесс.

Может быть потеря точности из-за квантования или скейлинга (например, на разреженных данных, где среднее низкое, но есть выбросы; или на сильно сдвинутых данных с малой дисперсией), но на реальных данных модель работает хорошо.

Есть ограничения: модель фокусируется на univariate time series и не учитывает никакую дополнительную информацию, которая может иметься. Также отдельная проблема -- скорость инференса. Здесь Chronos ощутимо проигрывает специализированным лёгким моделькам. Зато нет необходимости деплоить 100500 отдельных моделей если что.

В общем интересная модель получилась, надо попробовать на какой-нибудь реальной задаче. Выглядит полезно. Классно что любые свежие архитектурные наработки из NLP могут быть легко перенесены сюда, ибо архитектурных изменений не требуется. Отдельно интересно, что там ценного в выученных репрезентациях, и где они могут быть полезны.

Напоминаю, что поддержать проект можно тут patreon.com/GonzoML

2024-04-25 20:33:39

Many-Shot In-Context Learning
Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Stephanie Chan, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle
Статья: https://arxiv.org/abs/2404.11018

Развитие темы про очень большие контексты (https://t.me/gonzo_ML/2415), с которыми модели теперь поддерживают many-shot in-context learning (ICL) или ICL с очень большим числом примеров (сотни и больше). Во времена контекстов размера 2-4k об этом сложно было думать, туда и единицы примеров не всегда нормально влезали, но с контекстом в 1M жизнь меняется. В отличие от файнтюнинга, в режиме ICL не требуется оптимизировать параметры модели и подстраиваться под задачу можно прямо во время инференса. Остаётся правда вопрос цены и скорости инференса.

В работе авторы показали, что many-shot ICL неплохо скейлится и качество решения различных задач растёт при подаче большего числа примеров в промпте. За основу взяли Gemini 1.5 Pro, использовали greedy decoding. Для более надёжных результатов для каждого промпта несколько раз сэмплили примеры с разными сидами. Сделали так, чтобы каждый K-shot промпт включал все примеры из промптов с меньшим K.

На задаче машинного перевода в низкоресурсный язык (в курдский или тамильский) в режиме few-shot от 1 до 10 примеров улучшение незначительное, зато при дальнейшем увеличении до почти тысячи (997) примеров качество (по метрике chrF) растёт на 4.5% для курдского и 1.5% для тамильского относительно 1-shot режима. В результате побили продакшн Google Translate и достигли новой SoTA для этих языков.

В принципе, это не сильно отличается от примеров из работы про Gemini 1.5 (https://arxiv.org/abs/2403.05530), когда чем большую порцию учебника языка Kalamang в неё подаёшь, тем лучше она переводит (https://t.me/gonzo_ML/2358).

На abstractive суммаризации и оценке на XSum итоговое качество довольно близко к специальным зафайнтюненным моделям (PEGASUS и mT5). На XSum качество растёт примерно до 50 примеров, потом ухудшается (модель начинает выдумывать даты и времена). На XLSum растёт монотонно до 500 примеров (из XSum), что говорит о положительном трансфере.

На генерации планов в области логистики (сгенерили датасет с задачами с 2-3 городами, 1-2 посылками, одним грузовиком и самолётом на город) есть сильное улучшение до десятка примеров, затем слабое до 400 и скачок к 800. До специализированных планировщиков далеко, но результат интересный.

Также попробовали сделать LLM-верификатор для предсказания корректности решения задач из GSM8K. На 16 и выше примерах (не путать с 16+!) best-of-4 начинает превосходить pass@1.

Проблема с таким many-shot ICL в том, что получить кучу хороших человеческих примеров может быть сложно, например для задач со сложным reasoning типа GPQA (Google-Proof Q&A Benchmark, https://arxiv.org/abs/2311.12022). Авторы предложили два подхода, которые могут помочь.

Reinforced ICL генерит объяснения через chain-of-thought prompt и оставляет только те, что дают правильный ответ. Они затем добавляются как примеры в ICL. Могут быть проблемы с false positive, когда неправильный вывод привёл к правильному результату.

Unsupervised ICL идёт дальше и убирает сгенерённые объяснения, оставляя только примеры задач без ответа. В таком случае промпт состоит из трёх частей: 1) преамбулы типа “You will be provided questions similar to the ones below:”, 2) амбулы списка задач без решения и 3) zero-shot инструкции или few-shot промпта с желаемым форматом ответа.

Проверили эти методы на датасете MATH. И reinforced и unsupervised ICL побили ICL с ground-truth решениями. Особенно прикольно, что метод только с задачами хорошо работает. Видимо, такие задачи модель выучила в предобучении. Кроме того промпты, полученные на MATH, приводят к лучшему решению GSM8K. Особенно хорошо работает Reinforced ICL.

2024-04-25 20:33:39

На GPQA тоже есть улучшение до 125 примеров, потом идёт просадка. Unsupervised ICL ведёт себя очень по-разному, закономерности нет, то лучше, то хуже, и обычно хуже Reinforced ICL. Как SoTA здесь заявлен Claude-3 Opus (я только не понял, в режиме zero-shot?), лучший из 125-shot к нему приближается.

Ещё проверили на восьми задачах из Big-Bench Hard. Reinforced ICL превзошёл человеческий 3-shot CoT промпт практически на всех задачах и в целом качество монотонно растёт с ростом числа примеров.

В работе есть анализ поведения модели в режиме ICL при переходе от few-shot к many-shot режиму.

Например, many-shot позволяет устранить bias’ы (сделать unlearning) предобучения за счёт множества примеров. В работе воспроизвели сеттинг другой работы, где метки классов были изменены ротацией ([‘negative’, ‘neutral’, ‘positive’] в [‘neutral’, ‘positive’, ‘negative’]) либо заменены на абстрактные ([‘A’, ‘B’, ‘C’]). Во few-shot режиме качество сильно проседает относительно оригинальных меток, но с ростом числа примеров сильно растёт и догоняет. Model confidence тоже выравнивается.

На других задачах неязыковой природы надо выучивать абстрактные математические функции с числовыми входами. Авторы сфокусировались на функциях чётности и линейной классификации в пространстве высокой размерности. Классификация с ростом числа примеров приближается к бейзлайну в лице kNN. Чётность также заметно улучшается.

Из интересных наблюдений то, что от порядка примеров в промпте очень многое зависит. Причём лучший порядок на одной задаче не факт что будет лучшим на другой.

Также поизучали как связан negative log-likelihood с перформансом модели в режиме ICL. Там существенно полезных для предсказания результатов не обнаружено.

Отдельным непонятным вопросом остался почему иногда при увеличении числа примеров качество ухудшается.

Такие дела. С одной стороны результат ожидаем, с другой -- хорошо, что он широко подтверждён и подкреплён. В реальной жизни, вероятно, многое будет определяться экономикой (как соотносятся затраты на дообучение против затрат на большой контекст) и перформансом (где нужно быть ближе к рилтайму, длинные контексты будут проигрывать, потому что требуют большего времени на обработку -- но тут могут появиться множество оптимизаций). Возможно, это будет хорошим методом для генерации синтетики, где разовые затраты ок, а дальше файнтюним другую модель. Reinforced ICL и Unsupervised ICL тоже могут где-то пригодиться.

В любом случае ICL даёт дополнительную гибкость и универсальность, что должно открыть дорогу новым применениям моделей.

2024-04-24 14:13:15

Из других свежих интересностей, HF опубликовал свою открытую реимплементацию Gato (https://t.me/gonzo_ML/966) под названием Jack of All Trades (JAT).

Пост: https://huggingface.co/blog/jat
Статья: https://arxiv.org/abs/2402.09844
Код: https://github.com/huggingface/jat
Модель: https://huggingface.co/jat-project/jat
Датасет: https://huggingface.co/datasets/jat-project/jat-dataset

2024-04-24 14:05:14

Надоело уже писать про новые LLM, но сегодня ещё и Snowflake выкатил свою enterprise-focused модель Arctic.

Arctic — это Dense-MoE гибрид с 480B параметров, из которых в каждый момент активны 17B. Заявлен лучший перформанс среди открытых моделей на энтерпрайзных бенчмарках. Лицензия Apache 2.0.

Пост: https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/
HF: https://huggingface.co/Snowflake/snowflake-arctic-instruct

2024-04-24 12:56:47

Интересное обновление. Выложена phi-3-mini (https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3), доступны версии с контекстом 4k и 128k.

2024-04-23 07:20:53

Microsoft продолжает линейку моделей Phi (Phi-2, Phi-1.5, Phi-1). Теперь вышла Phi-3.

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Статья: https://arxiv.org/abs/2404.14219
Пост: https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential
Модели: https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Обучено три модели: phi-3-mini (3.8B, на 3.3T токенов), phi-3-small (7B) и phi-3-medium (14B, обе на 4.8T токенов). Модель mini совместима по структуре блоков и токенизатору с Llama 2 (наверное и с Llama 3). Модель small использует токенизатор tiktoken и чередование dense и blocksparse внимания.

Mini (3.8B) может быть запущена на телефоне, после квантизации в 4 бита она весит примерно 1.8GB, на iPhone 14 выдаёт 12 токенов в секунду. При этом по части академических бенчмарков она сравнима с GPT-3.5 (1106 версия), Gemma 7b, Llama-3-In 8b, Mixtral 8x7b.

2024-04-19 16:07:05

Из грустных новостей сознания и не только, сегодня умер Daniel Dennett :(

https://dailynous.com/2024/04/19/daniel-dennett-death-1942-2024/

2024-04-19 15:30:35

Хорошие новости

https://sites.google.com/nyu.edu/nydeclaration/declaration

The New York Declaration on Animal Consciousness
April 19, 2024 | New York University

Which animals have the capacity for conscious experience? While much uncertainty remains, some points of wide agreement have emerged.

First, there is strong scientific support for attributions of conscious experience to other mammals and to birds.

Second, the empirical evidence indicates at least a realistic possibility of conscious experience in all vertebrates (including reptiles, amphibians, and fishes) and many invertebrates (including, at minimum, cephalopod mollusks, decapod crustaceans, and insects).

Third, when there is a realistic possibility of conscious experience in an animal, it is irresponsible to ignore that possibility in decisions affecting that animal. We should consider welfare risks and use the evidence to inform our responses to these risks.

Популярно по теме:
https://www.quantamagazine.org/insects-and-other-animals-have-consciousness-experts-declare-20240419/

2024-04-18 16:47:53

Из интересного про Llama 3, в процессе обучения находится 400B+ модель. Также ожидается мультимодальность и мультиязычность.

https://ai.meta.com/blog/meta-llama-3/

2024-04-18 16:27:14

Llama 3 announced.

* 8B and 70B models and instruction-tuned versions are available.
* Trained on more than 15T tokens, 7x+ larger than Llama 2's dataset!
* 8k context window
* New trust and safety tools with Llama Guard 2, Code Shield, and CyberSec Eval 2.

In the coming months, Meta plans to introduce new capabilities, longer context windows, additional model sizes, and enhanced performance.

https://llama.meta.com/llama3/

2024-04-17 14:53:59

Future of Humanity Institute закрылся.

https://www.futureofhumanityinstitute.org/

2024-04-15 12:20:51

Новый AI Index Report 2024 опубликован!

Сайт: https://aiindex.stanford.edu/report/
PDF: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf

2024-04-15 08:58:21

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models
DeepMind: Griffin, RLHF, Gemma Teams
Статья: https://arxiv.org/abs/2404.07839
Модель: https://ai.google.dev/gemma/docs/recurrentgemma
Репа: https://github.com/google-deepmind/recurrentgemma

И сразу вдогонку про рекуррентную Gemma, построенную на архитектуре Griffin.

DeepMind только что выпустил обновление для классической Gemma — версию 1.1 (https://t.me/gonzo_ML/2498), а теперь есть ещё и RecurrentGemma, пока только 2B. Выложена обычная предобученная модель и instruction tuned версия.

Основное преимуществе Griffin здесь — это внутреннее состояние фиксированного размера, нет нужды растить KV кеш с ростом длины последовательности. Отличия RecurrentGemma от Грифона минимальны -- входные эмбеддинги скейлятся на константу равную корню из ширины модели.

Обучали на последовательностях длины 8192 токенов. Те же данные, что и у Gemma-2B (то есть в основном английский, математика и код). Обучалась на 2T токенов -- это круче, чем в работе про Griffin (там было 300B), но меньше, чем у Gemma-2B (там 3T). Также был аналогичный Gemma instruction fine-tuning плюс заявлен новый RLHF.

Результат в целом сравнимый с Gemma-2B, хоть та и обучалась на 1.5x токенов. На человеческой оценке с Mistral 7B v0.2 Instruct, RecurrentGemma-2B-IT лишь чуть хуже Gemma-1.1-2B-IT.

Поскольку внутреннее состояние модели фиксированного размера и нет необходимости держать KV кеш, модель может генерить последовательности любой длины, обычная Gemma была ограничена памятью хоста. Также можно обрабатывать более крупные батчи.

Throughput чисто на авторегрессионную генерацию, без учёта обработки промпта, выше в разы, особенно на длинной генерации, типа 8к токенов. Получается порядка 6k токенов в секунду на TPUv5e и оно не падает с ростом длины.

Процессинг промпта не сильно быстрее обычной Gemma, потому что и та делает это впараллель. Но всё равно быстрее. На TPUv5e это порядка 40k токенов в секунду.

Это прям интересная альтернатива для on-device моделей.

2024-04-15 08:36:35

Модели отскейлили от 100M до 7B параметров, Griffin до 14B. Количество токенов в обучении скейлили по рецептам Шиншиллы (https://t.me/gonzo_ML/1216), для оценки на разных задачах модели обучали на 300B токенов. Все модели демонстрируют красивую степенную зависимость между лоссом и training FLOPs. Лоссы грифона стабильно чуть ниже трансформерного бейзлайна при том же бюджете. У ястреба повыше, но с тенденцией к уменьшению по мере роста бюджета.

Внешними бейзлайнами выступили Mamba-3B и Llama-2 (7B, 13B). Они обучены на больших (600B/2T) и отличающихся датасетах. Hawk и Griffin весьма хороши, бьют Мамбу, хоть и обучались на меньших датасетах.

Для обучения больших моделей на наборе устройств реализовали model parallel training через шардинг слоёв. Отдельный челлендж -- эффективная реализация рекуррентностей на устройствах, так как в отличие от классических архитектур они работают в режиме низкого FLOPs-to-byte ratio, и вычисления оказываются memory bound. Кастомные кернелы написали на Pallas (https://jax.readthedocs.io/en/latest/pallas/index.html), специальном расширении JAX. Как это выглядит, можно посмотреть в репе RecurrentGemma (https://github.com/google-deepmind/recurrentgemma/blob/main/recurrentgemma/jax/pallas.py). Использовали linear scan, получилось в три раза быстрее родной реализации. Через associative scan (использовался в S5, https://arxiv.org/abs/2208.04933) получается медленнее, а через свёртки это не получается, механизм гейтинга RG-LRU не совместим со свёрточным представлением.

С ростом длины последовательности обучение Грифона идет быстрее обучения трансформера. Особенно эта разница заметна, когда длина последовательности заметно больше размерности модели и вычисление внимания занимает значимую долю всего времени.

По latency на инференсе Hawk и Griffin быстрее MQA трансформера (который в свою очередь быстрее классического MHA). Заметная разница проявляется на больших длинах, в основном после 2048 токенов. Throughput у новых моделей тоже лучше (особенно у Hawk), частично от лучшего latency, частично от меньшего размера кешей и возможности запихнуть больший батч на тот же девайс. Griffin поэтому же медленнее Hawk, его кеш локального внимания растёт с ростом батча.

На предсказании следующего токена в длинной последовательности новые модели лучше трансформеров и экстраполируют на сильно более длинные последовательности (по крайней мере 4x), чем были в обучении. Из интересных наблюдений, модели, обученные на меньшей длине (2k против 8k), перформят на малых длинах лучше. Поэтому важно выбирать длину последовательности при обучении под будущие задачи.

Одна свежая работа “Repeat After Me: Transformers are Better than State Space Models at Copying” (https://arxiv.org/abs/2402.01032) показала, что трансформеры лучше работают на задачах типа копирования или retrieval’а, чем SSM. Проверили новые модели на задачах Selective Copying и Induction Heads (как в работе про Мамбу, https://t.me/gonzo_ML/2149). Все три модели могут идеально решить задачу копирования (но Hawk обучается медленнее). На induction jeads все три решают задачу до определённого предела длины, дальше трансформер фейлится, не может экстраполировать. На этих задачах и у Мамбы всё было хорошо (https://t.me/gonzo_ML/2154).

В упомянутой работе про “Repeat After Me” была предложена задача retrieval с синтетической телефонной книгой, где по имени надо выбрать номер телефона. В промпте содержится “книга”, затем два примера и имя для которого надо извлечь телефон. На этой задаче Hawk быстро скатывается в ноль с ростом длины книги, это похоже на поведение Мамбы. Что в общем неудивительно, размер состояния у него маленький. Трансформер держится до длин знакомых по обучению и после скатывается в ноль. Griffin идеально держится до длины контекста локального внимания, затем начинает деградировать, но зато экстраполирует дальше трансформера.

Интересное развитие!

2024-04-15 08:36:34

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
Soham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru, Albert Gu, Ruba Haroun, Leonard Berrada, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, Arnaud Doucet, David Budden, Yee Whye Teh, Razvan Pascanu, Nando De Freitas, Caglar Gulcehre
Статья: https://arxiv.org/abs/2402.19427

На днях вышла открытая RecurrentGemma (https://arxiv.org/abs/2404.07839), построенная на архитектуре Griffin. Сам Griffin был опубликован DeepMind’ом в конце февраля 2024. Разберём же его.

Работа вертится вокруг нового рекуррентного блока, RG-LRU, на котором построены архитектуры Hawk (чередование RG-LRU и MLP) и Griffin (чередование MLP со смесью RG-LRU и локального внимания). Hawk при этом бьёт Mamba (https://t.me/gonzo_ML/2148) аналогичного размера, а Griffin обходит Llama-2, обучаясь на вшестеро меньших данных.

Архитектура строится на повторяющихся residual blocks, похожих на используемые в pre-norm трансформерах: (RMSNorm + Temporal mixing block) и (RMSNorm + MLP block), оба с residual connection поверх.

В качестве MLP block используется gated блок аналогичный GeGLU имени Ноама Шазира (https://arxiv.org/abs/2002.05202, в текущей работе его назвали GeGeLU): с двумя ветвями размерности M*D каждая (в работе выбрано M=3, то есть эмбеддинги расширяются), в одной ветви сидит нелинейность GeLU, а в другой считаются коэффициенты для поэлементного умножения, после которого слитые ветви обрабатываются ещё одним линейным слоем.

Самая интересная и вариабельная часть -- Temporal mixing block. Их три варианта: 1) global Multi-Query Attention (MQA), 2) local (sliding-window) MQA 3) и новый рекуррентный блок.

Вариант 1 (MQA, https://arxiv.org/abs/1911.02150 тоже имени Ноама Шазира) это замена классического Multi-Head Attention (MHA), где K и V общие для всех голов. Используются позиционные эмбеддинги RoPE.

Вариант 2 с локальным вниманием (оно же sliding window attention) аналогичен локальному вниманию в Longformer (https://t.me/gonzo_ML/294). Окно локального внимания установлено в 1024 токена.

Наконец вариант 3 напоминает блок из Мамбы (https://t.me/gonzo_ML/2153), где тоже две ветви, в одном из которых всё тот же GeLU как в MLP, а в другом одномерная свёртка + RG-LRU слой.

Сам RG-LRU (Real-Gated Linear Recurrent Unit) -- это развитие LRU (https://t.me/gonzo_ML/1734) с двумя добавленными гейтами, не зависящими от предыдущего рекуррентного состояния, только от входа. Input gate 𝑖_t аналогичен таковому из LSTM, он фильтрует или масштабирует вход. Второй гейт, recurrence gate 𝑟_t, нов и может приближённо интерполировать между стандартным апдейтом LRU из оригинальной работы и предыдущим скрытым состоянием, тем самым отбрасывая входные данные и сохраняя информацию из прошлого. В приложении A подробнее разбирается поведение рекуррентного гейта.

Для инициализации RG-LRU _не_ используются полиномы по типу HiPPO или дискретизация по типу SSM. Также не используются комплексные числа в рекуррентности, как это было в LRU. В приложении B также рассмотрен комплекснозначный вариант под названием CG-LRU (Complex-Gated Linear Recurrent Unit). Он более выразителен, но языковому моделированию на практике не помогает.

Результаты интересные. Рассматриваются три варианта:

1) MQA-Transformer в качестве бейзлайна

2) Hawk с тем же residual и MLP как у трансформерного бейзлайна, но с рекуррентным блоком с RG-LRU в качестве temporal mixing block.

3) Griffin с тем же residual и MLP как у трансформерного бейзлайна, но с миксом рекуррентных и локальных MQA блоков (через каждые два residual блока c RG-LRU, один блок с локальным вниманием).

2024-04-13 21:52:49

Сермяга

2024-04-08 19:26:14

Выпущены обновлённые Gemma 1.1

Качество улучшено, баги убраны.

https://twitter.com/robdadashi/status/1777317210836312233?t=YYrTafwNqXJj3ioHNbu26Q&s=19

2024-04-01 10:25:49

Фото какого-то раннего экспериментального прототипа

2024-04-01 10:25:24

Просочились слухи про новый гугловый TPUv6, который придёт на смену v5 (https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer).

Кроме банальных больше флопсов и более быстрой памяти, есть интересные вещи:

* Самое большое расширение микроархитектуры и системы команд за всё время существования TPU
* Специальные блоки в железе для вычисления трансформерных голов
* Оптимизированный дизайн для вычисления линейных RNN (https://t.me/gonzo_ML/1734) и state space models (SSM, https://t.me/gonzo_ML/2148). Gemini 2 или 3 будет не чистым трансформером?
* Поддержка wide 1D топологии (обычно сейчас используют 2D-3D торы) для очень длинных последовательностей
* Наконец самое забавное -- ртутное (!) охлаждение

Явно не для дома штука.

2024-03-31 21:16:10

Обновление Grok (https://t.me/gonzo_ML/2479) на подходе, Grok 1.5

https://x.ai/blog/grok-1.5

Контекст 128k, улучшенный reasoning на бенчмарках.

Grok 2 тоже когда-то обещают (https://x.com/elonmusk/status/1773655245769330757?s=20).

2024-03-29 19:13:39

AI21 от которых давненько ничего не слышали, выпустили гибрид трансформера и мамбы (https://t.me/gonzo_ML/2148) под названием Jamba (https://www.ai21.com/blog/announcing-jamba).

Окно контекста 256K, MoE SSM-Transformer гибрид. Модель под лицензией Apache 2.0

HF: https://huggingface.co/ai21labs/Jamba-v0.1

Уверен, скоро будут SSM гибриды и от других игроков.

2024-03-26 17:15:07

Вдруг вы хотите посмотреть сегодня лекцию про сознание

https://royalsociety.org/science-events-and-lectures/2024/03/faraday-prize-lecture/

2024-03-24 19:57:55

Пока новые интересные обзоры не готовы, пара анонсов для прикладных AI/ML специалистов, желающих приложить свой опыт и знания к чему-то глобально очень полезному.

#1.

Мои друзья по биоинформатике (с которыми мы вместе выигрывали один из DREAM Challenge) запустили крутое соревнование IBIS - Inference of Binding Specificities - по использованию методов биоинформатики и машинного обучения для предсказания ДНК-паттернов, узнаваемых регуляторными белками человека.

Регистрация уже открыта, соревнование продлится до середины лета, а итоги подведут осенью. Для участия пригодится навыки программирования, анализа данных и базовые знания биоинформатики.

Новые данные, куча экспериментов, неизученные факторы транскрипции, слава и почёт :) Победители станут соавторами публикации в престижном научном журнале, а лучшие методы определят стандарт поиска и представления новых ДНК-паттернов.

Организаторы соревнования - международный консорциум лабораторий из Канады-Швейцарии-Германии-России.

Соревнование пройдет полностью онлайн, подробности на сайте ibis.autosome.org.
Английский свиттер-тред: https://twitter.com/halfacrocodile/status/1767284083632095646


#2.

Другие мои друзья запускают стартап (https://www.conformal.group/) по созданию продуктов в области community management, moderation, and analytics с целью защитить создателей контента от токсичности и помочь им делать сообщества безопасными и эффективными. Первые потенциальные клиенты уже есть, ожидается быстрое и интересное развитие. Прямо сейчас (в идеале – выход с 1 апреля) нужен сильный AI/ML инженер, способный за ограниченный срок собрать прототипы в нескольких областях. Важно уметь работать с различными APIшками, понимать как использовать LLMки или другие модели и при необходимости их допиливать под задачу различными способами.

Сейчас всё на очень раннем этапе, можно значительно повлиять на всё и активно поучаствовать в создании продукта с огромным импактом. Будут конкурентные деньги, больше среднего стоков; при желании, ведущая роль в интересном проекте.

Писать сюда -> @sockeye

2024-03-23 23:22:21

Не обзора ради, а букмарков для.

Fundamental Components of Deep Learning: A category-theoretic approach
PhD Thesis, Bruno Gavranović
https://arxiv.org/abs/2403.13001
272 pages

The Elements of Differentiable Programming
Book, Mathieu Blondel, Vincent Roulet
https://arxiv.org/abs/2403.14606
383 pages

2024-03-21 23:35:22

Для Gemini 1.5 убрали вейтлист и начинают выкатывать её в API. До этого была только через AI Studio и по особым приглашениям.

Также из интересного, по гугловым тестам на контексте размера 10M на всех модальностях (! не 1M как было раньше на всём кроме текста) выглядит достойно.

https://twitter.com/OriolVinyalsML/status/1770792443434139979?t=BHaM-ij3fqfsi0MdS9jAzQ&s=19

2024-03-21 19:14:19

И конечно нельзя не запостить эту его классику

The coming technological singularity: How to survive in the post-human era

https://ntrs.nasa.gov/citations/19940022856

2024-03-21 17:09:19

Ушла легенда. Умер Вернор Виндж

https://arstechnica.com/information-technology/2024/03/vernor-vinge-father-of-the-tech-singularity-has-died-at-age-79/

2024-03-20 08:18:03

Развитие (или завершение) истории с Inflection (писали про них тут https://t.me/gonzo_ML/1827 и тут https://t.me/gonzo_ML/2071)


https://techcrunch.com/2024/03/19/after-raising-1-3b-inflection-got-eaten-alive-by-its-biggest-investor-microsoft/

2024-03-18 23:40:43

Быстрее, выше, сильнее

https://blogs.nvidia.com/blog/2024-gtc-keynote/

2024-03-18 18:26:59

Свежего Альтмана подвезли

https://youtu.be/jvqFAi7vkBc?si=0JDIVpINKWAwaDwC

2024-03-17 20:35:46

Между прочим первая модель со ста пиллиардами параметров!

2024-03-17 20:11:32

А вот и Grok подоспел!

314B parameter MoE model. Apache 2.0 license.

https://x.ai/blog/grok-os
https://github.com/xai-org/grok

2024-03-17 19:09:09

[DeepMind SIMA] Scaling Instructable Agents Across Many Simulated Worlds
Авторы: много, The SIMA Team
Статья: тут
Пост: https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments

DeepMind собрал нового агента SIMA (Scalable, Instructable, Multiworld Agent), который учится следовать произвольным языковым инструкциям и действовать в любой виртуальной 3D среде через команды клавиатурой и мышью.

В работе постарались подойти к задаче максимально широко и общо. Среды богаты, могут содержать сотни объектов и допускать множество интеракций. Они асинхронны, то есть среда не дожидается действия агента, жизнь в ней идёт самостоятельно. Никакого доступа ко внутренностям среды нет, агент воспринимает пиксели с экрана и реализует действия через клавиатуру и мышь, как человек, никаких API. Агент не пытается максимизировать скор, он должен следовать произвольным языковым инструкциям, а не заданному набору команд. Каждая игра требует GPU, поэтому запускать сотни или тысячи агентов на эксперимент нет возможности.

С такими предпосылками обучаться сложнее, но зато легче расширять агента на новые среды.

В отличие от некоторых ранних работ типа Atari или Starcraft 2, здесь сфокусированы именно на 3D physical embodiment. Это либо first-person, либо third-person с видом из-за плеча. Важно, чтобы была возможность богатых и глубоких языковых взаимодействий.

Используются коммерческие игры (Goat Simulator 3, Hydroneer, No Man’s Sky, Satisfactory, Teardown, Valheim, Wobbly Life) и искусственные исследовательские среды на Unity (Construction Lab, Playhouse, ProcTHOR, WorldLab).

В качестве подхода к обучению выбран behavioral cloning, то есть supervised learning на человеческих действиях (клавиатура и мышь) по входным наблюдениям (пиксели экрана). Также в датасет включены языковые инструкции, диалоги и различные аннотации и маркеры успеха или неудачи. В статье есть красивая картинка с иерархической кластеризацией инструкций по эмбеддингам.

Собирали датасет разными способами. Например, записывали игру человека, а потом аннотировали её текстовыми инструкциями. Или в игре с двумя игроками, один играл и всё записывалось, а другой давал ему инструкции. Во время эксперимента ни один человек не пострадал. “The full details of our data collection protocols, including compensation rates, were reviewed and approved by an independent Human Behavioral Research Committee for ethics and privacy. All participants provided informed consent prior to completing tasks and were reimbursed for their time.“

Была какая-то предобработка с фильтрацией низкокачественных данных, ресайзу всего к размеру входа агента, взвешивание и перемешивание наблюдений чтобы приоритизировать наиболее эффективные. Фокусировались на инструкциях, которые могут быть выполнены не более чем за 10 секунд.

Агент использует предобученные модели. Это текстово-картиночная SPARC (SPARse Fine-grained Contrastive Alignment, https://arxiv.org/abs/2401.09865), и предсказательная видео модель Phenaki (https://arxiv.org/abs/2210.02399). Обе дальше файнтюнятся, первая через behavioural cloning, вторая через video prediction. Не понял, что собой представляет текстовый энкодер, кажется, обучается с нуля, хотя это странно -- у Гугла много хороших языковых моделей, которые грех не задействовать.

Внутри есть мультимодальный трансформер и старый добрый Transformer-XL, который смотрит на предыдущие состояния памяти и строит state representation. Эта самая репрезентация состояния дальше отправляется в policy network, производящую действия клавиатурой и мышью для последовательности из 8 действий.

Агент обучается на behavioral cloning, но есть и дополнительная (auxiliary) objective в виде предсказания достижения цели. Используется также Classifier-Free Guidance (CFG, https://arxiv.org/abs/2207.12598) для улучшения text-conditioning. Полиси считается "с" и "без" обусловливания языком, а затем логиты полиси сдвигаются в сторону полученной разности (“с” и “без”):

𝜋𝐶𝐹𝐺 = 𝜋 (image, language) + 𝜆 (𝜋 (image, language) − 𝜋 (image, ·)) .

2024-03-17 19:09:09

Детали обучения: архитектуры, размеры датасета, гиперпараметры, время обучения -- ничего неизвестно. Вероятно какое-то развитие мультимодального трансформера из работы Imitating Interactive Intelligence (https://arxiv.org/abs/2012.05672) с заменой LSTM на Transformer-XL?.

Оценивать полученного агента непросто. Критерий успеха зачастую недоступен, особенно в коммерческих играх, и вообще они не созданы для воспроизводимых бенчмарков. Или агент может выполнить действие не благодаря текстовой инструкции, а потому что среда так устроена -- в идеале задача должна позволять множество действий. Где-то надо использовать OCR для считывания сообщений игры. И так далее, сложностей много.

Ещё есть важная тема с latency. Поскольку агент и мир асинхронные, надо это учитывать и при обучении (предсказывать действия со смещением во времени), и не создавать дополнительных тормозов при оценке.

В итоге оценивали 1) относительно ground truth (для исследовательских сред, где это можно получить), 2) через детектирование успеха средствами OCR, или 3) человеком (медленно и дорого).

Результаты интересны.

Во-первых, у SIMA получается достигать целей в различных средах. Не со 100% результатом, но вполне сносно. Какие-то среды легче других. Также кластеризовали по типам действий, здесь тоже перформанс довольно сильно разнится.

Провели абляции. В дополнение к стандартной SIMA, был также режим zero-shot с обучением на одну меньше среду и оценке на ней. Был вариант без предобученных энкодеров (ResNet вместо SPARC/Phenaki), вариант без языковых входов, и вариант с обучением только на эту конкретную среду (агент-специалист). Почти все агенты обучались 1.2М шагов.

Специалист побит везде, это круто. Другие бейзлайны тоже заметно побиты. Zero-shot отстаёт сильно, но тем не менее у него тоже достойный результат, недалеко от специалиста. Без CFG хуже, но без языка ещё сильно хуже.

Было ещё отдельное сравнение на других задачах из No Man’s Sky. У людей на этих задачах успешность примерно 60%, у SIMA 34%, что заметно выше бейзлайнов.

В общем есть ещё над чем работать, но результат интересный и многообещающий. Явно есть и перенос знаний между средами, и zero-shot вполне достойный.

SIMA -- это всё ещё work in progress, результаты пока предварительные. В будущем обещают отскейлить на большее число сред и задач, улучшить стабильность и контролируемость агентов, заюзать свежие крутые предобученные модели, и ещё поработать над evaluations. SIMA должна быть интересной моделью для исследования grounding абстрактных способностей языковых моделей в embodied environments. Ждём развития.

P.S. Поддержать проект можно тут patreon.com/GonzoML

2024-03-17 09:06:37

Последние две ссылки в опрос не влезли

SIMA: https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments

Fruit fly: https://www.janelia.org/news/artificial-intelligence-brings-a-virtual-fly-to-life

2024-03-14 16:48:30

А ещё выехал Claude 3 Haiku, самый маленький, шустрый и дешёвый из семейства

https://www.anthropic.com/news/claude-3-haiku

2024-03-14 16:40:53

In case you missed it.

GPT-2 in Excel

https://spreadsheets-are-all-you-need.ai/

2024-03-13 19:02:06

Cerebras выпустил новую версию своей системы с гигантским чипом-вафлей, WSE-3.

Можно обучать модели до 24T параметров :)

https://www.cerebras.net/press-release/cerebras-announces-third-generation-wafer-scale-engine/

Key Specs:
* 4 trillion transistors
* 900,000 AI cores
* 125 petaflops of peak AI performance
* 44GB on-chip SRAM
* 5nm TSMC process
* External memory: 1.5TB, 12TB, or 1.2PB
* Trains AI models up to 24 trillion parameters
* Cluster size of up to 2048 CS-3 systems

2024-03-12 19:05:42

Свежий релиз

https://github.com/openai/transformer-debugger

Transformer Debugger (TDB) is a tool developed by OpenAI's Superalignment team with the goal of supporting investigations into specific behaviors of small language models. The tool combines automated interpretability techniques with sparse autoencoders.

2024-03-12 00:18:44

И для тех, кому Хинтона надо побольше, другое видео от осени прошлого года.

Оно довольно сильно перекликается с уже обсуждёнными Mortal computers (https://t.me/gonzo_ML/1910), но есть свежие добавки. Отдельного внимания заслуживает секция Q&A — лучше помогает дистилляции, чем сама лекция :)

https://www.youtube.com/watch?v=iHCeAotHZa4

2024-03-11 23:38:25

Вот ещё из интересных моделей, Cohere выложили Command-R.
35B параметров, контекст 128k (!), поддерживает с десяток языков.
License: CC-BY-NC

https://huggingface.co/CohereForAI/c4ai-command-r-v01

2024-03-11 22:29:07

А пока ждём Грока, вот вам свежего прекрасного Хинтона:

https://www.youtube.com/watch?v=N1TEjTeQeg0

2024-03-11 18:30:52

Астрологи объявили весёлую неделю:

2024-03-10 23:21:05

Свежего Джеффа Дина вам в ленту:

https://www.youtube.com/watch?v=oSCRZkSQ1CE

В целом откровений нет, но если вы не за всем происходящим (особенно у Гугла) следили, то хороший обзор, в том числе исторический.