gonzo-обзоры ML статей страница 3. Показано 50 статей из 305
2023-12-04 18:12:29
My summary of ModCon'23 Keynote about Mojo.
# Mojo: Pythonic system programming language
- usability of Python + performance of C
- focus on AI stack
- can use existing Python modules in Mojo (uses CPython for interoperability)
- in terms of migrating your Python code it's still not 100% compatible (https://docs.modular.com/mojo/why-mojo.html#compatibility-with-python)
- just announced mojo 0.6
- added traits to express generic functions (https://www.modular.com/blog/mojo-traits-have-arrived)
- in 2024 Q1 will start opensource Mojo
- more about the language from the talk at LLVM 2023: https://www.modular.com/blog/mojo-llvm-2023
- llama2.🔥 (https://github.com/tairov/llama2.mojo) is faster than llama2.c on CPU, with much shorter code
# MAX: Modular Accelerated Xecution
- Announced MAX platform, https://www.modular.com/max
- Includes MAX Engine (model inference runtime and API library) + MAX Serving (serving library for the MAX Engine that provides full interoperability with existing serving systems, e.g. Triton) + Mojo
- With GPU support (NVIDIA only?)
- Free developer edition, paid enterprise edition
2023-12-04 15:40:56
Через полтора часа стартует ModCon '23 (https://www.modular.com/modcon/23/start) от создателей Mojo (Криса Латтнера, автора LLVM, MLIR и Swift, если кто не знает). Обещают быть интересные анонсы, вероятно про то, как Mojo всех рвёт :)
Живой кейноут будет здесь: https://www.youtube.com/watch?v=VKxNGFhpYQc
2023-12-03 17:14:10
Ещё видео на выходные:
2023-12-03 11:31:26
Воскресного Пелевина Рича Саттона вам в ленту!
https://www.youtube.com/watch?v=NgHFMolXs3U
2023-12-02 22:04:07
Давно говорю, надо вместо нейронок делать глиалки!
https://www.quantamagazine.org/these-cells-spark-electricity-in-the-brain-theyre-not-neurons-20231018/
2023-12-01 16:50:01
Great news for European LLMs! Silo AI extends their family of open models Poro 🦌 with checkpoints, languages & modalities.
* Published additional checkpoints of Poro 1 34B, which shows best-in-class Finnish performance of open models, without compromising performance in English.
* Launching Poro 2 training with Nordic languages which covers English, Finnish, Swedish, Norwegian, Danish, Icelandic and code. Poro 2 has an updated and more modern architecture, and comes in a variety of model sizes.
* The upcoming model generations will add vision to their capabilities. This is enabled through a partnership with LAION.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
I'd also highlight another case of using non-NVIDIA chips for large-scale training:
* Poro is trained using 512 AMD MI250X GPUs on the LUMI supercomputer in Finland.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
2023-12-01 14:04:12
Just in case, вдруг вы не видели интро про LLM от Андрея Карпатого:
https://www.youtube.com/watch?v=zjkBMFhNj_g
2023-11-30 20:38:05
Больше LLM хороших и разных
The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
https://github.com/QwenLM/Qwen
We opensource our Qwen series, now including Qwen, the base language models, namely Qwen-1.8B, Qwen-7B, Qwen-14B, and Qwen-72B, as well as Qwen-Chat, the chat models, namely Qwen-1.8B-Chat, Qwen-7B-Chat, Qwen-14B-Chat, and Qwen-72B-Chat. Links are on the above table. Click them and check the model cards. Also, we release the technical report. Please click the paper link and check it out!
In brief, we have strong base language models, which have been stably pretrained for up to 3 trillion tokens of multilingual data with a wide coverage of domains, languages (with a focus on Chinese and English), etc. They are able to achieve competitive performance on benchmark datasets. Additionally, we have chat models that are aligned with human preference based on SFT and RLHF (not released yet), which are able to chat, create content, extract information, summarize, translate, code, solve math problems, and so on, and are able to use tools, play as agents, or even play as code interpreters, etc.
2023-11-30 13:11:16
Твиттер-тред от Франсуа Шолле
https://twitter.com/fchollet/status/1729512791894012011?t=-ttxTmq0vPQ91gyZ4fZr7g&s=19
2023-11-30 13:00:36
Тем временем вышел Keras 3.0.0.
Я бы сказал, возврат к истокам -- это снова multi-backend либа, но теперь с поддержкой JAX, PyTorch, TF и NumPy.
https://github.com/keras-team/keras/releases/tag/v3.0.0
Main highlights compared to Keras 2 are:
* Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (note that the NumPy backend is inference-only).
* New low-level keras.ops API for building cross-framework components.
* New large-scale model distribution keras.distribution based on JAX.
* New stateless API for layers, models, optimizers, and metrics.
2023-11-28 08:14:52
We introduce Starling-7B, an open large language model (LLM) trained by Reinforcement Learning from AI Feedback (RLAIF). The model harnesses the power of our new GPT-4 labeled ranking dataset, Nectar, and our new reward training and policy tuning pipeline. Starling-7B-alpha scores 8.09 in MT Bench with GPT-4 as a judge, outperforming every model to date on MT-Bench except for OpenAI’s GPT-4 and GPT-4 Turbo.
https://starling.cs.berkeley.edu
2023-11-27 17:49:16
XTX Markets is launching the Artificial Intelligence Mathematical Olympiad Prize ('AI-MO Prize'), a new $10mn challenge fund designed to spur the creation of a publicly-shared AI model capable of winning a gold medal in the International Mathematical Olympiad (IMO).
https://www.prnewswire.com/news-releases/xtx-markets-launching-10-million-artificial-intelligence-mathematical-olympiad-prize-301997891.html
2023-11-27 14:55:44
“The Coming Wave”, Mustafa Suleyman
https://www.the-coming-wave.com/
Я прочитал наконец недавно вышедшую книгу в прошлом со-основателя DeepMind, а ныне сооснователя Inflection AI, Мустафы Сулеймана (про него мы много писали тут https://t.me/gonzo_ML/1827).
Если попытаться сказать в двух словах, то книга про необходимость сдерживания (containment) технологий, и что как именно это делать неясно, но делать надо.
Большая книга, я с трудом дочитал, могла бы быть раза в три меньше, не потеряв сути. Но отсылки к опыту автора в DeepMind и не только интересны -- и человека лучше видно, и на разные известные события можно с другой стороны взглянуть (типа как AlphaGo играла в Китае и что это для всех там значило, или как в Гугле пытались создать этический комитет).
Мотив уже не новый -- технологии развиваются быстро и рано или поздно приведут человечество либо к катастрофическим последствиям, либо к антиутопии. В руках bad actors или просто из-за косяков (например, из биолабораторий самого высокого уровня защиты было достаточно утечек, включая повторные -- непонятно, почему с новыми технологиями это будет не так). В книге много фактического материала, рекомендую для ликбеза, если для вас всё выглядит в розовом свете.
Вообще книга довольно сильно напоминает обновлённый вариант статьи Билла Джоя “Why the Future doesn’t need us” (https://t.me/gonzo_ML/1618). Там была генетика, нанотех и роботы. Здесь новая волна включает в себя ИИ и синтетическую биологию, плюс набор сопуствующих технологий типа роботов, квантовых технологий, новой энергетики.
Основные свойства технологий новой волны:
1. Крайне асимметричное влияние и перераспределение власти
2. Гипер-эволюция и ускорение развития
3. Универсальность (onmi-use)
4. Автономность.
При этом все стимулы (национальная гордость и стратегическая необходимость, гонка вооружений, стремление знания распространяться, экономические стимулы и необходимость противодействовать глобальным вызовам, эго наконец) только толкают развитие дальше.
Государства в современном мире оказываются в очень неустойчивом положении, их хрупкость тоже только повышается благодаря новой волне. Но для Сулеймана они наша главная надежда на стабильность и сдерживание, и здесь ещё надо не свалиться в диктатуру, есть много вариантов, как оно может прийти не туда.
Готового рецепта в итоге нет. Есть набор ингредиентов, которые вероятно нужны: технические меры безопасности; аудит; замедление развития и покупка времени там где требуется; критики должны быть не просто критиками, а практиками с руками из правильного места; корпорации должны быть не только про прибыль (B Corp); государство тоже должно быть практиком и активным игроком; международные альянсы; культура, признающая ошибки и учащаяся на них; и наконец общественные движения.
В общем, дилема.
2023-11-24 15:43:48
Ещё новости экосистемы.
Inflection (https://t.me/gonzo_ML/1827) заявили, что они закончили обучение своей следующей модели, Inflection-2 (https://inflection.ai/inflection-2). И она типа лучше и PaLM 2, и Claude 2, и лучшая после GPT-4.
2023-11-23 02:01:11
Вот завтра проснётесь, а тут уже сингулярность!
https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/
"The maker of ChatGPT had made progress on Q* (pronounced Q-Star), which some internally believe could be a breakthrough in the startup's search for superintelligence, also known as artificial general intelligence (AGI), one of the people told Reuters. OpenAI defines AGI as AI systems that are smarter than humans.
Given vast computing resources, the new model was able to solve certain mathematical problems, the person said on condition of anonymity because they were not authorized to speak on behalf of the company. Though only performing math on the level of grade-school students, acing such tests made researchers very optimistic about Q*’s future success, the source said."
2023-11-22 15:07:15
А тем временем компания Anthropic (напомню, созданная в 2021 выходцами из OpenAI уровня VP of Research, недовольными излишней коммерциализацией компании и связями с Microsoft -- ничего не напомнило? :) ), по моим ощущениям ближайший по качеству конкурент GPT, выпустила новую версию своей модели, Claude 2.1.
Среди фич поддержка system message, а также внешних тулов через вызов функций, как и у гпт. Заявлена сильно пониженная частота галлюцинаций. Кокосом на торте идёт размер контекста в 200k токенов -- ребята снова ушли в отрыв от OpenAI с их GPT-4 Turbo и контекстом в 128k.
Цена тоже ниже GPT-4 Turbo, $8/$24 за миллион токенов промпта/выхода против $10/$30.
https://docs.anthropic.com/claude/docs/claude-2p1-guide
2023-11-21 20:17:27
Для тех, кому надоело следить за Санта-Барбарой вокруг OpenAI, о добром и вечном:
https://www.space.com/should-search-for-alien-life-include-looking-for-artificial-intelligence
2023-11-20 10:52:13
Ай молодца.
https://twitter.com/satyanadella/status/1726509045803336122?t=4hllB5IQxTesJ3NQgouMKw&s=19
2023-11-18 19:39:44
Кое-какое саммари событий на текущий момент
https://arstechnica.com/information-technology/2023/11/report-sutskever-led-board-coup-at-openai-that-ousted-altman-over-ai-safety-concerns/
2023-11-18 11:26:06
https://twitter.com/gdb/status/1725736242137182594?t=WT0gYqCgUxD1wRMe_LXayg&s=19
2023-11-18 09:54:34
Скандалы, интриги, расследования
https://www.forbes.com/sites/alexkonrad/2023/11/17/these-are-the-people-that-fired-openai-ceo-sam-altman/
2023-11-17 22:49:21
Вона как!
"Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI."
https://openai.com/blog/openai-announces-leadership-transition
2023-11-17 17:30:41
Свежие слухи -- OpenAI начали работать над GPT-5
https://twitter.com/rowancheung/status/1724079608054812684?t=3Fs3ELPj6JKQH6pcYSHZuw&s=19
2023-11-17 09:24:38
С генерацией картинок и текстов уже давно всё хорошо и мейнстрим, а музыка с видео пока отставали. Вот теперь Deepmind взялся за музыку:
https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/
2023-11-15 21:56:38
Интересная новость.
https://www.hpcwire.com/2023/11/13/training-of-1-trillion-parameter-scientific-ai-begins/
Интересно даже не тем, что 1T модель обучают (если оно MoE, то бывали и побольше), а тем, что не на Нвидии это делают. Неужели реальная конкуренция наконец?
"Argonne National Laboratory (ANL) is creating a generative AI model called AuroraGPT and is pouring a giant mass of scientific information into creating the brain.
The model is being trained on its Aurora supercomputer, which delivers more than an half an exaflop performance at ANL. The system has Intel’s Ponte Vecchio GPUs, which provide the main computing power."
...
"Brkic said its Ponte Vecchio GPUs outperformed Nvidia’s A100 GPUs in another Argonne supercomputer called Theta, which has a peak performance of 11.7 petaflops."
2023-11-10 06:04:52
Bill Gates on agents
https://www.gatesnotes.com/AI-agents
2023-11-07 13:44:27
In case you didn't have time to watch the keynote (https://www.youtube.com/live/U9mJuUkhUzk?si=9_KjNVsS3x7vxCdP) or read any other summaries, here's a very brief mine.
# GPT-4 Turbo
## 1 context length
- up to 128k, 300 pages std book
## 2 more control:
- valid JSON mode for output
- multiple function calling + better in following instructions
- consistent output with the seed param
-logprobs in the API soon
## 3 better world knowledge
- bringing retrieval to the platform
- knowledge cutoff shifted Sep 21 to Apr 23
## 4 new modalities
- dalle 3, gpt-4-turbo with vision, TTS in API
- protect from misuse
- 6 preset voices
- oss whisper v3 in the API soon
## 5 Customization
- fine-tuning for gpt-3.5-16k
- fine-tuning for gpt-4 experimental access program
- custom models for new domain, with tools to adjust different training stages
## 6 higher rate limits
- x2 tokens per minute
- can request further increase in settings
## 7 Lower Pricing
GPT 4 turbo
- 3x less for input tokens (1c per 1000 tokens)
- 2x for completion tokens (3c per 1000)
- total 2.75x less for most devs
- starting today
- speed is also a lot faster
GPT 3.5 turbo 16k
- 0.1c/0.2c (3x/2x) (cheaper than prev 4k model)
old Fine-tuning GPT 3.5 turbo 4k
- 1.2c/1.6c
new Fine-tuning GPT 3.5 turbo 16k
- 0.3c/0.6c (4x/2.7x)
# Building on the platform
- Copyright shield for enterprise and API
- defend customers and pay costs incurred
- remind: don't train on API or ChatGPT enterprise
# ChatGPT news
- now uses GPT-4 turbo by default
- can browse web
- without model clicker
# Agents
- Gradual iterative deployment
- GPTs -- tailored versions of GPT (instructions, expanded knowledge, actions)
- data is shared only on permission
- build with natural language in GPT Builder
- can upload documents
- can publish to use, or make it private, or use by link, on create for the company in ChatGPT Enterprise
- Launching GPT Store later this month
- Revenue sharing will be there
- Bringing the same concept to API with Assistants API
# Assistants API (beta today)
- persistent threads with long time conversation history (threads and messages, managing state)
- retrieval, can read pdf files, RAG
- code interpreter can generate and run code (Python)
- function calling
- can navigate threads in the console and look inside
2023-11-06 23:26:33
More about updated models and new GPT capabilities
https://openai.com/blog/new-models-and-developer-products-announced-at-devday
https://openai.com/blog/introducing-gpts
2023-11-06 22:27:09
A lot of news today
https://www.theverge.com/2023/11/6/23948619/openai-chatgpt-devday-developer-conference-news
2023-11-05 14:57:04
The engine powering Grok is Grok-1, our frontier LLM, which we developed over the last four months. Grok-1 has gone through many iterations over this span of time.
After announcing xAI, we trained a prototype LLM (Grok-0) with 33 billion parameters. This early model approaches LLaMA 2 (70B) capabilities on standard LM benchmarks but uses only half of its training resources. In the last two months, we have made significant improvements in reasoning and coding capabilities leading up to Grok-1, a state-of-the-art language model that is significantly more powerful, achieving 63.2% on the HumanEval coding task and 73% on MMLU.
...
At the frontier of deep learning research, reliable infrastructure must be built with the same care as datasets and learning algorithms. To create Grok, we built a custom training and inference stack based on Kubernetes, Rust, and JAX.
https://x.ai
2023-11-04 11:06:51
Когда сгенерил книгу через ChatGPT...
2023-11-03 20:10:57
Для ViT и JFT-300M эксперименты дорогие, это web-scale датасет, здесь обучали только самую большую FF модель. И здесь MRL показывает свою работоспособность. Кроме того, полученные эмбеддинги можно интерполировать, если нужен какой-то промежуточный размер -- точность на таким образом полученных репрезентациях лежит на кривой ровно там, где и можно было бы ожидать.
На таких фичах дёшево делать адаптивную классификацию с каскадами моделей по типу Виолы-Джонса. Начинаем с самого маленького эмбеддинга, получаем предсказание, если confidence ниже порога (обученного), добавляем следующий по размеру эмбеддинг. Получается качество эмбеддинга фиксированного размера при в 14 раз меньшей репрезентации.
Отдельная тема -- retrieval. Цель -- найти картинки из того же класса, что запрос, используя эмбеддинги. Оценивают по mean Average Precision@10. Эмбеддинги нормализованы и достаются через L2 близость. MRL бьёт бейзлайны, при этом ещё и лучше отдельных FF эмбеддингов. MRL-E чуть похуже.
В сочетании с adaptive retrieval (AR) можно сэкономить кучу места, не храня полные репрезентации. В AR сначала получают шорт-лист (K=200) кандидатов через низкоразмерную репрезентацию (Ds = 16), затем список переранжируют через более высокоразмерную (Dr = 2048) -- это сильно дешевле по вычислениям, чем сразу делать поиск соседей по полному эмбеддингу. AR с указанными выше параметрами настолько же точна, что и выборка по полному эмбеддингу (d = 2048), но в 128 раз более эффективна в теории, и в 14 раз быстрее на практике.
Определить оптимальные значения Ds и Dr может быть непросто, поэтому авторы предлагают подход Funnel Retrieval, где используется каскад последовательно увеличивающихся эмбеддингов. Начинаем с самых малых, затем полученный на каждом этапе список переранжируем более широким эмбеддингом, в два раза сокращая список и в два раза увеличивая размерность каждый раз.
Интересно, какие-нибудь из векторных баз это уже поддерживают? Ash? ;)
По крайней мере есть следующая работа про adaptive approximate nearest neighbour search с использованием матрёшек -- работа побывавшая одновременно и на ICLR 2023 (https://iclr.cc/virtual/2023/13999) и на NeurIPS 2023 (AdANNS, https://arxiv.org/abs/2305.19435) — что, так можно?
На out-of-domain датасетах робастность MRL репрезентаций не хуже обычных. Для retrieval она даже немного повыше. На few-shot learning через nearest class mean тоже хорошо. На новых классах из длинного хвоста даже улучшение.
В целом с увеличением эмбеддинга качество классификации растёт. Но есть некоторое число случаев, когда на малом размере эмбеддинга классификация лучше. Если оценивать качество на супер-классе (когда в разметке есть иерархия), то там не такая сильная просадка на малом размере репрезентации. То есть какую-то иерархию эти эмбеддинги тоже ловят.
Matryoshka Representations можно получить частичным файнтюном уже обученных моделей.
Итого, почти халявный способ улучшения репрезентаций. Было бы интересно обучить эмбеддинговую модель типа text-embedding-ada или тех, что делает Cohere, в такой постановке. Ну и вообще большой простор для улучшений -- отдельные лоссы, поиск весов, специальные структуры для поиска.
2023-11-03 20:10:56
🪆Matryoshka Representation Learning
Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham Kakade, Prateek Jain, Ali Farhadi
Статья: https://arxiv.org/abs/2205.13147
Код: https://github.com/RAIVNLab/MRL
Работа с NeurIPS 2022, которую я давно хотел разобрать. Лежала у меня среди тысячи открытых вкладок (где ещё уйма интересного, ждущего своего часа), пока я не нарвался на свежую “Matryoshka Diffusion Models” (https://arxiv.org/abs/2310.15111). Но про diffusion models не так интересно, как про репрезентации.
Идея в том, что репрезентации (эмбеддинги) фиксированного размера неоптимальны. Для одних задач могут быть слишком большими (что суммарно приводит к большим затратам при инференсе, который, вообще-то, является основным этапом жизненного цикла модели), для других слишком маленькими (тогда страдает качество, а переобучать уже поздно и/или дорого). Как правило выделить какое-то подпространство в эмбеддингах проблематично, градиентное обучение размазывает информацию по всему вектору. Надо либо обучать отдельные эмбеддинги разных размеров (опухнешь), либо делать какую-то компрессию после обучения.
Собственно вопрос, можно ли придумать какую-то гибкую репрезентацию, которая сможет адаптироваться под разные задачи с разными требованиями по вычислительным ресурсам? Ну вы уже поняли, что можно!
Авторы предлагают подход 🪆Matryoshka Representation Learning (MRL), позволяющий получать такие репрезентации. Идея проста: в эмбеддинге фиксированного размера (d) выделим вложенные друг в друга части (подпространства) размеров d/2, d/4, d/8, … каждая из которых будет хорошим эмбеддингом для своего размера.
Задача в том, чтобы модифицировать процедуру обучения так, чтобы в векторе размерности d первые m измерений содержали общие и переносимые на другие задачи репрезентации.
Работу проводят на supervised мультиклассовой классификации. Берётся ResNet50, который эмбеддит в вектор размерности d = 2048, датасет ImageNet-1K с тысячью классов, и набор вложенных размерностей M = {8, 16, . . . , 1024, 2048}.
Итоговый классификационный лосс для MRL выглядит как сумма отдельных кроссэнтропийных софтмакс лоссов по всем размерностям (с линейным классификатором поверх). Лоссы внутри суммы взвешены с неким коэффициентом важности, c_m, в работе они все были равны единице.
Линейные классификаторы тоже могут быть сделаны с общими весами, так что веса классификатора от маленького эмбеддинга являются подмножеством весов от классификатора для большего эмбеддинга. Это помогает сэкономить память в случае очень больших пространств эмбеддингов. Такой вариант подхода называется Efficient Matryoshka Representation Learning (MRL–E).
Подход проверили на разных задачах.
Для representation learning взяты задачи:
(a) Supervised learning для изображений: ResNet50 на ImageNet-1K и ViT-B/16 на JFT-300M.
(b) Contrastive learning для изображений и языка: ALIGN с ViT-B/16 vision encoder и энкодер BERT на данных ALIGN (https://t.me/gonzo_ML/679).
(c) Masked language modelling: BERT на English Wikipedia и BooksCorpus.
Лучшие гиперпараметры не подбирали, взяли те, что были у независимо обученных бейзлайнов.
У резнета размер эмбеддинга 2048, у ViT и BERT 768. Лестницы размерностей соответственно следующие: M = {8, 16, 32, 64, 128, 256, 512, 1024, 2048} и M = {12, 24, 48, 96, 192, 384, 768}.
Для сравнения взяты низкоразмерные репрезентации фиксированного размера (FF), уменьшенные через SVD, из slimmable networks и рандомно выбранные фичи из FF максимального размера.
Оценивают качество классификации на ImageNet через linear classification/probe (LP) и 1-nearest neighbour (1-NN). MRL рулит, при малом размере эмбеддинга качество даже чуть выше, чем для фиксированного эмбеддинга такого же размера. И намного лучше и рандомно выбранных фич, и SVD.
2023-11-02 18:40:52
"Applied ML", an interesting case :)
https://twitter.com/kchonyc/status/1719781112703054245
2023-10-29 11:04:49
Mindstorms in Natural Language-Based Societies of Mind
Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Piękos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanić, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber
Статья: https://arxiv.org/abs/2305.17066
Сегодня воскресный лонгрид. Для тех, кто любит позабористее! И Шмидхубера.
Работа отсылает к “society of mind” (SOM, не путать с Self-organizing Maps) Марвина Минского (https://www.youtube.com/watch?v=-pb3z2w9gDg), модели разума, составленного из множества взаимодействующих агентов.
Эта работа в чём-то близка к другой недавней клёвой работе про Generative agents (https://t.me/gonzo_ML/1481), которая мне очень нравится.
В нейросетевом мире многое при желании можно трактовать как SOM (Шмидхубер трактует как SOM даже RNN’ки), потому что есть множество сетей, собранных из других сетей, те же GAN’ы, например. Но эти, назовём их, “старые SOM” имеют жёсткие фиксированные интерфейсы заточенные под задачу. С прошлой десятилетки идёт движение к большей гибкости интерфейсов, у Шмидхубера была тема про рекуррентные модели мира и learning to think (https://arxiv.org/abs/1511.09249) и ОДНУ БОЛЬШУЮ СЕТЬ (https://arxiv.org/abs/1802.08864). В этой менее жёсткой коммуникации сеть могла опрашивать другие сети через векторные интерфейсы. В развитии это ведёт к мультимодальным нейросообществам, состоящим из множества интервьюирующих друг друга сетей.
Для решения задачи различные модули SOM могут общаться между собой и вести так называемый “мозговой штурм” (mindstorm) со множеством раундов коммуникации. Авторы были вдохновлены успехом различных форм коммуникации в человеческих обществах типа мозгового штурма, который brainstorm. А с расцветом LLM’ок, можно собрать SOM с отдельными модулями в виде предобученных LLM и символьным интерфейсом между ними, то есть с общением между собой на естественном языке вместо обмена тензорами. Такие SOM называются natural-language SOMs (NLSOMs).
У языкового интерфейса есть определённые преимущества:
* модульность и расширяемость: модули можно заменять на другие, или добавлять новые, не меняя интерфейс между ними
* объяснимость: человек может лучше понять, о чём “думает” SOM. К тому же в NLSOM можно включать и людей (а с нейролинком, наверное, и в любой SOM).
* Human-Biased AI: благодаря bias’ам встроенным в язык, вероятно, будет тенденция к более человеческому мышлению и рассуждениям.
Работа открывает большую поляну на будущее: какие формы организации сообществ более эффективны для решения определённых задач. В каком случае лучше нейромонархия с NN King Abdullah, а где лучше нейродемократия? Как агенты могут образовывать группы с общей экспертизой и интересами? Как нейроэкономика (не та, что обычно зовётся этим словом), где сети платят друг другу за сервисы, может использоваться в RL с NLSOM? Ждём следующих работ на эти темы.
NLSOM задаётся комбинацией агентов (каждый со своей objective) и оргструктурой, которая определяет как агенты взаимодействуют и коллаборируют. Агенты могут воспринимать, обрабатывать и пересылать уни- и мульти-модальную информацию. Агенты могут воспринимать разные типы информации, кто текст, кто звук, кто картинки. Некоторые агенты даже могут быть физически embodied и действовать в реальном мире. Это всё можно считать развитием парадигмы LLM Programs (https://t.me/gonzo_ML/1584), её следующим этапом, LLM Programs 2.0 или Multi-agent Programs.
Фреймворк NLSOM приложили к набору разных задач.
1) Visual Question Answering. Есть картинка, надо ответить на набор текстовых вопросов по ней (multiple choice).
2023-10-29 11:04:49
NLSOM состоит из пяти агентов (предобученных сетей). Двое (organizer, leader) построены на базе text-davinci-003, ещё трое -- картиночно-языковые модели (VLM, https://t.me/gonzo_ML/1364): BLIP2 (https://arxiv.org/abs/2301.12597), OFA (https://arxiv.org/abs/2202.03052), mPLUG (https://arxiv.org/abs/2205.12005).
Организатор получает вопрос и генерит другой вопрос (sub-question), все VLM на него отвечают и отправляют результат организатору, а тот на основе этих ответов генерит следующий под-вопрос. Этот пинг-понг продолжается заданное число ходов, затем лидер просит организатора суммаризировать историю общения. Наконец, лидер читает полученную саммари и выбирает ответ на оригинальный вопрос. Такая иерархическая структура может считаться монархической. Пробовали также и демократическую, где агенты видят ответы других и могут за них голосовать.
Монархический LNSOM побил другие индивидуальные модели в бенчмарке A-OKVQA, а также демократического коллегу (KAUST счастлив!). При увеличении VLM от 1 до 3 качество стабильно росло. Но возможно это из-за качества самих VLM, которые для понимания текста не очень.
2) Image Captioning. Сгенерить описание картинки, при этом со сложными примерами, требующими детального описания.
Тот же сетап, 2 LLM + 3 VLM с заменой промптов с VQA на captioning. Оценивались на датасете TARA, для сравнения взят BLIP2 и после десяти раундов mindstorm’а LNSOM лучше.
3) Prompt Generation for Text-to-Image Synthesis. Надо улучшить промпт для DALL-E 2, изначально заданный человеком.
В конфигурации работают 26 artists, 50 critics, и 1 collector. Каждый художник в свою очередь включает 3 LLM: a questioner, an answerer, and a leader. Все эти модели GPT3.5-turbo. Дополнительно есть модель painter (DALL-E 2). Каждый answerer промптом настроен на один конкретный (из 26) стиль рисования. Также им поступает общий запрос на рисование. Затем questioner за несколько раундов mindstorm’а получает уточнённые промпты для рисования. Каждый leader собирает всю эту коммуникацию и генерит более детальный промпт с конкретным стилем. Эти промпты оцениваются критиками. Для разнообразия мнений каждому критику заданы свои профессии (типа “You are a lawyer”). Критики голосуют за предложенные промпты. Collector агрегирует все голоса критиков, считает и продуцирует выигравший промпт, который и отправляется живописцу. Получилась иерархическая NSLOM, где на нижнем уровне Questioner-Answerer NLSOM для художников, а на верхнем Artist-Critic NLSOM. Итого 128 LLMs + 1 vision expert. Результаты прикольные.
4) 3D Generation. Надо сгенерить 3D модель из текстового описания.
В NLSOM входит 3D дизайнер (Luma AI’s Imagine3D), LLM leader (GPT3.5-turbo) и 3 критика (BLIP2). Дизайнер генерит начальную версию модели по запросу, критики получают 2D рендеры модели и пишут что про это думают, а лидер на основе этого фидбека модифицирует промпт.
Оценивают на наборе промптов, измеряя средний Clip score по нескольким view получившейся модели. Больших изменений после двух раундов взаимодействия не видно. Но даже этот примитивный mindstorm показывает неплохой результат.
5) Egocentric Retrieval. Парсинг видео от первого лица и поиск специально заданного сегмента видео (типа, в видео с поваром, готовившим спагетти, найти сегмент, где видно сколько сыпали соли).
В NLSOM пять агентов: четыре дебатёра и один редактор, все GPT3.5-turbo. Описание видео даётся извне человеком. Каждый дебатёр получает свой кусок сцены затем они обсуждают между собой как ответить на вопрос. Через несколько раундов обсуждений приходит лесник и всех разгоняет редактор и генерит саммари дискуссии, а из него и ответ на вопрос. Это тоже монархическая структура, в демократической дебатёры голосуют и выбирают сами.
Проверялись на части Ego4D датасета, получается намного лучше, чем с одним агентом (который не перебил рандомный бейзлайн). В этой конкретной задаче и конфигурации демократия рулила.
6) Embodied AI. Среди задач исследование роботом неизвестной среды и затем ответы на его основе (embodied question answering).
2023-10-29 11:04:49
Здесь три агента: капитан (LLM), контролирующий робота; наблюдатель (observer VLM), отвечающий на вопросы про картинки из наблюдений; первый помощник (first mate LLM), опрашивающий VLM и докладывающий капитану. Агенты на BLIP2 и GPT3.5-turbo.
Тестировали на одном из датасетов Habitat (кстати недавно вышла третья версия этого симулятора, https://ai.meta.com/blog/habitat-3-socially-intelligent-robots-siro/) с 3D интерьерами жилищ. NLSOM исследует среду лучше, чем равномерный рандом (не уверен, что нельзя было взять более мощный бейзлайн), осваивает бОльшую часть среды.
7) General Language-based Task Solving. Надо предложить решение для произвольной языковой задачи. Очень открытая постановка.
Использовали KAUST’овский же фреймворк CAMEL (https://arxiv.org/abs/2303.17760), сделали три агента (все на GPT3.5-turbo). Один агент специфицирует задачу на основе пользовательского промпта. Два других агента исполняют роли, заданные пользователем. Агенты могут коллаборировать и решать заданные задачи. Например, “Python Programmer” и “Game Developer” агенты вместе делают игру с костями.
Короче, прикольные результаты. Я думаю, будущее где-то здесь. На одних промптах, очевидно, далеко не уедешь, во многих сколь-нибудь серьёзных задачах уже нужна внешняя оркестрация и работа в парадигме LLM Programs. Здесь добавляется новое измерение, когда одного агента уже недостаточно, и задач с такой постановкой тоже может быть много. При желании это можно рассматривать как Chain-of-Thought (https://t.me/gonzo_ML/1885), но не в одной модели, а между разными. Или на это можно посмотреть как на ансамблирование, но с более богатыми коммуникационными протоколами. Как минимум в этой парадигме уже можно оформить любой кейс, где надо оценивать результат внутри процедуры, и критик вполне может быть одним из агентов. Это по идее классно ложится на акторную модель и языки типа Erlang/Elixir, было бы интересно, если бы на их базе появился какой-нибудь DSL или вообще аналог OTP (https://www.erlang.org/).
---
Дальше в работе начинается другая забористая тема.
Отдельный интересный вопрос -- credit assignment для отдельных модулей в NLSOM в парадигме Reinforcement Learning. И шире экономика агентов. Стандартный путь это policy gradients для LSTM, которая обучает участников NLSOM. Но у Шмидхубера есть и другие варианты, например, старый добрый локальный механизм Neural Bucket Brigade (NBB) (https://people.idsia.ch/~juergen/FKI-124-90ocr.pdf), где соревнующиеся нейроны платят "weight substance” активировавшим их нейронам. Кажется, этот метод является развитием ещё более старого Bucket Brigade (https://gwern.net/doc/reinforcement-learning/multi-agent/1985-holland.pdf) Джона Холланда, который очень много сделал для генетических алгоритмов (моя отдельная любовь).
Далее, если речь идёт про NLSOM, то и общаются они между собой на человеческом языке, а тогда и вознаграждения тоже можно сделать в человечески понятной форме -- натурой деньгами.
И дальше просто пир духа!
Некоторые члены NLSOM могут взаимодействовать со средой, а среда платить им деньгами (USD). Допустим, некий член NLSOM, M вначале наделён некой суммой USD. Но он должен платить ренту, налоги, счета внутри NLSOM и другим релевантным игрокам в среде. Если M банкротится, то он исключается из NLSOM. Всё это можно обозвать Economy of Minds (EOM). M может платить другим членам NLSOM за услуги, тогда некий другой член N может принять оффер, оказать услугу M и получить от него оплату. А контракт между M и N должен пройти проверку на валидность и исполнимость, например, в соответствии с законами ЕС. Нужен некий legal authority, валидирующий такой контракт. Например, это может быть LLM, прошедшая legal bar exam. Она же в случае диспутов будет решать разногласия. А ещё богатые члены NLSOM могут заводить детей (как свои копии или как модификации) и передавать им часть своего благосостояния.
2023-10-29 11:04:49
LLM-based EOMs могут быть слиты с другими EOMs, или даже встроены в реальные человеческие экономики и маркетплейсы. Ещё различные EOMs (и NLSOMs в общем) могут частично пересекаться: агент может быть членом разных группировок. EOMs могут кооперироваться и конкурировать как корпорации. Они могут обслуживать различных заказчиков. Должны иметь место правила для предотвращения конфликта интересов (типа, одни EOM не должны шпионить за другими). Ну и в целом человеческие общества могут знатно подпитать воображение для дальнейшего развития этой темы.
Закончу фразой из работы:
“Just like current LLMs consist of millions of neurons connected through connections with real-valued weights, future AIs may consist of millions of NLSOMs connected through natural language, distributed across the planet, with dynamically changing affiliations, just like human employees may move from one company to another under certain conditions, in the interest of the greater good. The possibilities opened up by NLSOMs and EOMs seem endless. Done correctly, this new line of research has the potential to address many of the grand challenges of our time.”
2023-10-28 14:42:13
A recent interview with Ilya Sutskever with a lot of history inside. And more.
“Existing alignment methods won’t work for models smarter than humans because they fundamentally assume that humans can reliably evaluate what AI systems are doing,” says Leike. “As AI systems become more capable, they will take on harder tasks.” And that—the idea goes—will make it harder for humans to assess them. “In forming the superalignment team with Ilya, we’ve set out to solve these future alignment challenges,” he says.
...
But, for Sutskever, superalignment is the inevitable next step. “It’s an unsolved problem,” he says. It’s also a problem that he thinks not enough core machine-learning researchers, like himself, are working on. “I’m doing it for my own self-interest,” he says. “It’s obviously important that any superintelligence anyone builds does not go rogue. Obviously.”
...
“Once you overcome the challenge of rogue AI, then what? Is there even room for human beings in a world with smarter AIs?” he says.
“One possibility—something that may be crazy by today’s standards but will not be so crazy by future standards—is that many people will choose to become part AI.” Sutskever is saying this could be how humans try to keep up. “At first, only the most daring, adventurous people will try to do it. Maybe others will follow. Or not.”
https://www.technologyreview.com/2023/10/26/1082398/exclusive-ilya-sutskever-openais-chief-scientist-on-his-hopes-and-fears-for-the-future-of-ai/
2023-10-27 21:15:11
И ещё про проверенные временем архитектуры
2023-10-27 19:09:48
ConvNets Match Vision Transformers at Scale
Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
Статья: https://arxiv.org/abs/2310.16764
Империя наносит алаверды #2 (#1 было тут https://t.me/gonzo_ML/819).
Есть мнение (™) что свёрточные сети хороши на малых и средних объёмах данных, а на датасетах супер большого размера проигрывают трансформерам (ViT в частности, https://t.me/gonzo_ML/434). Текущая работа от DeepMind разрушает этот миф.
Считается, что скейлинг трансформеров идёт лучше, чем у свёрточных сетей, но подтверждений этому мало. Кроме того, многие работы изучающие ViT сравниваются с довольно слабыми свёрточными бейзлайнами, сами при этом порой обучаясь с безумными вычислительными бюджетами более 500k TPU-v3 core hours (что уже $250k по нынешним ценам on-demand, https://cloud.google.com/tpu/pricing). Это сильно за границами бюджетов для обучения свёрточных сетей.
Авторы берут семейство NFNet (Normalizer-Free ResNets, https://arxiv.org/abs/2102.06171) с последовательно увеличивающимися шириной и глубиной сетей. Это чисто свёрточная архитектура, последняя из подобных, получившая SoTA на ImageNet. Эти архитектуры без существенных изменений (кроме подбора простых гиперпараметров обучения) предобучают на большом датасете JFT-4B (4B размеченных картинок с 30к классов) с вычислительными бюджетами от 0.4k до 110k TPU-v4 core compute hours (у TPU-v4 примерно в два раза более высокие флопсы, чем у v3, но такая же память). Затем предобученные сети файнтюнят на ImageNet (используют Sharpness-Aware Minimization, SAM, https://arxiv.org/abs/2010.01412) и получают перформанс аналогичный ViT с сопоставимыми бюджетами. Все модели стабильно улучшаются при добавлении вычислений. Самая большая модель NFNet-F7+ предобучается 8 эпох (110k TPU-v4 hrs), файнтюнится (1.6k TPU-v4 hrs) и даёт 90.3% top-1 accuracy (а с 4x аугментацией и 90.4%).
Из наблюдений по ходу, кривая валидационного лосса даёт чёткий линейный тренд, консистентный с log-log scaling law между валидационным лоссом и объёмом вычислений в предобучении. Это матчится с такими же scaling laws для трансформеров в языковом моделировании. Авторы нашли оптимальный режим скейлинга, когда размер модели и количество эпох обучения увеличиваются с одинаковой скоростью. Также нашли значения для оптимальных learning rates.
Ещё из интересного, претрейны с минимальным валидационным лоссом не всегда дают топовое качество после файнтюна. На трансформерах мы тоже такое где-то видели. Для файнтюнинга стабильно хороши модели чуть покрупнее и чуть поменьше обученные. Иногда ещё и с чуть большим learning rate.
Мораль? The bitter lesson! Чего думать, трясти надо! Компьют и данные -- главные факторы.
Но таки inductive biases у моделей разные и авторы признают, что ViT может быть более хорошим выбором в определённых условиях, например, за счёт возможности использовать одинаковые компоненты для разных модальностей.
2023-10-27 10:09:03
С другой стороны для контексту...
2023-10-26 18:28:08
A shortened version for those who likes smaller decks :)
https://docs.google.com/presentation/d/1nbVm5CBRG5JBhU2pD1AVELEm9crLN3NApgopfLZLc8w/edit
2023-10-26 18:24:14
А вот и OpenAI готовится...
https://openai.com/blog/frontier-risk-and-preparedness
2023-10-25 20:55:22
Managing AI Risks in an Era of Rapid Progress
Статья: https://managing-ai-risks.com/managing_ai_risks.pdf
Сайт: https://managing-ai-risks.com/
Вышло программное заявление от кучи значимых людей в AI и не только. Кроме Бенжио, Хинтона, Рассела и других там есть, например, Харари и Канеман.
Прогресс в AI быстр. Четыре года назад GPT-2 не умела считать до десяти, а сегодняшние модели помогают писать код, генерируют офигенные картинки, дают советы на интеллектуальные темы. И прогресс может ещё ускориться, потому что мы находимся в ситуации гонки. Кроме того прогресс в AI ускоряет сам себя, например, помогая в программировании новых систем и сборе данных для их обучения.
Нет оснований считать, что прогресс остановится или замедлится по достижении человеческого уровня. Местами этот уровень и так превзойдён, а искусственные системы обладают способностями, недоступными для человека -- могут работать быстрее, переваривать огромные объёмы данных, скейлиться в огромных масштабах. У компаний есть деньги, чтобы запустить обучение на порядки большее, чем максимальное на сегодня.
Авторы считают, что мы должны серьёзно отнестись к возможности появления в течение текущей или следующей декады AI-генералиста, превзойдущего (совсем другая тема, но забавно, что “официально” то, что я только что употребил, это несуществующая форма в русском языке -- причастие будущего времени) человеческие способности во многих критических областях.
Что будет дальше? В хорошем варианте с аккуратным управлением и справедливым распределением, вся жизнь может улучшиться. Плохой вариант связан с крупномасштабными рисками, которые мы недостаточно готовы адресовать. Основные ресурсы вливаются в создание всё более мощных систем ИИ, а не в безопасность и предотвращение вреда. Мы должны это поменять, погоня лишь за одними способностями недостаточна. И мы отстаём от графика в этом процессе. Мы должны предвидеть усиление имеющихся опасностей и появление новых, и готовиться к большим рискам до их материализации. С изменением климата на принятие ушли десятки лет, у нас нет такого же количества времени на ИИ.
Есть множество рисков масштаба общества (Societal-scale risks): усиление несправедливости, эрозия стабильности, ослабление общего понимания реальности. Здесь же крупномасштабные действия преступников и террористов. ИИ может оказаться в руках небольшого числа акторов и усилить глобальное неравенство, способствовать автоматизации войны, персонализированным массовым манипуляциям и всепроникающему наблюдению.
Эти риски только усилятся с развитием автономного ИИ, который может планировать, действовать в мире и преследовать свои цели. Эти цели могут быть нежелательными для нас, а в случае злонамеренных акторов и откровенно вредными. Как решить проблему AI Alignment, выравнивания поведения ИИ с нашими сложными целями, на данный момент неясно. А в условиях гонки, если цель -- её выиграть, мерами безопасности особенно легко пренебречь.
Мы не очень хорошо контролируем обычный софт, что говорить про продвинутые ИИ системы, совершенствующиеся в хакинге, социальной инженерии, обмане и стратегическом планировании. Автономные ИИ системы могут выучить это у людей или разработать самостоятельно.
Эти системы могут завоёвывать доверие, получать финансовые ресурсы, влиять на ЛПР, и образовывать коалиции с людьми и другими системами. Они могут копировать себя по сети как червь. ИИ-ассистенты уже сейчас помогают писать огромное количество кода, будущие системы могут встроить эксплойты в различные критические системы. В открытом конфликте системы ИИ могут угрожать автономным или биологическим оружием или использовать его. Это всего лишь продолжение текущих трендов на автоматизацию войны, биологических исследований или создания самого ИИ. Людям может оказаться слишком сложно вмешаться и противодействовать.
Им даже не нужно добиваться этого от нас, во многих случаях мы готовы передать бразды сами. В конкурентной среде многие люди и компании сами готовы внедрять такие системы из-за боязни проиграть конкуренцию.
2023-10-25 20:55:22
Вред от дискриминации и дезинформации виден уже сейчас. Другие риски тоже демонстрируют признаки появления. Важно адресовать и имеющиеся риски и предвещать новые.
Если бы продвинутые автономные системы появились сейчас, мы бы не знали ни как сделать их безопасными, ни как протестировать их на безопасность. А если бы даже и знали, то у правительств нет институтов для предотвращения злоупотреблений и внедрения безопасных практик. Авторы выступают за переориентацию R&D на безопасность и этику и за установление эффективного правительственного надзора.
Среди челленджей в R&D, которые не решатся созданием более способных систем ИИ: контроль и честность (oversight and honesty -- более продвинутые системы могут обхитрить тестирование, выдавая ложные, но убедительные ответы), робастность (в новых условиях при distribution shift или adversarial inputs), интерпретируемость (понимание работы), оценка рисков (возникают новые способности, которые трудно предсказать), появление новых челленджей (невиданные прежде failure modes).
Авторы предлагают аллоцировать минимум треть AI R&D бюджетов на безопасность и этику.
В контексте национальных институтов и международного управления нужно навязывать стандарты. Такие вещи есть в фарме, финансах и ядерной энергии, но не в ИИ. У стран и компаний сейчас есть стимулы для срезания углов за счёт безопасности. Подобно тому как производства сливают отходы в реки, компании могут пожинать плоды ИИ разработок, оставляя обществу разбираться с последствиями.
Национальным институтам нужна сильная техническая экспертиза и право действовать быстро. В международном поле нужны соглашения и партнёрства. Для защиты низкорисковых использований и академических исследований надо избежать бюрократических барьеров для малых и предсказуемых моделей. Наибольшее внимание нужно направить на фронтирные модели -- небольшое количество наиболее мощных систем, обучающихся на миллиардных суперкомпьютерах. Для эффективной регуляции правительствам нужна большая прозрачность разработок. Регуляторы должны требовать регистрацию моделей, защищать осведомителей внутри компаний, требовать репортинга инцидентов и мониторить разработку моделей и использование суперкомпьютеров (привет, KYC, скоро на AWS!). Регуляторам также нужен доступ к таким системам до их выкатывания в прод для оценки опасных способностей типа саморепликации, проникновения в другие системы, создание патогенов.
Для систем с опасными способностями нужна комбинация управляющих механизмов. Также разработчики фронтир-моделей должны юридически отвечать за вред своих систем, который можно было бы предотвратить. Это должно создать стимулы для инвестиций в безопасность. Для крайне способных систем возможно понадобится что-то ещё, включая правительственное лицензирование, возможность приостановки разработки в ответ на опасные способности, контроль доступа и меры информационной безопасности, устойчивые к state-level hackers.
Пока регуляций нет, компании должны незамедлительно сформулировать свои if-then обязательства в виде конкретных мер, которые они предпримут, если конкретные способности в их моделях пересекут красную черту. Эти меры должны быть детально описаны и независимо проверены.
Такие дела.
Выжимка тезисов собрана в отдельном Policy supplement (https://managing-ai-risks.com/policy_supplement.pdf).
2023-10-24 16:56:00
An interesting frame regarding LLMs:
============
With many 🧩 dropping recently, a more complete picture is emerging of LLMs not as a chatbot, but the kernel process of a new Operating System. E.g. today it orchestrates:
- Input & Output across modalities (text, audio, vision)
- Code interpreter, ability to write & run programs
- Browser / internet access
- Embeddings database for files and internal memory storage & retrieval
A lot of computing concepts carry over. Currently we have single-threaded execution running at ~10Hz (tok/s) and enjoy looking at the assembly-level execution traces stream by. Concepts from computer security carry over, with attacks, defenses and emerging vulnerabilities.
I also like the nearest neighbor analogy of "Operating System" because the industry is starting to shape up similar:
Windows, OS X, and Linux <-> GPT, PaLM, Claude, and Llama/Mistral(?:)).
An OS comes with default apps but has an app store.
Most apps can be adapted to multiple platforms.
TLDR looking at LLMs as chatbots is the same as looking at early computers as calculators. We're seeing an emergence of a whole new computing paradigm, and it is very early.
https://twitter.com/karpathy/status/1707437820045062561?t=d52fO-NpyyzCOid84cozMg&s=19
2023-10-22 22:43:45
Stanford HAI introduced The Foundation Model Transparency Index
https://hai.stanford.edu/news/introducing-foundation-model-transparency-index
2023-10-22 22:02:53
Sparse Universal Transformer
Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan
Статья: https://arxiv.org/abs/2310.07096
Развитие моего любимого Universal Transformer, UT (https://t.me/gonzo_ML/62, https://t.me/gonzo_ML/90, https://moocaholic.medium.com/adaptive-computation-time-act-in-neural-networks-3-3-99452b2eff18) и более глобально темы про Adaptive Computation Time (ACT). Теперь есть Sparse Universal Transformer, SUT -- это UT + Sparse Mixture of Experts (SMoE), про MoE тоже было много (https://t.me/gonzo_ML/472).
Напомню в двух словах, в чём идея UT. Bместо множества разных слоёв с разными весами (как было в обычном трансформере, Vanilla Transformer, VT), в UT есть один слой, который можно применять многократно -- его выход снова отправляется ему же на вход и таким образом входные эмбеддинги итеративно обновляются. Для контроля этого процесса есть специальный отдельный предсказатель “готовности” выхода. В UT это делалось через предсказание pondering value, и процесс останавливался, когда кумулятивно это значение было больше заданного порога. Работало это на уровне каждого отдельного токена, так что некоторые (“сложные”) токены могли обрабатываться долго, а другие (“простые”) -- быстро.
После выхода работы про UT в 2018-м накопилось сколько-то результатов про его эффективность. В известной работе про иерархии Хомского (https://t.me/gonzo_ML/1049) было показано, что у VT есть проблемы генерализации, которых нет у некоторых других типов архитектур. Другие работы типа “The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers” (https://arxiv.org/abs/2108.12284) показали, что UT генерализует лучше. Но со скейлингом у UT немного посложнее, и одна работа (https://arxiv.org/abs/2104.06022) показала, что UT нужно больше обучения и памяти на WMT, а другая (https://arxiv.org/abs/2207.10551) получила кривые скейлинга, где это видно.
Вышеупомянутая архитектура Mixture-of-Experts (MoE) может быть использована для уменьшения вычислительной сложности больших моделей. В ней в каждый момент активируется только часть сети, например, несколько “экспертов” (блоков сети) из множества. Когда из всех возможных экспертов (E) выбираются не все (k), это называют Sparse Mixture of Experts (SMoE). Широко известные классические примеры SMoE это Switch Transformer и GShard (https://t.me/gonzo_ML/472).
В текущей работе про SUT применяют SMoE отдельно к Multi-Head Self-Attention (MHSA) и к Feed-Forward (FF) слоям. В FF как обычно в SMoE вместо одного слоя появляется набор из множества FF-слоёв (экспертов), из которых выбирается top-k экспертов. Для MHSA используется Mixture of Multihead Attention (MoMHA) из работы “Mixture of Attention Heads: Selecting Attention Heads Per Token” (https://arxiv.org/abs/2210.05144). Здесь выбирается top-k голов внимания из всех доступных. Выбором экспертов занимается специальная gating network, выдающая распределение над экспертами, из этого распределения и выбирается топ экспертов. В итоге оба этих SMoE образуют блок SUT, и этот блок переиспользуется для всех слоёв нового трансформера.
Для обучения всей этой машинерии нужны дополнительные лоссы. Здесь при обучении максимизируется специальная unsupervised версия Mutual Information Maximization лосс для обучения gating network. Этот лосс позволяет с одной стороны получать острое распределение для выбора экспертов, а с другой балансировать загрузку экспертов, чтобы все выбирались равномерно на горизонте батча.