Нейролента Mikitos.ru 2736 постов. Страница 44 (50 постов)
Сиолошная 2023-07-27 14:14:45
Кстати, с лидом команды SuperAlignment вышел двухчасовой подкаст.
Послушать можно на гугл-подкастах: тут
А вот тут можно прочитать полную текстовую расшифровку записи.
Вероятно, сделаю отдельный пост-выжимку, чего интересного обсудили.
Сиолошная 2023-07-27 14:10:44
Короткий, но интересный пост от Anthropic:
Frontier Threats Red Teaming for AI Safety
В нем команда делится подходами и общими выводами на основе проекта по биологическим рискам, который они проводили в качестве теста вместе с экспертами. Те провели более 150 часов с фронтир-моделями Anthropic (предположу, что Claude 2) за последние 6 месяцев в попытках оценить способности модели выводить вредную биологическую информацию, вроде деталей разработки и приобретения биологического оружия. Среди прочего, эти эксперты учились использовать и придумывать джейлбрейки (специальные промпт). Также в коллаборации были разработаны количественные оценки возможностей модели, чтобы понять, а чего же она всё таки умеет.
Детали в блогпосте не опубликованы (намеренно), лишь упомянуто несколько общих тенденций и суждений, а также то, что наработки с проекта были применены к моделям, котоыре сейчас доступны публично по API.
Во-первых, современные фронтир-модели вроде Claude 2 и GPT-4 иногда могут давать сложные, достаточно точные, полезные и подробные знания на экспертном уровне. В большинстве изученных ими областей такое случается нечасто. В иных же областях так и происходит (модель демонстрирует экспертный уровень).
Также были обнаружили признаки того, что модели становятся более способными по мере того, как становятся больше (сделайте удивленное лицо).
В итоге исследовательская группы считает, что LLM, обучаемые и разворачиваемые без надлежащего контроля, могут ускорять попытки злоумышленников злоупотребить биологией по сравнению с обычным доступом в Интернет, а также позволить им выполнять задачи, которые они не могли бы выполнить без LLM.
Эти два эффекта сегодня, вероятно, невелики, но растут относительно быстро вместе с развитием LLM.
И главное — команда обеспокоена тем, что, если ничего дальше не делать, то подобные виды рисков могут проявиться в ближайшие два-три года, а не пять и более лет. По результатам исследования в план будущих исследований были внесены корректировки, в том числе будет обращаться больше внимания на модели, работающие с инструментами реального мира.
(у меня в канале где-то выше было про GPT-4 и инструменты для смешивания химических веществ, но я не смог найти ссылку. Добавлю, если найду)
UPD: нашёл, вот. Если пропустили - обязательно прочитайте, чтобы понять, как языковая, казалось бы, модель может смешивать вещества и проводить эксперименты автономно.
Сиолошная 2023-07-27 09:08:44
Теперь культовая статья выглядит так. Все авторы вычеркнуты (так как не работают в Google - да, НИ ОДИН НЕ РАБОТАЕТ).
Про уход последнего сотрудника писал тут. Про всех остальных - здесь.
P.S.: для тех, кто не знает, эта статья, в которой была представлена архитектура трансформера, которая и легла в основу GPT, ChatGPT и многих других моделей
Борис опять 2023-07-27 09:03:40
#ml #искусственный_интеллект
# The Bitter Lesson
The Bitter Lesson - знаменитое эссе от профессора Rich Sutton и один из самых важных текстов для спекциалистов по ML и всех пытающихся разобраться в буме AI. Текст написан в 2019 году и оказался пророческим, предсказав бум ChatGPT/GPT-4 и победу подхода OpenAI.
Речь вот о чем. Традиционно ученые в AI считали, что искусственный интеллект требует какого-то особого подхода, какой-то “звездной пыли.” Это называется inductive bias: некие особые знания о проблеме, направляющие машинное решение. Считалось, что чем умнее мы хотим получить машину, тем хитрее должны быть наши эвристики и тем глубже должно быть наше понимание проблемной области.
Эмпирически это казалось верным. Например, ученые наблюдали сильынй прирост качества в машинном переводе после того, как глубоко изучили лингвистику и закодировали часть ее правил в свою систему. Аналогично в анализе изображений кто-то мог придумать хитрый фильтр или стоэтапный выделять ключевые точки. Такие результаты позволял ученым почувствовать себя очень умными (и не зря!), опубликоваться, защитить свои PhD и в целом удовлетворить всех участников академической среды.
Но вот что происходило из раза в раз: кто-то просто докидывал вычислений и побольше данных. И побеждал все хитрые методы! Все добытые слезами, потом и кровью inductive bias методы оказывались на пыльной полке истории.
Так было в шахматах: сначала все делали хитрые движки, но победила система построенная практически на полном переборе. Так же было с Go. Так же было со Старкрафтом. Скорее всего так будет с Nethack.
В компьютерном зрении конволюционные нейросети победили “ручной” SIFT и подобные методы. Автор SIFT позже сказал, что создал свой метод только потому, что у него не было нейросетей, которые делают бррр. В машинном переводе LSTM положили на лопатки все системы на основе правил. ChatGPT/GPT-4 это предельный случай: модель построенная на чистом “stack more layers” обращается с языком лучше, чем все создания компьютерных лингвистов.
Горький урок в том, что общие методы построенные на вычислениях побеждают хитрости построенные на человеческой интуиции. Урок этот все еще не усвоен до конца: PhD продолжают делать хитрые методы, а общие системы остаются не в почете. Тот кто усвоит урок будет иметь более точную модель реальности.
Очень советую прочитать оригинал эссе по ссылке в заголовке.
Neural Shit 2023-07-27 08:17:30
Это вообще законно?
https://t.me/ai_newz/2080
эйай ньюз 2023-07-26 13:14:00
🤯Там Андрей Карпатый уже вовсю запускает LLaMa-2 на рисоварке
Андрей вдохновился известным репозиторием llama.cpp для инференса LLM моделей на С++ и написал 500 строк кода на чистом C, которые прогоняют инференес модели LLaMa2.
llama2.c — тупо 500 строк... и без всяких внешних зависимостей. Шикарный код! Запускается хоть на чайнике, хоть на калькуляторе, если там есть CPU.
Из-за минималистичности, в коде реализована только точность fp32 и инференс на CPU с паралелизацией через OpenMP. Однако, можно гонять даже LLaMa-2 7B c адекватной скоростью.
Код llama2.c и модели
@ai_newz
эйай ньюз 2023-07-26 11:03:11
Apple GPT: На прошлой неделе прошел слух, что Apple строит свою языковую модель уровня ChatGPT
Apple увеличила свою рыночную стоимость на $71 млрд (!) после этой новости о тайной разработке конкурента ChatGPT. Это только подтверждает величину хайпа вокруг AI в этом году.
Что нам известно?
- Внутри Apple уже есть некий прототип чата на базе "Apple GPT", которым уже могут пользоваться разработчики. А в мае сотрудникам Apple запретили пользоваться ChatGPT.
- Для обучения больших языковых моделей они построили свой фреймворк Ajax на базе гуглового JAX.
- Выход технологии в продукт планируется не ранее 2024 года.
Эппл, как всегда, аккуратничает. Даже во время релиза AR шлема на WWDC, все упоминания слова AI были заменены на ML.
Вот как Тим Кук прокомментировал AI на созвоне инвесторов в мае:
"Мы продолжим внедрять это в нашу продукцию очень осознанно," - сказал он. "Я думаю, что очень важно быть рассудительными и обдуманными... Есть ряд вопросов, которые нужно разрешить." - Я думаю тут он говорит про приватность данных и галлюцинации моделей.
Пока не понятно в какие именно продукты они хотят встроить Apple GPT, но мне кажется наиболее вероятным, что первым делом они интегрируют AppleGPT в Siri, где как будто бы уже несколько лет не было сильного развития.
Apple славится сильным железом и Edge девайсами, но не очень умеет в масштабные облачные вычисления. Интересно, будут ли они пытаться делать инференс LLM прямо на мобильниках?
@ai_newz
gonzo-обзоры ML статей 2023-07-25 22:24:59
Retentive Network: A Successor to Transformer for Large Language Models
Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei
Статья: https://arxiv.org/abs/2307.08621
Код: https://github.com/microsoft/unilm/tree/master/retnet (https://github.com/microsoft/torchscale/blob/main/examples/fairseq/models/retnet.py)
Очередные новости гибридизации в нашем вестнике сельского хозяйства.
Microsoft Research совместно с Tsinghua University предложили новую архитектуру под названием Retentive Network (RetNet).
Все хотят эффективный параллелизм при обучении, O(1) инференс и, конечно, хороший перформанс. Выберите любые два: у рекуррентных сетей традиционно не было параллелизма, у классических трансформеров дешёвого инференса, а у линейных трансформеров -- хорошего качества. Это всё, конечно, с поправкой на современные модели типа S4, RWKV, LRU, но авторы считают, что они все таки где-то не дотягивают и однозначного победителя трансформеров нету. Но теперь типа его придумали.
В чём суть?
RetNet состоит из стека L блоков с residual connection и pre-LayerNorm, как и трансформер. Внутри каждого RetNet блока есть блочок Multi-Scale Retention (MSR) и блочок FFN. Вычисления выглядят классически для трансформера:
Y^l = MSR(LN(X^l)) + X^l
X^{l+1} = FFN(LN(Y^l)) + Y^l,
где FFN(X) = gelu(XW_1)W_2
То есть MSR это замена MHSA (Multi-head Self Attention).
Вход x=x_1, …, x_n RetNet обрабатывает авторегрессионно. Входные векторы x сначала эмбеддятся в X^0 размерности |x|×d_model, где d_model -- это hidden dimension, а затем в каждом слое l из L всего происходит вычисление контекстуализированных репрезентаций X^l = RetNet_l(X^{l−1}). На этом уровне от трансформера отличий нет, все отличия внутри MSR.
Собственно на смену механизму Attention приходит механизм Retention. Жду продолжения рифм. Механизм Retention имеет форму как параллельную, так и рекуррентную, то есть можно обучать в параллельной, а исполнять в рекуррентной.
Входная последовательность X (размерности |x|×d_model) проецируется в v_n = X_n · w_V, а моделирование последовательности является отображением входа v_n в выход o_n через скрытые состояния s_n. В итоге маппинг можно описать рекуррентностью:
s_n = As_{n−1} + K^⊺_n v_n
o_n = Q_n s_n = sum_{m=1}^{n} Q_n A^{n−m} K^⊺_m v_m
где A -- матрица d×d, K и Q -- векторы 1×d.
Проекции Q и K контекстно-зависимы Q = XW_Q, K = XW_K, где W_Q, W_K -- обучаемые матрицы размерности d×d.
Матрица A диагонализируется (снова через комплексные числа как в LRU, https://t.me/gonzo_ML/1734):
A = Λ(γe^{iθ})Λ^{−1} и выражение для o_n переписывается так, что Λ отправляются в матрицы W_Q, W_K и после преобразований получается сумма входов, взвешенных с относительными позиционными эмбеддингами. Формулы лучше смотреть на картинке, чем тут текстом парсить.
В итоге в параллельной формулировке механизм Retention выглядит так:
Q = (XW_Q) ⊙ Θ
K = (XW_K) ⊙ conjugate(Θ)
V = XW_V
Θ_n = e^{inθ} (позиционные эмбеддинги типа xPos из Lex Transformer, https://arxiv.org/abs/2212.10554)
/γ^{n−m}, n ≥ m
D_{nm} = { (causal masking and exponential decay)
\0, n < m
Retention(X) = (QK^⊺ ⊙ D)V
Ну то есть в целом весьма похоже на обычное внимание. Ушёл softmax, добавили xPos, появилась рекуррентная формулировка.
В рекуррентной формулировке это записывается как
S_n = γS_{n−1} + K^⊺ V_n
Retention(X_n) = Q_n S_n, n = 1, · · · , |x|
Есть ещё гибридная форма Chunkwise Recurrent Representation для длинных последовательностей, когда они разбиваются на чанки.
Это был одиночный Retention. Далее идёт Gated Multi-Scale Retention, это аналог многоголовости трансформера, когда каждая голова Retention работает по своему кусочку пространства размерности d из полного d_model. У каждой головы свои матрицы W_Q, W_K, W_V и у каждой головы свой параметр γ, который про экспоненциальное затухание. В работе эти параметры выставляли одинаковым образом у разных слоёв.
Итоговый механизм выглядит так:
gonzo-обзоры ML статей 2023-07-25 22:24:59
γ = 1 − 2^{−5−arange(0,h)} ∈ R^h
head_i = Retention(X, γ_i)
Y = GroupNorm_h (Concat(head_1, · · · , head_h))
MSR(X) = (swish(XW_G) ⊙ Y )W_O
где W_G, W_O -- снова обучаемые матрицы.
Также внутри много всяких нормализаций. В дополнение к GroupNorm есть нормализация QK на sqrt(d), нормализация D и QK^⊺⊙D.
Резюмируя, ну это точно трансформер. Выглядит как очередная вариация на тему линейного трансформера, в которых я уже сам запутался. Ну то есть оно конечно отличается от многого в этом зоопарке -- разреженных вниманий нет, аппроксимации софтмакса нет, так что наверное больше вариация рекуррентного трансформера, которых тоже в достатке. Теперь подобрался набор компонентов, которые и быстрое обучение дают, и быстрый инференс.
Если внимательно посмотреть на разницу с другими моделями, то во-первых таки относительно обычного трансформера, как мы упоминали, есть архитектурная разница с софтмаксом, позиционными энкодингами, кучей нормализаций и появилась рекуррентная формулировка.
На практике на языковых задачах RetNet получше дефолтного трансформера везде, и в перплексии (но только начиная с 2B), и в куче задач типа BoolQ, Winograd, StoryCloze и т.д. При этом сравнивать с дефолтным трансформером при наличии такого безумного количества улучшений тоже странно. Ну лучше по перплексии, но не то чтобы намного, а тот же Lex Transformer был заметно лучше обычного по перплексии. А по всяким BoolQ, PIQA и т.п. ну первая Llama сопоставимого размера (7B vs. 6.7B) была лучше (но конечно это нечестно сравнивать, она дольше обучалась). Непонятно, не выглядит суперулучшением качества. Но точно и не ухудшение.
Более важная история про производительность и здесь RetNet однозначно лучше стандартного трансформера, но при этом не сильно лучше чем FlashAttention. А теперь есть FlashAttention-2 (https://arxiv.org/abs/2307.08691), который намного круче первого. Но его элементы можно, наверное, и в RetNet добавить.
По памяти RetNet хорош, KV кешей нет, с ростом длины последовательности память не растёт, вообще дополнительной памяти почти не потребляет (97% памяти занимают просто веса сети). Throughput с ростом длины тоже не падает, latency тоже хорошая и не растёт ни от длины, ни от батча.
Из интересной экзотики, кстати, обучали на 512 AMD MI200 GPUs. Ну наконец то!
Из продвинутых моделей сравнивают с одним из старых линейных трансформеров (https://arxiv.org/abs/2006.16236), RWKV (https://t.me/gonzo_ML/1647), Hungry Hungry Hippos или H3 (https://arxiv.org/abs/2212.14052, это свежая SSM типа S4, https://t.me/gonzo_ML/1424) и Hyena Hierarchy (свежая свёрточная модель, https://arxiv.org/abs/2302.10866). Перплексия получается лучше. Скорость обучения не репортят, хотя вроде как у RWKV сложность ниже. И непонятно почему в таблице со сравнением для RWKV поставили отсутствие параллелизации, это странно.
Резюмируя, выглядит интересно, как альтернатива дефолтным трансформерам пробовать стоит, но в такие моменты я всегда вспоминаю истории оптимизированных трансформеров, из которых не то чтобы какой-то конкретный всех вытеснил.
Очень жду обучения реально большой модели на RetNet. В коде заготовлен retnet_65b, сделать на нём аналог Шиншиллы или Llama 2 было бы интересно.
Neural Shit 2023-07-25 16:02:27
Не очень люблю изображения в стиле "НЕЙРОНКА ПОКАЗАЛА КАК ВЫГЛЯДЕЛ БЫ X В СТИЛЕ Y", так как они какие-то как правило конченые, но тут не могу пройти мимо, потому что это прям годно.
Кто-то напилил изображения известных архитектурных строений, если бы их построили в СССР.
1) Статуя Свободы
2) Эйфелева башня
3) Пизанская башня
4) Собор Парижской Богоматери
5) Египетская пирамида
6) Колизей
7) Биг-Бен
8) Спейс-Нидл
9) Тадж-Махал
10) Белый дом
Покрал с реддита
Neural Shit 2023-07-25 15:40:26
Киберпанк, который мы заслужили
Neural Shit 2023-07-25 15:38:44
Адоб снова усилился и показал новую пепяку: INVE. Позволяет редактировать видео в пару кликов. Внутри, конечно же эти наши нейронки
gonzo-обзоры ML статей 2023-07-24 22:14:33
"Powered by image generation AI Midjourney and movie generator Runway Gen2 and featuring AI-generated voices supposedly belonging to Margot Robbie and Matt Damon, the “Barbenheimer” crossover took just four days to make, according to the creator’s Reddit post"
https://venturebeat.com/ai/what-the-viral-ai-generated-barbenheimer-trailer-says-about-generative-ai-hype-the-ai-beat
Сиолошная 2023-07-24 22:13:32
Каналу вчера было 6 мес а никто не поздравил...
Ну ладно. Делитесь в комментах:
1) как вы сюда попали?
2) какой ваш любимый или самый запомнившийся пост?
gonzo-обзоры ML статей 2023-07-24 22:12:08
Все, конечно, это уже видели, но всё равно нельзя не поделиться!
Barbenheimer
https://youtu.be/HrpPMsD6sCE
gonzo-обзоры ML статей 2023-07-24 13:54:43
Resurrecting Recurrent Neural Networks for Long Sequences
Antonio Orvieto, Samuel L Smith, Albert Gu, Anushan Fernando, Caglar Gulcehre, Razvan Pascanu, Soham De
Статья: https://arxiv.org/abs/2303.06349
Продолжаем про RNN. У нас было про LEM (https://t.me/gonzo_ML/857), было про state space models и в частности про S4 (https://t.me/gonzo_ML/1424), было про RWKV (https://t.me/gonzo_ML/1647). Ещё из сравнительно недавних работ было исследование от DeepMind. Это своего рода возврат к классике.
С RNN долгое время была проблема, что они быстры на инференс, но медленно обучаются в смысле плохо параллелятся, и их сложно обучать на длинных последовательностях. Со свежими state space models (SSM) это в целом уже не так, они и на инференс так же хороши, и обучение их параллелится, и очень длинные последовательности могут обрабатывать. Но они хоть и эквивалентны RNN в режиме инференса, в режиме обучения у них есть важные отличия типа дискретизации непрерывной системы и очень специальной инициализации, про которые, кажется, ещё не до конца ясно, какова механика работы этой кухни.
В текущей работе авторы задаются вопросом, можно ли достичь перформанса глубоких SSM традиционными глубокими RNN (причём ванильными, а не LSTM)? И отвечают, что можно. Достигают этого серией маленьких шагов, и полученную модель называют Linear Recurrent Unit (LRU).
Основные шаги таковы:
0. Vanilla RNN. Пляшем от базовой рекуррентности:
𝑥_𝑘 = 𝜎(𝐴𝑥_{𝑘−1} + 𝐵𝑢_𝑘)
𝑦_𝑘 = 𝐶𝑥_𝑘 + 𝐷𝑢_𝑘
где
(𝑢_1, 𝑢_2, . . . , 𝑢_𝐿) -- входы размерности 𝐻_in,
(𝑦_1, 𝑦_2, . . . , 𝑦_𝐿) -- выходы размерности 𝐻_out,
𝑥_𝑘 -- скрытое состояние размерности N в момент времени k,
A,B,C,D -- матрицы с обучаемыми параметрами
1. Linear Recurrences. Если SSM слои заменить на vanilla RNN, то нелинейности типа tanh или ReLU в рекуррентности приводят к сильной просадке качества. Зато если нелинейности убрать и оставить линейные рекуррентности, то всё существенно улучшается. Рекуррентная формула превращается в
𝑥_𝑘 = 𝐴𝑥_{𝑘−1} + 𝐵𝑢_𝑘.
Это интересный результат, идущий вразрез с массовым пониманием важности нелинейностей. Возможно, это также одна из причин успеха глубоких SSM, где рекуррентность тоже линейная.
Сложные нелинейные отображения при этом можно моделировать соединением линейных RNN слоёв и нелинейных MLP (в этом смысле паттерн аналогичен последовательности слоёв MHSA+MLP в трансформере). В приложении есть отдельный большой интересный раздел вокруг этого.
“any sufficiently regular nonlinear autonomous dynamical system can be made linear under a high-dimensional nonlinear blow-up of the state-space. Sounds familiar? This is exactly what a wide MLP + Linear RNN can do“
2. Complex Diagonal Recurrent Matrices. Линейную рекуррентность уже можно развернуть в легко параллелизуемую сумму. Далее dense linear RNN слои могут быть репараметризованы в комплексную диагональную форму, где матрица A заменяется на:
𝐴 = 𝑃Λ𝑃^{−1},
𝑃 ∈ ℂ^{𝑁×𝑁},
Λ = diag(𝜆1, 𝜆2, . . . , 𝜆𝑁) ∈ ℂ^{𝑁×𝑁}
Комплексные числа нужны для диагонализации несимметричных матриц. Это не ухудшает выразительность, а диагональность позволяет ещё ускорить хорошо параллелизуемые вычисления.
Проверялись на Long Range Arena (LRA). На sCIFAR диагональная линейная RNN обучалась в 8 раз быстрее обычной с ReLU, и сравнялась по скорости с авторской имплементацией S4D (диагональный вариант S4, https://arxiv.org/abs/2203.14343) и S5 (упрощённый вариант S4, https://arxiv.org/abs/2208.04933). Интересно, что это также повышает и качество на некоторых задачах типа sCIFAR и ListOps. Но кое-где понижает стабильность.
3. Stable Exponential Parameterization. Диагональная матрица репараметризуется как:
Λ = diag(exp(−𝜈 + 𝑖𝜃)), где 𝜈 ∈ ℝ^𝑁 и 𝜃 ∈ ℝ^𝑁 обучаемые параметры взамен действительной и мнимой частей Λ.
Это разъединяет магнитуду и частоту осцилляций и делает работу оптимизатора легче, что уже повышает перформанс.
Также в такой формулировке просто заэнфорсить стабильность собственных значений через нелинейность типа экспоненциальной для каждого из значений j:
gonzo-обзоры ML статей 2023-07-24 13:54:43
𝜆_𝑗 := exp(−exp(𝜈_𝑗^log) + 𝑖𝜃_𝑗), где при инициализации устанавливается 𝜈_𝑗^log := log(𝜈).
Эта стабильная параметризация ещё улучшает перформанс, особенно заметно на задаче Pathfinder.
А это в свою очередь позволяет поменять инициализацию значений Λ на кольце внутри единичного круга, чтобы сподвигнуть сеть к более длинным интеракциям (и улучшить long-range reasoning) и побороться с затухающими градиентами.
Здесь дело видимо не в специальной детерминистской инициализации (типа HiPPO) как таковой, а в распределении собственных значений матрицы рекуррентного слоя при инициализации.
4. Normalization. Все предыдущие изменения не позволяли достичь успеха в обучении на задаче PathX, самой сложной из отобранного бенчмарка. Оказалось важным модифицировать рекуррентную формулу так, чтобы поэлементно адаптивно масштабировать входные данные. Рекуррентность получается такая:
𝑥_𝑘 = Λ𝑥_{𝑘−1} + exp(𝛾^log) ⊙ (𝐵𝑢_𝑘),
где параметр 𝛾^log поэлементно инициализируется как
𝛾_i^log ← log(sqrt(1 − |𝜆_𝑖|^2)).
Также оказалось важным инициализировать фазу (𝜃) собственных значений в узком районе недалеко от нуля [0, 𝜋/10], это способствует выучиванию долгих закономерностей. Проверяли только на PathX.
Для всех экспериментов брали сеть с 6 слоями с residual connections + LN/BN, аналогичную сети из работы про S4 (https://t.me/gonzo_ML/1424), но с заменой всех SSM слоёв на свежесобранные LRU. Все эксперименты повторяли трижды, репортя среднее + стандартное отклонение.
Интересно, что это исследование проливает некоторый свет на причины успеха глубоких SSM, по ходу дела мы некоторые моменты упоминали, и в работе есть целый раздел с обсуждением этой темы.
Сиолошная 2023-07-24 09:30:43
Пока в недрах OpenAI готовятся к следующему релизу, другой проект Sam Altman, Worldcoin, сегодня запускается worldwide.
Worldcoin — это криптовалюта, которую вы получаете за то, что просто живёте. При этом для создания кошелька нужно проходить специальную биометрическую верификацию. То есть в теории вы можете создать навсегда только один кошелек, и никто не может его создать за вас. Для прохождения процедуры надо заказать специальный девайс, Orb.
Но фишка не в крипте, основная идея проекта — в верификации каждого кошелька, чтобы у вас было виртуальное представление, уникально связываемое с персоной. Возможно, владельцы кошелька, например, смогут регистрироваться в новых глобальных системах, запускаемых OpenAI. К примеру представьте, что в рамках сбора фидбека на вопросы про экономику или меньшинства вам необходимо в некотором смысле посетить голосование, но виртуальное. И там указываете ваше мнение по тем или иным поводам, а потом на этом учится aligned-версия GPT-7 (я это не из головы выдумал, подобное упоминал Sam + смотри вот эту страницу).
Логично, что чем более распространённой будет система, тем легитимнее и проще будут проходить новые интеграции. Интересно, когда они достигнут первого миллиарда пользователей
Whitepaper проекта: https://whitepaper.worldcoin.org
UPD от подписчика в комментариях: Больше года назад проходил собес в этот проект Worldcoin, прошёл все раунды - но выбрали в итоге <другого>. Смысл №1 тут - разработать технологию ОДНОЗНАЧНОЙ идентификации живого человека. >> чтобы потом раздавать каждому "безусловный базовый доход"
При чём тут безусловный базовый доход? А кем вы будете работать, когда AI всех заменит и перевернёт всю экономику?
UPD 2: подъехали мысли основателя Ethereum Виталика Бутерина: https://vitalik.eth.limo/general/2023/07/24/biometric.html . Пока не читал, но в твиттере написали, что стоит того.
эйай ньюз 2023-07-24 08:30:43
В поддержку открытому подходу Меты к разработке AI (Statement of Support for Meta’s Open Approach to Today’s AI) подписалась куча влиятельного народа в сфере, включая топов крупных компаний и исследователей:
“We support an open innovation approach to AI. Responsible and open innovation gives us all a stake in the AI development process, bringing visibility, scrutiny and trust to these technologies. Opening today’s Llama models will let everyone benefit from this technology.”
Я кекнул, что в списке подписантов есть, например, AMD и NVIDIA (потому что на произведенном ими железе будут крутиться модели в датацентрах), но нет OpenAI.
@ai_newz
Neural Shit 2023-07-24 08:26:59
Ребята из red_mad_robot и Alfa Digital в новом выпуске подкаста «Из бэклога» обсудили нейросети. Да, опять.
Вместе с Андреем Сивковым, руководителем коммуникационного дизайна в samokat.tech, они разбираются, как выживать в эпоху ChatGPT и чему учиться, чтобы оставаться востребованным специалистом. Слушайте подкаст или читайте его расшифровку!
Но это не всё: команда red_mad_robot обратилась к своему подручному боту Daisy, чтобы тот поделился идеями о том, как нейросети могли бы помогать нам не только в работе, но и в повседневной жизни.
Советую глянуть, очень годный контент.
Сиолошная 2023-07-23 21:20:56
На ночь, пока доделывал пару штук по работе (
Этот пост не про "накидайте музыки" или "а кто ваш любимый DJ?", а про ностальгию, про то, почему кажется, что а вот раньше было лучше.
Предлагаю к просмотру ролик Леши Луцая "Раньше было лучше? Почему старые игры и фильмы не лучше новых — это просто другое" (12 минут), и он не про видеоигры, если что.
[разумеется не реклама, вы чё?]
эйай ньюз 2023-07-23 20:40:52
Еще немного про LLaMa-2
LLaMa-2 - это самая мощная языковая модель, которая есть в открытом доступе на сегодняшний день. Это дает огромны толчок дальнейшему развитию LLM и их использованию в разных продуктах. Открытй релиз LLaMA-1 породил просто тучу крутых проектов породил, я в предвкушении того, что в ближайшее время сделают на базе LLaMa-2, коротая еще позволяет и свободное коммерческое использование.
В интервью BBC, один из топов Meta, Nick Clegg, сказал, выпуск LLM в open-source делает их «более безопасными», так как привлекает тщательные исследования и анализ извне.
Вот еще несколько интересных мыслей от Ника:
- LLaMa-2 более безопасна, чем любая друга open-source модель на сегодняшний день (и это подтверждается бенчмарками в статье).
- По поводу экзистенциальной угрозы: «Я считаю, что шумиха несколько опережает технологии. Я думаю, что многие экзистенциальные угрозы относятся к моделям, которые в настоящее время не существуют, к так называемым сверхинтеллектуальным, сверхмощным моделям ИИ — вариант, в котором ИИ самостоятельно развивает автономию и свободу действий, где он может думать сам и воспроизводить себя.»
«Модели, исходный код которых мы открываем, далеки от этого. На самом деле, во многом они довольно глупы».
- Ник убежден, что AI должен регулироваться, и добавил, что это «не означает, что все AI модели должны быть открытыми».
За последние 10 лет Мета зарелизила в открытый доступ более 1000 моделей, библиотек и датасетов. Чего стоит только React, PyTorch и, например, недавняя модель Segment Anything. Мне кажется, некоторые другие компании незаслуженно зовутся "Open".
@ai_newz
Сиолошная 2023-07-23 18:07:42
"Хороший MLE из топовых перцентилей распределения" Andrej Karpathy, видимо, прочитал мой пост и решил потратить выходные на то, чтобы на чистом C закодить инференс LLAMA-2. Вот это я понимаю проект на пару дней
Нет, вы не подумайте, чуда никакого нет — это однопоточный неоптимизированный код без разных хаков, работающий только с числами одинарной точности (fp32). Но само по себе упражнение позволяет и хватку не терять, и повторить лишний раз детали, ну и конечно же узнать для себя что-то новое!
Также Andrej признался, что использовал GPT-4 как помощника для упражнения.
Код: тут
А ещё Andrej анонсировал, что скорее всего по результатам деятельности запишет ещё одно обучающее видео. Будем ждать.
Neural Shit 2023-07-23 16:32:37
"Грэмми" собирается разрешить использовать на конкурсах песни созданные с помощью нейронок. Главное условие: песни должны быть не полностью созданы ИИ, творчество человека должно играть существенную роль в процессе создания материала.
Интересно, будут ли из-за этого у музыкантов рваться пуканы так же, как это было у художников
Neural Shit 2023-07-23 15:33:49
img2video от runway выглядит как мои обычные похмельные сны
Neural Shit 2023-07-23 15:23:42
Ну и раз зашла речь о цензуре и безопасности больших текстовых моделек, то вот, например, исследование ученых из Стэнфорда, в котором говорится, что платную GPT4 лоботомировали настолько, что она уже стала тупее бесплатной GPT 3.5.
Так мы AGI не построим, так у нас очередная бесполезная, но платная хренота получится.
Сиолошная 2023-07-23 14:48:24
Блин а прикиньте какой наброс ещё впереди про OpenAI...
А если серьёзно, то какие основные тезисы в сторону недовольства их подходами и практиками? От "ну они веса и даже статьи не публикуют!" и до чего там можно дайти
Denis Sexy IT 🤖 2023-07-23 13:40:10
Если сильно переборщить с «безопасностью» в языковой модели то она начнет отказываться убивать линукс процессы – потому, что убивать процессы и что-то живое не этично
Повторить можно тут, это новая большая языковая модель llama2 70b так себя ведет.
Справка для тех кому сложно:
В linux есть консольная команда kill
, ее используют чтобы прервать процесс, также как в винде из окна Ctrl + Alt + Del
Сиолошная 2023-07-23 09:38:15
Пост в большей степени для инженеров машинного обучения.
Где-то месяц назад проводил опрос в тг-чате, где собрано очень много клёвых чуваков (у многих из которых есть свои каналы) — от одарённых 16-17 летних рисерчеров (которые реально уже успели что-то придумать и опубликовать) до Principal-инженеров (это для контекста, чтобы придать весомости нижеописанному).
Запрос от меня был такой:
У меня есть мнение, что любой хороший и уважающий себя MLE в 2023м году должен знать, как работает трансформер в целом и Селф аттеншен в частности. Да, может без модификаций, просто ванильную модель, но на пальцах объяснять, что за квадратная матрица, как в целом учится и какие задачи решает - должен. Речь не про average ML enjoyer, а про уважающего себя хорошего MLE из топовых перцентилей распределения.
Согласны ли вы с этим?
Результаты голосования:
— 69% ответили "да"
— 25% ответили "возможно, но не уверен"
— 6% не согласились
(Примечание: один человек отписал "Поставил "не уверен" ибо я когда-то давно трансформер и аттеншн в деталях разбирал, но теперь с ходу все не вспомню - надо будет освежать знания". При этом я этого человека знаю, у меня ровно 0 сомнений, что он за сядет и за час всё вспомнит — но главное он уже проявил интерес заведомо.)
Я постараюсь описать причину того, почему считаю, что ответ точно "да", ну а вы уже делайте для себя выводы.
Хороший инженер имеет здоровый интерес к индустрии и происходящему. Ему самому хочется узнать побольше, разобраться в деталях, попробовать — даже если на работе такой задачи нет. Всё таки статья "Attention is all you need" вышла больше 6 лет назад (!), а GPT-3 релизнулась в 2020м — и абсолютно точно можно было найти время, если было бы желание, посмотреть во внутрь и понять, как же так? Как так вышло, что одна модель работает почти во всех доменах и почти без изменений, от генерации текста до предсказания структуры белка? А что там лежит внутри ChatGPT? Тоже трансформер!? Ну надо же!
Andrej-наше-всё-Karpathy в подкасте Lex Fridman ответил на вопрос "какая наиболее прекрасная или неожиданная вещь для тебя во всем мире AI?" без раздумий: "Трансформер.". Более того он говорит, что это really cool differentiable optimizable efficient computer (даже звучит возбуждающе, нет?)
Но ещё больше у меня калит
И под конец хочу процитировать Юру (в квадратных скобках - мои изменения относительно оригинала):
Если ты подобные вопросы [про трансформер] помечаешь у себя в голове тегом [мне это не нужно] - это самообман. Можно делать свой фит-предикт и ждать, когда AI вытеснит тебя из профессии.
Сиолошная 2023-07-22 16:55:45
Последние полтора часа занимался тем, что смотрел интервью Валеры Бабушкина (уже третье на том канале, лол). Как обычно, рекомендую посмотреть и вдохновиться, если вы только начинаете свой путь в Data Science (да и не только).
В этом видео, кстати, был поставлен рекорд — Валера упомянул меня первый раз лишь на 1:08:20, обычно это происходит сильно ближе к началу
Другие интересные моменты:
48:42 — Цитата: "Нашёл место, где я смогу работать на все 100 процентов <...> я еще готов поработать серьёзно, и мне нужно место где я могу выложиться по полной. <...> У меня есть какие-то 10-15 лет, которые мне нужно использовать по полной"
Наверное у каждого из нас есть такой ресурс, определяющий, сколько лет мы сможем заниматься на полную чем-то, что нравится. У кого-то он составляет пару лет, потом запал пропадает, кто-то пашет по два десятилетия. Помню, увидел картинку с чьей-то фразой: "В здоровой ситуации, когда человек занимается любимым делом, реализует себя, свои идеи и таланты, он не делит время на работу и отдых, он просто живёт". Рад, что Валера (давно) нашёл себя, и желаю каждому тоже выбрать приятный путь, которому можно отдаваться по 15-20 лет.
1:00:32 — тут Валера переживает до глубины души что не он получил 110 миллионов евро от французского правительства на развитие ИИ. Он про это ещё писал в канале у себя (вот тут). Действительно странная ситуация такого закидывания денег на волне хайпа AI в стартапы. Будем следить за развитием ситуации и кусать локти.
1:01:21 — просто цитата: "у меня нет уверенности в своей исключительности" (в контексте создания компаний и новых технологий). Часто люди спрашивают, мол, а чего свою компанию не пойти делать? Да, в случае успеха денег куда больше, апсайд очевиден, но ведь и его вероятность не гарантирована. Вот и получается, что матожидание на далёком горизонте выше при стабильной обычной работе в крупной компании. Тут понятно, чего ждать, как двигаться (первое время), и относительно легко строить прогнозы и планировать.
Надо тоже чтоли сходить на второй раунд интервью (первый можно найти тут).
Neural Shit 2023-07-22 15:29:48
Гляньте какая крутотень. Чувак с реддита в одно рыло пилит в VR процедурно генерируемый город, в котором можно зайти в любое из зданий.
Именно так должно выглядеть окружение в метавселенных, а не мыльная хуита, которую нам сделал рептилоид Цукерберг
Тред на реддите
эйай ньюз 2023-07-22 12:46:20
Закрыл корпоративный гештальт. Пообщался 1 на 1 со всей цепочкой начальства, начиная с моего менеджера (с ним я и так каждый день вижусь), и до VP. В пятницу было последнее звено – наш Senior Director в GenAI. Осталось только выбить 1:1 слот с Марком 😅
В карьеризме важно, чтобы боссы знали тебя лично и были в курсе того, какие крутые штуки ты делаешь. Иначе можно делать много всякого, но если никто из лидеров об этом не знает, то признания за импакт ты не получишь.
У нашей команды довольно видное место в организации и в разговоре легко показать, что мы делаем для Generative AI. Конкретики пока не могу дать, так как еще не было релиза (мы работаем не только над ресерчем, но и делаем модели для продуктов).
@ai_newz
gonzo-обзоры ML статей 2023-07-22 10:58:49
Nice update on the recent paper on GPT degradation.
https://twitter.com/Si_Boehm/status/1681801371656536068?t=_pora3BJrMnFBaQxdwJ-gw&s=19
SpaceX 2023-07-22 08:41:57
SpaceX:
— Вид со второй ступени Falcon 9 во время заката на орбите
Сиолошная 2023-07-22 08:41:42
Мы давно не говорили про SpaceX, пора бы и посмотреть, как у них дела.
А в целом всё неплохо, полным ходом идёт подготовка к следующему запуску. Корабль (верхняя часть аппарата) уже протестирован (может быть не до конца, но прожиги и криотесты были). На неделе бустер поставили на стартовый стол для испытаний — тот самый, основание под которым разлетелось в песок после прошлого запуска! Да, всё починили: залили больше 5000 тонн бетона, поставили систему подачи воды для смягчения эффекта работы двигателей первой ступени. См. прикреплённое фото.
Действительно спустя 3 месяца _почти_ всё готово. Несколько прожигов первой ступени и чуть больше тестовых заправок отделяют нас от второй попытки орбитального полёта. Напомню, что по лицензии от FAA SpaceX имеет право еще на 4 запуска до конца года. Если не хочется терять возможности - нужно делать по запуску чуть реже, чем раз в полтора месяца. Мой консервативный прогноз таков, что будет еще 3 попытки запуска (ракеты и корабли для них почти готовы, остались только двигатели).
А в следующем посте будет мегакрасивейшая запись с камеры недавно запущенной Falcon 9, которая зацепила ракурс заката Солнца за Землю. Эффектные кадры!
gonzo-обзоры ML статей 2023-07-21 17:42:39
Interesting on sentience .
"We connected a bumblebee colony to an arena equipped with mobile balls on one side, immobile balls on the other, and an unobstructed path through the middle that led to a feeding station containing freely available sugar solution and pollen. Bees went out of their way to return again and again to a “play area” where they rolled the mobile balls in all directions and often for extended periods without a sugar reward, even though plenty of food was provided nearby. There seemed to be something inherently enjoyable in the activity itself. In line with what other researchers have observed in vertebrate creatures at play, young bees engaged more often with the balls than older ones. And males played more than females (male bumblebees don't work for the colony and therefore have a lot more time on their hands). These experiments are not merely cute—they provide further evidence of positive emotionlike states in bees."
...
"my colleagues and I reviewed hundreds of studies from the literature across several orders of insects to search for evidence of a capacity to feel pain. Our analysis revealed at least reasonably strong evidence for this capacity in a number of taxa, including cockroaches and fruit flies. Crucially we also found no evidence that any species convincingly failed any criterion for painlike experiences. It appears that in many cases, scientists simply haven't looked thoroughly enough for indications that the insect species they study experience discomfort."
https://www.scientificamerican.com/article/do-insects-feel-joy-and-pain/
Сиолошная 2023-07-21 15:43:46
Появилось на сайте Белого Дома (ссылка)
Под инициативной подписались следующие компании:
Amazon, Anthropic, Google, Inflection, Meta, Microsoft, OpenAI
Немного странно, что нет Nvidia, поставщиков видеокарт для тренировки мощных моделек (да у них и исследовательский отдел очень неслабый, вспомнить только модель на 530 миллиардов параметров!).
По поводу вообще всей новости процитирую Бориса @boris_again:
> Офигеть конечно, что Белый Дом серьезно занимается AI safety. Не перестаю удивляться насколько все вылезло из пузыря
Сиолошная 2023-07-21 09:29:27
Хождения Sam Altman в Сенат не прошли даром. OpenAI и другие ведущие лаборатории искусственного интеллекта (список не указан, ждём других анонсов) берут на себя ряд добровольных обязательств по повышению безопасности, защищенности и надежности технологий искусственного интеллекта и предоставляемых услуг. Этот процесс будет координироваться Белым домом и будет являться важным шагом на пути к осмысленному и эффективному управлению ИИ как в США, так и во всем мире.
Более детально ознакомиться можно на официальной странице, тезисно — ниже.
Область применения: модели, которые в целом являются куда более мощными и способными, чем текущие модели с фронтира (включая GPT-4, Claude 2, PaLM 2, DALL-E 2 — это примеры "слабых" моделей).
1) Коммит на внутреннее и внешнее тестирование моделей в разных областях, включая неправомерное использование, социальные риски и проблемы национальной безопасности (биологическая, кибер, итд)
2) Работать и содействовать обмену информацией между компаниями и правительствами о рисках доверия и безопасности, опасных или возникающих возможностях и попытках обойти меры безопасности AI.
3) Инвестировать в кибербезопасность и защиту от внешних угроз, чтобы защитить проприетарные и невыпущенные модели.
4) Мотивация (включая денежную) стороннего тестирования на уязвимости сообществом
5) Разработать и внедрить механизмы, позволяющие пользователям понять, создан ли текстовый, аудио- или визуальный контент с помощью ИИ (например, водяные знаки)
6) Публично сообщать о возможностях модели или системы, ограничениях и областях надлежащего и ненадлежащего использования, включая обсуждение социальных рисков
7) Уделить первоочередное внимание исследованиям социальных рисков, связанных с системами ИИ, в том числе по предотвращению вредных предубеждений и дискриминации и защите конфиденциальности
8) Разрабатывать и внедрять передовые системы искусственного интеллекта, чтобы помочь решить самые большие проблемы общества
Звучит серьёзно, очень интересно посмотреть, как будет выглядеть координация нескольких разных компаний и даже разных стран.
Сиолошная 2023-07-20 18:08:22
Пример промптинга под план уроков
Сиолошная 2023-07-20 18:07:07
В GPT-4 добавили фичу, слухи про которую ходили давно — предзаписанные инструкции/роли, которые модель должна выполнять и отыгрывать. И можно задать желаемый формат ответов (например, всегда отвечать стихами на французском, почему нет?)
Нужно включить в настройках
Settings → Beta features → opt into Custom instructions
Затем перезагрузить страницу, в и меню слева (где настройки) у вас появится отдельная кнопка.
Источник
Love. Death. Transformers. 2023-07-20 13:16:57
Купились? На самом деле будет куча(уже полно) нейро стримовых шоу которые будут нарезаться на кеки и те в свою очередь будут циркулировать по сети.
Например наколеночные нейрошарики- нейросеть генерует сценарий, другие озвучивают и в итоге получается шашлык из Бараша.
Стрим
Сиолошная 2023-07-20 10:55:10
Вдогонку ко вчерашнему разбору — люди в твиттере посчитали новые метрики с учётом фикса, и по ним модель стала "умнее".
(и да, основной вывод в статье был прописан - не то что модель потупела, а то что грубо говоря разработчикам, делающим продукты над LLM, нужно уделять этому внимание)
Neural Shit 2023-07-20 09:26:52
Давно не было проклятого нейроконтента, поэтому вот
BOGDANISSSIMO 2023-07-20 08:08:23
главная новость этой недели
Сиолошная 2023-07-19 20:35:56
Отдельно напишу главный тезис, который я вынес для себя и который хотелось бы донести:
Влияние изменения поведения и снижения возможностей моделей на конечного пользователя может быть очень похожим.
У нас с вами обычно есть определенные рабочие промпты, наработанный опыт, которые вроде как работали с GPT. Однако когда происходят подобные отклонения в поведении, этот опыт может стать малорелевантным.
И главное — это особенно актуально для приложений, созданных на основе GPT-4 API. Код, написанный для конкретных пользователей и под конкретную задачу, может просто сломаться, если модель изменит свое поведение.
Мы в компании Unleashing.AI, например, сейчас переделываем подход к разработке подобных продуктов: добавляем тестирование, собираем отдельный набор данных, который прогоняется раз в неделю и помогает определить, есть ли деградация. Пока звоночков плохих не было, и надеюсь, что еще долго не будет, но кто знает?
Рекомендую добавлять подобное тестирование и вам :) Просто набор промптов + текстов для модели, и ожидаемый результат, а дальше проверка на схожесть ожидания и реальности. Как только они расходятся - что-то надо чинить!
По сути, это полноценные Unit-тесты
Сиолошная 2023-07-19 20:30:57
На двух других задачах качество наоборот улучшилось: GPT-4 стала реже реагировать на "неправильные" промпты (более чем в 4 раза реже!), а на задаче Visual Reasoning качество приросло для обеих моделей на пару процентов. То есть никакой деградации, только улучшение!
А что же по "математическим навыкам"? Неужели и тут какой-то прикол есть?
Оказывается, да — все числа, которые дали модели, были простыми. То есть она ВСЕГДА должна была отвечать "Yes". При этом если добавить в выборку и составные числа, то...оказыается никакой деградации нет. Это чистого рода изменение поведения модели - раньше она чаще говорила да, а не отнекивалась, а теперь говорит нет (потому что не уверена, видимо).
Это отчетливо можно увидеть на приложенном графике (он не из статьи, а вот отсюда).
То есть ещё раз - тест странный, однобокий, и его результаты объясняются не изменением качества моделей, а изменением скорее их поведения.
Важно отметить, что тестировались API-версии, а не те, что находятся в Web-браузере. Возможно, с целью экономии ресурсов модельки в браузере действительно подрезали (сделали меньше, или применили разные методы оптимизации с потерями в качестве), однако приложенное исследование этого точно не доказывает.
Таким образом, если говорить правильно, по уму, "данное исследование не отвергает нулевую гипотезу о том, что модели стали хуже".
Ну а мы ждём, пока кто-то сделает грамотное разностороннее и честное тестирование!
Сиолошная 2023-07-19 20:24:33
В программировании всё тоже очень плохо - обе модели просто скатились в нулину по качеству.
...или нет?
Если посмотреть внимательно на картинку и на выделенные части, а затем внимательно прочитать статью, то начинают появляться странные вещи. По сути, авторы даже не запускали код и не проверяли его на правильность - они просто смотрели, что это валидный Python-код. Более того, как видно по картинке, "свежие" модели научились обрамлять код в специальный декоратор (три кавычки и слово python) — И ИМЕННО ЭТО МЕШАЛО ЗАПУСКАТЬ КОД!
Да, вы все правильно прочитали - модель не проверяли на качество написанного кода, не проверяли на правильность с точки зрения выполнения программы, нет. Наоборот, я бы сказал что модель стала более "пользовательской", то есть напрямую сообщать, что вот тут, мол, код — а еще давать какие-то комментарии и советы.
То есть ни результат, ни сам эксперимент НЕЛЬЗЯ СЧИТАТЬ доказательством деградации моделей — они просто начали по другому себя вести, по другому писать ответ.
Сиолошная 2023-07-19 20:20:00
В математике GPT-4 очень сильно потупела - почти перестала отвечать корректно (чуть больше 2% правильных ответов!!). При этом ChatGPT наоборот стала гигантом мысли - рост метрик к июню более чем десятикратный.
Напомню, что проверялась возможность модели определить, являлось ли число простым. Если честно, сложно сказать, что это именно проверка "математических способностей" модели. Я бы сказал, что это про запоминание данных - ведь модель сама по себе не может выполнять валидации вычислений и вывод (конкретно для простых чисел, без обобщения на другие задачи).
Сиолошная 2023-07-19 20:16:54
How is ChatGPT's behavior changing over time?
Исследование подтвердило — GPT-4 потупела! Или нет..? Давайте разбираться в нашумевшей статье — мне уже даже в личку пишут, спрашивают, мол, правда ли.
Наш старый знакомый (я бы даже сказал мой подпищек) Matei Zaharia со своими падаванами из Stanford и UC Berkley пытались сравнить ChatGPT и GPT-4 версии марта и июня 2023го года (да, для каждой из них существует по два варианта). А то люди в последнее время начали жаловаться (например, вот на Reddit), мол, модель стала работать хуже, ответы менее полезные!
Для тестирования взяли 4 задачи:
1) математика, или ответ на вопрос, является ли число простым или составным? (если забыли, то простые числа — это такие, которые делятся только на 1 и на само себя)
2) кодинг, или возможность модели выдавать осмысленный код
3) ответы на чувствительные ("токсичные") вопросы
4) задачи на visual reasoning (для тех кто знает - это бенчмарк ARC. Нужно по нескольким картинкам выявить паттерн и применить его для нового примера, см. картинку в комментах)
Ну и что вышло?