Сиолошная

All about Сиолошная

2024-05-03 02:55:15

🔼 продолжение 👆
И на этом можно было бы и закончить пост, сидеть ждать релиза, если бы не три НО.
1) уже как месяца три ходят слухи, что OpenAI готовится к запуску своего поисковика. Предположительно, LLM вместо вас кликает по ссылкам, делает доп. запросы, читает выдачу и формирует ответ. В некотором смысле, это продвинутая реализация уже существующей фичи. Модель, умеющая рассуждать и кодить будет как нельзя кстати!
2) буквально вчера выяснилось, что домен search.openai.com уже занят, для него существует SSL сертификат.
3) главный инсайдер по OpenAI Jimmy Apples написал, что 9-го мая OpenAI проведёт анонс «не новой модели, но поискового движка».

Посмотреть находки ещё одного инсайдера, прямо с гифками и картинками потенциального дизайна, можно в Твиттере тут. Для OpenAI заточка модели под сёрфинг интернета не станет новинкой — ещё в 2021-м они сделали WebGPT, которая искала и объединяла информацию лучше, чем это делали люди. Я про неё целый лонг писал (он был первым!), ознакомиться можно тут: https://habr.com/ru/companies/ods/articles/709222/

Ну теперь вот уж точно сидим ждём!

2024-05-03 02:55:08

Не мог (не хотел 😀) уснуть, и из интереса решил накопать побольше информации про загадочную gpt2-chatbot, совсем недавно удивившую общественность. Перечитал обновлённый блогпост, новости, перерыл с десяток Reddit-тем, новых интервью Sam Altman, etc.

Тезисно:
— Sam не первый раз говорит, что слово «сюрприз» не должно идти рядом с AI, и OpenAI хотят итеративно улучшать свои технологии, делая их достоянием пользователей (хоть бы и через платный продукт в виде подписки на ChatGPT). Такой путь гораздо лучше для общественности, чем если пару лет не будет новостей, а потом бах, GPT 6, и все сидят такие 😨
— GPT-4 сейчас, полгода назад и на релизе — это три разные модели. Со временем они становились лучше и лучше, как по Эло-рейтингу от LMSYS, где живые люди сами сравнивают генерации моделей и выбирают те, что нравятся им больше, так и по объективным бенчмаркам (например). Вчера вот узнали даже, что OpenAI вроде как не переобучаются конкретно на датасеты для проверки, по крайней мере по математике — доверимся им, что и по другим метрикам никаких грязных трюков нет.
— Последнее улучшение модели было направлено на способности к рассуждению и решению задач, особенно по математике.
— Однако об улучшениях в написании кода не заявлялось. И именно этим выгодно отличается модель gpt2-chatbot. Видел, что люди говорили про разношёрстные вопросы, мол, «она на уровне четвёрки, не лучше», но вот про код...я сам узрел, как с первого раза мне написало очень клёвый пример простого рейтрейсинга сцены с несколькими объектами. БЕЗ ОШИБОК. И большая часть примеров, которыми хвастались люди (и на реддите, и вот даже Denis Sexy IT), где прям ВАУ — это именно примеры с кодом.
— При этом получить модель уровня GPT-4 не так-то и просто, на данный момент это удалось сделать 2.5 компаниям (META'е дадим скидку и предположим, что их LLAMA 3 на 405B, выходящая летом, будет соответствовать). Конечно, может появиться новый игрок, но это маловероятно.
— А теперь самое интересное. Почему можно предположить, что новая модель именно от OpenAI? Тут есть несколько косвенных признаков. Первое: в ней используются те же специальные токены начала/конца реплики, что и у всех моделей OpenAI. Модели Mistral и LLAMA отличаются. Второе: и сама модель так говорит, и в промпте у неё написано, что она от OpenAI. Это, конечно, может быть галлюцинацией, но фронтир модели в таком не были уличены (почти, иногда Mistral грешит) — только те, что были натренированы на синтетике. Третье (и главное): если добиться ошибки сервера своим запросом (например, длиной запроса или его темой, чтобы он не прошёл модерацию) — будет показана ошибка один-в-один, что и у любой другой модели OpenAI. Однако все остальные модели имеют отличные сообщения о возникших неполадках.
— Так что (я уверен на 99%) это модель OpenAI, которая лучше в кодинге, что логично. И тянет на грядущую итерацию, но не GPT-4.5 и тем более не GPT-5. Это подтвердил Sam Altman в ходе своего тура по университетам США, думаю, тут ему можно верить в силу аргументов выше.
— Вероятно, её релиз должен быть совсем скоро, в течение месяца. Как мне видится, через Арену собрали примерную оценку, чтобы на презентации или в релизных заметках написать: «Да, наша модель оч крутая, вот независимое подтверждение на всеми признанном лидерборде». Так как на всё про всё ушло всего 3 дня — делать такую оценку сильно заранее не имеет большого смысла: за это время модель можно дообучить, собрать данные, то да сё. В общем, улучшить. Тогда бы уж ту и проверяли!
🔽 продолжение

2024-05-02 18:32:42

===Объявление===

В ближайшие 2 месяца мне потребуется помощь. Я немного устал делать презентации для лекций (именно слайды в PowerPoint), уже тяжело смотреть на них, искать картинки, итд. Поэтому я ищу себе помощника (одного), который может взять от меня верхнеуровневое описание и перебить в слайды. Описания достаточно точные, иногда оставляют простор для творчества.

В качестве примеров того, что я ожидаю от вас, можно посмотреть презентации моих открытых лекций:
1) GPTs-1
3) What's next for OpenAI
4) RLHF Intro

Примеры описаний, которые я буду давать (на самом деле вот прям эти нужны будут) вам на вход:
1) Problem Space VS Solution Space
2) Design document

Задача перебить описание в слайды 🙂 На английском языке. Часть я пишу по англ., часть — на русском, и тогда нужно будет переводить. Также в идеале кандидат должен понимать Machine Learning на уровне джуна, чтобы а) сделать работу более продуктивной б) иногда чуть додумывать, если непонятно написано.

Всего потребуется сделать от 3 до 7 презентаций. На каждую, по моим ощущениям, уйдет от 6 до 10 часов. Я готов платить по часам (в адекватных пределах) по ставке $20-25. Также я буду давать фидбек, чтобы вы смогли понять, как лучше делать. Если будет больше 5 презентаций — я готов сверху сделать 2-3 созвона с обсуждением разных вещей (обычно такое стоит $200-250/h), от тех. задач до карьеры и ревью резюме, если вам это нужно.

Я понимаю, что это не так много, но к сожалению без рекламы в канале и без постоянной работы больше выделить не могу

🥺

От вас ожидаю 4 качества:
1) базовое умение делать слайды
2) базовый английский (условно, не ниже B1, иначе кмк будет сложно)
3) умение понимать, что вам не понятно (и задавать вопросы)
4) ответственность — САМОЕ ГЛАВНОЕ. Если мы с вами договорились, что презентация будет готова к пятнице — она должна быть.

В идеале вы можете начать работу на следующей неделе, и продолжать её до середины-конца июня. Необходимый темп — 1 презентация в неделю, условно у вас есть 10-12 часов свободных. Если не уверены — пожалуйста, не подавайтесь. Темп и постоянство очень важны.

Если вы хотите попробовать — пожалуйста, заполните гугл-форму: https://forms.gle/ihp5JFPzabuE8iCh6
В её рамках вам придётся подготовить 1 (один) слайд. Ожидаю, что это займет не более 20-25 минут. Они будут оплачены, но только тому, с кем по итогу мы продолжим работу. Нужно сделать слайд «Getting started: AntiGoals» отсюда (см. спойлер Context на странице).

В комментариях прошу не спамить, но нормальные адекватные вопросы задавать можно.

! Скиньте вашему приятелю или другу, если считаете, что ему интересно !

UPD: ого, уже больше 15 заявок. Завтра буду выбирать, отпишу вам.

2024-05-02 16:51:27

Первое официальное музыкальное видео, сделанное с помощью OpenAI Sora:
Washed Out - The Hardest Part

Автор утверждает, что почти никакой постобработки нет, лишь самый минимум — зато сам ролик склеен из 55 отдельных кусочков (выходит по 4.4 секунды в среднем). А раньше всплыло, что одно из демо-видео, Air Head, оказывается сильно редактировалось — модель всё хотела нарисовать человека с головой, а не пустым местом (полная история тут).

Немного полистал комментарии, а там сразу:
— Раньше я был большим поклонником каждого альбома, слушал на рипите, покупал винил и т. д. Но я больше не могу поддерживать Washed Out. ИИ — это не просто инструмент для создания искусства, это замена художника. Я надеюсь, что Эрнест [музыкант], как творческий профессионал, это поймет. Я читал интервью, в котором он говорил, что у него было «видение» этой концепции видео в течение многих лет, но, по моему мнению, оно терпит неудачу - реальные актеры прониклись бы работой гораздо больше. Я просто не знаю… если это неизбежное будущее, думаю, я просто перевернусь и умру.

🕺 слушаем, танцуем и думаем о будущем

💃 делитесь в комментах 👇, кто где сколько голов и пальцев на руках насчитал

2024-05-02 13:13:52

Тэк, вижу нотки непонимания, давайте по другому.

Вот есть экзамен по истории. Вашей группе выдали 100 билетов для подготовки.
Кто-то сидел, зубрил ответы именно на них, кто-то просто читал учебник, доп. материалы и искренне интересовался историей.

В день экзамена приходит препод и говорит: «это пранк, на самом деле я буду спрашивать по новым 100 билетам. Ни один вопрос не пересекается со старой стопкой, но те, кто реально учил — у вас проблем не будет».

У тех, для кого билеты были лишь общим направлением, кто искренне интересуется предметом и изучает самостоятельно — у них трудностей не возникнет. Они и за те, и за эти билеты готовы пояснить.

А у довечника Васи, который только и запомнил, что «текст билета -> зазубренный ответ» (и то для половины) — у него произойдет оказия. Дай бог он сможет на троечку наскрести, вспомнив максимально похожий билет из первой сотни, по которой он готовился. Но вне этого у него знаний и понимания нуль.

===

Так и тут. Есть 8 тысяч задач старых, есть 1250 задач новых. Если LLM дает ответы одинаково хорошо и там, и тут — она понимает. Если она переобучилась на старые задачи — качество ответов упадёт. Не настолько сильно, как в примере с Васей (он то вообще ни бум-бум), но достаточно, чтобы заметить. Это и есть переобучение: когда модель показывает качество лучше на той выборке, что она видела, нежели на новой. Часть ответов/задач LLM запомнила, и ответ на них не является показателем навыков. Можно сказать, что нет обобщения.

В мире машинного обучения такое случается постоянно, поэтому обычно делают отложенную выборку, которую никогда не показывают модели (и в идеале по ней даже не принимают решения, что лучше а что хуже), а затем в конце проверяют, что всё ок.

2024-05-02 12:25:12

А теперь — к интересному, как на новой выборке ведут себя свежие модели.

TLDR:
— модели OpenAI не переобучены, у них оценка что на старом, что на новом наборе задач совпадает
— это же применимо к моделям Anthropic, они на новой выборке даже чуть лучше себя проявляют
— модели Mistral (включая Mixtral) и Phi (это которые обучаются на синтетике, сгенерированной GPT-шкой) - очень переобучены, и для них деградация метрик составляет около 8-10%. То есть на оригинальной выборке от OpenAI они, скажем, показывали 80%, а тут 70%
— свежая LLAMA 3 на 8B деградирует на 6%, однако старший брат 70B просаживается всего на 2%. Возможно, бОльшая модель генерализуется, и хоть и даёт ответы чуть-чуть лучше на старой выборке, на новой всё равно показывает сильный результат.
— при этом вот LLAMA 2 на 7B и 70B почти не отличаются, то есть для них такого эффекта не наблюдается
— модели Gemini переобучены совсем чуть-чуть, в целом всё честно.

TLTLDR от самих авторов:


Gemini, GPT, and Claude show little to no signs of overfitting

И это важно, так как многие начали оверфититься на бенчмарки, и может казаться, что да, вот, мы уже догнали OpenAI! (😀 расскажете)

2024-05-02 12:25:03

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

Работа Scale.ai по оценке переобученности отдельных моделей на популярный датасет Grade School Math 8k (задачи уровня начальной школе по математике). В каждой задаче от 2 до 8 действий с четырьмя базовыми операциями (+, −, ×, ÷) — никакого рокет саенса. Оригинальный датасет, кстати, готовили и публиковали OpenAI (аж в 2021-м!), и вот теперь компания, которая занимается для них разметкой, повторяет трюк.

Чтоб было нагляднее, вот пример задачи: Ли купил 6 акций Delta по цене 40 долларов за акцию. Если он хочет заработать 24 доллара на этой сделке, сколько должна стоить акция Delta, когда он ее продаст?

Логика такая: если модель показывает тот же результат на новых задачах, собранным по тем же критериям и с той же сложностью, то модель не запоминала конкретные задачи (то есть её разработчики тщательно отфильтровали датасет). Если же заметна просадка — значит, модель скорее всего уже видела данные из старого датасета, и может запомнить часть ответов.

Не буду перечислять всё, что сделали исследователи, однако отмечу, что они очень грамотно подошли к вопросу фильтрации своих данных, чтобы те максимально отражали качества исходного датасета. Например, берут старые модели, вышедшие до GSM8k, и смотрят, что те показывают не то что одинаковые доли правильных ответов — а даже что распределение вероятностей совпадает. И что люди решают одинаковый процент задач. Итого получилось 1250 штук.

Датасет останется приватным, чтобы на него не переобучались — никто не знает, что там за задачи и какие у них ответы (кроме 50 примеров из статьи, но они не участвуют в оценке, просто даны для сведения). Таким образом, по метрикам на нём можно будет бить себя в грудь и говорить ДА Я ДА МЫ ДА НАША МОДЕЛЬ РЕАЛЬНО ЛУЧШАЯ. Кстати, умный ход от компании, которая, кхм, занимается разметкой данных - делать приватные бенчмарки as a service и становиться индустриальным стандартом.

2024-04-30 21:57:11

🥲 после таких длинных серий постов задаюсь вопросом — почему это оседает в телеге, а не превращается в лонг на Habr

😪

2024-04-30 21:50:32

Исследователи задаются тем же вопросом — вот что произойдёт, когда модель-судья, производящая оценку, будет не из стана OpenAI? Давайте попробуем с Claude 3 Opus, она ж вон тоже очень крутая!

В таком случае Agreement падает с 89.1% до 66.7%, что существенно. Separability просаживается мало, до 83.7%.

Но главный прикол — это что по мнению Opus'а свежая GPT-4-Turbo всё равно остаётся лучшей моделью, хоть и со слегка меньшей оценкой. Перед вами табличка, первая колонка — это отражение оценок с прошлого поста, вторая — доля побед, когда судит Opus, а третья — разница между ними.

Видно, что модель Anthropic хоть и пытается подыгрывать своим, сильно повышая им оценку (ожидаемо) — этого не хватает, чтобы перебить чемпиона

😎

Ну а так как версия бенчмарка 0.1, то, во первых, ждём расширения набора запросов, и, во вторых, его постоянное обновление, с доливкой свежих вопросов. И может ещё промпты немного улучшат, метрики подрастут.

===

Посмотреть все ответы и промпты можно тут. А здесь лежит код для того, чтобы самому тестировать модели (~25$ за запуск на кредиты OpenAI API)

2024-04-30 21:43:38

Вот такими получились оценки. Здесь Score в процентах — это показатель, отражающий долю побед в сравнениях с ответами GPT-4-0314 (называется бейзлайн).

Видно, что как только выходим за пределы топ-5 — метрики сильно падают. На MTBench, да и многих других бенчмарках, такое не наблюдается.

Внимательный читатель спросит: «Пажжи, модель часто ответы самой себя (или своих сестёр) оценивает выше, чем ответы других моделей. Нет ли тут прикола?»

Отвечу ниже 👇

2024-04-30 21:41:24

Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий 1️⃣из поста выше). На пальцах: если у нас 4 модели, то получается 6 пар. Когда мы сравниваем интервалы для этих моделей, то если они не пересекаются, и та модель, что выше в рейтинге по реальным человеческим оценкам, выше и тут — то это +1/6 (~16.6%, потому что 6 пар).

Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.

Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.

А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.

2024-04-30 21:41:14

Уже несколько раз писал про LMSYS Arena (из неё кстати убрали gpt2-chatbot

🥲) — место, где вы вслепую сравниваете два ответа LLM на ВАШ запрос, и по тысячам таких сравнений строится оценка, какая модель лучше. Если живые люди стабильно предпочитают одну модель над другой на широком наборе запросов — можно говорить, что она лучше (по крайней мере в этом контексте).

Способ оценки неплохой, но очень накладной: нужно с одной стороны оплачивать API моделей/выпрашивать кредиты, а с другой нагонять трафик, а затем ждать, пока наберётся статистика. Если моделей всего 10-20, то проблем нет, но сейчас буквально каждый день появляется с десяток! Хочется как-то отфильтровать уж совсем мусор, и достойных кандидатов выпускать на Арену.

Делать это можно прогоном моделей по каким-то предварительным данным с последующей автоматической оценкой. Требований к датасету несколько:
1️⃣ возможность надежного разделения моделей разного уровня навыков
2️⃣ отражение человеческих предпочтений в реальных сценариях использования
3️⃣ должен обновляться со временем, чтобы свежие модели не могли переобучиться и показать результаты выше объективных
(в идеале ещё быстро & дешево, но тут как в анекдоте, выберите 2 из 3)

Вот именно с последним зачастую возникают проблемы, хоть и второй2️⃣пункт тоже с полпинка не заведётся. Так, авторы Арены ещё год назад придумали MTBench: у них на руках были запросы пользователей, они посмотрели на частотность, и придумали 80 вопросов, по 10 в 8 категориях, которые якобы отражают распределение сообщений от людей. В качестве оценщика выступала GPT-4, исследователи проверили, насколько хорошо модель справляется с угадыванием мнений людей, насколько откалибровано её мнение и какие биасы заложены. Например, модель всегда поощряет более длинные ответы, а также безумно рада «своим» генерациям (то есть от GPT-4).

В итоге, MTBench какое-то время был хоть немного, но актуальным бенчмарком. Но сейчас, к сожалению, его оценка перестала удовлетворять как минимум первому1️⃣ требованию из списка — разделимость моделей. Вот GPT-4 имеет оценку 8.6 (из 10), Claude 3 Opus 8.6, другие модели около 8.1-8.2 болтаются — но ведь вопросов всего 80! И потому доверительные интервалы очень широкие, и нельзя надёжно сказать, что вот одно лучше другого. И никаих обновлений по3️⃣не было. Как быть, кто виноват и что делать?

2024-04-30 19:15:29

Увидел у Бобука новость (https://t.me/addmeto/5722) про готовящееся обновление Safari, мол, в него и блок рекламы добавят, и даже языковые модели для суммаризации страницы (а может ешё и для поиска) — и всё это прямо на устройстве пользователя, без доп. затрат на сервера и вычисления на каждый чих.

Кажется, разработчики Arc (https://t.me/seeallochnaya/1206) напряглись — у них как раз основные опасения, что 1) нет своего AI, всё через облако и третьи лица 2) на каждый чих нужно дёргать модельку, даже на самые простые и обыденные команды. В видео они уверяли, что «в гонке LLM/AI Apple сейчас отстаёт, и потому они могут пропустить окно возможностей, которое вот уже открыто» — может, так, может и нет, но не зря ведь Apple общается с компаниями, делающими AI? (например)

В общем, очень жду WWDC '24 (с 10-го июня), интересно, как оно выгорит, как покатит AI-фичи компания, СЕО которой на прошлой презентации ни разу словосочетание AI и не упомянул

🤷‍♂️

2024-04-30 09:45:01

Вчера на LMSYS Arena (место, где живые люди вслепую сравнивают генерации разных LLM и выбирают лучшую) появилась странная модель: gpt2-chatbot. И несмотря на то, что по названию можно подумать о слабости модели, она, внезапно, очень хороша. Настолько, что люди гадают, кто же её сделал, является ли это GPT-4.5 / 5, или может это свежий релиз Gemini Ultra 2.0.

Предлагаю вам самим поиграться тут: https://chat.lmsys.org/ (вкладка Direct Chat, там выбрать модель в выпадающем списке). Ограничение всего 8 сообщений в сутки, пользуйтесь с умом (или используйте VPN и режим инкогнито, кек).

На реддите люди тестируют свои задачки, которые якобы не решаются моделями предыдущих поколений, а эта либо щелкает, либо куда ближе к ответу, чем остальные. Треды почитать: 1, 2, 3.

Мой опыт:
— я дал ей простую задачку Show me an example of 3d ray tracing (with python). Set a simple scene, different light sources, etc. и получил полностью работающий код (в 2 или 3 ответа) с первого раза. Он учитывал материал объектов, включая цвет и уровень отражения. У меня получилось отрисовать сферу, на которой было два блика от двух источников света. После я попросил добавить поддержку не только сферы, но любой произвольной 3D-модели. Это заработало со второго раза — новонаписанный код был правильным, но оказалось, что нужно слегка изменить предыдущий. Скормив ошибку, получил работающее решение — и немного покрутив камеру увидел, что движок даже отражения от поверхностей учитывает!
— с таким же промптом (и даже с уточнениями) GPT-4-Turbo выдала лишь чб-рендер одного объекта, в куда менее удобном стиле написания кода. Тут не получилось быстро добавить на сцену объектов, в то время как у обсуждаемой модели всё было очень круто организовано.
— ещё по паре вопросов я заметил, что модель то ли делает паузы (особенно в начале), то ли просто зависает интернет-соединение. Возможно, под капотом есть Retrieval по интернету — и модель опирается на что-то со страниц из поисковика. Пока на Арене всего одна модель ходит в интернет (гугловский Бард), может, аугментировали GPT-4

🤷‍♂️

Что можно сказать про модель:
— Вот тут ребята сделали быстрое тестирование. Модель утверждает, что её сделали OpenAI, она ведётся на те же ловушки странных-редких токенов, на которые ведутся их модели (а другие модели — нет, потому что у них другой набор токенов). Скорее всего, это не просто дообученная LLAMA-3 или какая-то другая модель.
— На Arena для неё используют тот же системный промпт, что и для последней GPT-4-Turbo
— пользователи сравнивали ASCII-арт, просили нарисовать единорога, и модель давала такой же ответ, как и ChatGPT. Причём именно такой же единорог есть в интернете — либо модель его нашла и срисовала, либо выучила наизусть во время тренировки, и теперь воспроизводит. А какие-то рисует лучше

🤷‍♂️

— формат ответа очень напоминает формат ответа Gemini, расписывает всё по пунктам и подпунктам. Мне код, например, писала в 5 или 6 этапов.
— некоторые пользователи говорят, что им ответы модели нравятся теперь меньше(

🔫

Короче, очень интересно, чем окажется модель, и когда это вскроется. И тем более какое у неё будет место на лидерборде. Поживём — увидим!

Но просто напомню, что GPT-4 была запущена как часть Bing Chat за 5 недель до официального анонса

🤡

а потом все такие «вау!»

Пишите в комменты про ваш опыт использования 👇 только не выбирайте слишком сложные задачи, модель прям не настолько лучше, чтобы претендовать на звание AGI.

2024-04-29 20:18:44

Спойлер к сообщениям ниже

2024-04-29 11:16:14

Из вот этого видео узнал про интересный эксперимент NASA от 1984-го года, Long Duration Exposure Facility. Он представлял собой цилиндрическую установку, предназначенную для предоставления долгосрочных экспериментальных данных о космической среде и ее влиянии на космические системы, материалы и выживаемость разных видов спор.

Эта штука выводилась на орбиту Шаттлом (они уже тогда были!), чуть выше чем МКС (480 КМ), и по плану через годик он же должен был аккуратно снять LDEF с орбиты и вернуть на Землю.

Картинка 1 — вывод на орбиту, картинка 2 — забор, картинка 3 — Шаттл «Columbia» вместе с забранным грузом перевозят в другое место (каждый раз удивляюсь, как вижу фотки Шаттлов на самолётах).

Изначально LDEF должна была повисеть на орбите год, но по разным обстоятельствам миссии откладывались, и в итоге за ней вернулись лишь через 69 месяцев (nice). Штука в том, что станция содержала какой-то очень странный механизм (gravity-gradient stabilization), который заменил двигательную установку или другие системы ориентации. Все 5 лет станция была в стационарном состоянии, без вращения вокруг своих осей, и направлена одной стороной к Земле, другой от неё — чтобы разные эксперименты на разных сторонах тушки получали ровно отмеренные дозы.

Главной целью миссии было лучше понять влияние радиации, атмосферы, Солнца и маленьких метеоритов на материалы, потенциально предназначенные для разработки крупных космических станций. Именно эти данные ложились в основу при проектировании МКС и проектов других, даже никогда не полетевших, станций.

2024-04-27 10:30:46

В пилотном выпуске сериала The Last of Us про зомби придумали такую подводку к апокалипсису (видео): мол, существуют грибки, которые заражают насекомых, паразитируют и берут их под контроль (такие и вправду есть). Но они не выживают, если температура тела организма выше определённого порога — и потому не действуют на людей. Но вот если у грибка появится естественный позыв эволюционировать, скажем, из-за глобального потепления — то это может измениться...

Новость The Economist: комары, распространяющие лихорадку Денге, очень чувствительны к температуре, и с глобальным потеплением увеличивают ареал обитания. В этом году случаев заражения в Латинской Америке и на Карибах уже больше, чем во всём 2023-м, хотя прошлый год сам по себе тоже был рекордсменом.
Моделирование показывает, что при нынешних тенденциях изменения климата переносчики распространятся на большую часть южной Европы и Соединенных Штатов, подвергая риску заражения еще 2 миллиарда человек.

Также из новости узнал, что в Сингапуре с 2016-го года для борьбы делают следующее: размножают комаров, заражают их специальной бактерией, которая не позволяет им и их потомкам переносить заболевание — и отпускают на волю. Каждую неделю — по 5 миллионов комаров! А программа стоит всего $35M/год.

2024-04-26 10:43:29

На самом деле, если вы разбираетесь в технологиях [прим.: Paul использует это слово в широком смысле, не обязательно в рамках IT], легко находить идеи для стартапа. Если вы хорошо разбираетесь в какой-то технологии, то, глядя на мир, вы видите пунктирные контуры вокруг недостающих вещей. Вы начинаете видеть как то, чего не хватает в самой технологии, так и все сломанные вещи, которые можно исправить с ее помощью, и каждое из них является потенциальным стартапом.

Рядом с нашим домом есть магазин с табличкой, предупреждающей, что дверь туго закрывается. Этот знак стоит там уже несколько лет. Людям в магазине должно показаться загадочным природным явлением, что дверь застревает, и все, что они могут сделать, это повесить табличку, предупреждающую покупателей об этом. Но любой плотник, глядя на эту ситуацию, подумает: «Почему бы вам просто не отстругать ту часть, которая вызывает фрикцию?»

— из мартовского эссе How to start Google

То же верно для Google. Larry и Sergey поначалу не пытались основать компанию. Они просто пытались улучшить поиск. До Google большинство поисковых систем не пытались сортировать результаты, которые они вам выдавали, в порядке важности. Если вы искали «регби», вам просто выдавались все веб-страницы, содержащие слово «регби». А в 1997 году сеть была настолько маленькой, что это действительно работало! Ну вроде. Там могло быть всего 20 или 30 страниц со словом «регби», но сеть росла в геометрической прогрессии, а это означало, что этот способ поиска становился все более сломанным. Большинство пользователей просто думали: «Ух ты, мне точно придется просмотреть множество результатов поиска, чтобы найти то, что я хочу». Дверь туго закрывается.

2024-04-25 23:04:31

Но и это ещё не всё!

Одна из больших задач в интерпретируемости — это определить, когда модели врут (обманывают) или галлюцинируют.

И вот оказывается, что если заранее определённые головы внимания (старые добрые retrieval heads, которые мы вот только что научились находить) смотрят на одни и те же слова — то всё ок, ответ выписан по тексту. А если они обращены к первому токену (такое обычно называется «слив», когда модели нужно куда-то да посмотреть, но она не хочет — и просто тупит в начало текста) — то значит модель не опиралась на контекст для ответа.

[16-19, 11-15 и другие числа на картинке — это как раз конкретные головы внимания, их номера, за которыми мы следим для определения типа поведения]

Эксплуатируя развитие этой техники можно либо существенно уменьшить количество галлюцинаций, либо ввести какую-то лампочку, которая загорается и говорит пользователю: «скорее всего этот ответ выдуман и является неправильным» (если мы явно хотели добиться обратного).

2024-04-25 23:01:32

Визуализация того, как работает одна голова внимания.

У нас есть длинный-длинный текст, а в его середину вставлена иголка: предложение про Сан-Франциско и сэндвич. Это предложение не имеет никакого отношения к контексту.

И вот когда мы задаём модели вопрос, то она смотрит в контекст и определяет, что ответ содержится вот в этой вставке. Для всех остальных слов синяя колонка (= количество внимания) около нуля, а для текущего слова, которое модель хочет выписать в рамках ответа, куда больше.

2024-04-25 22:59:21

Retrieval Head Mechanistically Explains Long-Context Factuality

В архитектуре трансформера есть «головы внимания», на каждом слое их одинаковое количество штук. Эти головы отвечают за то, чтобы перевзвешивать важность слов в контексте: вместо того, чтобы смотреть на тысячи слов за раз модель как бы зануляет большую часть из них, и размазывает 100% внимания лишь по нескольким токенам.

Например, есть голова внимания, которая всегда смотрит только на предыдущее слово, как бы позволяя нейронке опереться на него при генерации. Есть головы, делающие более сложные операции — выявление действующих лиц для местоимений («кошка гуляла, она шла медленно» -> «она» - это кошка). Ничего из этого не программируется вручную — модель во время обучения сама понимает, когда, как и на что смотреть, и изобретает разные алгоритмы.

В рамках науки об интерпретируемости учёные пытаются понять, как учится трансформер, что именно он понимает и как именно работают отдельные механизмы на основе голов внимания. В значимой степени это лишь теория, которая однако имеет огромные перспективы для применения в практике за счёт получения ответов на вопросы в духе «почему модель ошиблась?» или «соврала ли LLM?».

И вот данная работа — как раз такая, она на стыке оптимизации длинного контекста в LLM и интерпретируемости. Для того, чтобы понять текст дальше, нужно прочитать пост <https://t.me/seeallochnaya/1135> с объяснением принципа теста «иголка в стоге сена».

Авторы придумали критерий, по которому научились определять retrieval heads, которые позволяют копировать модели части промпта. Представьте, что у вас есть 5 страниц текста, и вы в рамках ответа на вопрос приводите цитату: для этого мусолите палец, ставите его на нужное место на странице и двигаете вправо как указатель, и вслед за этим записываете ответ. Вот так и работают эти головы, позволяя модели не сбиваться. Но важно это в очень широком круге задач, особенно в тех, где модель обязана следовать за инструкцией в промпте на 20 страниц — ведь если задуматься это тоже задача поиска: «какое правило тут применить?».

Проанализировав разные семейства моделей (Llama 2, Mistral, Qwen), обнаружили, что такие головы занимают ~5% (~50) от примерно тысячи голов в модели. Их прям конкретно смогли выписать: вот эта вот, с таким то номером. Если их начать отключать (занулять, не давать им смотреть на контекст) — то внезапно модели перестают читать контекст и теряются, их качество существенно падает на задаче поиска иголки в стоге сена. Ещё такой же результат наблюдается на решении математических задач с рассуждением (ведь теперь в них нельзя подсмотреть), а вот качество ответов на вопросы, связанные с чистым знанием не меняется (потому что из контекста не нужно ничего выписывать).

Итак, почему это важно для практики? Когда LLM используется для генерации текста, то для всех предыдущих слов считается огромный тензор вещественных чисел, хранящий информацию о том, что было написано (именно в нём головы внимания находят то, что им нужно). Такой KV-cache для модели LLAMA 2 7B для 100к токенов весит 50 гигабайт. Маленькая модель, контекст не то чтобы очень большой (у Google Gemini вон вообще миллион), и ЦЕЛЫХ 50 ГИГОВ.

В этих гигах как раз таки хранится информация для разных наборов голов. И если мы знаем заранее, что нам нужна голова номер 15 в 10-ом слое — то мы можем сохранять только её, а остальное удалять. Конечно, лучше перестраховаться, и брать, скажем, 10-20% от всего множества — но это в 5-10 раз уменьшает потребление памяти, а значит позволяет и существенно ускорить работу, и уменьшить требования к железу.

Очень жду этой фичи из коробки в большинстве фреймворков, реально очень круто.

2024-04-25 17:50:34

😳 стало страшно, увидел на распродаже в Steam игру типа симулятор фермы и захотелось поиграть. "Приятная, лёгкая графика, медитативно, вот заборчик поставить, вот пшено посадить..." — пронеслось в голове.

Это чё, я уже таким старым стал...

(

или просто ностальгирую по временам, когда 2+ года на даче жил

)
((

ну нафиг, лучше в

Dyson Sphere Program

пойду

))

2024-04-25 09:31:36

Года три назад активно развивалась область нейрорендеринга или NeRF'ов — это когда нейронка (или как оказалось впоследствии, не обязательно нейронка) выучивает 3D-представление сцены из нескольких кадров с разных ракурсов, а затем может нарисовать любой новый ракурс, которого до этого не было. Время шло, технологии развивались: некоторые методы вообще позволяли делать реконструкцию по одному кадру, другие позволяли воссоздавать видео (то есть четыерёхмерное пространство, с осью времени), третьи могли редактировать сцены, например, меняя день на ночь (или направление освещения).

На смену NeRF'ам пришел Gaussian Splatting. Что это такое я рассказывать не буду (потому что сам не знаю, кек), но по сути он делает то же самое, только качественнее и быстрее. Увидел с ними вот такую демку, как записанное с разных ракурсов видео переводится в анимированную 3D-модель, которую можно вставлять в разные декорации. Ещё раз отмечу: большая часть ракурсов тут не была видна камерам, они воссоздаются на лету. Можно делать пролёты итд, без затрат на это в реальном мире.

Лично мне очень напомнило брейндансы из киберпанка (пример глянуть тут) — осталось только придумать, как это транслировать умнее, чем просто показывать на экране. Тоже можно свободно летать по сцене, перематывать время, рассматривать детали.

Интересно, какое отражение подобные технологии могут найти в киноиндустрии (или хотя бы в любительских видео на ютубе) — если вы видели что-то по теме, скиньте пж в комменты!

2024-04-24 20:55:41

8 лет спустя: Jensen доставляет первый в мире DGX H200 "to advance AI, computing, and humanity" компании OpenAI

В этом ящичке мощи для обучения нейронок больше, чем у самого мощного суперкомпьютера в мире ~11 лет назад (этот или этот) в сумме (а ведь они занимали целый машинный зал!). А дальше - только больше: этот готов, и ещё 200 тысяч на подходе!

Источник (GDB, мужик справа)

2024-04-24 14:22:16

Сначала люди говорят, что ARA («автономная репликация и адаптация», https://t.me/seeallochnaya/574) для LLM/AGI-моделек это бред, потому что столько денег модели не смогут зарабатывать на своё содержание, а потом удивляются, что пользователь с первого запроса на счётчике

Автор: @senior_augur (подпишитесь на Илью)

2024-04-24 08:21:06

Когда-то я писал про систему DIDACT (https://t.me/seeallochnaya/573) — инструмент внутри Google, который берёт на себя часть процесса разработки и тем самым увеличивает эффективность программистов. Это не только код писать, но и улучшать его качество, покрытие тестами, помогать отвечать на комментарии и делать предложения по исправлению ошибок.

Вчера Google выпустили блог Safely repairing broken builds with ML, где, как следует из названия, рассказывается о части этой системы на этапе «сборки» кода. Сборка — это перевод человекочитаемого кода в финальный артефакт в машинном формате, например, приложение или исполняемый на сервере файл. И вот такая сборка может ломаться, если вы наделали в коде ошибок. Какие-то вещи заметить просто и без сборки, с помощью десятка эвристик и инструментов, а какие-то всплывают лишь после того, как программист отправил свой код на сборку (так как они сложны и возникают из-за неочевидных взаимодействий).

Иногда сборка ломается, и приходится идти читать логи ошибок, смотреть, что там не понравилось машине — а затем придумывать исправление. Всё это отнимает время, а когда у тебя одни из самых высокооплачиваемых специалистов, то улучшения даже на проценты на таком масштабе дают существенный выигрыш.

В общем, эта система учится по вашему коду и ошибке сборки предсказывать необходимое изменение в коде, чтобы всё заработало. Поскольку хочется избежать багов и уязвимостей, то после генерации нескольких кандидатов система фильтрует их (и может показать 0 вариантов). Такое изменение предлагается внести в одну кнопку — программист смотрит, жмёт Apply, и идёт работать дальше.

Систему раскатили на весь Google на 11 недель, побив разработчиков на 2 равные группы для оценки эффекта. Оказалось:
— на 2% уменьшилось время работы над одним изменением перед его отправкой на сборку
— на 2% уменьшилось время, проходящее от отправки на ревью до закрытия (включая внесение изменений по обратной связи от других сотрудников)
— среднее количество изменений, отправляемых сотрудниками выросло на 2%
— при этом количество откатов назад не изменилось статистически значимо (то есть новые изменения не вносят какие-то другие проблемы)

Ждём двузначных чисел улучшений через годик-два, с улучшением моделей!

2024-04-22 14:01:26

Уже полторы-две недели собирался написать лонг про AI и образование, даже начал составлять план и тезисы выписывать, но пока не решил, что прям точно надо писать.

А сегодня увидел, что у Ethan Mollick вышла статья на 70 страниц на схожую тему (TLDR).

Походу, всё таки придётся писать....

В прошлые разы, когда я упоминал тему образования, в комментариях отмечались люди, которые делали схожие проекты (в университетах Мск и в Германии, кажется). Если вам есть что сказать, или ваши примеры потенциально могут послужить материалом для статьи — дайте знать.

2024-04-22 08:47:25

Сегодня дедлайн подачи заявки в YCombinator - один из самых престижных стартап-акселераторов в мире. А завтра (во вторник, 23 апреля) в 19:00 по Мск — думаю, многим будет интересно — буду слушать Юру @rebrykblog про то, как он попал в YC и поднял $2m на развитие стартапа.

Юра и команда делают программку, которая слушает ваши созвоны, обращает внимание на произношение и слова-паразиты, а затем даёт фидбек — и ещё позволяет практиковаться. Я бы сам ей пользовался - просто пока большого количества созвонов на английском нет. Вот выйду на работу...

Немного лора: Юра это тот чувак, который был стажёром в 5 или даже 6 разных компаниях в США (блин, оч завидую - столько времени относительно беззаботно пожить в Штатах, сейчас уже такого не предвидится), и потом ушёл делать своё (компания Myna Labs).

Всё бесплатно, но записи не будет.

Заполните гугл формочку, чтобы попасть на встречу: https://forms.gle/2e8uD33f7FytppSUA

Что будет:
1. Что важно знать про фандрейз, что многие не понимают.
2. Как рейзят стартапы из YC.
3. Юра покажет свой дек, письма инвесторам, как нужно просить интро.
4. Что делать восточноевропейским фаундерам, которых никто не знает.

(напоминаю, что в моём канале рекламы нет, и все упоминания других каналов - только если я их а) читаю б) хочу делиться сам)

2024-04-20 16:55:36

Из того же блога/интервью с David Luan, про роль менеджера (тут в контексте исследований, но это применимо и к продуктовой разработке, и к ML, и почти хоть к чему):

— Я думаю о своей работе так: я был своего рода распределителем. У меня есть очень, очень умные люди. Моя работа — убедить других людей объединиться вокруг небольшого количества действительно хороших идей и затем довести их до финиша. <...> Когда идеи начинают аккумулироваться и некоторые из них начинают хорошо работать, моя работа состоит в том, чтобы направить ресурсы на то, что действительно заработает, а затем начать расформировать некоторые вещи, которые не работают.

В моё определение ещё входит такая формулировка: менеджер конвертирует проблемы процессов в решения и/или план действий.

💬А чё Илон Маск то сделал)))0 он же нулевой инженер

🤡 (sure)

2024-04-20 10:47:55

Как я себя чувствую каждый раз когда я пишу в канал:
https://youtu.be/f_7Se53EzaA?t=3167

(Если вы не смотрели фильм, то почему вы ещё не исправились??? Даже вон старик Tarantio говорит!)

2024-04-20 08:52:23

Приятель посоветовал посмотреть интервью с Aidan Gomez, CEO Cohere (это от них недавно вышла CMD R+, на пару дней лучшая опенсурсная LLM. А ещё он ко-автор трансформера, и конечно работал в Google)

Ссылка с таймкодом

«...все похвалы должны быть направлены OpenAI за то, что они попробовали все эти идеи (LLM, модели генерации изображений) на огромном масштабе, особенно в то время, когда исследователи глубокого обучения стигматизировали за использование подхода «тупого добавления большего количества слоев» (мем Stack More layers). Исследователи из OpenAI имели смелость сказать: мы даже не начали увеличивать модели, подержите моё пиво!»

Интересно, что буквально на днях прочитал вот этот блогпост с David Luan, ~30м сотрудником OpenAI (то есть очень ранним). Он также был лидом в Google Brain и вёл направление языковых моделей. Там он отвечал на вопрос «Почему Google не сделали GPT-3»:

«В то время в Google существовала такая штука, как Brain Credit Marketplace. Каждому подразделению выделен кредит и квота. Если у вас есть кредиты, вы можете покупать вычислительные мощности, в зависимости от спроса и предложения. Итак, если вы хотите выполнить огромную работу, обучить большую модель, вам нужно убедить 19 или 20 ваших коллег не делать ИХ работу. Действительно сложно собрать критическую массу, чтобы масштабировать модели. [в OpenAI] мы смогли победить Google просто потому, что мы делали большие шаги в одном направлении, на которое был весь фокус»

(Ilya Sutskever так вообще за масштабирование болел с допотопных времён, ещё в 2012-м, кек)

Ну теперь-то с выходом ChatGPT, когда всем-снова-всё-стало-очевидно, у Google такой фокус появился, что 1) объединили две команды, Google Research и Google DeepMind 2) у команды Gemini было больше 900 авторов 3) выделили ресурсы и расписали план наперёд!

UPD: в Google был такой Noam Shazeer, тоже очень известный и крутой дядька, много чего придумал — и он тоже топил за масштабирование. И его тоже обделяли ресурсами, хоть некоторе его и поддерживали и говорили SOMEBODY, PLEASE! Get this man a GPU. А потом он ушёл делать свою компанию (жаль не в OpenAI...

🥺)

UPD-2: (ссылка на мою лекцию) у Google в момент выхода GPT-3 самая большая модель была Т5-11B, на её обучение потратили в 10 раз меньше вычислительных мощностей. С одной стороны кажется «ой, всего в 10?», а с другой — это другой порядок инженерных работ. Нужно гораздо больше мощностей связать воедино, чтобы это всё заработало, отладить, и потом только тренировать модели.

2024-04-19 05:02:43

Вчера уже не стал писать, но META также обновили свой основной сайт с чатботом: meta.ai

И прям в него выкатили свою новую модель для генерации изображений и анимаций. Называется Imagine Flash, по сути это ускорение модели EMU для обслуживания десятков миллионов пользователей. Если обычная EMU генерировала изображение в 25-50 шагов (постепенно уточняя детали), то эта модель делает всё в 3 шага — почти в 10 раз быстрее. Работает даже шустрее, чем StableDiffusion 3 Turbo в API компании Stability.

Демонстрацию работы вы можете увидеть на прикреплённой гифке. Скорость генерации легко заметить — картинка получается прямо во время того, как вы печатаете текст!

(У меня получилось зайти через бесплатный браузерный VPN Browsec с установкой на Сингапур)

А детали обучения и разработки можете прочитать у Артёма @ai_newz — он Staff Research Scientist и руководил этим проектом прямо внутри META! Так что бегом подписываться на канал Артема, там много годноты!

2024-04-18 20:53:25

И последняя на сегодня новость по LLAMA-3

Вечером пока читал, казалось, что где-то это видел, но потерял, и не стал без источника указывать. Сейчас наткнулся снова, понял, что это были не галлюцинации (я всё таки не LLM!).

Дообучение LLAMA-3 после этапа предтренировки производилось на 10M (!) вручную размеченных людьми примеров. Это ОЧЕНЬ много — я не видел ни одной работы по LLM, где было бы существенно больше 200 тысяч. Ну, миллион, ну, полтора, но не десять же!

Вообще в META любят подразметить — в паре предыдущих работ, особенно по картиночным моделям, тоже были немаленькие датасеты, прошедшие через людей.

Очень ждём появления LLAMA-3-70B-Instruct на LMSYS Arena, посмотрим на этого храброго воина!

2024-04-18 18:57:22

(продолжение поста выше с TLDR'ом подкаста: 🔼)
— Mark считает, что META будет продолжать выпускать модели в открытый доступ. Исключение - если они начнут натыкаться на навыки модели, с которыми не будут знать, что делать. Он ушёл от ответа на вопрос про «перевыравнивание» моделей через тренировку (когда исследователи дообучили модель как-то не отвечать и что-то не делать, а люди дообучили её в обратную сторону, и теперь она снова может что-то плохое писать, например). Пока надёжных способов это сделать я не видел, так что хз, как они будут с таким справляться.
— когда хост начал расспрашивать про риски открытых моделей уровня AGI, Zuck привёл уже избитый пример с кибербезопасностью. Мол, да, у плохих людей будет в руках AGI, но он же будет и в руках всех компаний и людей, так? Они смогут его использовать для защиты! Меня этот пример никогда не убеждал: ведь тогда получается, что одним могут вбухать в 100 раз больше мощностей на одну атаку, а «защищающаяся» система не сможет потянуть такое. И очевидно, что есть такие системы, куда многие недоброжелатели хотели бы вклиниться: банки, интерпол, etc. А если AGI должны будут запускать люди у себя дома, и такая модель будет, скажем, для них очищать интернет — кто за это будет платить? Почему политики не смогут в 100 раз больше вложить в создание качественной пропаганды, чтобы обойти такое было очень дорого (или близко к невозможному)?
— Но возможно они сами придут к тому, что побороть никак не смогут, и не будут ничего публиковать 🤷‍♀️
— на вопрос «релизните ли вы модель, обучение которой стоило $10b, если она полностью безопасна?» Mark ответил «да, пока нам это помогает». Под помощью тут подразумевается то, что это как-то облегчит работу компании. Часто Гуглы да Фейсбуки что-то выпускают, и оно становится стандартом индустрии; многие специалисты начинают изучать технологию, и по сути приходят готовыми. А ещё сообщество помогает искать баги 🙂 правда что будет с моделями, какая польза от людей вне компании - представить сложно. «Особенно если будут другие модели, такие, что наша не будет давать каких-то существенных преимуществ» 🙂

🚬
— моё мнение: я вижу очень большое противоречие. Основные приросты качества происходят из-за масштабирования моделей, и чем дальше в лес — тем меньше людей вообще сможет к ним прикасаться. Вот сейчас выйдет 405B модель, и что? На макбуке её уж точно никак не запустить (даже на будущем M4, почти уверен), дома нужен целый сервер. С ней будут работать компании, которые могут себе это позволить. У LLAMA-6 (самой большой версии) вообще круг ЦА потенциально узеньким будет. Людей, которые что-то придумают и улучшат, можно сразу нанимать будет, и всё, никакого опенсурса. И при этом многие вещи (вроде оптимизаций) можно будет переносить с условной LLAMA 4, если окажется, что в архитектуре и общем принципе не будет существенных изменений. В чем тогда смысл и ценность открытия моделей для META? Будем следить!
— (ну или индустрия вычислительных мощностей должна так круто перевернуться, что каждый на тостере реально сможет крутить модели. Молимся на великого Sama

🙏)
— META работает над своим железом для обучения LLMок, но даже LLAMA-4 не будет на нём тренироваться. В первую очередь сейчас заняты чипами для разгрузки GPU, чтобы можно было перекинуть все рекомендательные системы и ранжирования на узкоспециализированные чипы (вот недавно новый представили). А уж после начнут с мелких LMок, и там LLMки.

2024-04-18 17:36:01

— загадочное «400B+» в названии самой большой LLAMA 3 означает 405B. Это dense модель, не микстура экспертов.
— в ближайшие месяцы ожидаются новые модели, они будут мультимодальными (как минимум с картинками на входе), а также поддерживать больше языков и более длинный контекст
— решение закупить много GPU в 2022м было принято в рамках работы над... Reels в Instragram 😕 тогда подумали, что хорошо бы делать рекомендации не только по рилсам ваших контактов, но и по незнакомым. Mark хотел догнать TikTok с точки зрения рекомендаций и ленты. Он сделал yolo bet и сказал «давайте закажем в два раза больше? Наверняка мы что-то упускаем сейчас, пригодится». Ну вот, нашлись и другие применения 🙂
— LLAMA-2 не тренировали на большим количестве кода, так как думали, что у пользователей не будет таких задач для модели при интеграции в продукты META. Но оказалось (по-моему, исследования были и до выхода LLAMA-2, см. тут), что обучение на коде улучшает рассуждения модели и в других доменах — поэтому LLAMA-3 обучена на огромном количестве скриптов.
— в LLAMA-3 наблюдаются лишь мелкие зачатки агентности (возможности самостоятельно решать отдельные задачи с минимальным наблюдением человека), задача при разработке LLAMA-4 развить их, так как финальное видение AI-ассистентов у Mark — это что ты говоришь «сделай то-то и это», и оно делается
— При обучении 70B на 15T токенов (триллионов. Очень-очень много — LLAMA 2 видела 2T, GPT-4, по слухам, 12-13T) качество модели не вышло на плато, то есть её можно продолжать тренировать и улучшать. У 400B версии наверное вообще конца-края не видно будет

🤙 и это всё — на один проход, без повторений. И дубли, я почти уверен (статьи-то нет), отсекали и фильтровали.
— Также CEO META считает, что экспоненциальное развитие пока будет продолжаться, и что траты в сотню миллиардов долларов на дальнейшее развитие моделей выглядят приемлемыми. Но ещё до того, как индустрия придёт к тому, что капитал больше не имеет смысл вкидывать в железо и обучение, мы упрёмся в энергию, и это будет боттлнеком. Даже если у вас есть деньги — почти нигде не получится не упереться в регуляции и взять и построить электростанцию для подпитки датацентра.
— Более того, решение вопроса с энергией также позволит строить кластера большего размера, чем мы можем сегодня (тут хочу напомнить про проект суперкомпьютера OpenAI x Microsoft за $100B). Сейчас нет датацентров для тренировки LLM на 1 гигаватт. Но они будут появляться. Условно датацентр, а прямо за ним — АЭС (не шутка, Mark сам это упомянул - и он не первый кстати, CEO Anthropic тоже такое упоминал).
— Скорее всего, в будущем тренировка будет происходить не просто на имеющихся данных, а прям итерациями: обучили, сгенерировали синтетические данные, дообучились, и так по кругу. Это не лишено смысла — как писал выше, моделям нужно больше данных, они не доучиваются прям до конца, не выходят на плато. И на это тоже потребуются огромные мощности.

(это первая половина, читайте ниже остаток 🔽)

2024-04-18 17:20:03

Пока пишу обзор подкаста выше, вот удобная табличка для сравнения метрик будущей LLAMA-3-405B и ведущих моделей.

Проигрывает и Opus, и GPT-4-Turbo, но ведь и тренировка ещё не закончилась! Кто знает, сколько там осталось впереди?

Источник

2024-04-18 16:20:44

И параллельно у Dwarkesh'a вышел подкаст с Mark с разговором про LLAMA-3

Го смотреть

https://www.youtube.com/watch?v=bc6uFV9CJGg

2024-04-18 16:11:57

(но это только после показа 400B версии, до этого OpenAI чё переживать то)

источник

2024-04-18 16:00:31

15T токенов, но маленькое окно контекста: 8k
(для сравнения, LLAMA-2 тренировалась на 2T)

отсюда

2024-04-18 14:43:08

Ждём LLAMA 3 сегодня?

🚨

Уже на двух площадках засветились новые модели — сайт Replicate для развёртывания моделей и Microsoft Azure, один из крупнейших облачных провайдеров. На обоих указана версия модели на 8B параметров (против общепринятых 7), а на первом ещё есть 70B версия. Согласно утечкам, планируется сначала выпустить две модели «меньшего размера» — 70B не очень-то в это вписывается! Или, быть может, они готовят титана 150B+? Поживём - увидим.

Сейчас в Калифорнии почти 8 утра 🚬 возможно, официальный анонс будет в ближайшие 4 часа.

Главных вопроса два:
— будут ли эти модели хоть как-то лучше оных от Mistral и Cohere?
— будет ли опубликована статья с техническими деталями процесса обучения?

В опросе ниже можно делать ставки!

2024-04-18 08:53:38

Many-Shot In-Context Learning

LLM известны своим навыком In-Context Learning (ICL) — они могут выучить новую задачу без непосредственно обучения, просто по демонстрации примеров в промпте. Однако долгое время количество подаваемых примеров оставалось маленьким — 4-8, может, 25 максимум. Однако модели текущего поколения набирают обороты, и у той же Gemini 1.5 Pro в контекст влазит аж 1М токенов — хватит на сотни и даже тысячи примеров решений!

Поэтому авторы из DeepMind возвращаются к вопросу ICL и исследуют изменение качества при увеличении количества примеров. Результаты ожидаемые - почти всегда и почти везде качество растёт, тут ничего удивительного. Например, в задаче машинного перевода на редкие языки (с английского на курдский и тамильский) Gemini 1.5 Pro обходит гугл переводчик (в промпте при этом примерно 85-100k токенов пар-примеров с переводом). В разных бенчмарках по математике и рассуждениям тоже наблюдаются приросты — картинка будет в первом комментарии.

Один из вопросов с точки зрения практики - готовы ли вы платить +$0.5 за обращение к модели, чтобы поднять качество ответов на 5-15%? Уверен, найдутся домены, где это окупается.

«Ну так блин, для этого надо столько разметки вручную делать, это не всегда доступно» — можете заметить вы, и будете правы (разметка ответов и решений для помещения в промпт). Поэтому начинается интересная часть, делящаяся на два направления:
1) подавать просто текст проблем в промпт, без решений и ответов (называется Unsupervised ICL)
2) генерировать решения LLM'кой (и отбирать их по имеющемуся ответу) и брать их. Да, в таком случае некоторые неправильные решения могут приводить к верному ответу. Называется Reinforced ICL.

Эти два метода расширяют применимость ICL с большим количеством решений — в первом так вообще ничего не надо, кроме текстов проблем. И...это тоже увеличивает качество. RICL так вообще почти всегда показывает такое же качество (и даже лучше!), чем демонстрация написанных людьми решений. И даже UICL иногда работает — вероятно, потому, что модель лучше понимает и формирует внутри себя представление о том, с какими проблемами имеет дело.

Лично мне в статье не хватило сравнения с RAG подходом, когда отдельная модель сначала из всего корпуса проблем и/или решений выбирает самые подходящие, подаёт их в промпт, а затем уже LLM генерирует ответ. Тут не нужен большой контекст, и потенциально можно отфильтровать шум. Быть может этот метод будет давать качество ещё выше

🤷‍♀️

Ждём модели с 100M контекста, чтобы кормить им описание всего, что только под руку попадётся — даже если за это придётся платить долор(

2024-04-17 10:50:57

Вот так выглядит пайплайн:
1) выделение фактов
2) корректировка фактов для достижения атомарности
3) оценка релевантности
4) оценка ответа через гугл (тут на самом деле под капотом много работы: составление запросов, поиск противоречий, формирование вывода— смотри вторую картинку как пример)

2024-04-17 10:49:25

LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Принято считать, что LLM часто галлюцинируют, и вообще у них большие проблемы с фактической информацией. Вот если GPT-4 мне ответит: «...и Эйфелева башня, открытая в 20м веке, обязательны к посещению» — я должен проверять период открытия? Наверное, да — уже не одна сотня людей на подобном погорела (вспомните случай с адвокатом).

Сотрудники DeepMind решили подойти к вопросу более системно и исследовать вопрос: могут ли модели текущего поколения успешно перепроверять сами себя при условии наличия доступа к гуглу? Для тех, кому лень читать, краткие выводы:
1) LLM ЛУЧШЕ ЛЮДЕЙ в перепроверке информации
2) LLM в 20 раз дешевле ручной валидации фактов
3) (конечно же) бОльшие модели лучше (косой взгляд в сторону тех, кто использует GPT-3.5)
4) GPT-4-Turbo значимо лучше остальных моделей
===

Сначала авторы генерируют 2280 относительно длинных ответов модели, запромченной упоминать как можно больше фактов - на этой выборке будут производиться замеры. Для того, чтобы перевалидировать текст, предлагается следующая многоступенчатая схема:
1) разбить текст на отдельные факты
2) сделать каждый факт самодостаточным и атомарным (например, заменив местоимения «она» на «Эйфелева башня»)
3) для каждого факта проверить релевантность оригинальному запросу
4) наконец, запустить агента в интернет с целью проверки каждого атомарного факта. Такой агент сам пишет запросы, сам открывает и читает страницы, сам может найти противоречие между разными источниками и в теории определить, какой более приоритетен
(и для всех пунктов, конечно же, используются LLM - никаких людей)

Такой пайплайн авторы называли SAFE (Search-Augmented Factuality Evaluator). На своём датасете они тоже метрики меряют, но отдельно сравнивают с людьми на датасете, созданном в рамках одной из прошлых работ в 2023м году. Там ~500 промптов, в ответах на которые выделено 16k фактов. Для каждого живой человек искал подтверждение, правда, только в рамках Википедии, а не во всем интернете.

В 72% случаев SAFE выдаёт тот же ответ, что и человек (то есть соглашается, что факт либо правильный, либо неправильный). «Пффф! ошибается в четверти случаев» — скажут одни. «Ща мы тут проверим, кто ошибается» — отвечают авторы. Затем они берут 100 примеров, где ответы модели и людей отличаются, и перепроверяют уже сами, глядя на результат. Оказывается, в 76% случаев они согласны с моделью — просто люди либо ошиблись, либо у них не было всего контекста (вне Википедии).

Код с промптами: тут и тут (разные папки одного репозитория, мб ещё где-то есть)

2024-04-16 14:12:41

Boston Dynamics опубликовали видео «Farewell to HD Atlas»

Atlas — это тот самый робот, которого вы долгие годы видели в демонстрациях: его пинали, били, клюшкой выбивали предметы из рук, заставляли бегать и делать сальто.

Вероятнее всего, нас ждёт анонс новой платформы (может быть гуманоидной, а может быть и нет) — будем следить. Этот год должен стать большим для робототехники (даже первые посты в канале в январе — про роботов!), тема очень горячая.

В самом же видео показываются моменты неудач, ~~взлёты~~ падения и падения — можно посмотреть, посмеяться, приговаривая «ха-ха тупая железка»

2024-04-15 10:59:01

Так в чём же фишка? Авторы замечают, что не все токены одинаково полезны при тренировке. Есть какой-то мусор, который не нужно предсказывать, есть вещи, которые сами по себе сложно предсказать (например, вымышленные фамилии).

Они берут игрушечную модель TinyLlama-1B, тренируют её, а затем анализируют изменение предсказаний на отложенной выборке. Оказывается, что:
— 51% токенов как предсказывались хорошо, так и продолжают
— лишь для 26% токенов появляется существенное улучшение в точности их предсказаний
— (и ещё есть 12% где предсказания ухудшаются, но это пофиг)

При этом если посмотреть на динамику изменения лосса (того, насколько хорошо модель предсказывает), то во время тренировки будут заметны большие флуктуации, которые мешают сходимости модели. Её как-бы шатает туда-сюда, делается бесполезная работа. Давайте сфокусируемся на основном!

Для этого отбираем очень высококачественный датасет, тренируем на нём 7B модель, а затем используем её для разметки «грязного» тренировочного корпуса. Для каждого токена мы оцениваем лосс предсказаний. Это значение называется референсным.

Затем во время тренировки мы считаем лосс текущей модели и сравниваем с референсным. И тут и кроется весь трюк:
— если и то, и другое очень маленькое — то и хрен с ним! Модели уже хорошо предсказывают
— если и то, и другое очень большое — то и хрен с ним! Модель не может это предсказывать
— и самое интересное: если референсная модель научилась предсказывать хорошо (лосс маленький), а текущая модель предсказывает плохо — то это непорядок, надо исправлять.

И вот токены, попадающие в последнюю группу, и являются наиболее важными для обучения! В них и кроется весь смысл. Авторы добавляют динамический отбор в рамках батча, по их замерам лучше всего брать топ-60% токенов, оцененных по разнице референсного значения и предсказания текущей модели. То есть на 40% слов мы не учимся (но они участвуют в формировании контекста) — отсюда не течёт градиент.

Давно ждал такой работы, идея на поверхности — перевзвешивать примеры во время обучения, игнорировать шлак. Правда, я не до конца удовлетворён исследованием:
— маленькая модель получила прирост метрик, в то время как большая только сравнялась с DeepSeek. Не ясно, получится ли улучшить и тут.
— тестировали только 7B модели, быть может на 70B+ не будет работать — например, они могли естественным образом развить склонность к выявлению и использованию полезных данных (про это я кажется третий раз за неделю пишу?)

2024-04-15 10:58:54

RHO-1: Not All Tokens Are What You Need

Статья от Microsoft про то, как более эффективно дообучать LLM-ки, то есть как за меньшее количество шагов обучения (и потреблённых данных) получать качество лучше. В рамках данной работы делается фокус на способности модели решать математические задачи.

Начнём с вот такого графика, чтоб было понятно. Слева модель на 1B параметров, справа — на 7B. Серая пунктирная линия сверху показывает уровень моделей семейства DeepSeekMath — китайских LLM'ок, специально обученных на 150B/500B токенов, релевантных решению математических задач (они по-умному фильтровали данные). До недавнего времени эти модели были лучшими в своём классе.

По оси X — количество тренировочных токенов, максимум 15B — то есть в 10/33 раза меньше, чем у азиатов. По оси Y — качество модели. Видно, что новый подход позволяет добиться тех же результатов за куда меньший срок (для мелкой модели — даже улучшить результат). В обоих случаях речь идёт про дообучение, а не тренировку с нуля — то есть модель сама по себе уже что-то знает (модель на 7B это Mistral, крепкая штучка).

Модели выложены, код (без данных для обучения) и ссылки тут.

2024-04-14 22:53:05

Разговоры про AI и эволюцию в 6 утра be like:

2024-04-14 20:57:39

Метрики показывают, насколько же большой разрыв между опенсурсными моделями (которые по Elo-рейтингу на LMSYS Arena почти-почти достают GPT-4) и приватными в контексте задач, требующих автономности и агентности, а не просто односложного ответа, выраженного текстом (прощающим мелкие огрехи). Смотрим на самую правую колонку: GPT-4 12.24% решенных задач, Mixtral 2.98... (и это — по тексту, без картинок)

(Gemini от Google в сделку не входила хахахаххаха)

2024-04-14 20:55:33

Есть что-то завораживающее в наблюдении за машиной, которая сама автономно выполняет задачи — нужно просто задать цель. Сейчас это 12%, через полгода — 30%, а с выходом GPT-5 75%....

👍

2024-04-14 13:23:56

И вот если мир будет таким, и модели будут а) очень агентными и автономными б) начать заменять части экономики, то как нам готовить к такому миру своих детей? Чему учить? Что вообще будет актуальным хотя бы через 10 лет?

«Очевидная рекомендация — просто знакомиться с технологией самому и знакомить с ней ребёнка. Научите своих детей адаптироваться, быть готовыми к миру, который меняется очень быстро. Мне хотелось бы дать ответы получше, но я думаю, что это лучшее, на что я способен» — говорит Dario. «Есть ситуации, когда в креативных задачах AI создаёт черновую версию, а затем человек её изменят и финализирует. Но для этого самому человеку нужно неплохо разбираться в предмете. Нужно ли сейчас всех заставлять использовать инстурменты по максимум или наоборот ограничить, чтобы выработать навыки самостоятельного мышления, и уже затем показать технологию? Мне ответ не очевиден» — отвечает ведущий.

Ну и раз уж мы заговорили про образование, то Dario Amodei рекомендует три книги! Сначала я обрадовался и подумал «ха-ха ну хоть какой-то позитив», а затем я услышал описания книг от него и

😨

Итак, список ✍️:
1️⃣The Making of the Atomic Bomb (

😳) «Просто посмотрите на персонажей и то, как они на реагировали на разработку. Как люди, которые по сути были учеными, постепенно осознали невероятные последствия своей технологии, а также то, как она приведет их в мир, который сильно отличается привычному им миру»

2️⃣Серия книг «The Expanse»: «Мир в этой вселенной очень продвинут. Люди уже осваивают космос. Но они по-прежнему сталкиваются с некоторыми из тех же геополитических вопросов, вопросов неравенства и эксплуатации, которые существуют в нашем мире сейчас. Вот такой фон истории. И суть в том, что в этот мир привносится какой-то принципиально новый технологический объект и как все на него реагируют, как на него реагируют правительства, как на него реагируют отдельные люди и как на него реагируют политические идеологии. Когда я прочитал это несколько лет назад, я увидел много параллелей»

👀

3️⃣«The Guns of August» (

😳): «Это, по сути, история Первой мировой войны. Основная идея заключается в том, что кризисы происходят очень быстро, почти никто не знает, что происходит. Просчетов много, потому что в центре всех процессов находятся люди»

===
Вот такие книги рекомендует человек, который каждый день думает, как модели из лаборатории вписать в реальный мир и экономику... Всего доброго

👋

Last news 1 2 3 4 5 6 7 8 9 10 11 12 13