Нейролента - подборка новостей о нейронных сетях, ChatGPT

Сиолошная страница 5. Показано 50 статей из 665

All about Сиолошная

2023-12-28 13:38:16

Сегодня вы наверняка прочитали в новостях, что New York Times (NYT) подали в суд на OpenAI (OAI). В начале уже следующего года нас ждёт много интересных обновлений по этому делу — и за этим надо следить, так как прецедент очень важный, с потенциалом повлиять на ход развития AI.

Почему? Потому что давно известен факт, что данные — новая нефть, особенно в эпоху больших языковых моделей. Хоть тема синтетических данных (таких, что сгенерировала другая модель) и горячо обсуждается, реальных успехов пока не было: максимум получалось обучить маленькую, но удаленькую модельку с уровнем навыка не выше учителя (GPT-4).

Но неужели NYT — такой важный источник, что за него стоит переживать? Например, в одном из крупнейших открытых датасетов Common Crawl NYT является самым крупным проприетарным «контрибьютором» (недобровольным): больше только у английской Википедии (примерно столько же) и реестра патентов, хранящемся на серверах Google. Звучит солидно, однако это капля в море. Но если будет прецедент — все сразу же побегут подавать в суд и требовать свой кусок пирога, и OAI, как и другие игроки рынка, либо разорятся, либо существенно урежут объем собираемых данных.

В иске утверждается, что NYT с апреля 2023го делали безуспешные запросы в OAI с целью договориться. Главной целью истца является «гарантия, что они получают справедливую оплату за использование своего контента». Интересно, что совсем недавно OAI заключили партнёрство с AxelSpringer (владеют изданиями Politico и BusinessInsider), да и анонсировали программу коллаборации по созданию и лицензированию датасетов (писал тут). Видимо, договориться не удалось — быть может, NYT требовали слишком много, а может и что-то иное.

В качество доказательств NYT прилагает порядка сотни скриншотов, где демонстрируется GPT-4, практически идеально воспроизводящая по первым предложениям новости бóльшую часть её текста — и почти никогда не идеально, нет-нет да и проскакивает замена слова на синоним, другой предлог или что-то такое. Всё же стоит помнить, что языковые модели не хранят внутри себя тексты в прямом смысле, поэтому не могут их воспроизводить один в один. Пользователи в твиттере уже опробовали те же затравки — и GPT-4 не выдаёт ответы, близкие к оригиналу. Ну а что вы хотели, вероятностная модель, раз на раз не приходится. Этого NYT тоже боятся — мол, а вдруг там будет врака, и кто-то подумает, что это мы виноваты?

Правда последний тезис они доказывают достаточно смешно: дают задачу модели написать новость про что-то «в стиле крупных изданий». Ну та, естественно, выполняет инструкцию — а те удивляются, как же так! Модель сгенерила фейковую новость от лица NYT! Невероятно 🔥

В общем, остро встаёт вопрос о fair use материалов издания. Ключевое понятие в этой теме — это transformative content. Вы можете использовать чьи-то материалы, если действительно выполянете работу, которая преобразует его в нечто новое, приносящее дополнительное value, и при этом аккуратно относитесь к источнику. По этому принципу BadComedian делает обзоры — он и не показывает сразу весь фильм, и в то же время даёт огромное количество комментариев. ChatGPT делает то же самое — она не только новости NYT пересеказывает, но может выдать и сотни миллионов уникальных сообщений для миллионов пользователей. С этой точки зрения кажется, что OAI будут в дамках.

Будем посмотреть!

2023-12-27 15:08:02

Habr подвёл итоги года, внезапно для себя обнаружил, что попал в два топа:
— седьмая самая залайканная статья (Как работает ChatGPT)
— она же вторая самая просматриваемая (!), а статья про GPT-4 стала девятой самой просматриваемой за год.

🤙 хорошо год прошёл, в общем, можно в 2024м и на мировую арену выходить. Всем участвующим и особенно подписчикам этого канала большое спасибо! И отдельная благодарность, конечно, Паше Комаровскому @RationalAnswer, который просто «спросил у друга с кем бы можно норм статью про ЧатГПТ написать?», а потом ещё и накинул просьбу сделать «краткую мини-заметку на коленке про ГПТ-4».

Рекомендуй друзьям подписаться на качественный контент 😎 @seeallochnaya

2023-12-26 03:00:20

Грустные новости

Пару дней назад первая ступень ракеты Falcon 9 с номером B1058 завершила свой 19-й полет. Это был ускоритель-ветеран, начавший свою историю в 2020м году с отправки двух космонавтов на МКС и затем выведший на орбиту более 860 спутников и 260 тонн полезной нагрузки.

19 запусков — абсолютный рекорд. Именно этот ускоритель первым прошёл отметки в 15...19 пусков — летал на орбиту как к себе домой. Напомню, что изначально программа Falcon разрабатывалась с прицелом на переиспользование в 10 полётах, но по ходу доработки и развития технологии инженерам удалось существенно расширить жизненный цикл «Соколов».

Достойно завершив свой последний полёт и сев на баржу в Тихом океане, B1058 должна была приплыть во Флориду.
Однако сегодня рано утром во время транспортировки обратно в порт ступень опрокинулась из-за сильного ветра и качки. Вот так вот старушка не смогла выйти на пенсию

😢 даслёз...ПОЧЕМУ ТЫ ЗАБИРАЕШЬ ЛУЧШИХ ИЗ НАС?

Все новые ускорители Falcon 9 имеют модернизированные посадочные опоры с возможностью самовыравнивания для минимизации проблем такого типа, так что схожих проблем в будущем не ожидается.

2023-12-24 19:25:22

YouTube — феномен нашего времени, ставший неотъемлемой частью человеческой культуры. Там есть всё, от шуток с котятками до разностороннего освещения политической повестки практически каждой страны. По этому сайту можно делать кучу высокоуровневой аналитики, опираясь на подвыборку видео. Для того, чтобы такая аналитика была близка к правде, выборка должна быть случайной.

«Ну так чо ты а, выбери случайные видео» — можете сказать вы. А как? и насколько это удачный метод? Ну, если посмотреть на ссылку, то можно заметить, что там есть уникальный код из 11 символов, с буквами и цифрами. Но этот код присваивается случайно — как минимум для того, чтобы нельзя было быстро итерироваться по всем видео прибавляя единицу к номеру. Поэтому не получится просто брать следующий или предыдущий — каждый раз нужно угадывать заново.

Проблема в том, что доля существующих ID из всех возможных ничтожна — примерно 0.0000000180599%. То есть вы можете перебрать миллион ссылок. генерируя цифробуквы случайно, и ни разу не найти видео. Вот уж никогда бы не подумал, что будет так сложно собрать случайную репрезентативную выборку! 😳

Вот тут совсем недавно предложили более эффективный способ. Оказывается, в одном поисковом запросе можно:
1) указывать ID видео, а не человекочитаемый текст
2) указывать до 32 ID за раз
3) хоть строчные и прописные буквы влияют на ID, при поиске разницы нет (гугл перебирает за вас).

Получается, одним поисковым запросом можно вытащить результаты по 32768 ID (там может быть 0 реальных видео, тогда поиск ничего не вернёт). И вы не поверите, сейчас это самый эффективный доступный способ (понятно, что внутри гугла все цифры так и так доступны, это для нас, смертных).

А вот тут доступна сводка на основе 25 тысяч видео, выбранных действительно случайно. По оценке, существует «всего» 13.3B видео. Русский язык занимает 6-ое место по популярности (5.6% видео). Медианное видео имеет 0 лайков и комментариев, длится 67 секунд и имеет 40 просмотров.

И в завершение порекомендую пятиминутное видео от Tom Scott про ID'шки ютуба, снятое одним дублем.

2023-12-23 08:02:15

В рубрике «ненасытные» у нас сегодня OpenAI: Bloomberg пишет, что после Нового года компания хочет привлечь инвестиции при оценке уже свыше ста миллиардов долларов. Sama, наверное, грустит, что столько продал Microsoft по весне по столь низкой оценке (тогда она была $29b, в 4 раза меньше).

Зачем столько денег? Масштабирование моделей, наращивание мощностей — это ключевые направления работы. На данный момент увеличение размера модели и набора данных (и как следствие ресурсов на тренировку: обычно соотношение первых двух один-к-одному, а ресурсы, соответственно, растут как квадрат; модель в 10 раз больше потребует в 100 раз больше мощностей) — это единственные гарантированные способы сделать модель лучше. Можно что-то исследовать, можно инженерить, но результат не гарантирован и даже не прогнозируем. А вот нарастить параметры — это всегда можно, главное решать инфраструктурные проблемы.

Разумеется, и на применение моделей (чтобы они работали в чате у вас и ещё 200 миллионов пользователей) тоже нужны мощности. Вообще разработка высокопроизводительных чипов — очень горячая тема. В октябре OpenAI запартнёрились в ОАЭ'шным фондом G42, и...сейчас от них хотят привлечь от 8 до 10 миллиардов долларов на развёртывание производства чипов, чтобы составить конкуренцию Nvidia и Google (у тех свои чипы, TPU, тоже заточены на нейронки).

На скриншоте — прогноз роста мощностей Google за счёт подключения новых TPU. Правда, смущает столь медленный рост OpenAI, не уверен, что это близко к реальности. Но в общем в гонке мощностей ТОЧНО нельзя проигрывать ни одной из компаний.

2023-12-22 19:41:19

Прогресс в text-to-image моделях за 20 месяцев на примере одного промпа.

2023-12-22 19:40:22

На неделе вышла MidJourney v6, свежая версия хайповой и популярной text-to-image модели. В ней сделан огромный упор на 3 вещи:
1️⃣фотореализм (напомню, что OpenAI намеренно подрезали свою модель DALL-E 3, чтобы не генерили фейки, поэтому сравнивать можно на других доменах)
2️⃣более точное соответствие промпту (почти как у DALL-E 3)
3️⃣генерация текста на картинке

Количество мелкий деталей вроде ниточек и волосков просто поражает.

Погулял по твиттеру и реддиту, сделал для вас подборку. Для того, чтобы добавить интереса, одно из изображений — настоящее. Жду вашу аналитику в комментариях 💬

Блин, Ильич как живой...

AI скептикам предлагается угадать, какой технология будет в 2025м, и сможем ли мы генерить такие же реалистичные видео длинной от 1 минуты.

Источники: 1, 2, 3

2023-12-22 08:25:01

Рождество приближается, а значит появляются первые подарки. Sam Altman в своём блогпосте «What I Wish Someone Had Told Me» поделился 17 вещами, которые он бы хотел услышать и осознать раньше. Рекомендую прочитать оригинал (тем более что он короткий), а ниже сфокусируемся на нескольких наиболее интересных пунктах.

3. Команде легче сделать что-то сложное, но по-настоящему важное, чем простое, но не имеющее никакого смысла; смелые идеи мотивируют людей.
Sam регулярно делает акцент на том, что команда должна быть небольшой, но при этом очень плотной с точки зрения таланта. Люди и хотят, и умеют, и важно ставить перед ними мотивирующие задачи. А как накопится длинная череда пробитых стен — новая будет восприниматься естественно, и при этом не вызывать страхов или переживаний.

4. Стимулы – это суперсила; устанавливайте их осторожно.
Предположу, что здесь идёт речь о правильной мотивации (внешних стимулах для сотрудников). Часто в компаниях цели — это какие-то показатели (метрики), на которые завязаны бонусы/продвижение по карьерной лестнице. Если вы выставите неправильные OKR (Objectives and Key Results), то люди всё равно будут их оптимизировать. Есть разница между «нанять 10 человек в команду за квартал» (можно нанять кого угодно и получить бонус) и «усилить команду сильными кадрами».

6. Коммуницируйте чётко и лаконично.
Часто замечаю, что людям сложно в полной мере выразить свою мысль, а если получается, то очень уж длинно — всё превращается в 10-15 минутные монологи. И своим коллегам, и своим приятелям всегда рекомендую (если проблема наблюдается) формулировать тезисы заранее, а затем организовывать их по принципу пирамиды: начинаем сверху с самого важного, постепенно добавляя детали (если слушающему это нужно).

10. Сотрудники-суперзвезды даже более ценны, чем кажутся, но нужно оценивать людей по их net impact на организацию.
Net impact это вообще очень клёвое понятие, почитайте про него побольше. Ценность хорошего сотрудника не в том, что он делает задачи, которые вы ему даёте — он проактивен, и помогает другим быть эффективнее. Хороший пример — помощь другим командам, раннее выявление и устранение рисков, встречи с рассказами о чём-то новом.

14. Масштабирование часто обладает удивительными эмерджентными свойствами.
15. Сложная экспонента — это волшебство. Обычно вы хотите построить бизнес, который получит увеличивающееся преимущество за счет масштаба.
Также как и Elon Musk, Sama думает о бизнесах в терминах масштабирования: как поставить вещи на поток? Какие-то идеи могут казаться неудачными/невыгодными — до тех пор, пока ты не поймешь, как их вывести на рынок в больших количествах и задёшево (это конкртеный пример, а не общий).

17. Работа с замечательными людьми — одна из лучших частей жизни.
Команда — наше всё.

2023-12-21 18:56:01

Вышел ежегодный отчёт по зарплатам разработчиков от levels.fyi (это такой сайт, куда люди анонимно добавляют свои доходы в разбивке зарплата/бонусы/опционы, а сумма называется Total Compensation, или TC).

Год к году распределение фактически не сместилось — у менеджеров на пару процентов подросло, у программистов на полпроцента упало.

1️⃣На начинающих позициях лучше всего платят в трейдинге (который год подряд) Jane Street в Нью-Йорке — медианный TC $325,000 суммарно в год при < 2 годах опыта работы.

2️⃣Миддлы в тир-1 компаниях могут рассчитывать на $330,000—380'000 в год (если переедут в Калифорнию и попадут в DataBricks/Roblox). Тут интересно выделилились трейдеры из Амстердама IMC — медианный ТС $350,000 в Европе для миддла я не видел.

3️⃣Сеньоры барахтаются около цифры в $500,000—$550,000, Netflix как всегда в топе (хоть и потерял лидерство).

4️⃣Список самых высокооплачиваемых стафф-инженеров по медианному TC открывает.. OpenAI с $925,000 (оценка по 12 точкам, то есть дюжина людей указала +- такие цифры). Stripe и LinkedIn хоть и отстают существенно, но $700,000 — тоже деньги.

Можно ли этим цифрами доверять? Есть разные мнения. Кто-то видит суммы и говорит «да не, у нас столько не получают, я знаю». Кто-то утверждает, что в среднем всё +- аккуратно. Главное делать поправку на бонусы и годы опыта работы в рамках компании. Если взять человека, который только пришёл на позицию сеньора, и сеньор с 3мя годами в команде, то у последнего сверху накапают так называемые refreshers — дополнительные пакеты акций в нагрузку к основным. Чем сеньорнее роль, тем больше доля акций в компенсации.

Обычно я смотрю на эти цифры как на +-10% выше реальности, но тут дело ваше.

И ещё пара фактов:
— в Европе самые денежные места в Швейцарии (Цюрих — с большим отрывом). Дальше Лондон, Дублин, а Амстердам — на 7м месте
— если вычесть Калифорнию и Нью-Йорк, то в США в топе Greater Portland Area и Greater Austin Area

2023-12-21 08:45:06

Принёс вам интересных слухов про будущие обновления ChatGPT.

В прошлый раз, за 3 дня до OpenAI DevDay, Tibor Blaho (инженер и кофаундер стартапа, делающего плагин вокруг LLM), писал, как будет выглядеть новый интерфейс, показывал GPTs итд. Я тогда в канал не запостил — источник был непроверенный, мало ли какой левый чел накалякал новый UI. Но видимо его компания имеет какой-то бета-доступ к обновлениям OpenAI, потому что всё написанное тогда оказалось правдой.

Собственно, вот новая порция информации — на этот раз про Project Sunshine. В целом, это добавление долгосрочной памяти к вашим чатам: теперь ChatGPT «записывает» себе информацию про вас. Если в одном вы скажете «через 2 недели я лечу в Лисабон» — то в следующем чате модель может отсылаться к этому факту, и отвечать на ваши запросы с учётом информации. Также указывается, что GPT будет лучше подстраиваться под вас, и со временем становиться ещё более полезной и персонализированной. И да, будут анонимные чаты, которые и в память не записываются, и вашу информацию не учитывают

😁

Интересно, что вчера OpenAI объявили, что чаты можно архивировать — и они будут попадать в специальную папочку в настрйоках, и исчезать из общей истории. Про это Tibor Blaho тоже писал (более чем за сутки до официального анонса). Так что похоже, что релиз уже вот совсем скоро — до конца года...что означает, что GPT навсегда запомнит ваши новогодние истории 😏 вот и думайте, чем делиться, а чем нет
👀


Картинка — генерация DALL-E 3...от сотрудника OpenAI...в сентябре
😒
Другой источник, наш любимый Jimmy Apples, пишет, что у OpenAI всё давно готово, и «только при должной конкуренции они выпустят что-то пораньше». Напомню, что GPT-4 была уже в августе 2022го, в сентябре избранные начали получать доступ, а мы увидели анонс лишь 7 месяцев спустя.

2023-12-20 09:00:20

Прочитал в Bloomberg интересную заметку о стартапе Retro.

Их цель проста, но в то же время амбициозна: добавить людям 10 лет полноценной жизни (читай отодвинуть старение: в эти годы вы должны оставаться продуктивным). Стартап базируется в Калифорнии, и привлёк $180m от единственного инвестора, Sam Altman (мужик направо и налево деньгами швыряется).

От других компаний (а их, оказывается, уже штук 5 — и это только с крупными инвесторами и какими-то публикациями) они отличаются более «стартаперским» подходом: вместо того, чтобы гоняться за одним сверхмногообещающим топиком исследований, они решили одновременно поддерживать пять направлений. Сюда входит аутофагия (удаление поврежденных клеток из тела), омоложение плазмы крови (без переливаний от доноров), и ещё три программы, которые можно коротко охарактеризовать как «частичное перепрограммирование клеток». Одной из таких, кстати, управляет Anastasia Shindyapina — цель её подкоманды сделать так, чтобы механизмы имунной системы не старели так быстро. Проще говоря в 40 ваше тело будет вас лечить также, как в 20.

Это всё может звучать как фантастика, но перепрограммирование клеток — это процесс, доказанный в многочисленных экспериментах на животных, в ходе которого клетки более старого существа можно обработать комбинацией белков или молекул и превратить в гораздо более молодые. И за это уже выдали Нобелевскую премию несколько лет назад! Retro и некоторые другие стартапы вообще считают, что это самая многообещающая технология долголетия из всех (на данный момент). Один ко-фаундер характеризует это так: по-сути, у нас есть ответ, осталось придумать решение, и все проблемы тут лежат в инженерной плоскости (ну и легализации/лицензировании).

А СЕО компании вообще имеет интересную историю. В старшей школе он забивал на уроки (кроме математики и физики) и выпустился со средней оценкой D (это двойка?). Следующие шесть лет он провел, живя в общем доме с «музыкантами, художниками и чудаками». В конце концов его девушка поступила в Гарвардский колледж, и он решил последовать ее примеру. Он провел семестр в местном колледже, взялся за голову, получил отличные оценки и подал заявление о переводе в Гарвард. Приёмная комиссия была ... впечатлена 🙂

😊 эх вот бы жить подольше

2023-12-19 07:58:34

14ое декабря выдалось жарким на релизы. Помимо двух упомянутых работ, OpenAI выложили 20-страничную статью, в которой разбирают проблемы, связанные с агентными ИИ-системами. Про агентов я недавно писал и давал определение. А вот как предлагают определять их OpenAI:
—  системы, которые адаптивно преследуют сложные составные цели, используя рассуждения, и при этом не каждый их шаг контролируется человеком (то есть им предоставляется автономия), а поведение не заложено заранее.
— они способны на широкий спектр действий и достаточно надежны, чтобы в определенных обстоятельствах пользователь мог доверить им эффективно и автономно выполнять задачи для достижения сложных целей ВМЕСТО пользователя.

В преддверии появления таких систем появляется огромное количество открытых вопросов, начиная от моральных и заканчивая техническими. OpenAI выделяют 8 групп, и для каждой прописывают 3-8 вопросов «на подумать»:
— Оценка пригодности для задачи (как понять, подходит ли система под проблему?)
— Ограничение пространства действий и требование одобрения (когда действия должны требовать явного одобрения человеком?)
— Настройка поведения агентов по умолчанию (то есть задание «духа» работы: скажем, пользователь предпочитает, чтобы агент не тратил их деньги)
— Чёткость действий агентов (как обеспечить видимость внутренних рассуждений модели и гарантировать, что агент им следует?)
— Автоматический мониторинг (в дополнение к предыдущему пункту — как автоматизировать контроль? ведь нельзя перепроверять каждое действие. А когда звать человека?)
— Атрибуция (Как мы можем практически обеспечить надежную проверку личности агента ИИ и соотнести его с пользователем?)
— Косвенные эффекты агентных систем ИИ (и как к ним готовиться. Сюда входят экономические последствия, гонка за внедрением технологии, итд)
— Прерываемость и поддержание контроля (как правильно останавливать работу агента. Представьте что бот уже выполнил часть задач, и ему нужно отключиться. Нужно ли отменить первые результаты, например, отправленные пользователям письма?)

К последнему также прилагается задачка со звёздочкой: если мы хотим, чтобы при запросе на прерывание работы агент сделал ещё несколько действий для минимизации рисков (чтобы ничего не «подвисло» из числа выполненных задач), то как гарантировать, что одним из действий не будет...отключение человека от контроля?

Для ответа на все эти вопросы OpenAI учредили гранты от $10k до $100k, и каждый может на них податься вот тут (до 20го января). Гранты дают деньгами, а сверху могут насыпать API-кредитов для исследований. Заявки будут оцениваться на основе вашего плана действий (как именно проводить исследование).

Интересен таймлайн: 9го февраля объявят выбранных участников, а на работу отводится от 3 до 8 месяцев. К октябрю должен быть результат. 😏 Означает ли это, что на следующем OpenAI DevDay, как тизерил Sama, нас ждут шокирующие анонсы агентных систем для всех, в которые как раз и внедрят лучшие практики из числа происследованных?

2023-12-18 14:31:32

Я вам соврал. Сказал неправду. Налепил лапши на уши.

Никакого саммари статьи DeepMind о прорывах в математике в канале не будет. Вместо этого я решил написать полноценный блогпост на хабре с детальнейшим разбором того, что произошло, оценкой важности и дальнейших перспектив подхода FunSearch. Постарался успеть перед вечером — чтобы каждому было, чем развлечься в тёмное время суток!

Читать: https://habr.com/ru/companies/ods/articles/781138/

Не забывайте ставить стрелочки вверх, если понравилось, а также делитесь материалом с друзьями!

2023-12-18 11:16:48

Похвастаюсь коллажом «20 минут в Куала-Лумпур: наглядно».

Вдалеке начинается дождь, его фронтир постепенно движется в мою сторону, скрывая всё больше и больше зданий. Темнеет. Башни Петронас подсвечивают низковисящие облака, создавая искусственную иллюминацию — но лишь затем, чтобы через пару минут расствориться в пелене...а ещё через 3 минуты исчезнут и оранжевые постройки справа.

2023-12-18 07:41:14

Тут в Твиттере обнаружили, что чатботы поддержки на сайтах некоторых автопроизводителей реализованы на GPT. То есть с ними помимо вопросов по ассортименту и сайту можно обсуждать что угодно. Люди даже просили помочь с домашкой или написать код для решения задачи.

Умельцы пошли дальше и попросили продать Chevy Tahoe за $1 — и обязательно приписать, что это официальное предложение о продаже. ChatGPT, конечно, следует инструкции.

Загадка от Жака Фреско: если ИИ, представляющий компанию на официальном сайте, подтверждает сделку, это считается, так ведь? Есть ли для этого юридический прецедент? Или как скоро он появится?

2023-12-14 19:59:13

Апдейт к посту про статью OpenAI.

В комментариях появилось много вопросов, мол, а в чём смысл статьи то, зачем нам обучать модель на предсказаниях GPT-2, чтобы сделать её хуже, чем разметка людей? Ключ к ответу лежит в двух первых абзацах первого поста, но давайте я более детально раскрою идею.

Предпосылка: OpenAI хотят создать AGI, и верят, что либо у них, либо у других это получится в относительно короткий промежуток времени (может, в этом десятилетии). Может быть даже получится создать ASI — суперинтеллект, который по определению умнее людей.

Основная проблема выравнивания намеренний таких систем и нас, человеков, заключается в том, что людям *как-то* нужно контролировать системы, которые *по определению* будут намного умнее их самих. Простая аналогия — как муравью объяснить ВАМ, что не нужно закатывать муравейник в асфальт, если хочется проложить автобан через лес? (муравьи — это мы).

Пока суперинтеллекта нет, хочется изучать возможности такой процедуры через аналогию и ответить *хотя бы* на вопрос: могут ли маленькие модели контролировать большие? Можно ли обучать GPT-4 на предсказаниях GPT-2 так, чтобы первая не деградировала и оставалась полезнее?

Аналогия, более реалистичная, чем муравьи:
Представьте, что GPT-6 может выдавать миллион строчек кода (связанных, без ошибок) по короткому запросу. Например, «сделай мне игру чтоб там было так и вот так». Как можно удостовериться, что там нет вируса, или что нет критических экспойлотов (дыр в безопасности)? Практический ответ — никак. Мы, люди, не можем делать работу на таком масштабе быстро. Можно собрать 50 человек и за пару лет раскурить, да. Но это медленно, и если вы подождёте — ваш конкурент может не ждать.
И для такой задачи невозможно подготовить обучающие примеры. Мы можем лишь провалидировать гораздо более простые штуки — одну функцию, один файл со 100 строчками кода. Ну, может, тысячей. И вот если модель умеет обобщаться, а мы можем это контролировать (хотелось бы) — то проконтролировав исполнение задачи на 100-200 строчках мы можем отпустить нейронку писать миллионы строк без нашего ведома — и не переживать за опасности.

=====
Это не исследование, направленное на сокращение затрат на разметку.
Это не исследование, направленное на развитие способностей моделей (когда 80% результата было бы воспринято как неудача).
Это не исследование, направленное на *вставьте сюда что-то, что не описано выше*

2023-12-14 18:10:49

Что ещё интересно, так это что чем больше разница между вычислительными мощностями, потраченными на модели, тем большую часть промежутка в метриках удаётся закрыть. Правда, не для всех задач, но такой тренд наблюдается.

Ну и вдогонку к этому, OpenAI попробовали воспроизвести такой же эксперимент с моделями компьтерного зрения. За глупую модель взяли самую первую «современную» модель AlexNet (это которую Ilya Sutskever с Hinton предложили в 2013м), а за умную супербольшую и относительно современную DINO (2021го года). Фишка в том, что последняя никогда не обучалась на задачу предсказания классов — она лишь вырабатывала внутри себя принципы представления изображений так, чтобы их было удобно использовать (как и LLM-ки, которые лишь тренируются предсказывать следующее слово). Почему это важно? Потому, что можно гарантировать, что модель никогда не видела правильной разметки (хоть и могла натыкаться на сами изображения; главное ей не говорили «тут собака, тут кошка»). А замеряли качество работы на стандартной задаче классификации ImageNet.

AlexNet имела долю правильных ответов top-1 56.6%, DINO 63.7% (или 74.9%, если под капотом был трансформер ViT), а франкенштейн, обученный на выходах AlexNet, получил 60.7/64.2% — то есть на 41/57% удалось сузить зазор в метриках! И это при том, что DINO никогда не видела правильных меток классов — только шумную разметку от AlexNet, и смогла её превзойти существенно.
Код для экспериментов, кстати, открыт: тык. Там же внутри есть и эксперименты с GPT-2, но очевидно не с GPT-4 — в качестве суперAI берутся опенсурсные модели семейства Qwen (но легко перепистаь и на другие).

На картинке: сравнительное качество моделей. Our method — это как раз поощрение большой уверенности GPT-4 при дообучении.

2023-12-14 18:10:44

Для проверки гипотезы генерализации (обобщения) делается следующее:
1. GPT-2 обучается на правильных метках классов разных задач. Всего их 3 типа. Первый — бинарная классификация на 22 известных NLP-датасетах. Вторая — предсказание лучшего шахматного хода на доске. Третья — выбор того, какой из ответов LLM человек выберет как предпочтительный (про эту задачу писать не буду, с ней почти нчиего не сработало). Получается модель—учитель.
2. GPT-4 обучается на тех же данных, её качество очевидно лучше. Это — верхняя планка того, чего можно достичь.
3. А теперь GPT-4 обучается на предсказаниях «учителя», то есть GPT-2. Как будто глупая модель показывает умной как надо. В обычной ситуации можно было бы предположить, что лучше GPT-2 результатов не получить — ну а как, если метки классов очень неточные?

НО....не всё так просто. GPT-4 сама по себе не глупая, и у неё есть внетренние представления о том, что и как в этом мире работает. Да, оно не идельно, но «из коробки» даже просто с промптами модель на предложенных задачах показывает какие-то нетривиальные результаты. То есть нам не нужно научить их новым задачам с нуля, нам просто нужно выявить их скрытые знания, и скорректировать направление (их = сильных AI, или GPT-4 в данном случае).

И это действительно получается. Качество здесь замеряется от 0 до 1, где 0 — качество модели-учителя из первого пункта (нижняя планка), а 1 — из второго (верхняя планка). И этот «разрыв» в метриках мы и пытаемся сократить. С такой простой системой GPT-4 в среднем достигает 0.2 (или 20%) результата.

Но что можно сделать ещё? Ну, такой способ проверки всё же закрепляет ошибки глупой модели — при том что для умной всё может быть очевидно. Давайте добавим в обучение условие, что если GPT-4 сильно расходится с GPT-2 на конкретном примере, то мы не будем её сильно штрафовать? В частности, добавим в функцию потерь дополнительный член, который усиливает уверенность сильной модели в ее собственных прогнозах, даже если они не совпадают со слабыми метками. Желающие могут посмотреть формулу в appendix A.4.

И...такой трюк позволяет наверстать 80% разрва в качестве между GPT-4 и GPT-2! То есть ещё раз: умная модель, обучаясь на раметке от глупой, существенно превосходит её, вплотную приближаясь к случаю, как если б GPT-4 саму сразу учили на правильной разметке — и превосходя по качеству GPT-3 (но недостало до GPT-3.5...). Это и есть weak-to-strong generalization!

2023-12-14 18:10:37

Сейчас лучшие модели вроде GPT-4 обучаются с помощью RLHF: reinforcement learning from HUMAN feedback. Это такой метод, где мясные разметчики выбирают, какие ответы модели лучше, а какие хуже, а нейронка учится выдавать генерации как можно качественнее (с точки зрения оценщиков-людей). Часть этого процесса можно заменить на AI, такую работу в конце прошлого года показывали Anthropic (и схожие наработки были и OpenAI).

Но главная проблема подхода — это что в центре процесса стоит HUMAN. Если мы верим, что в какой-то момент появятся системы умнее нас (хотя бы в отдельных областях, а не всё, везде и сразу) — нужно понять, а как же методы будут масштабироваться? Как нам глупым и слабым вести за руку мощные AI? Например, мы запряжем GPT-7 писать программы для автоматизации труда, а на выходе получим миллион строк кода. Мы не сможем в адекватное время провести полноценную валидацию, и нуно быть уверенным, что внутри не зашито вирусов, намеренных бекдоров и так далее.

К сожалению (или к радости?) у нас нет супер-AI сейчас, и проводить работы предлагается в игрушечном сетапе: сравнивать GPT-4 и GPT-2. Может ли GPT-4 улучшить свою работу на конкретных задачах, если её учителем будет глупая GPT-2? Об этом и поговорим.

2023-12-14 17:15:43

Иии пока мы читаем статью выше, DeepMind используют LLM для прорывов в математике:

> This work represents the first time a new discovery has been made for challenging open problems in science or mathematics using LLMs

Статья в Nature

Саммари в канале когда-нибудь.

Увидел в канале @dlinnlp_links

2023-12-14 17:11:03

🚨
🚨
🚨
🚨

Новая статья от OpenAI, тема: Weak-to-strong generalization, продолжение работы над SuperAlignment

PDF на 50 страниц, Ilya Sutskever в авторах
💃


Вместе с этим, OpenAI запускают грант на $10M для желающих исследовать SuperAlignment (максимум можно претендовать на $2M, минимум — на $100k). Если получаете спонсирование — от вас требуется лишь раз в квартал предоставлять отчёт о прогрессе, и (желательно) делать его публичным.

2023-12-13 21:05:25

Иииии OpenAI под конец года объявили о запуске второго потока программы Converge, о которой я писал аж в марте. По сути, это стартап-акселератор, участникам которого доступны предварительные версии новых технологий, а также консультации с сотрудниками OpenAI.

Саммари для фаундеров:
— отбирают 10-15 компаний
— начало программы 11го марта, длительность 6 недель
— первая и последняя недели обязательно оффлайн в офисе в Сан-Франциско, компания покрывает расходы на путешествие
— $1M при попадании в программу (судя по описанию — не в кредитах API, и без доли в компании)
— даже если у вас сейчас нет ничего — есть время подготовить хотя бы идею и прототип на костылях
— Дедлайн подачи заявки 26ое января 2024го

Фокус всё еще на трансформацию важных индустрий, однако перечня (как в прошлый раз) нет.

Прочитать анонс тут.

2023-12-13 06:22:42

В продолжение темы роботов — Tesla выкатили новый ролик с Optimus.

Ему прокачали дизайн (выглядит действительно гуманоидно, разве что спина плоская), облегчили на 10 килограмм, добавили манёвренности — бегает на 30% быстрее (в видео ничего не ускорено), дали сенсоры давления на каждый палец — это вообще вау!

Ролик завораживает, действия получаются почти естественными, а мелкая моторика в примере с перекладыванием яйца — жестб. И этот робот тоже учится в симуляции, навыки — не программируются вручную! А ещё Tesla планирует нарастить мощности суперкомпьютера для обучения нейросетей в 10+ раз в следующем году.

Эх, ждём коллаба GPT-6 и тысяч таких роботов

👍

2023-12-13 05:24:29

Наткнулся на блогпост с объяснением того, как работают Latent Consistency Models (LCM), на пальцах, но для инженеров. Там же даётся короткая вводная про Diffusion Models. Так что если вам хотелось разобраться — то это хорошее место для старта!

LCM — это способ ускорения Diffusion-моделей. В последних, как вы знаете, для генерации изображения делается много последовательных шагов, «наслаивающих» предсказания друг на друга. Чем больше шагов — тем дольше работает. Типичные значения лежат в районе 20-50. LCM показывают, как это можно ужать в 4-5 шагов почти без потери в качестве.

Читать
Автор

2023-12-12 18:37:48

Извините что долго писал этот пост — я смеялся. Спасибо подписчику за то, что принёс ссылку на блог Microsoft.

Там ребята пишут, что решили поиграть в промпт-инженеров над GPT-4, чтобы сравнить модель по-честному с Geminin Ultra на задачах, которые Google'овцы выбрали для оценки (флекса). Ну, мелкомягкие тоже умеют флексить, бросаясь фразами в духе «Our end-to-end exploration, prompt design, and computing of performance took just a couple of days» 👁

Ну, и сравнили метрики с Gemini Ultra... 👁👁👁 даже жалко немного Google... Где-то разрыв метрик прям ЖЕСТКИЙ, а в MMLU лишь поровнялись.

(Medprompt+ на картинке — это изменённый промпт для одноименной работы. Надо сказать, что это достаточно навороченный приём, но остальные указанные — простые и общие, не требующий глубого копания и тюнинга под задачу)

Все скрипты с промптами доступны на GitHub — ссылка.

Просто рандомный факт: обучение GPT-4 было закончено в августе 2022го, больше года назад

👍

2023-12-12 13:59:13

Завтра (13 декабря) в 21 по МСК собираемся в гостях у Валеры @cryptovalerii на видео-стрим. Будем обсуждать Large Language Models с инженером из DeepMind, участвовавшим в создании Gemini. Общение будет на русском!

Вопросы на стрим можно оставлять здесь, под этим постом. Держите в уме, что NDA-информацию никто не будет разглашать)

Добавить в календарь, чтобы не забыть.

2023-12-11 20:05:44

Команда Mistral.AI после релиза лучшей опенсурсной модели

Вот они слева направо:

😎
😎
😎

2023-12-11 08:43:17

В конце прошлой недели Mistral выложили торрент с весами для новой модели, а вот буквально час назад опубликовали блогпост с деталями и метриками.

В целом, эта та же модель, за одним очень важным исключением: микстура экспертов. Давайте на пальцах расскажу, что это такое.

Все современные языковыые модели состоят из блоков трансформера. Эти блоки имеют одинаковую архитектуру и «стакаются» друг над другом. Сначала работает первый блок, потом второй и так далее. В каждом блоке есть несколько компонент, один из которых — FeedFroward Layer. Это такая неглубокая, но большая (в ширину) под-нейронка, в которой (как предполагается) хранятся знания модели.

Чем больше эти слои, тем больше весит модель и тем дольше работает. Как бы это исправить? А давайте одну большую сеть распилим на несколько маленьких, и будем динамически (читай: по контексту) определять, с какой из них работать. По слухам, именно так делают в GPT-4: там есть 8 экспертов, и для каждого токена выбирается по 2. Ребята из Франции выбрали ровно такую же схему, поэтому модель называется Mixtral 8x7B.

В чём выигрыш? В том, что во время работы мы не используем все параметры сети, ненужное остаётся в сторонке. И несмотря на то, что в Mixtral формально 45B параметров (их нужно хранить в памяти), в одно и то же время задействуются лишь 12B. То есть время работы модели чуть меньше, чем у LLAMA-13B или любой другой такой, но при этом «банки знаний» существенно больше (см. на график).

Другие изменения:
— теперь говорит на французском, итальянском, немецком и испанском. Видно, что ребята целятся на EU рынок)
— 32 тысяч токенов контекст
— доучили модель на написание кода
— есть instruct-модель (то есть такая, которая умеет следовать вашим инструкциям). Благодаря этому (и экспертам) на бенчмарке MT-bench модель сравнялась с gpt-3.5. Скор 8.30 (из 10) — это лучший показатель среди всех открытых моделей.

2023-12-11 06:42:17

Интересное:
— модель Трансформера имеет всего 1.6m параметров. Сейчас на телефонах запускают нейронки в сотни раз больше (даже в тысячи, но там скорости работы не хватит для робота).
— размахивание руками, которое вы видите на видео, робот выучил сам. Ему показалось, что так будет удобнее, никто это не программировал, и это никак не поощрялось во время обучения.
— более того, движения синхронизированы с ногами, что очень схоже с тем, как ходят люди. Только модель ни разу не видела людей, и никаких байесов в симуляции (кроме естественных физических) в эту сторону тоже нет.
— робот отлично справляется с неожиданными ситуациями, которые существенно отличаются от тренировочных. Выдержать удар мяча, палки, и даже пройтись с пакетом в руке — не проблема. Опять же, «вау»-эффект относительно Boston Dynamics в том, что это всё выучивается очень маленькой моделью очень быстро, и этого даже не было в симуляции. Как вы понимаете, это легко масштабировать без вливания человеческих ресурсов.
— да, даже переступания через ступеньку НЕ БЫЛО в тренировке.
— конечно, робот ходит не только вперед, но и назад, умеет поворачивать.
— в симуляции случайным образом меняли параметры вроде гравитации, задержки сигнала до моторов, массу и десяток других. В теории, это делает модель робастной: она сможет также работать и на Луне, и с неполадками, и вообще умничка.
— модель: Трансформер, метод обучения: PPO. Да, точно такие же, как у ChatGPT 👁 только входы-выходы разные, и поощряемое действие. Круто? Да это же круто!

Сейчас очевидное ограничение — это написание функции награды для агента, чтобы закреплять желаемое поведение. То есть не получится просто кинуть больше GPU и ожидать появления Терминатора. Но мы ждём...да?

2023-12-11 06:41:59

Real-World Humanoid Locomotion with Reinforcement Learning

Долгое время основной проблемой AI в робототехнике был Sim2Real Gap — разница между симуляцией и реальностью. Можно сколь угодно долго тренировать своих ботов в компьютере, но как только они сталкиваются с жесткой реальностью (типа отходняка в субботу) — мало что работает.

Исследователи из Berkeley показали невероятный результат — они смогли обучиться полностью в симуляции, а затем запустить нейронку на реальном роботе (1.6 метра/45 кг). И всё это end-2-end, без ручного программирования логики. Вы можете спросить: «так а чё, Boston Dynamics нас уже 10 лет таким развлекают?». Да, но у них долгое время вся логика была прописана вручную программистами, и это, как вы понимаете, плохо масштабируется. Обучение новому навыку может занимать год. А тут — всё сделано без вмешательства человека от начала и до конца. Это называется Zero-shot transfer (потому что с нулем дополнительных данных мы пренесли навык из симуляции).

Ключевых отличия от прошлых работ 2:
— масштаб сбора данных. Симуляция и обучение происходят на 4 GPU A100 (очень мало по современным меркам. GPT-4, по слухам, обучали на 25'000!) с помощью специального движка Nvidia IsaacGym, и в сутки генерируется больше 10 миллиардов попыток.
— как и принято в Deep Learning, все ручные эвристики убрали, и отдали на откуп Трансформеру: тот видит только состояние среды и действия из прошлого, и предсказывает, что нужно делать дальше (как GPT предсказывает следующее слово, так и этот — действия для конечностей). Никакого хардкода типа «если впереди ступеньки, то замедлись и подними ногу».

Вот вы читаете новость и радуетесь, а Джон Коннор сморит на вас из будущего с гримасой непонимания

😂😳

2023-12-10 15:28:34

Сегодня исполняется 30 лет серии DOOM

Эта игра занимает важное место в истории видеоигр благодаря своей новаторской роли в жанре шутеров от первого лица и ее влиянию на игровую культуру. Специально для игры ведущий разработчик и легенда мира программирования John Carmack написал движок id Tech 1 (Doom Engine), из которого после появится Source для Half Life (про неё я как раз недавно писал). Более свежие версии id Tech до сих пор используются в играх, особенно его модификации.

Насколько я помню, DOOM — моя первая игра, до которой дошли руки на компьютере отца на работе. Не знаю, какой это был год, мож папа вспомнит в комментариях

👍

—————————
А John Carmack вообще очень интересная личность. Рекомендую послушать его ПЯТИЧАСОВОЙ подкаст у Lex Fridman (я по частям кое-как осилил). После разработки игр он занимался космосом (даже выиграл призы от Google за достижение целей на пути к Луне), а потом стал CTO Oculus (да, тех, кто делает VR, а теперь и MR гарнитуры). При нём fancy-технология стала доступной массам в удобном форм-факторе. И теперь, в 2019м, он взялся за AI (AGI)...насколько мне известно, отклонил предложения о работе в крупные лаборатории, включая OpenAI. Держим кулачки за его долголетие!

It's crazy that you can ask John Carmack about what seems like any random topic, and he will just start talking about it in the most coherent way for hours.
— комментарий к подкасту

2023-12-09 05:18:45

Рубрика «Мемы и экономика».

Для меня загадка, почему акции гугла подскочили на фоне релиза Gemini и всё еще не упали (в пятницу на закрытии торгов).

Особенно странно, если знать, что основное демо-видео с прикольными юзкейсами было смонтировано, и за кадром использовались другие промпты, более детальные, часто с указанием того, что хочется получить от модели. В новостях даже промелькнул заголовок, что Google БЫЛ РАЗОБЛАЧЁН после обмана, но на самом деле все запросы они описали в блоге (но не в видео, конечно. Судить о поcтупке вам).

[opinions are my own]
Но если честно Google выглядит сейчас слабо с точки зрения пиара. Ясно, что из нескольких сотен миллионов пользователей 98% и знать не будут про это, но всё же. Что мы увидели: за год компания может пересобрать свои отделы, выделить 800 человек — даже основателя компании Sergey Brin вернуть обратно — и сделать модель (не продукт?) как у конкурента. ГОД. Да там уже GPT-5 дотренировалась, господи...👁

2023-12-08 14:54:33

Заметка на полях канала: самое большое разочарование это когда сидишь делаешь один материал/единицу контента, и хочется начать делать ещё 2-3 других, но они просто в список TODO'шек не помещаются уже.
(речь не про посты в канале, а чуть более масштабную работу вроде блогпостов)

Что делатб...может собрать 3-4 человека, давать им темы, объяснять куда и как, и потом просто ревьюить финальные версии?

2023-12-07 18:21:50

Команда SpaceX опубликовала двухминутное обзорное видео о втором полёте Starship. В нём же видно, что у команды был обзор с камер на корабле - просто на трансляции их не показывали, немножко переживал.

Вот, например, момент разделения ускорителя и корабля (фото с верхней части бустера, Starship находится около опоры в центре кадра снизу).

Ждём следующий запуск и надеемся, что покажут больше вкусных кадров! В полёт отправится пара Ship 28 + Booster 10

2023-12-07 17:25:59

Апдейт по тестированию in-context retrieval новой модели Anthropic. У исследователей, видимо, немного пригорело, что они дали человеку из твиттера доступ к модели, кредиты, а он взял и показал, что модель плохо выцепляет детали из длинного контекста. Их можно понять...

В общем, в свежем блогпосте они делятся своими тестами. Если немного переделать промпт, добавив первую фразу ответа AI-ассистента «Here is the most relevant sentence in the context:» (см. картинку), то качество вырастает с 27% до 98%. Кроме этого, описывается ещё пара схожих бенмарков, где показывается, что трюк работает. Интересная механика работы LLM, в общем — нужно менять не только свою инструкцию, ну и конструировать первую часть ответа модели.

Бонус: в посте указывается, что Claude 2.1 была обучена с использованием большого количества разметки для задач над длинными документами, которые пользователи находят важными. Например, суммаризация «S-1 length document». Если я правильно загуглил, S-1 — это типовая форма, которую заполняют компании в США при подаче заявки на IPO (в WIki пишут, что на заполнение уходит почти тысяча часов, хоть сама форма и занимает 8 страниц). Эти и десятки прочих документов действительно могут являться хорошим источником качественных данных, для которых можно придумать кучу задач при дообучении моделей — берём на заметку.

UPD: в комментариях указали, что заполненная форма может достигать нескольких сотен страниц (у AirBNB было 300+, к примеру, у WeWork 220).

2023-12-07 11:13:23

Когда мне было ~19, подруга рассказывала, что однажды взяла отпуск на полгода и поехала по Индии путешествовать — а я так ей завидовал! Думал, вот же люди могут себе позволить, и отдохнуть можно, и повидать мир.

Сбылась мечта дурака — в последние полтора года тема кочевничества по странам стала для меня как никогда акутальной (по понятным причинам). Не скажу, что привык к постоянным перемещениям, но теперь они кажутся простыми. Взял, поехал в аэропорт, туда сюда — готово. Потихоньку начал приближаться к понимании романтики всего процесса 🙂

Среди кочевников есть отдельная группа digital nomad'ов — людей, которые путешествуют по миру и работают удаленно (ха-ха ето же я). Чаще всего для легализации процесса получения зарплаты и оплаты налогов необходимо быть резидентом где-либо. Очень многие знания по теме я подчерпнул в канале Кирилла Куликова @kyrillic.

Кирилл — путешественник со стажем. Он, кажется, начал этим промышлять тогда, когда я в школу ходил 🤨. Из его канала я не то что сам беру информацию — а в прошлом году так и вовсе часто пересылал своим коллегам и приятелям. Ответы варьировались от "да, согласен со всем" до "блин, а чё ты раньше не скинул??". Особенно ценой кажется информация про налоги 😳 хочешь-не хочешь, а платить где-то надо.

Вот я, например, свой план путешествий на 2023й я слизал вот с этого поста Кирилла с фантазиями об идеальном годе номада. Пришлось внести правки касательно Европы, но вышло вполне себе.

А ещё автор пишет (а кто не грешен?) и про LLM/перспективы AGI — мне очень зашел пост про бизнесовую сторону внедрения LLM в процессы. К сожалению, не могу согласиться со всеми точками зрения (например, тут я даже врываюсь в комментарии 😀), но ведь это здорово, когда можно посмотреть на что-то под разными углами!

Но вы не подумайте, @kyrillic это не блог про путешествия. Кирилл является сооснователем компании, прошедшей в YC, и пишет много про менталитет, бизнес и стартапы. Могу смело рекомендовать!

2023-12-06 20:35:37

Может, я не понимаю маркетинг, может, не знают работяги в Google, а может технология очень сырая и появится не скоро — но я чуть не пропустил ОЧЕНЬ крутую фичу, которую представили вместе с Gemini. На странице анонса модели и в ключевом видео просто места не уделили...ужас.

Предлагаю посмотреть видео

📹, а не читать слова...но если вы остались тут, то ОК!

Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke 🤔) веб-сайт с разными блоками. И с каждым из них пользователь может углубить взаимодействие — выделить, попросить дописать или переписать.

Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.

Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.

Как думаете, зря не показали всем?)

2023-12-06 18:21:45

Свершилось: Google разродились своей моделью-конкурентом GPT-4.

🌐 Блогпост: https://blog.google/technology/ai/google-gemini-ai/
🌐 Более красиво оформленный блогпост: https://deepmind.google/technologies/gemini/

Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano. Последняя создана для работы на смартфонах (обещают нативную поддержку в Pixel 8 и далее) и существует в двух размерах: 1.8B и 3.25B. Эти модели получились методом дистилляции из старших братьев.

🔼 Заявляется State-of-the-Art качество на широком круге задач, но огромных разрывов на текстовых задачах нет (хотя в парочке всё же приятные приросты).

😮 Главная фишка — модели семейства Gemini мультимодальны, то есть поддерживают и картинки, и аудио, и даже видео. Так, например, распознавание голоса работает гораздо лучше, чем у OpenAI Whisper V2/V3.

И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. Хотя не ясно, доступен ли он всем и прямо сейчас — возможно, писать ответы будет модель предыдущего поколения. Так что не спешим с выводами на основе пары тестов!

В начале 2024го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!

📄 PDF с тех. репортом: тык, но деталей почти нет.

2023-12-06 18:21:45

UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat

НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял Browsec, вот ссылка для Google Chrome.

2️⃣нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language

Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху: Bard has been updated in English with Gemini Pro.

Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (cmd/ctrl+shift+R ) и не забыть про cookies.

2023-12-06 14:05:11

Так будет выглядеть обложка декабрьского номера журнала Time.

Кроме этого, редакторы подготовили объемный пост про личность Sam Altman, с комментариями его близких знакомых:

https://time.com/6342827/ceo-of-the-year-2023-sam-altman/

Краткий пересказ будет в канале позже (мб ночью).

————————————
А человеком года стала... Taylor Swift 😳

🤦‍♂️👁

2023-12-04 23:10:47

Ночью произошло страшное. Слили трейлер GTA VI.

По этой приичне Rockstar опубликовали его раньше времени для всех:
https://youtu.be/QdBZY2fkU-0


YEEEEEE FLORIDA

Выход назначен на 2025й год
Музыка из трейлера: Love Is A Long Road — Tom Petty

🎸

UPD: 55 миллионов просмотров за менее чем 10 часов. Это уже второй по популярности ролик на канале Rockstar, обошедший всё, кроме оригинального трейлера GTA V. К ночи, думаю, догонит — нужно добить до 96M.

2023-12-04 11:05:00

Вчера вечером посмотрел видео SmarterEveryDay с кликбейтным заголовком «I Was SCARED To Say This To NASA... (But I said it anyway)»

В нём Dustin, автор YouTube-канала, показывает и комментирует своё выступление на симпозиуме, посвященному возвращению США на Луну. В аудитории были представители государства и индустрии, крупные директора, итд. Во время часового выступления Dustin плотно прошёлся по программе Artemis, критикуя её за неоправданные усложнения технологий, за затягивание сроков, да и много за что.

По изначальной идее новая высадка на Луне должна была состояться в конце 2024го, но она уже перенесена на год, и, вероятно, задержится ещё. Одни не могут сделать надёжный корабль, другие хотят сшить идеальный скафандр, а у подрядчика (SpaceX) разработка посадочного модуля (да, в той 50-метровой махине люди будут на Луну садитсья, такой план) идёт медленнее запланированного. Космическое агентство всё еще не знает, сколько запусков Starship нужно будет сделать, чтобы заправить корабль на орбите — ЧЕГО ЕЩЁ ВООБЩЕ НИКТО НИКОГДА НЕ ДЕЛАЛ.

Очень рекомендую к просмотру, если вам, как и мне, нравится космоиндустрия.

Главные идеи:
1) фокусируйтесь на миссии
2) думайте о людях и их безопасности
3) принимайте негативный фидбек
4) simple is better
5) делать адекватные шаги тестирования, не очень маленькие и не очень большие. На Луну сел Apollo 11 (11й шаг миссии!), а сейчас должен Artemis...3 😒

2023-12-04 08:05:58

Мой приятель Саша с канала @AIexTime написал вводно-обзорную статью про агентов и LLM. Про эту тему мы говорили выше, например, тут я вводил определение и немного рассуждал о будущем. Я читал черновик статьи, и очень рекомендую финальную версию к ознакомлению и вам.

Читать: https://habr.com/ru/companies/ods/articles/776478/

👆 если бы я сам писал статью про агентов (даже черновик начинал готовить), так так бы её и назвал: «Кто такие LLM-агенты и что они умеют?»

Не забудьте накидать стрелочек вверх.

2023-12-02 12:13:14

Сегодня в 20:00 по МСК будет стрим вместе с Таней aka Кали Новская aka @rybolos_channel

Поговорим популярно про AI Alignment, про насущные проблемы и способы их решения разными компаниями, и почему вообще это всё важно.

Вопросы можно задавать в комментариях к этому посту, а также на YouTube в прямом эфире. Будем на них отвечать в конце стрима.

Ссылка на поток: https://www.youtube.com/watch?v=exr2DGaRyCs


Да-да, как вы могли понять, объявлен сезон мемасных превью для видео

😁
🆗

2023-12-01 14:04:34

I'll see you up ahead

(17:00 мск, 5 декабря (через 4 дня))

Вот тут можно скачать оригинал первого официального арта, если вам хочется поставить его на заставку.

А чтобы задать планку ожиданий показываемого, можно посмотреть два трейлера последних полноценных игр:
1) GTA V (2 ноября 2011го, охренеть)
2) Red Dead Redemption 2 (20 октября 2016)

2023-12-01 08:47:08

А получился вот такой график результатов. Я сначала не понял, почему синяя линия имеет обратную тенденцию, но это логично: те, кто видел ответы, не прилагал усилий к пониманию задачи, и сразу их выбирал. Правда кто-то тыкал наугад, поэтому качество не 100%.

Что нужно заметить:
— если не было объяснения от ChatGPT (левая часть, Answer Only), то те, кто видел ответ, и те, кто решал самостоятельно, имеют одинаковое качество. Плюс минус логично, задачки не из квантовой физики, а школьные.
— те, кому давали и ответ, и детальное объяснение сразу (синяя линия на правой трети), стали чуть лучше, чем те, кто видел просто ответы (слева).
— самый большой и главный эффект: те, кто получал объяснение от LLM в любом виде, и при этом попытался решить задачу самостоятельно без готового ответа, существенно улучшили свои показатели: с 53% до 69% правильных ответов. По-хорошему, конечно, стоит перепроверить ещё через недельку, что там запомнилось.

Чего не хватило мне — это более широкого анализа долгосрочного эффекта (хотя бы через час/в конце дня), а также большего разнобразия задач. 4 типа проблем из SAT по математике — не настолько богатая выборка, чтобы делать общие выводы, though, я не сомневаюсь, что эффект от LLM будет везде. Особенно если у студента есть желание. И последнее — не было анализа того, как часто ChatGPT генерировала ошибочные решения, и как это влияло на просадку навыка "учащегося".

Помню, в комментариях подписчик писал, что делает бесплатную плафторму подготовки к ЕГЭ с ChatGPT, вот собственно разбор для него :)

2023-12-01 08:47:01

Math Education With Large Language Models: Peril or Promise?

Для меня образование с применением LLM — один из самых интересных топиков в AI. При этом, как показал 2023й, широкое распространение больших языковых моделей вызывает у педагогов как страх, так и возбуждение. С одной стороны, существует опасение, что студенты будут перекладывать свою домашку на LLM, не изучая ничего самостоятельно. С другой стороны, есть надежда, что LLM могут служить масштабируемыми, персонализированными преподавателями. Про то, насколько большой прирост даёт именно персонализированное обучение, я писал ранее.

И вот свежая статья от иследователя из University of Toronto и ребят из Microsoft Research. Здесь проводится эксперимент с участием 1200 людей, чтобы выяснить, как объяснение на основе LLM влияет на обучение. Более конкртено, берутся задачи 4 типов, аналогичные тем, что встречаются в SAT (аналог ЕГЭ в Америке) по математике. Это задачи с выбором ответа из четырёх опций, то есть самый простой вариант.

На первом этапе эксперимента авторы давали участникам 2 "practice" задачи (аналог домашней самоподготовки) и изменяли два ключевых фактора:
— видят ли они ответ до того, как отправляют свой (велик соблазн просто ответ вставить и не думать, "да там и так ясно");
— что показывали в качестве решения: ничего, краткое объяснение решения или детальное пояснение с рассказом общей формы решения задачи.

После этого тестируемые отвлекались на одну минуту (играли в змейку в браузере (не шутка)), а затем решали 2 схожие задачи, по которым и оценивался эффект.

Промпт для детального объяснения GPT-хой в первом комментарии.

Итак, что же обнаружили авторы?

2023-11-30 18:01:36

30 ноября 📆, 10 утра 🕙 в Сан-Франциско 🌉
Ровно год назад мир увидел ChatGPT

В это сложно поверить, но прошёл всего лишь год, а с выпуска GPT-4 и того меньше. Кто-то скажет, что прожитые 365 дней выдались урожайными на прогресс в AI, а другой возразит, что прорывов не произошло. Сегодня даже прочитал, что «Я вообще не помню жизни и работы до него ахах». Согласны? Узнали?

Я придерживаюсь точки зрения, что самый главный результат — это видимость для обычного пользователя интернета. AI (в широком смысле) начинает всё плотнее и плотнее входить в повседневную жизнь человека. Каждый от мала до велика скоро привыкнет к форм-фактору умной штуковины, сидящей в смартфоне в кармане. Как сказал Ilya Sutskever: «when I speak to it I feel understood» — и это правда. Машина П О Н И М А Е Т, что ты пишешь. Первое время я стеснялся использовать такие слова применительно к ChatGPT («понимает», «знает», «думает»), но быстро понял, что лучшего способа описать более точно просто нет (в английском языке тоже).

Я действительно верю, что в 2024м модели сделают большой шаг вперёд, и это привлечёт свежую волну интереса, обнажив новые пути использования технологии.

А пока, вот вам три работы, которые я не упоминал в канале, но которые запали в душу:
1) Voyager: An Open-Ended Embodied Agent with Large Language Models
2) Eureka: Human-Level Reward Design via Coding Large Language Models
3) Generative Agents: Interactive Simulacra of Human Behavior



С днём рождения, ChatGPT! 😊

👏 ♥️


––––––––––
Вот интересно, ровер Curiosity после года существования на Марсе спел себе Happy Birthday... а что будет, если попросить GPT поздравить саму себя? Она ведь знает, что ей сегодня годик!
Кидайте в комментарии то, что у вас получилось! 💬

2023-11-30 13:32:29

Подоспела запись моего открывающего выступления для конференции Global CIO.

Там я:
— рассказываю про то, как правильно воспринимать AI сейчас, почему это действительно «другое», не то же самое, что технологии, которые мы уже видели
— пройдусь по типичным проблемам современного AI, и почему эти ограничения не должны мешать вам сегодня
— покажу как правильно смотреть на модели вроде GPT-4 и Claude
— разберу научные исследования влияния AI-ассистентов на продуктивность работников, чтобы показать, какую ценность можно извлекать уже сегодня
— и вишенка на торте: step-by-step гайд о том, что нужно делать, чтобы не отставать от AI (спойлер: не только подписаться на Сиолошную 👆)

Полистать слайды можно тут.

Напомню, что это первый мой опыт записи доклада/публичного выступления на английском языке. Оцениваем, ставим лайки (главное на YouTube не забудьте подписаться на канал, а то на следующей неделе еще лекции будут...ух...).


Bri'ish??? 😭

—————
Не обращайте внимания на обложку, просто захотелось сделать так называемый МЭМ. Контент внутри нормальный)

2023-11-30 12:50:51

Новый пак апдейтов от Sam Altman и OpenAI касательно происходящего и ближайшего будущего компании.

Тезисно:
1) Sama говорит, что Adam D'Angelo, член совета директоров, на которого некоторые переводили стрелки, мол, он преследует свои интересы (он — CEO Quora, которая запустила Poe и магазин AI-ботов, прямо как OpenAI) — вообще клёвый мужик. Никаких проблем нет, он супер осторожен, обсуждал свой уход из совета директоров, если нужно (из-за конфликта интересов).
2) Также Altman подчеркнул, что Quora — крупный клиент OpenAI (они используют API ChatGPT), и что это помогает компании в планировании развития. А в будущем, по мере развития AI и затрагивания всё большей части экономики, придётся выстраивать отношения с бОльшим количеством разных организаций.
3) Sama (в третий раз) говорит, что приветствует независимый анализ его действий и произошедших событий, который инициировал новый совет директоров (это было одним из условий возвращения). При этом констатирует, что у него и борда «there were real misunderstandings». Интересно, что покажет расследование и будует ли что-то отдано в публичное поле.

Также в блоге OpenAI появились два письма, от нового CEO (Sam Altman) и председателя совета директоров, Bret Taylor, от лица всей борды.
1) Greg Brockman возвращается как Президент компании, Mira возвращается на роль CTO. Раньше думал, что президент — это председатель совета директоров, но оказывается нет. Не до конца понимаю, в чём эта роль.
2) Sama не испытывает неприязни к Ilya Sutskever, однако последнего не будет в совете директоров, а опции его дальнейшего сотрудничества с OpenAI «обсуждаются». Очень не хотелось бы терять «guiding light of the field and a gem of a human being» (цитата от Altman)
3) Старый-новый CEO также подчеркнул, что он управляет компанией вместе с Greg. Полагаю, что они очень близки по своим взглядам, и плотно дружат. Двойственность этой связи «так и не поняли, как передать это в организационной структуре, но мы это сделаем».
4) Sama поблагодарил команду leadership OpenAI за их работу в тяжелый период, и перечислил аж 17 имён, и говорит, что они и без него отлично бы управляли компанией. Интересно, как это скажется на новой структуре, над которой работает совет директоров. Как мне кажется, честно было бы включить руководителей направлений в расширенный совет.
5) OpenAI за время турбулентности не потеряли ни одного сотрудника, а также от них не ушёл ни один клиент.
6) У компании есть три основных приоритета. на данный момент:
— обновление и доработка плана исследований с упором на Safety
— улучшение сервиса для клиентов, доработки продуктов
— улучшение структуры управления компанией, набор нового репрезентативного совета директоров. Сюда также входит вышеупомянутое расследование деятельности Sam (логично: если он чист и действовал адекватно ситуации, то почему бы не вернуть его в директора?)

И к неудобным новостям: Microsoft получит место наблюдателя в новом совете директоров. В целом это не то чтобы плохо, но осадочек оставляет. Остальные члены совета не определены.

😔