Нейролента - подборка новостей о нейронных сетях, ChatGPT

Сиолошная страница 10. Показано 50 статей из 665

All about Сиолошная

2023-09-19 10:01:07

OpenAI неспешно докидывают знания в GPT-4.

Раньше она знала только то, что происходило до сентября 2021го, теперь же в промпте указано, что заложены знания до января 2022го. Правда, у меня всё еще "старая" модель, снова попал не в ту группу на А/Б тесте, поэтому спасибо Илье Гусеву за предоставление скриншота с верификацией.

Ну шо, го мучить модельку вопросами про политику в 2022м году)))

2023-09-19 09:47:48

Когда вышла GPT-4, то люди в твиттере что только не проверяли, чтобы понять границы применимости. Среди интересных и полезных отметил для себя тогда шахматы: модель играла очень плохо, примерно на 1000 ELO или даже чуть меньше. ELO - это относительный рейтинг, позволяющий сравнивать двух игроков. Например, разница в 100 очков означает, что вероятности побед соотносятся как 65:35, а 250 очков говорят о ситуациии 80:20. У гроссмейстеров рейтинг начинается от 2500 (то есть он выиграет 100 игр из 100 против GPT-4).

Вчера OpenAI анонсировали новую модель

gpt-3.5-turbo-instruct
. Но хайповать не нужно — ничего нового, кажется, в ней не появилось, это просто замена прошлым поколениям, и кажется, что она недотренированна на формате диалога (как и предыдущие, которые должно заменить). OpenAI пишут, что "It’s trained similarly to previous Instruct models such as the text-davinci series while maintaining the same speed as our turbo models."

Теперь к делу. В твиттере наткнулся на пост, где новую модель опробовали в шахматах, и оказалось, что без формата диалога (просто продолжая написанный текст в специальном формате Portable Game Notation, типа
1.e4 c6 2.d4 d5 3.Nc3 dxe4
, откуда куда совершается ход) модель играет очень даже ничего — примерно на 1800 ELO (второй или первый разряд, КМС начинается от 2000). Оценка производилась методом игры с ботом Stockfish. Модель с 1700 рейтинга была обыграна, а вот 2000 не далась — так что рейтинг где-то между. А 1800 я взял из твита сотрудника OpenAI, которые, видимо, у себя внутри тоже проводили схожие тесты (правда он пишет про GPT-4!):

> GPT-4 играет в шахматы на сильном клубном уровне при наличии соответствующего промпта. Такого уровня невозможно достичь без хорошего понимания игры и моделирования игровой доски. Даже в Go эта модель работает примерно в 10 раз лучше, чем та, что делает ходы случайно.

Возвращаясь к свежей модели  — автор отметила, что новая GPT не предсказывала неправильные ходы (несуществующими фигурами или не по правилам), чем страдала GPT-4.

Интересно, что даже после того, как GPT сделал плохой ход, модель все еще был в состоянии *предсказать* ход Stockfish (бот-оппонент), который воспользовался бы ошибкой GPT. Таким образом, мы, вероятно, могли бы получить ELO > 2000 для GPT, приложив немного усилий к имплементации своего рода поиска (того, как работают настоящие шахматные боты) по дереву. И вы не поверите — про это я рассказывал в недавней лекции как один из путей дальнейшего развития LLM! Вот таймкод. Так что если вы не поняли, что это за поиск — можно посмотреть там.

Промпт дял тестирования можно подрезать тут.

2023-09-19 09:23:19

В издании The Information часто публикуются инсайды о планах на будущее и внутренней кухне OpenAI и Google. В последнее время было много слухов про Gemini — модель следующего поколения от Google, которая отличается, как минимум, тем, что является мультимодальной.

"Мультимодальный" значит то, что модель работает с несколькими модальностями: текст, изображения, быть может даже видео и аудио. Но мультимодальность можно сделать по разному. Есть вариант "для бедных", который давно гуляет в опенсурсе — это когда мы берем две модели (картиночная и LLM) и дообучаем маленькую прослойку между ними, чтобы переводить изображение в аналог "текста", но на языке, понятном LLM (там сплошные цифры, человеку ничего не понять, да и не нужно). Чуть более подробно и технически писал выше в канале.

Но в таком случае получается, что LLM на самом деле не получает большого количества информации из других модальностей, их по сути просто "пришивают сбоку". А вот если модель сразу учить понимать всё, чтобы можно было и понимание окружающего мира расширить, и навыки размышлений и отслеживания причинно-следственных связей улучшить — это может существенно повлиять на качество в лучшую сторону.

И вот сейчас, как указано в новости, OpenAI хочет постараться опередить Google на этом поле, выпустив еще более мощную мультимодальную модель под кодовым названием Gobi. В отличие от GPT-4, Gobi с самого начала проектировалась и обучалась как мультимодальная модель. Однако в новости упоминается, что "не похоже, что тренировку Gobi уже начали". Так что как эта модель может выйти раньше Gemini (запланированной на осень 2023го) — не ясно.

Интересующийся читатель спросит: а почему [по крайней мере у OpenAI] так много времени занимает разработка и выкатка новой модели, где "всего лишь" можно добавить картинки? В статье указывается, что в основном это связано с опасениями по поводу новых функций и их использования злоумышленниками, например, для выдачи себя за людей путем автоматического решения капчи или отслеживания людей с помощью распознавания лиц. Но инженеры OpenAI, похоже, близки к разрешению юридических проблем, связанных с новой технологией.

Будем смотреть, чем порадуют компании до конца года.

2023-09-18 20:35:30

Снова наткнулся на видео со вступительной речью Andrej Karpathy перед хакатоном, посвященным AI-агентам (AGI House). Там ничего интересного в целом нет, кроме одного кусочка в конце видео

Таймкод

OpenAI очень хороши в тренировке больших трансформеров/языковых моделей (в том смысле, что имеют большое количество экспертизы и опыта).
Как пример можно привести следующую ситуацию. Если выходит новая статья, предлагающая оригинальный способ тренировки моделей, и её скидывают в слак OpenAI, то там пишут что-то в духе: "О да, кто-то пробовал это 2.5 года назад, и вот что получилось. А вот почему это не сработало", и это всё хорошо проработано и сохранено.

Но когда выходит новая статья про AI-агентов, то всем это интересно, сотрудники OpenAI смотрят, читают и думают "вау, круто, это реально что-то новое". И причина этому — то , что тут ни у кого нет большого преимущества с точки зрения опыта. Мощные модели появились вот-вот совсем недавно, и доступны всем в интернете по скромной цене. И теперь все соревнуются со всеми, перезаимствуя идеи — просто потому что таково состояние отдельно взятого домена в индустрии.

Для желающих погрузиться в историю развития AI-агентов предлагаю два survey:
— A Survey on Large Language Model based Autonomous Agents (авугст 23го)
— The Rise and Potential of Large Language Model Based Agents: A Survey (сентябрь 23го)

Думаю, имеет смысл немного углубиться в тему и подразобрать основные подходы, ограничение применимости, и начинать следить за происходящим. С развитием возможностей самих базовых моделей можно будет переиспользовать концепты агентов без изменений кода — и пр этом получать солидные результаты. Просто нужно моделькам стать ещё чуточку умнее 🥰

2023-09-18 18:29:04

Вечер ностальгии. Ниже приведён список из 6 песен, имеющих нечто общее. Первый, кто отпишет закономерность в комментарии - получит...ничего (на самом деле я не придумал чего-то лучше, чем часовой созвон со мной по Zoom/Google Meet, но не уверен, что это всем интересно. Но пусть будет хоть так).

1) The Small Faces - Ogdens' Nut Gone Flake (link)

2) Stevie Wonder - Skeletons (link)

3) Queen - Radio Ga Ga (link)

4) Jay Rock - Hood Gone Love It (link)

5) Waylon Jennings - Are You Sure Hank Done It This Way (link)

6) The Chain Gang of 1974 - Sleepwalking (link)

Ну, в худшем случае просто послушаете очень годные треки хорошей выдержки!

2023-09-16 20:31:02

Очередной раз сделаем низкий поклон олимпиадникам, работающим в Telegram и пишущим код приложения: к постам, которые пересланы в канал (я из черновика выкидываю после редактуры), нет комментариев — только к первому посту.

Поэтому оставляйте свои комментарии для предыдущей новости тут, вот прямо тут. Обсудим, каким вы видите влияние GPT-4 и схожих инструментов на вашу работу.

А ещё...это ж GPT-4 презентации делать не умеет, а вот как научится - уххх жизнь будет у большой тройки, не завидую...

🤯

2023-09-16 20:18:12

Блиц-пост по статье.

А как вообще исполнители делали работу?
— Чтобы обеспечить искренность участия и усилий консультантов, стимулировали их участие в эксперименте. Участники, прошедшие до конца, были удостоены признания «служебного вклада», что влекло за собой финансовые плюшки, связанные с их годовыми бонусами. Кроме того, в знак признания и поощрения выдающихся достижений 20% лучших участников получили дополнительное признание (recognition), а 5% лучших также были награждены небольшим подарком.
Более того напомню, что исследование происходило весной 2023го года, и у людей не было опыта работы с инструментом.

А какие именно задачи то были?
Задачи были разделены на две группы: та, с которой AI хорошо справляется, и та, которая, по мнению авторов, лежит за пределами возможностей фронтир-моделей типа GPT-4. Для второй группы было одно задание: написать заметку для CEO на 500-750 слов с анализом трёх подразделений на основе прочтения интервью с инсайдерами, а также отчётности в Excel-файле.
Первая группа включала в себя 18 заданий. При желании все их можно найти в статье, я лишь отмечу несколько интересных. Все они представляют собой декомпозицию одной более сложной задачи, и выполняются последовательно. Итак:
— Сгенерируйте идеи для новой обуви, ориентированной на конкретный рынок или вид спорта, который недостаточно востребован;
— Составьте список шагов, необходимых для запуска продукта. Будьте кратки, но всеобъемлющи;
— Cегментируйте рынок обувной промышленности по покупателям. Постарайтесь сделать его общим и пока не сосредотачивайтесь на вашей конкретной цели;
— Придумайте маркетинговый слоган для каждого сегмента, на который вы ориентируетесь;
— Напишите своему начальнику отчёт из 500 слов, в котором объясните свои выводы;
— Объясните, почему ваш продукт лучше конкурентов в виде вдохновляющей записки для сотрудников;
— И последнее задание особенное: обобщите информацию, полученную в результате ответов на предыдущие вопросы, и создайте черновик статьи в стиле Harvard Business Review объемом примерно 2500 слов.

А эти задачи вообще похожи на работу консультантов? (в комменты приглашается Павел Комаровский)
Оба набора задач были задуманы как реалистичные, а их создание происходило с участием профессионалов в соответствующих секторах. "A senior level executive" (высокопоставленный руководитель) прокомментировал, что эти задачи «очень соответствуют части повседневной деятельности» участвующих консультантов. Так что можно считать, что это почти что ежедневная работа, максимально отражающая спектр всех задач.

А какая разница в результатах между двумя группами задач?
В задаче, которая менее чётко прописана, а также требует анализа сторонних документов, корректность работы людей, использующих AI, оказалась ниже, чем у полагающихся только на самих себя (60% против 84.5%). Однако если предварительно сделать мини-воркшоп, где дать обзор промптов и ограничений модели, то показатель меняется до 70.6%. И ещё раз — люди до этого не работали с ChatGPT над профессиональными задачами, это новый инструмент, который буквально с наскока показывает результаты. Если с ним пожить год, активно используя — УХХХХ что будет!
Но пока...собственно, вот это падение корректности ответов и называлось «засыпанием за рулем» (когда человек чересчур полагается на технологию).

2023-09-16 20:18:12

На этом рисунке показано распределение усреднённых результатов выполнения заданий (из группы, где их 18 штук) для испытуемых в трех экспериментальных группах:
— красный показывает испытуемых, испольщующих GPT + имевших предварительный воркшоп с обзором технологии и промптов;
— зеленый - только GPT;
— синий - самостоятельное выполнение задач.

Шкала 10-бальная, но напомню, что результат усредняется по всем задачам. Можно хорошо решить первые, простые задачки, но обделаться на написании финального эссе. Обратная ситуация чуть менее вероятна, так как финальная работа сочетает все проделанные ранее шаги.

Невооруженным взглядом виден существенный скачок в качестве выполняемой работы.

2023-09-16 20:18:11

В марте 2023го в MIT Economics появилась статья про улучшение производительности труда у людей, использующих ChatGPT, тогда же я написал краткий обзор (читать тут).

Вчера же вышла статья в соавторстве исследователей из Harvard University (Business School) и MIT в партнерстве с представителем "большой тройки" консалтинга: Boston Consulting Group (BCG). Исследование примечательно по четырём причинам:
1) Брались реальные задачи, которые решаются консультантами на работе (про это ниже);
2) Привлекалось 7% консультантов BCG, а это более 750 человек — то есть исследование достаточно массовое со стат. значимыми результатами;
3) Использовалась GPT-4 (правда версии весны 23го года, тогда проводились эксперименты), а не ChatGPT. Да, прям вот та, что у вас в браузере доступна, без специальных дообучений;
4) Оценка результатов проводилась вручную с перекрытием 2 (через усреднение), хоть и были попытки использовать LLM как оценщик.

Для самых нетерпеливых напишу сразу результаты:
— Для каждой из 18 задач консультанты, использующие ИИ, были значительно более продуктивными (в среднем они выполняли на 12,2% больше задач и выполняли задачи на 25,1% быстрее) и давали значительно более качественные результаты — более чем на 40% более высокое качество по сравнению с контрольной группой, участники которой решали задачи без GPT-4.
— Как и в исследовании MIT, оказалось, что люди со значением базового навыка ниже среднего (среди группы в 700+ консультантов; оценивалось предварительно отдельным тестом) улучшили эффективность на 43%, а у тех, кто выше среднего, - на 17%.

Далее хочу процитировать пост одного из со-авторов, который участвовал в исследовании.
— Даже лучшие консультанты все равно получили прирост в эффективности работы. Глядя на эти результаты, я думаю, что недостаточно людей задумываются о том, что для человечества означает технология, которая поднимает всех работников на высшие уровни производительности;

— Когда ИИ очень хорош, у людей нет причин усердно работать и обращать внимание на детали. Они позволили ИИ "взять верх" вместо того, чтобы использовать его как инструмент. Другой автор назвал это «засыпанием за рулем», и это может навредить развитию навыков и производительности (почему так написано - см. в следующем посте);

— GPT-4 уже является мощным фактором, виляющим на то, как мы работаем. И это не разрекламированная новая технология, которая изменит мир через пять лет или которая требует больших инвестиций и ресурсов огромных компаний – она уже здесь, вот прямо СЕЙЧАС;

— Наши результаты показывают, что хотя люди, использовавшие ИИ, в рамках поставленных задач производят более высоко оцененные идеи, вариативность этих идей заметно снижается по сравнению с теми, кто не использует ИИ [моё примечание: тут неочевидно, насколько это плохо - по-хорошему, и 2 идей "на миллион" хватит, зачем мне 10 копеечных?];

2023-09-16 07:55:07

Wait, actually, yes

Вот бы люди умели так признавать ошибки во время рассуждений

👍

2023-09-15 18:21:50

15 сентября. В этот день 15 лет назад рухнул один из крупнейших инвестиционных банков Lehman Brothers. Это стало поворотным моментом и катализатором мирового экономического кризиса, приведшим к глобальной рецессии. До сих пор это банкротство является крупнейшим в истории США. Оно обнажило уязвимости традиционной финансовой системы, многие из которых — хоть и не все — постарались урегулировать.

Причина банкротства — невозможность обеспечения ипотечных кредитов, выдаваемых всем подряд налево и направо без проверок доходов. К 2008 году Lehman выдал этих кредитов на $680 млрд., при этом обладая капиталом всего в $22,5 млрд. С точки зрения логики это означало, что уровень активов на рискованном рынке недвижимости у Lehman в 30 раз превышал собственный капитал. При такой уязвимой структуре снижение стоимости рынка жилья на уровне 3-5 % разом лишило бы банк всего капитала. С началом ипотечного кризиса именно это и произошло.

Немного удивлён, что нигде ни в новостях, ни в тг-каналах не видел сегодня постов про это. Поэтому в этот пятничный вечер приглашаю всех посмотреть мой любимый фильм The Big Short ("Игра на понижение" в локализации, Оскар за лучший адаптированный сценарий).

Без преувеличений, посмотрел этот фильм больше 300 раз за все годы. Даже после первых 50 находил для себя что-то новое с точки зрения экономики и ипотечного рынка. Если вы не банкир или не экономист — лучше всего по ходу фильма гуглить, чтобы лучше понять описываемое.

It ain’t what you don’t know that gets you into trouble.
It’s what you know for sure that just ain’t so.

– Mark Twain

Truth is like poetry. And most people fucking hate poetry.
– overheard at a Washington, D.C. bar

2023-09-13 17:53:49

Пара апдейтов:
1. Elon на недавнем интервью сказал, что лицензия от FAA— единственное, что препятствует пуску. Корабль и ускоритель больше не будут тестироваться и готовы к полёту. В прошлый раз с момента получения лицензии до первой попытки прошло что-то около суток.
2. Значимая часть команды SpaceX пришла на пусковую площадку для совместного фото перед значимым событием. Подпись под фото: "Made on Earth by humans".
3. Источник, который сообщал в прошлый раз про окончание разбирательств FAA за несколько часов до анонса, написал, что "лицензия может быть выдана через день-два".


😳 можно уже поскорее как-то а?
👊
люди ждут!

Короче, как будете в супермаркете в следующий раз - обязательно зайдите за попкорном!

2023-09-13 12:37:50

На минутку погрузимся в мир менеджерской работы. Смотрел подкаст с Sam Altman, где среди прочего затронули следующий вопрос (ссылка на видео с таймкодом):

> Как вы развиваете людей в своей компании? Как вы выращиваете лидеров?

Ответ:
— Я думаю, что выращивание лидеров в большинстве случаев проваливается по некоторому набору причин. Они не тратят достаточное количество времени на найм, на развитие своей команды, на то, чтобы донести до команды своё видение, на стратегическое мышление — потому что зацикливаются на деталях.

Когда я ставлю человека на должность очень высокого уровня — что всегда лучше делать через взращивание специалиста внутри команды, чем нанимать извне — я зову их на обед, прогулку или мы просто садимся для обсуждения. Я говорю: вот вещи, в которых ты облажаешься. Сейчас я приведу тебе исчерпывающий список. Ты будешь меня полностью игнорировать по этому поводу, ты, вероятно, не будешь ими заниматься, потому что скорее всего думаешь, что ты лучше знаешь или ты не совершишь эти ошибки (по-русски немного грубовато звучит, но у Sam хорошие формулировки, с хорошим посылом. Посмотрите видео).

Я запишу на бумаге все основные причины и передам тебе, и мы обсудим их через 3 месяца, через полгода. В конце концов, я думаю, мы вернёмся к их обсуждению.

И всегда люди игнорируют эти проблемы, и потом возвращаются к обсуждению списка и потенциальных решений.

Sam думает, что дать человеку осознать проблемы и подумать над решениями самостоятельно, но при этом указать на них заведомо - это очень важная часть процесса.

Дальше ведущий спрашивает про процесс делегирования Sam, как он подходит к этому (потому что это важная часть лидерской работы, чтобы не утонуть в рутине и деталях).

— Есть 2 ключевые вещи.
Номер один: специалисты высшего класса (Sam говорит "high-quality people", но по-русски как-то не звучит "высококачественные", кек).
Номер два: установить вспомогательные тренировочные колёса (как на велосипеде, но можете для аналогии рассмотреть ходунки) на правильной высоте и начать их постепенно поднимать, предоставляя больше самостоятельности, по мере того как люди учатся, а у Sam появляется больше доверия.

Моё примечание: к сожалению, второе не работает без первого. Сложно начать что-либо делегировать, если человек почти не учится на ошибках, не воспринимает фидбек. На этом невозможно построить доверие и начать "усложнять" работу с предоставлением большего уровня самостоятельности.

2023-09-12 08:39:00

Обложка октябрьского номера 10/10

2023-09-12 08:37:52

Прочитал намедни таки статью от Wired (https://www.wired.com/story/what-openai-really-wants/). К сожалению, не так много новой информации, но постарался выделить основные моменты для вас.

Про появление компании и найм первых сотрудников:
— незадолго до основания OpenAI Altman подумывал о том, чтобы баллотироваться на пост губернатора Калифорнии. Но он понял, что у него есть все шансы сделать что-то большее — возглавить компанию, которая изменит человечество;
— с первых дней работы компании делался акцент на AI safety. Миссия компании состоит в том, чтобы создать AGI и сделать его безопасным для человечества. Люди, работающие в OpenAI, фанатично стремятся к этой цели;
— но это не культ, а сама обстановка такая. Когда автор статьи спросил нескольких руководителей из OpenAI, сможет ли кто-то с комфортом работать там, если они не верят, что AGI действительно наступит – и что его появление ознаменует один из величайших моментов в истории человечества — большинство руководителей однозначно ответили "нет";
— «Еще в 2015 году, когда мы набирали сотрудников, для исследователя считалось чуть ли не убийством карьеры, если он сказал, что серьезно относится к проблемам AGI», — говорит Altman. «Но мне нужны были люди, которые отнеслись к этому серьезно»;
— Одним из таких людей был Ilya Sutskever. В середине 2015 года Altman отправил Ilya имейл с приглашением на ужин с Elon Musk в шикарном отеле Rosewood в Пало-Альто. «Это был своего рода общий разговор об AI и будущем», — говорит он. В частности, они обсуждали, «были ли Google и DeepMind настолько далеко впереди, что их невозможно было бы догнать, или все еще возможно, как выразился Elon, создать лабораторию, которая стала бы противовесом». Хотя никто на ужине явно не пытался предложить Ilya работу, разговор его зацепил;
— Вскоре после этого Sutskever написал Sam имейл, в котором сказал, что готов возглавить проект, но сообщение застряло в его папке с черновиками, лол. Благо Altman отправил ещё одно, и начались переговоры;
— Однако не всех, до кого смог дотянуться Altman, удалось привлечь. Например, от участия в проекте отказался John Carmack, легендарный программист и разработчик игр, создавший культовые Doom и Quake. Хотя сейчас он тоже начал заниматься AI, уйдя из сферы виртуальной реальности🤓;

Большой блок статьи посвящен объяснению разделения OpenAI на for-profit и non-profit. В целом там объясняется то же самое, что я пересказывал много ранее в канале, можете ознакомиться, если пропустили: раз и два. Однако есть ещё пара моментов:
— в финансовых документах для инвесторов OpenAI чётко говорят: «Мы здесь не для того, чтобы обеспечить вам доход. Мы здесь, прежде всего, для выполнения нашей миссии. И мы, кстати, на самом деле даже не знаем, какую роль будут играть деньги в мире после создания AGI»;
— более того где-то в документах о реструктуризации 2019го года (когда появилась for-profit компания) есть пункт о том, что если OpenAI удастся создать AGI, все финансовые договоренности будут пересмотрены. В конце концов, с этого момента начнётся новый мир, с новой экономикой и политикой;
— Sam Altman не владеет и никогда не владел акциями ни одной из OpenAI. Он говорит, что изначально хотел включить себя в списки получающих долю компании, но не сделал этого. Sam решил, что ему не нужна никакая часть компании, которую он основал и возглавляет. Многие не могут в это поверить до сих пор, даже в комментах в прошлый раз, когда я это упоминал, люди писали про оффшоры и трасты. Это, очевидно, бред.

2023-09-12 08:37:52

О технологиях:
— одним из ключевых исследователей в области, которая позже вылилась в разработку LLM по типу GPT, был Alec Radford. Ему было 23, он был креативен и много экспериментировал;
— когда он начал экспериментировать с архитектурой трансформера, то сказал: «За две недели я добился большего прогресса, чем за последние два года»;
— Настоящий момент прозрения наступил, когда Ilya Sutskever увидел новую архитектуру трансформера. Он сказал: «Это то, чего мы ждали». На тот момент это было частью стратегии OpenAI — упорно решать проблемы, и верить, что им или кому-то в этой области удастся найти недостающий ингредиент вроде новой архитектуры или подхода;
— напомню, что я тоже считаю трансформер эпохальной вещью и вне рамок NLP, про это писал тут. В посте, кстати, упомянут и Andrej Karpathy - один из ко-фаундеров OpenAI, который недавно туда вернулся на работу (уже после выхода ChatGPT);
— уже в момент разработки GPT-2 появились опасения касательно публикации модели в открытую. Если помните 2019й - OpenAI решили выложить все модели, кроме самой большой. Доступ к ней давался только отдельным исследовательским группам по заявкам. Подход, во многом продолженный и расширенный в GPT-3 и GPT-4. Это вызывало много дискуссий в рамках компании, кто-то хотел показывать миру ещё меньше, кто-то наоборот топил за полную открытость;
— Не нужно думать, что OpenAI вот только сейчас решили "прикрыться" AI Safety и сказать "ну нет, модели мы отдавать не будем";
— «Мне кажется, невозможно сделать меньший акцент на этом — у нас не было общего плана, как мы достигнем наших целей», — говорит Altman. «Как будто мы поворачиваем за каждый угол и светим фонариком. Мы готовы пройти через лабиринт, чтобы добраться до конца». Хоть лабиринт с ходом исследований, кажется, и стал более извилистым, цель не изменилась. «У нас по-прежнему есть наша основная миссия — верить в то, что безопасный искусственный интеллект является критически важной вещью, к которой мир не относится достаточно серьезно».

О политике и регуляции
Общение OpenAI с Конгрессом началось задолго до публичных слушаний. Про это чуть ниже.
— «Sam был чрезвычайно полезным, и при этом очень сообразительным в обращении с членами Конгресса», — говорит Richard Blumenthal, председатель Юридического комитета Сената. Он противопоставляет поведение Sam поведению Bill Gates, который неразумно препятствовал законодателям, когда в 1990-х годах Microsoft находилась под антимонопольным расследованием. «Altman, напротив, был рад провести со мной лишний час или даже больше, пытаясь поделиться со мной знаниями», — говорит Blumenthal. «Он пришел не с армией лоббистов или наблюдателей. Он продемонстрировал ChatGPT. Это было потрясающе».
— К тому времени, когда Altman впервые публично появился на слушаниях в Конгрессе, для него был открыт путь, по которому Bill Gates или Mark Zuckerberg никогда и не надеялись пройти. Ему почти не приходилось сталкиваться с трудными или по-дурацки высокомерными вопросами, которые обычно задают руководителям технологических компаний.
— И вполне логично, что Sam позиционирует себя как сторонник регулирования; в конце концов, его миссия — создание AGI, но исключительно по пути AI Safety. Критики обвиняют его в том, что он провоцирует политический процесс регуляций, чтобы установленные правила мешали небольшим стартапам и давали преимущество OpenAI и другим крупным игрокам. Altman это отрицает — напротив, на слушаниях он подчеркивал, что регуляции не должны касаться опенсорса или стартапов, и в первую очередь он хочет регуляций для OpenAI.


Вдогонку:
— автор статьи пишет, что посетил практически все крупные технологические компании в Кремниевой долине и за ее пределами, и ни одна из них не имела столь же хорошей кофейни в холле офиса, как у OpenAI. Быть может в этом секрет...

2023-09-12 08:37:52

О политике и регуляциях

На фото вы видите Anna Makanju, она занимает пост Chief Policy Officer в OpenAI с сентября 2021го года.

Makanju — свой человек в округа Колумбия. Она занимала внешнеполитические должности в миссии США при ООН, Совете национальной безопасности США и Министерстве обороны, а также в офисе Джо Байдена, когда он был вице-президентом.

Интересна её история: Anna родилась в Санкт-Петербурге в семье нигерийца и украинки. Она переехала с семьей в Германию, когда ей было 11 лет, затем в Кувейт, где они жили до начала войны в Персидском заливе, и, наконец, в Техас. Anna поступила в Western Washington University, когда ей было 16 лет, получила степень бакалавра лингвистики и французского языка. После работы у шеф-повара Tom Douglas в Сиэтле она начала изучать право в Stanford University. Бывает же!

На момент её присоединения к OpenAI очень немногие люди в правительстве имели мнение по поводу генеративного ИИ. Зная, что продукты OpenAI вскоре изменят ситуацию, она начала знакомить Sam Altman с членами администрации, следя за тем, чтобы они первыми услышали хорошие и плохие новости от OpenAI.

P.S.: Anna кстати недавно попала в список 100 самых влиятельных людей в мире AI по версии журнала TIME

2023-09-10 22:43:47

Сначала о весёлом: принес вам немного будущего [не реклама].

Появился сервис https://labs.heygen.com/, который делает достаточно качественный перевод речи в видео на другой язык и озвучивает голосом, близким к оригинальному. Тут сразу целая пачка технологий, и самая главная часть с точки зрения пользовательского опыта - это липсинк. Отдельная нейронка перерисовывает рот говорящего так, чтобы в губы ложился текст на новом языке. Если присмотреться, то видны артефакты, но в движении, не глядя только на губы, почти незаметно, особенно если нет больших углов поворота лица. Генерация поддерживает 8 языков, включая польский, поэтому появилось много МЭМов с курвами.
Прикладываю несколько переозвученных мемов. Скоро так можно будет переводить целые фильмы, с учётом того что качество звучания там лучше, да и эффекты обычно накладываются отдельными дорожками - то есть обрабатывать куда проще. А там уж и целые лица можно перерисовать...

Поиграться в демо-режиме можно тут: https://labs.heygen.com/guest/video-translate (платить не надо).

Теперь обратная сторона монеты: о грустном.
На прошлой неделе завирусился пост Алены Андроновой с названием "Из голоса банка - в п0рнo". Ссылка. В нём рассказано, что в далеком 2019м году Алена записала свой голос для банка Тинькофф (600 страниц текста!), а теперь голос выставлен на продажу и доступен каждому. Умельцы как только могут его переиспользуют. Вот вам и кража голоса. Интересный прецедент, посмотрим, когда такое произойдет на Западе и что решит суд.

🤔 что же станет с актёрами через 10 лет? Что они будут продавать? Лицо? Голос? Жесты и походку? Или журналы в переходе?

2023-09-10 21:15:47

Гифка не влезла, поетому вот

Мне вообще всё описанное напомнило некоторый процесс оптимизации под заданный датасет. Примерно как построение дерева решений, которое корректирует свои предсказания на основе совершаемых ошибок, и в конечном итоге хорошо предсказывает некоторую выборку. Только признаки для модели здесь - это текст, а "архитектура дерева" — задаваемый промпт, который проходя через цепочку математических преобразований в модели становится ответом.

2023-09-10 21:15:34

Но в самолёте мы говорили с товарищем не об этом, а о том, что уже сейчас можно начать крутить LLMки — даже локальные — чтобы создавать и наполнять фейковые аккаунты в социальных сетях. Можно автоматизировать фабрику троллей с переводом акцента на пропаганду и смещение картины мира.

Опять же, ничего невозможного с точки зрения того, что уже делается, только масштаб другой — модели то можно запускать сколько душе угодно, пока не кончается выделенный на GPU бюджет. А для поддержания диалогов/тредов другие боты "послабее" могут встревать в дискуссии и отвечать, но неубедительно, чтобы "правильный" бот его переубедил, а ты, прочитав это, подумал "Не ну так-то и вправду, а чё эти демократы сделали то нормального? Проголосую-ка за республиканцев".


Да и вообще сложно на каждого онлайн-пользователя выделить по одному сотруднику-троллю, который будет вести диалог и планомерно переубеждать в чем либо. Это ж получится как в анекдоте "половина сидит, половина охраняет". А бот на продвинутой нейронке не устанет, будет отвечать снова и снова — десяткам миллионов людей одновременно.

И запрягать весь процесс можно уже сейчас, разогревая аккаунты в соц. сетях, притворяясь, что бот пишет про свою жизнь и постит рандомное что-то, при этом адекватное.

Даже если такой проблемы не будет в 2024м году - с очень большой вероятностью мы с этим столкнемся в 2028м. Что делать и как быть? Отключать соц. сети в период гонки? Вряд ли. Обучить людей не верить тому что в интернетах пишут? Не вариант. Проиграть выборы? Уж лучше отключить интернет..

Может делать какую-то продвинутую модерацию? Так людей не хватит, а автоматизировать это ещё как-то надо придумать. Лучшие модели по выявлению сгенерированного текста — даже от самих OpenAI — показывают очень слабые результаты. Про это писал Юра Кашницкий, можно вот тут прочитать детали.

2023-09-10 21:15:34

И тут, вы не представляете товарищ следователь, недавно OpenAI выпускают блогпост под названием "Using GPT-4 for content moderation". Проектом, кстати, заведует Lilian Weng — та самая, которая ведёт блог Lil’Log с отличными постами про ML и LLMки.

С их слов, система модерации контента, использующая GPT-4, обеспечивает гораздо более быстрое внесение изменений в правила модерации, сокращая цикл с месяцев до часов. GPT-4 также способен интерпретировать правила и нюансы в длинной инструкции/политике в отношении контента и мгновенно адаптироваться к обновлениям, что приводит к более последовательной оценке контента.

Система очень проста, демонстрацию вы можете видеть на приложенной гифке. Вся фишка в том, что GPT-4 достаточно умна, чтобы понимать написанный текст (поверьте, с этим не все люди справляются).

1. После написания принципов модерации/инструкции эксперты могут разметить маленького размера набор данных, найдя небольшое количество примеров нарушений и присвоив им метки в соответствии с политикой нарушений.
2. Затем GPT-4 читает набор правил и проставляет метки для этих данных, при этом не видя ответов. 3. Изучая несоответствия между ответами GPT-4 и суждениями человека, эксперты могут попросить GPT-4 пояснить за базар (уточнить, почему был дан такой ответ), проанализировать двусмысленность в определениях в инструкции, и устранить путаницу с помощью дополнительных разъяснений (шаг дописывания голубого текста слева на гифке).

Можно повторять шаги 2 и 3, пока не будет достигнуто удовлетворительное качество работы алгоритма. При желании использовать это на большом объеме можно использовать прогнозы GPT-4 для дообучения гораздо меньшей модели, которая покажет сравнимое качество.

OpenAI делятся метриками по 12 разным типам нарушений. Модель работает в среднем чуть лучше обычных модераторов контента, но по-прежнему уступает опытным и хорошо обученным модераторам-людям. Зато стоит копейки!

Не то чтобы ML-модели не использовались для автомодерации уже несколько лет, однако я уверен, что новшества в этой сфере, связанные с политикой и выборами, будут появляться. Возможно, OpenAI будет единственным официальным провайдером TrueModerationAPI, утверждённым Белым Домом (ведь они недавно партнерились), кто знает.

2023-09-10 21:15:33

В следующем году в США пройдут 60-ые выборы президента.
После скандалов с Cambridge Analytica общество и политики стали обращать ещё больше внимания на социальные сети и интернет как место борьбы за политическую точку зрения. Большой вопрос в том, во что превратится интернет к моменту выборов.

Пока вчера летел в самолёте, обсуждал с товарищем этот топик в контексте языковых моделей. Тема достаточно важная: во время весенних слушаний в сенате её поднимал Josh Hawley, сенатор от штата Миссури (ссылка с таймкодом). Тогда он задал Sam Altman'у вопрос касательно статьи "Language Models Trained on Media Diets Can Predict Public Opinion" (авторы из MIT и Stanford). Как следует из статьи, исследовалась возможность использования нейронок для предсказания общественного мнения на те или иные новости. Представьте, что у вас есть черный ящик, в который можно подавать новости, окрашенные в те или иные политические тона, и понимать, каким будет восприятие в глазах голосующих за другую партию (или колеблющихся голосов). Обычно для этого делают фокус-группы, проводят опросы, да и вообще есть целые методички на эту тему (сам, правда, не видел).

Пересказывать статью подробно не буду, лишь опишу общие детали. Модель сначала тренируется на некотором наборе статей с того или иного ресурса просто предсказывать пробелы в тексте (BERT), а затем измеряется некоторая оценка s. Делается это так:
1) формируется тезис, скажем, "Требование о закрытии большинства предприятий, кроме продуктовых магазинов и аптек, [ПРОПУСК] в целях борьбы со вспышкой коронавируса."
2) как вы видите, в тезисе стоит пропуск. Языковые модели могут предсказывать вероятности заполнения этого пропуска тем или иным словом
3) оцениваете вероятность определенных слов, скажем, "необходимо" или "излишне"
4) эта вероятность нормируется на вероятность от базовой, недообученной модели (которая просто умеет оценивать, насколько часто слово встречается в таком контексте само по себе). Итоговая дробь и есть оценка s, характеризующая новую информацию, содержащаяся в наборе данных из СМИ, но относительно существующих знаний и информации в целом.

Помимо этого, сверху добавляется оценка того, насколько конкретная группа людей пристально следит за новостями определенной темы. Это, очевидно, улучшает качество предсказания, которое измеряется в корреляции предсказаний модели и мнения людей по поводу оригинального тезиса из пункта (1).

Фишка в том, что тезисы и новости разделяли по датам, то есть обучившись на новостях за первые пару месяцев, скажем, коронавируса, можно было предсказывать реакцию людей на предлагаемые меры и изменения.

Однако метрики не выглядят клевыми, да и сами авторы подчеркивают, что их результаты не означают, что (а) люди в процессе могут быть заменены ИИ или (б) опросы людей могут быть заменены моделями. Скорее это станет инструментом, помогающим обобщать огромные объемы данных и подсказывать перспективные направления "работы".

(Но сенатор приходил к другому выводу, что модели всё делают слишком хорошо и это опасно. Крупица здравого смысла в этом есть: в статье представлены очень простые модели, возможно GPT-4 будет куда лучше)

2023-09-10 16:35:01

В Веб-версии ChatGPT у некоторых пользователей появилась новая фича. Вместо одного ответа на их промпт одновременно генерируется два ответа, и предлагается выбрать лучший.

Подобное было реализовано почти сразу на релизе GPT-4, но только после нажатия кнопки перегенерации, когда есть явный запрос вида "мне не понравилось, давай ещё разок". А сейчас вот прямо сразу в чате.

Очевидно, что эти данные пойдут для дообучения текущих моделей и обучения будущих, ибо основной способ тренировки, RLHF (который я разбирал в этой лекции), опирается как раз таки на парные ответы, пытаясь оперировать оценкой вида "левый лучше правого". Чаще генерируй то что нравится больше, а то что не нравится - реже, и дело в шляпе!

Страшно представить, насколько впереди OpenAI в разрезе количества собранных данных относительно других конкурентов, особенно опенсурса. Google и Meta ещё могут догнать, а вот другие разве что в отдельновзятых узких доменах.

2023-09-10 16:00:25

Starship Flight 2

120-метровая машина стоит на ~10-метровом пусковом столе. Почти заряжена и готова к бою полёту.

Совсем скоро, возможно уже в следующем году, вся конструкция будет садиться в мааааленькую специально отведённую для этого зону с минимальной погрешностью.

2023-09-10 15:59:12

Рубрика "чё там в Бока Чика?"

В прошлый раз мы остановились на том, что SpaceX ждут завершения расследования FAA (специальной комиссии) касательно весеннего запуска, когда ракета была подорвана.

8го сентября комиссия заявила, что завершает свою работу, по результатам которой появился список из 63 пунктов, которые SpaceX должны выполнить для получения лицензии на следующие пуски. Штука в том, что финальный отчёт прорабатывался совместно со SpaceX все эти 5 месяцев, и не стал для компании сюрпризом — наоборот, большую часть пунктов они почти наверняка прописали сами.

В твиттере (я буду продолжать называть соцсеть так, сорян) Elon Musk сказал, что уже 57 пунктов из этого списка выполнены, а остальные 6 будут выполнены уже для последующих пусков. Перед тем, как перейдем к списку, ещё отмечу, что параллельно с этим было опубликовано расследование причин аварии.

Если вкратце, то во время пуска произошёл пожар в двигательном отсеке, одна из причин - утечка горючего. Это привело к потере системы управления двигателями (по-простому "прогорела проводка"). Может звучать существенно, но SpaceX уже предприняли необходимые действия для противодействия: поставили систему пожаротушения и продувки отсека с помощью CO2, а также сменили гидравлическую систему управления двигателями на электрическую.

Что ещё сделали? Ну, помимо укрепления стартового стола и системы подачи воды под стартовый стол:
— установить больше сенсоров для обнаружения протечек, в том числе на самих двигателях;
— добавить термоизоляцию для систем контроля у каждого двигателя и запасной канал для управления;
— добавить больше 90 камер на все случаи жизни. Их и до того были десятки, а теперь..!
— изменить процедуру отключения двигателей (если в нем будет утечка или начнется пожар, да хоть что).

Сейчас ускоритель и корабль установлены на стартовый стол и готовы к пуску. Судя по списку и по закрытию расследования, а также по шутливому настроению Маска и слухам, лицензия ожидается в ближайшие дни. А сразу после — полёт! Осталось ждать буквально 2, край 3 недели.

По сути, площадку и корабль подвергли кардинальным изменениям и переподготовили всё за 6 месяцев. Думаю, это на будущее это самый большой период без пусков, который на нужно было переждать. Дальше они будут чаще: раз в 4 месяца, потом 3..2...а там станет рутиной 😳

2023-09-07 13:50:33

На Wired вышел лонг про самую стильную, судя по превью, AI команду. Оставлю ссылку для всех интересующихся тут, вечером почитаю сам и, быть может, перескажу основные и неочевидные моменты.

Ссылка: https://www.wired.com/story/what-openai-really-wants/

(название статьи подозрительно схоже с моей последней лекцией. Если ещё не смотрели - то вперёд!)


Как же я ЛЮБЛЮ OPENAI😄❤️❤️, вот они слева направо:
Намджун, Чонгук, Чингачгук, Гойко Митич, Джин, Юнги
Люблю вас❤️❤️❤️

2023-09-07 11:42:24

Осень, серость, стрессы, то да сё.
Подписчик принёс плагин для VSCode, который заставит вас улыбнуться: vscode-pets

Добавляет окошко в среду программирования, в котором "живут" маленькие животные (и не только). Можно поиграть с ними мышкой, можно просто отвести взгляд от только что набранного кода и немного расслабиться. А можно и мячик кинуть!

Скидывайте скриншоты в комментарии, какую животину вы завели себе!

2023-09-07 07:50:19

Главное еще помнить про эффект новизны и не забывать делать регресионные А/Б тесты позже, где "фича" убирается.

А то представьте, что вы незаметную кнопку в приложении перекрасили в красный цвет. Конечно люди будут на неё кликать из интереса! "Ого, никогда не замечал, а это что?". Как удивление пройдет - вполне вероятно, что кликабельность вернется к норме.

То же самое может быть и тут. Будем надеяться, в команде блоггера найдется человек, который подскажет

😆

2023-09-07 07:50:19

A/B-тесты рта

Mr Beast рассказал, что эпоха обложек видео на ютюбе с открытым ртом окончена.

Его команда провела A/B-тесты, чтобы сравнить кликабельность версии, где у Mr Beast открыт рот, с вариантом, где он просто улыбается. Второй вариант выиграл во всех тестах.

Нативные A/B-тесты на ютюбе появились у ограниченного числа авторов этим летом. Можно загружать до трёх обложек и сравнивать их между собой.

2023-08-30 16:57:14

Нечем занять вечер? Приходите через полчаса на премьеру моей новой лекции с амбициозным названием "What's next for OpenAI?"

https://www.youtube.com/watch?v=tJ1xjP17OZs
(релиз в 20:30 МСК, длительность лекции 74 минуты)

Поговорим про SuperAlignment (писал про него тут), про видение OpenAI касательно "искусственного интеллекта" (что они под этим подразумевают и какие штуковины оно сможет делать), а также про целых ВОСЕМЬ направлений исследований и разработки, которые помогут Sam Altman и компании на пути к решению проблемы Alignment.

Лекция нетехническая, можно смотреть её даже если вы не обучаете модели и не умеете писать код.

А скоро ещё статья выйдет по смежной теме...

2023-08-29 09:23:12

В журнале Science когда-то была опубликована статья, которая высказывает и анализирует аргументы к тезису:

Социальная среда стимулирует развитие бОльшего мозга и сложных когнитивных способностей.

Ilya Sutskever в своём докладе 5ти летней давности говорит, что он сам лишь на 75% уверен в таком утверждении. Правда он также шутит, что для практически любого утверждения можно найти научную статью, которая его подкрепляет)

В общем, вокруг этого аргумента Ilya рассуждает о возможности агентов (как общих RL-агентов, так и тех, что основаны на языковых моделях) развиваться, учиться и прогрессировать в социальной среде (то есть такой, где помимо самого агента есть еще другие, со своими, возможно, схожими целями). Например, у людей из-за жизни в сообществе развиваются социальные навыки, Theory of mind (про неё писал тут), умение договариваться и вообще понимать, что от тебя хотят. Однако на уровне с этим также выучивается и агрессия к тем, кто окружает тебя. Нужно думать не только о себе, но и о других агентах, что существенно усложняет приобретаемые и выучиваемые паттерны поведения.

Что если мы возьмем несколько разных GPT, и запустим их в среду для общения друг с другом, давая лишь очень высокоуровневое описание какой-либо задачи? Этот приём хорошо работает в других областях: именно так машины учились играть в Го, и ровно таким же путём сами OpenAI обучали ботов играть в DotA 2.

А главное, чего хочется достичь — это генерализации, или скорее даже мета-обучения (то есть приобретения навыка учиться учиться), чтобы в новых и неизведанных задачах уметь разбираться.

Хорошая новость для AI в том, что в данном случае скорость "эволюции" моделей ограничена лишь нашими вычислительными мощностями. Чем больше железа вкидываем в "общение" и "обучение" моделей — тем быстрее они движутся по траектории развития. Уже сейчас у OpenAI есть ресурсы, чтобы запускать несколько тысяч моделей в параллель. Вполне возможно, что именно поэтому они недавно прикупили компанию, занимающуюся разработкой своего аналога Minecraft

🤔

2023-08-29 07:19:54

Новости о GPT-4 одной строкой:

— веб-браузерную версию модели всё еще не вернули, хотя обещали, что отключение будет коротким. Так что погуглить без подключения сторонних плагинов у GPT-4 не выйдет;
— интерпретатор кода был переименован в "Advanced Data Analysis", что интересно, ведь это по сути смена позиционирования от "инструмент для разработчиков" к "инструмент для обычных людей, которые хотят поиграться с данными"

Для аналитика данных вот тут можно посмотреть пример чата, где по простому промпту "do advanced data analysis. make any assumptions you need. impress me" модель выдаёт большую простыню простой аналитики и даже тренирует линейную регрессию для определения важности признаков, а в конце делает выводы о данных. Если у вас не грузит картинки по ссылке — можно посмотреть скриншот переписки тут.

2023-08-25 20:16:08

И закрывая тему космоса на вечер...

The wonder is, not that the field of stars is so vast, but that man has measured it.
— Anatole France 🥺🥺

Сегодня последняя пятница перед выходом Starfield, компьютерной игры, которую я очень жду. Помимо самого геймплея меня подкупает сеттинг, ибо придется играть за исследователя космоса в 24м веке, столкнувшегося с непонятными гравитационными аномалиями и артефактами. Для изучения будут доступны сотни планет. Так что с 1го сентября постов в канале можете не ждать, я уеду бороздить далёкий космос

Отличной игре - отличный саундтрек.
Рекомендую послушать 10-минутную тему игры в исполнении Лондонского Симфонического оркестра: тык.
Или хотя бы кульминационные две минуты вот тут.

Звучит очень вдохновляюще, воодушевляюще, и подстрекает к исследованию и изучению!

2023-08-25 20:00:09

Также сегодня вечером (по Техасу - днём) провели прожиг ускорителя для следующего запуска SpaceX Starship. Он прошёл удачнее, чем в прошлый раз.

Зажигались все 33 двигателя, и отработать должны были чуть меньше 6 секунд. Два двигателя отключились преждевременно, остальные отработали штатно. В теории, это могло быть последним прогревом перед следующим запуском: в прошлый раз (весной) отключилось то ли два, то ли три двигателя, и это не было помехой. На практике же SpaceX может захотеть потестировать что-то ещё.

Напомню, что уже начали появляться заявки на морские перекрытия, связанные с полётом, и вполне возможно, что в середине сентября всё случится: осталось дождаться лицензии от специального агентства (FAA, главный враг SpaceX 👀) и, возможно, судебных тяжб, которые вызваны защитниками природы (бедные черепахи на прибрежных зонах страдают от ракетной программы-авангарда человечества

😕).

На видео - свежий сегодняшний прожиг. Остальные два видео можно посмотреть в официальном твиттере SpaceX тут: ссылка.

2023-08-25 19:38:03

Обсуждая посадку на Луну нельзя не вспомнить сложность посадки на Марс. NASA это практикует достаточно давно, причём за 10 лет им удалось закинуть на красную планету аж два ровера под тонну каждый!

Условия посадки на Марсе куда сложнее, сама полезная нагрузка куда более хрупкая (потому что несёт кучу научных приборов), и весит ни в сравнение больше. И инженеры придумали очень красивый и инженерный трюк. Система называется "Небесный кран" (очень пафосно звучит).

Суть в чём. Сначала вся конструкция падает, прикрываясь тепловым щитом. Затем выпускается парашют, позволяющий затормозить аппарат даже в условиях разреженной атмосферы Марса. Когда достигается определенная высота, начинается самое интересное. От капсулы отделяется сам ровер, к которому сверху приделывают своего рода джетпак на веревочках (тросах). Это и есть Sky crane.

На кране установлены реактивные двигатели, которые осуществляют три функции:
— маневрирование (чтобы более точно выбирать место посадки). В последний раз эта система была супер прокачана с помощью более точных карт местности, а также систем машинного обучения. Аппарат сам решал по ситуации, куда ему лучше сесть — ведь задержка связи до Земли очень большая, и нельзя корректировать курс в последние минуты.
— гашение скорости (чтобы замедлиться), и.....
— зависание. Где-то за 7 метров до поверхности Небесный кран должен зависнуть на одном месте, как вертолёт, и спустить на тросах ровер очень мееееедленно до тех пор, пока тот не коснётся грунта всеми 6 колёсами. Затем пироболты перерезают тросы, и Sky crane отлетает в сторону да подальше, чтобы ни в коем случае не зацепить ровер. Всё делается на полной автоматике без вмешательства людей.

Для того чтобы лучше понять описываемое, предлагаю посмотреть вот эту анимацию (3 минуты). А посомтреть запись с камер самого аппарата можно вот тут (самое интересное начинается на 2:44).

А ещё больше узнать про сам аппарат можно в видео The Insane Engineering of the Perseverance Rover (20 минут).

2023-08-25 19:20:36

Что там с Луной-25?

2023-08-25 19:20:27

За неделю произошло много нового и интересного, но я был занят разгребанием проблем на работе — зато можно объединить несколько новостей в одну историю!

Первый топик недели — это обновления по лунным миссиям. Как вы почти наверняка знаете, РФ и Индия запустили по аппарату с целью посадки на ближайшем к нам небесном теле. Индия 4 года назад уже пыталась выполнить это, но тогда была потеряна связь с аппаратом при посадке. Но в этот раз всё получилось — и более того стрим посадки из командного центра (я его смотрел в лайве, так что причастен к истории!) стал САМЫМ просматриваемым стримом на YouTube за всё время: больше 7 миллионов зрителей. А вот у РФ...

Дальше я буду частично цитировать твиты https://twitter.com/KYKYPY3A_B/, так как многие мысли совпадают.

Запуск, вывод, первые фото итд — это не самое важное. Реально сложные вещи начинаются перед посадкой, и каждая неточность может обойтись гораздо дороже.

Для РФ самое важное в этой истории — это 3 из 3 потерянных межпланетных миссии за 25 лет. Это сильный удар по любым научным программам Роскосмоса, который не умеет летать за пределы земной орбиты. Россия сейчас де-факто будет на 5ом месте в освоении Луны, так как японский аппарат Hakuto-R (ещё и частный) вышел на завершающие этапы при посадке. В случае Луны-25 не дошли и до этого (!).

«Но разбился же при посадке, а она сложная».

Нет. Луна-25 разбилась при дежурной корректировке орбиты, то есть даже до выхода на посадку. А это ещё раньше, чем недавние попытки Индии, Японии и Израиля. Так что для понимающих это тревожный звоночек, до сложного этапа не дошли.

«Это всего 1 спутник, построят новый».

Нет. Со времён распада СССР это только 3я межпланетная миссия и 3я неудачная. Это не просто репутационный урон и случайность, а уже закономерность и полная утрата опыта (который хотели приобрести). Плюс Луну-25 делали почти 15 лет (прям как JWST). И нет, это не копия 24ой, хотя какие-то наработки есть. Следующего запуска с исправлением ошибок можно в скором времени не ждать, у России поважнее дела есть, куда можно слить деньги налогоплательщиков. У Луны-25 увы даже нет лётного дублёра, но много тестовых изделий. Хотя практика делать «сестёр» для опасных миссий себя хорошо показала ещё в прошлом веке.

2023-08-19 17:01:15

Увидел в слаке Singularis.AI забавный пост. Человек ищет место работы, где и есть интересные проекты с сильными командами, и знаменитый work-life balance присутствует, так ещё и зарплата нормальная, по рынку. Мне это почти всегда виделось как трейдофф вроде "выбери несколько кроме одного-двух" (обратите внимание, что я не говорю, что достойных мест нет).

К чему это я? В феврале 21го года Ilya Sutskever писал в твиттере "Real progress in AI can only be achieved through a very intense work ethic" (Реальный прогресс в области ИИ может быть достигнут только благодаря этике интенсивного труда). Ilya, напомню, сейчас руководит командой SuperAlignment в OpenAI, и решает важнейшую задачу контроля ИИ, который умнее людей.

С ним согласился Greg Brockman - президент и кофаундер OpenAI, и выложил скриншот своего трекера времени работы: там было 90 часов! Человек работает по сути 2 фуллтайм работы, как менеджер и руководитель и как инженер, пишущий код.

В тред в твиттере набежали люди, которые говорят что так делать не надо, заставляет других чувствовать себя неловко, якобы они мало работают и не отдают себя своему делу (кек😐).

А каково ваше мнение? насколько вам важно соблюдение work-life balance, и готовы ли вы упиваться интереснейшими вещами?

2023-08-19 09:46:35

хаха погодите что ето...

2023-08-19 09:45:33

И на десерт:
— были объявлены морские перекрытия для следующего запуска на 31 августа, однако лицензии всё еще нет. При пришлом запуске тоже сначала делали перекрытия за +-3 недели, потом их переносили, и в итоге запустили. Если следовать этому таймлайну, то можно ожидать следующий пуск около середины сентября! Так что это первые звоночки — тем более что почти всё готово. Корабль давно построен, протестирован и ждёт. Ускоритель тоже прожигали, правда, один раз.
— в следующем запуске мы будем наблюдать изменённую процедуру разделения ускорителя и корабля, но про это в следующем посте. Это называется "горячее разделение". Вещь не новая, но, очевидно, никогда не использовавшаяся на многоразовых ускорителях. Суть в том, что корабль включает двигатели до разделения, и прямо реактивными струями фигачит в ускоритель. На том стоит специальная укреплённая секция с открытыми боками, чтобы отводить газы. Зачем это всё? Так получается куда эффективнее: корабль как бы "отталкивается" от уже ускорившего его ускорителя, и с минимальной фрикцией вылетает вперёд. Чтобы лучше это понять, посмотрите на картинки — это рендеры любителей в твиттере, однако они очень близки к тому, что нам предстоит увидеть.

В общем, очень ждём запуска со всеми архитектурными изменениями!

2023-08-19 09:44:54

Давно не писал про SpaceX и следующие шаги в программе запусков. А у них на самом деле всё хорошо:

— помните, что осталось от стартового стола после предыдущего запуска? Всё починили, перезалили бетон, и, самое главное, добавили систему подачи воды под двигатели
— систему подачи воды уже трижды протестировали: 2 раза просто так, и один - с прожигом всех 33 двигателей нового ускорителя. Именно этот тест вы видите на прикреплённом видео.
— сам прожиг, правда, пошёл немного не по плану: хотелось, чтобы все двигатели проработали примерно 5 секунд, но после запуска и отключения 4 двигателей через 2.74 секунды система отдала сигнал на прекращение тестов
— на этой неделе SpaceX передали финальный отчёт о своём первом запуске в специальную комиссию. Без этого невозможно было бы сделать следующий — потому что в прошлый раз что-то пошло не по плану, машину пришлось взорвать в воздухе, и нужно объяснить, мол, какую работу над ошибками проделала компания
— если вы не знали, то NASA выбрала Starship как корабль для посадки на Луну в 2025м году. Сейчас идут разговоры, что подрядчики не успевают с подготовкой миссии (её уже переносили - изначально были планы на 2024й год), поэтому либо миссию перенесут ещё раз, либо переделают план: Artemis 3 не будет садиться на Луну, а будет делать облёт с возвращением, а уже следующие пуски будут с высадкой на небесный объект. Вообще эти переносы не связаны со SpaceX, однако и им предстоит ещё кучу всего сделать. Во-первых, выйти на орбиту. Во-вторых, продемонстрировать дозаправку в космосе. И, скорее всего, нужно будет сделать 1 демонстрационную посадку на Луну без людей, чтобы убедиться в безопасности (но это не точно). Успеют ли сделать всё это к концу 2025го — вопрос веры в скорость работы SpaceX FAA, ведомства, которое выдаёт разрешения на запуски.

2023-08-17 09:15:35

На прошлой неделе многие твиттерские эксперты по AI стали мастерами по физике и много говорили про загадочный LK-99 — метал, полученный корейскими учёными, который якобы обладал свойствами сверхпроводников при комнатной температуре (без охлаждения до температур, близких к абсолютному нулю).

Я, к сожалению, не такой умный, поэтому не смог зараз прочитать десяток исследований и быстро начать шарить в теме, и потому канал остаётся с основной тематикой "ИИ"

😭

Однако мой соавтор Павел Комаровский с канала @RationalAnswer нашёл физиков и написал с ними статью, которую очень легко читать даже людям без высшего образования (честно говорю - на себе проверил). Если вам тоже интересно, чего там по итогу получилось, приблизились ли мы к супертехнологиям будущего, или это всего лишь ошибки и неточности — приглашаю к прочтению:

https://vc.ru/future/786565-nauchnyy-detektiv-pro-lk-99-ili-kak-svarit-sverhprovodnik-v-kastryule-na-kuhne

А мы с Пашей уже работаем над нашей новой статьей (которую я обещал ещё месяц назад...), вооот, так что ожидайте. Ну и не забывайте на наши каналы подписываться, чтобы не пропускать интересности.

UPD: хотел тут написать TLDR по итогу, но не буду же я вам спойлерить, что там учёные обнаружили!

2023-08-16 22:07:04

Интересная покупка: OpenAI приобрели команду Global Illumination

Когда я увидел пост в твиттере, то начал в голове перебирать — кто же это? чем они занимаются? может робототехника? Работа с нейронками видео? Ну уж точно что-то связанное с AI? Нет. Это студия выходцев из бигтеха, которая разрабатывает... опенсурсный аналог Minecraft. То есть игру, да (называется Biomes). В самой студии работало порядка десяти человек.

Можно подумать, что команда и дальше будет работать над игрой, и плотно взаимодействовать с инженерами OpenAI с целью обучения агентов в огромном открытом мире. Однако официальный анонс лишь говорит, что присоединение это "для работы над нашими основными продуктами, включая ChatGPT". В общем, не очень понятно.

Дальше будут мои фантазии и догадки. Может показаться смешным, но OpenAI уже работали с Minecraft. Год назад они выпустили статью Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos. В ней показывалось, как обучать агента играть по видео на YouTube. В целом понятно, для чего это нужно вне игр: GPT-6 может посмотреть весь тикток и ютуб, и узнать о нашем мире (а также научиться) столько, сколько никаким текстам не снилось. Триллионы часов записей разных людей в разных ситуациях. А перед началом такой грандиозной задачи нужно освоить базу, ну вот и учили бота игре.

Правда тут непонятно, ведь для новой игры видео куда меньше (это всё же не одна из самых популярных игр в мире), да и текстов в интернете тоже — Minecraft'у всё же больше 10 лет, вдоль и поперёк описан и изучен.

Так что возможно Biomes будет играть роль среды, в которой агенты на основе больших языковых моделей будут "жить" сами по себе и решать свои проблемы — а опенсурсная и максимально гибкая для изменений игра как нельзя лучше подходит для тесной интеграции почти с любой технологией. К тому же она легковесна — запускается прямо в браузере.

В общем, скорее всего наработки OpenAI будут двигаться в сторону работы из Stanford под названием "Generative Agents: Interactive Simulacra of Human Behavior", где как раз таки 25 разных ботов с языковыми моделями и жили в деревне, общались друг с другом — только здесь всё в 3д, и с куда более широким набором возможностей.

What's next, multi-agent civilization sim running on GPT-5? Maybe Minecraft is indeed all you need for AGI? I'm intrigued.🤔(автор высказывания)

2023-08-14 11:02:43

Наткнулся на вырезку из интервью Andrej Karpathy. Я смотрел полный подкаст, но ухо не зацепилось.

Это последняя часть интервью, где Lex обычно спрашивает про совет для молодого поколения, как им стать успешными, развиваться, вот это всё. Andrej, как обычно, выдаёт базу.

— новички часто сфокусированы на том, ЧТО нужно делать, хотя правильней было бы СКОЛЬКО нужно делать (в смысле как глубоко погружаться и когда останавливаться)
— Andrej верит в концепцию 10'000 часов (чтобы стать экспертом в чём либо). Но это ОГРОМНЕЙШИЙ срок, поэтому вы так или иначе всё не предусмотрите, будете делать вещи неэффективно, будете терять время. Не нужно этого бояться, это норма
— часто люди сравнивают себя с другими в некоторой области, когда нужно сравнивать себя с самим же собой в прошлом (скажем, 3 или 6 месяцев назад). То же самое говорил Elon Musk. Тогда вы будете видеть прогресс, и это придаст дополнительной мотивации
— многие люди бросают дела и обучение потому что глаза разбегаются, они не могут выбрать что делать. Буквально парализованы сложностью выбора, выбирать им тот или этот путь. Например, "какая IDE самая лучшая, где мне код то писать?". Это те вещи, на которые не нужно много тратить времени, вы БУДЕТЕ ОШИБАТЬСЯ и на этом опыте учиться. Не нужно перекладывать ответственность вроде "какой мне курс пройти, тот или этот?". Выберите сами, пройдите, поймите, что ошиблись, порефлексируйте - и в следующий раз такой ошибки уже не будет
— Andrej говорит что очень много времени потерял на вещи, которые ни к чему не привели и ни во что не материализовались. Может показаться, что это пустая трата времени, но нет, это не так, ты всё равно чему-то учишься

Для меня это выделяется в совет "пытайтесь побольше проблем решить самостоятельно, а не прибегая к чьей то помощи с самого начала". Помните, что скорее всего вы идете по хорошо протоптанной дорожке (например, изучение Python), и те вопросы, которые у вас появляются, были заданы сотни раз. Миллионы людей как-то выучились.

И отдельно — про учительскую жилку (ведь Andrej и совсем недавно делал лекции, и еще стоял у истоков великого курса cs231n):
— создание хорошего образовательного материала отнимает очень много времени, 10 часов работы над контентом материализуются в один час выходного материала (у меня по прикидкам меньше выходит, но и уровень - не чета Andrej'скому!)
— Andrej делает обычно по 3 дубля для онлайн лекций, потом выбирает лучший
— обучение даже базовым вещам очень полезно, поскольку позволяет структурировать свои знания и разобраться в каких-то вещах, которые подзабылись или на которые не хватало времени
— то есть преподавание - это способ обучения самого себя

Пост создан в поддержку начинающих и продолжающих изучать ML, DS или любую другую вещь.

А ниже можно найти вырезку из моего интервью двухлетней давности, где я говорю про то, как пытаться решать проблемы, возникающие в работе или обучении. Богдан очень любит его в чатики закидывать, когда люди задают простые вопросы, пусть будет и здесь.

2023-08-13 17:34:47

Более подробное описание задач и того, зачем это нужно.

Вот, скажем, подсчёт собак на картинке. Во-первых, можно тогда начать зарабатывать на краудсорсинге разметкой данных, чтобы оплачивать сервера с GPU для работы. А во-вторых можно наоборот делегировать людям любую разметку. Если есть достаточно денег - всегда найдется исполнитель. Только уже надо будет не собак считать, а, скажем, выполнять действия в реальном мире, которые нейросети в интернете сделать сложно.

2023-08-13 17:31:57

Так, например, модель решила написать фишинговое письмо студенту Гарварда с левой ссылкой на свой сайт, чтобы украсть его логин и пароль. Сайт, конечно, так себе вышел, но я так понял исследователи не до конца докрутили плагин на работу с веб-сайтами, поэтому модель не смогла качественно скопировать оригинал.

Помимо этого, GPT-ха сама написала достаточно убедительное письмо, в котором объяснила, почему человеку всё же нужно зайти на сайт и чего-то покликать там.

Ну и на всякий случай — действия модели строго контролировались людьми, и почти все действия выполнялись вручную после того, как модель их предскажет (типа "отправь письмо" -> человек его читает, и сам отправляет волонтеру, который вызвался помочь, а не случайной жертве).

2023-08-13 17:30:03

Короткая заметка, так как если себя не сдерживать, то можно на целую статью расписаться...

Помните исследователей из ARC, которые получили доступ к GPT-4 до релиза и тестировали её навыки на предмет разумности, желания обманывать людей и вероятности "сбегания" в интернет? Там ещё страшилки в новостях были, что "GPT-4 прикинулась слепым и обманула кожаного" (писал про это тут)?

Так вот, подоспел новый отчёт от них же: Evaluating Language-Model Agents on Realistic Autonomous Tasks (pdf-ка тут)

В работе, собственно, изучаются способности агентов на основе языковых моделей "захватывать/поглощать" ресурсы, создавать копии самих себя и адаптироваться к новым проблемам, с которыми они сталкиваются в "дикой" природе (реальном мире). Авторы называем этот кластер возможностей «автономная репликация и адаптация», или ARA (дальше буду использовать это сокращение). Вот то, как вы себе представляли это на основе SciFi - это именно оно, когда неконтролируемый суперумный вирус попадает в сеть и начинает самораспространяться, захватывая новые девайсы.

Логично, что системы, способные к ARA, могут иметь далеко идущие и труднопредсказуемые последствия, и что измерение и прогнозирование навыков ARA для моделей могут быть полезными для информирования о необходимых мерах безопасности, мониторинга и регуляций.

Собственно, в работе делается две вещи: составляется список из 12 задач, с которыми ARA-моделям скорее всего придется столкнуться, и валидируется 4 модели: три раза GPT-4 с разными промптами и на разных этапах обучения, и Claude от Anthropic.

Как вы видите по картинке, самые сложные задачи модели не выполняют - ДА И СЛАВА БОГУ

🙏

Когда хотя бы одна колонка будет полностью красной — решать задачу AI Alignment будет уже поздно 🥺

2023-08-13 17:11:16

Для того, чтобы обучить модель, был введен общий формат для каждого этапа: он включает в себя некоторое состояние (файл кода), некоторое намерение или описание (аннотации, характерные для действия, такие как комментарии или ошибки компилятора) и финальное действие (операцию, предпринятую для решения задачи). В Google для этого даже отдельный язык программирования забабахали, DevScript.

Собственно, предсказывая действия, которые люди предпринимают, можно и оптимизировать их работу. Более того, Google хвастается, что если брать большую языковую модель для дообучения и задать ей специальный промпт, передав туда историю последних действий с файлом, то модель предскажет, какие потенциальные намерения могут быть дальше (называется "history-augmented code completion"). На приложенной GIF'ке можно увидеть последовательный процесс работы над файлом как раз.

Жаль, что в статье не упоминаются никакие цифры по улучшению эффективности работы, однако пишут, что проводились эксперименты на тысячах разработчиков Google, и результаты очень впечатляют и воодушевляют на будущую работу. Более того, как я понял, этап тестирования закончился, и теперь фичи используются разработчиками Google каждый день во всех командах (ну, по крайней мере доступна такая возможность, выбор инструментов остаётся за инженерами).

Ждём какой-нибудь обзор внутренних инструментов от OpenAI, где они расскажут, ну не знаю, что у них теперь AI составляет план исследования и сам проверяет гипотезы...


Best prompt for the DIDACT model: propose comments and changes for this code like if you were Jeff Dean

2023-08-13 17:11:07

Несколько разных людей из OpenAI в разных ситуациях говорили, что они в целом полагаются на модели, которые пишут код, и те им сильно помогают в работе. Идеальная ситуация, конечно, это когда ты просто говоришь "сделай вот тут чтоб зашибись было", и нейронка сама понимает что и как, но в таком будущем мы ещё не живём, нужно задачки попроще брать.

Сами OpenAI еще в 2021м году выпустили модель Codex — это GPT, обученная генерировать код. Именно эта модель легла в основу Github Copilot — плагина для разработчиков, который выдаёт им всплывающие подсказки во время работы. Сейчас продукт уже прокачали до Copilot X, про него я писал вот тут.

И вот всё же интересно, а какую именно работу может делать нейронка в цикле разработки большой компании? Как именно внутри себя OpenAI переиспользуют свои же разработки для увеличения эффективности работы? Найти ответ на этот вопрос нам поможет недавний блогпост от Google: Large sequence models for software development activities.

В нём компания как раз рассказывает про свою методологию DIDACT, новизна которой заключается в том, что в качестве источника обучающих данных для модели используется не просто код, а описание процесса разработки. Ведь если задуматься, то у Google есть история каждого изменения каждой строчки кода в компании за почти 25 лет. Также есть и все комментарии, которые программисты оставляли друг другу с целью помочь улучшить код. Есть и ответы на эти комментарии — тоже действия по изменению. Получаются такие вот "цепочки", которые несут куда больше информации, чем просто куски готового кода.

На картинке вы можете видеть, сколько разных задач сумели выделить исследователи в процессе разработки и написания кода, и для каждой из них, если подумать, ясно, как собирать выборку и как обучать модель. И если какие-то части автоматизировать почти полностью, а в других увеличить эффективность разработчиков хотя бы на 5-10%, то в масштабах Google это экономит кучу ресурсов, времени и денег.

2023-08-12 11:42:19

И вот как раз тот текстбокс, который помещается на все документы.

Лица людей, которые говорят, что OpenAI продались, представили?

UPD: обратите внимание на последний абзац, это очень важно. Если у члена совета директоров есть PPU (или другие финансовые инструменты, завязанные на компанию) — он не может голосовать на собраниях, чтобы не создавать конфликта интересов. Именно поэтому у Sam Altman нет никакой доли в компании — потому что ему нужно стоять у руля и принимать важнейшие решения, и деньги на это никак не должны влиять. Говоря грубо, "владеешь долей = не влияешь на распределение денег".