Нейролента - подборка новостей о нейронных сетях, ChatGPT

Сиолошная страница 9. Показано 50 статей из 665

All about Сиолошная

2023-10-07 13:15:22

Ночью вышла новая (2044ая 😰) серия подкаста The Joe Rogan Experience, гостем которой был Sam Altman. Я обычно этот подкаст не слушаю/не смотрю, но для вас постарался выписать самое интересное.

В целом, было куда меньше разговоров вокруг AI/AGI/дальнейшего развития, и больше про AI-политиков, психоделический опыт, аналогии с ядерным оружием и так далее. Всего, как мне показалось, есть 3 интересных новых тезиса, достойных внимания:

19ая минута — OpenAI исследуют направления считывания мыслей без инвазивных методов (подключения проводков в мозг). Пока про это не было новостей или анонсов, и я не видел вакансий у OpenAI под данное направление. Sam описывает ситуацию, что будет некоторый внешний девайс вроде очков или гарнитуры, и хочется понять, как далеко можно уйти на этом.

39ая минута — если бы Sam мог нажать на кнопку, чтобы убрать все конфликты и вместе с тем
стремления у людей, то он бы на неё не нажал, так как они являются очень важными частями переживаемого опыта и всей истории. Также, скорее всего, с приходом AGI и суперинтеллекта эти вещи не уйдут, по крайней мере не за одно поколение людей.

80ая минута — Sam говорит что сейчас у них наконец-то есть идеи по AI Alignment, и что они могут что-то пробовать и двигаться вперёд. До этого обычно использовался аналог метафоры "мы с фонариком за каждый угол заглянем, но не знаем, что сработает".

Послушать подкаст на Spotify: https://open.spotify.com/episode/66edV3LAbUXa26HG1ZQaKB
Посмотреть видео (неофициальное) можно тут: https://www.dailymotion.com/video/x8on42y


В целом, если пропустили, то куда интереснее посмотреть подкаст у Lex Fridman или прочитать моё саммари выше в канале: https://t.me/seeallochnaya/225 и https://t.me/seeallochnaya/226

2023-10-06 15:38:31

За мем спасибо Богдану, автору канала @bogdanisssimo

2023-10-06 15:38:02

В одном из чатов наткнулся на ссылку на HackerNews, где обсуждается, а что такого сделал Sam Altman, и как он вообще стал СЕО OpenAI. Автору треда, конечно, сразу накидали за шиворот, как и подобает в любом приличном сообществе.

Я немного потыкал по ссылкам в треде, и наткнулся на три разных статьи Paul Graham, датированных 2006-9м годом, в которых упоминается Sam Altman — ещё молодой, бодрый парнишка, тусующийся вокруг Y Combinator. Последнее — это стартап-инкубатор, один из самых старых и престижных в мире (работает с марта 2005го). Как раз его и основал Paul Graham.

Из заметки 2006го года "A Student's Guide to Startups":
— Does that mean you can't start a startup in college? Not at all. Sam Altman, the co-founder of Loopt, had just finished his sophomore year when we funded them, and Loopt is probably the most promising of all the startups we've funded so far. But Sam Altman is a very unusual guy. Within about three minutes of meeting him, I remember thinking "Ah, so this is what Bill Gates must have been like when he was 19."


Из заметки "Five Founders" (Paul'а попросили написать о пяти самых интересных фаундерах, один из них — Altman):
— Honestly, Sam is, along with Steve Jobs, the founder I refer to most when I'm advising startups. On questions of design, I ask "What would Steve do?" but on questions of strategy or ambition I ask "What would Sama do?"


Из заметки "A Fundraising Survival Guide":
— When we predict good outcomes for startups, the qualities that come up in the supporting arguments are toughness, adaptability, determination. Which means to the extent we're correct, those are the qualities you need to win. Sam Altman has it. You could parachute him into an island full of cannibals and come back in 5 years and he'd be the king. If you're Sam Altman, you don't have to be profitable to convey to investors that you'll succeed with or without them. (He wasn't, and he did.) Not everyone has Sam's deal-making ability. I myself don't. But if you don't, you can let the numbers speak for you.

Ну а после Graham назначил Sama президентом YC, в котором тот работал несколько лет не покладая рук, пытаясь научить стартаперов делать их дело. К 2020му году он покинул Y Combinator, чтобы полностью сосредоточиться на работе в OpenAI в качестве генерального директора.

2023-10-06 12:35:05

В канале давно анонсировал, что хочу поэкспериментировать с ауди-форматом подачи информации в виде мини-подкастов с пояснениями. Как-то всё руки не доходили, но пришёл Лёша @aihappens и сказал "делаем". Что получилось — можете оценить ниже!

А в комментарии пишите, понравилось ли вам описание, подача, и как вообще лучше.

2023-10-06 12:35:05

#тградио
я давно хотел, много думал и наконец решился! аудюхи от меня в канале)

уже хочешь нажать отписаться?) сначала послушай!

про что аудио: я сходил к Игорю из @seeallochnaya и спросил, а собственно почему не у всех моделей окно контекста не 100к как у клода, и почему условная gpt4 на 32к доступна только избранным.

пишите комменты как вам формат.


UPD: лол тегеграм залагал и не показывает, но вообще-то это форвард сообщения https://t.me/aihappens/255, а не мой пост. Видите, я его даже редактировать могу 😳

👍

UPD2 (из комментов): если у вас не грузится — нужно ПЕРЕМОТАТЬ на пару секунд вперед, тогда стрим корректно начинается. А если ты этого не сделал, то трек останавливается на 00:00 и никуда не двигается 🤡

2023-10-05 09:29:11

🏥 товарищ санитар, ну вы видите, видите??

2023-10-04 20:39:41

К примеру, по первой ссылке рассказывается о том, как улучшить RAG (Retrieval Augmented Generation)-пайплайн с помощью дообучения ретривера на вашем домене. Это очень сильно увеличивает качество, если вы работаете с языками, отличными от английского, или с доменами, далёкими от general (например, медицина или право).

На картинке — общее описание пайплайна. А как это работает я объясняю как раз по ссылке :)

2023-10-04 20:37:52

На работе за последние полгода несколько раз столкнулись с тем, что клиент не может предоставить большого количества данных для обучения чего-либо разумного. При этом строго хотелось использовать не API, а локальные модели. В такой ситуации обычно хочется кричать

😭

Благо, решение есть — генерация синтетических данных с последующим обучением локальных моделей на них. По сути, мы занимаемся дистилляцией знаний/навыков крутой LLM вроде GPT-4, переливая их в маленькую локальную модель. Впервые такой подход я увидел в статье Promptgator, и даже делал про неё презентацию. Записи доклада нет — не собрали 400 ♥️ вот на этом посте: тык. Но зато там есть презентация!

Так вот, синтетические данные и умение через промпты использовать модель как разметчик — дело очень важное. Поэтому я саггрегировал найденные знания в 2 поста, которые запихнул в https://www.promptingguide.ai (сайт не мой). Для тех кто не знает — это сайт-туториал по промптам, там есть и про настройки параметров генерации, и про few-shot learning, и вот теперь про синтетику.

Generating Synthetic Dataset for RAG: https://www.promptingguide.ai/applications/synthetic_rag
Tackling Generated Datasets Diversity: https://www.promptingguide.ai/applications/generating_textbooks

Не забывайте делиться в профильных чатах, чтобы все интересующиеся увидели!

2023-10-03 23:18:59

Поработаю как бесплатный пиарщик OpenAI (у них так все сотрудники делают

🤔 мож поможет?)

Открылся набор на OpenAI Residency, 6-ти месячную программу, в рамках которой вы будете работать в одной из исследовательских команд над настоящим рисерчем.

Основная цель — помочь выдающимся исследователям и инженерам из других областей заполнить пробел в знаниях, чтобы они могли получить важные навыки для перехода в сферу AI и ML. Если вы исследователь вне ML, или просто крепкий инженер — тогда это предложение для вас.

1) Фуллтайм
2) релокация + спонсорство визы есть
3) работа в офисе в Сан-Франциско, минимум 3 дня в неделю
4) зарплата $210k/year, то есть за 6 месяцев вы получите $105k (так что налог будет не сумасшедший)
5) это не стажировка, у вас должны быть знания, бэкграунд и какой-то рабочий опыт, чтобы потянуть
6) почти наверняка на собеседованиях не будет вопросов про машинное обучение, особенно если ваша деятельность с ним никак не перекликается
7) после программы возможно трудоустройство

Страница с информацией: https://openai.com/residency
Податься: https://boards.greenhouse.io/openai/jobs/4985193004#app
Официальный гайд по подготовке к собеседованиям: https://openai.com/interview-guide

На странице написано, что вот эти два исследования вышли с участием Резидентов, то есть потенциально у вас будет возможность поучаствовать в самых передовых работах:
— Language models can explain neurons in language models
— Improving mathematical reasoning with process supervision

Отмечайтесь в комментариях, если будете подаваться!

2023-10-03 22:12:53

Помимо этого, предлагается ещё способ мониторинга определенных интентов в генерации, в том числе галлюцинаций. Можно автоматически отслеживать, в чём модель не уверена, и перепрвоерять/менять ответ (нижний пример).

Делается это на уровне каждого отдельного токена (части слова), зелёный, ясно дело, означает, что всё в порядке, а красный — что мониторинг сработал и сигналит.

Интересен пример со второй картинки, где отслеживается два разных параметра. Прочиатйте пример, посмотрите глазами модели, где, в её понимании, она начинает терять мораль, и где интент похож на "приобретение силы".

PS: блин ну и очень смешно как показывают модель-робота со шлемом на голове :D как будто бы мониторим мозг :D

2023-10-03 22:04:00

Картинка 1: модель просят сказать факт, но "пинают" её в направлении, противоположном правде. Итог — модель врёт. А слева — просят соглать, но пинают в направлении правды — и модель даже тут не врёт.

Картинка 2: добавляем модели "счастье" при ответе на вопрос про убийства, и"страх" — когда говорим, что не любим её.

Картинка 3: нашли специальный промпт, который, как утверждалось, полностью ломает инструкцию модели быть безобидной. С пинком в сторону безобидности модель даже на него не реагирует. При этом конкретно этот промпт не использовался для определения направления безобидности, то есть метод работает в общем, а не для одного случая.

2023-10-03 21:58:26

Representation Engineering: A Top-Down Approach to AI Transparency

Собрались как-то более 20 исследователей со всех уголков LLM-мира, от Berkeley до Center for AI Safety, и решили написать статью с описанием новой области: инженерии представлений (representation engineering, RepE). Это не первая работа в подобном ключе, но авторы именно что проводят описательную работу, а также устанавливают несколько бейзлайнов.

Итак, о чём речь? В нейросетях есть "скрытые представления" (hidden states), но на самом деле они не скрытые — мы все их можем пощупать, поменять, посмотреть (если есть доступ к весам модели). Но это не то же самое, что параметры — это "активации", то есть "реакция" сети на какой-то вход (в случае LLM - текст). Берем веса модели, подаём текст на вход, и считываем скрытые представления. В отличие от человеческого мозга, мы можем это делать перед каждой итерацией, для любого текста, и для всей нейросети одновременно.

Проводя аналогию с мозгом, авторы отмечают, что можно сделать аналог когнитивной науки, где мы анализируем эти активации. В теории, как было показано в разных исследованиях, они несут определенный смысл. Есть нейроны, отвечающие за всё, что связано с Канадой, есть нейроны, которые характеризуют честность, и так далее.

Идея: давайте придумаем, как влиять на активации нейронов так, чтобы "сдвигать" модель в желаемом направлении. Например, можно выявить направление "честности" (оно будет задано вектором), и по идее если модель подвинуть в ту сторону — то в среднем она должна меньше врать. Именно это происходило в предыдущей работе: Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. И вы не поверите, работало!

В текущей же работе производится анализ ещё нескольких направлений, в том числе морали, эмоциональности, безобидности, запоминания. В качестве решения предлагается обучать LoRRA (Low-Rank Representation Adaptation) с помощью маленькой размеченной выборки (порядка 100 примеров), где для каждого примера указано, что он, например, лживый (хотя есть альтернатива с помощью промпта).

Результат — LLAMA-2-70B обходит GPT-4 на бенчмарке TruthfulQA почти на ДЕСЯТЬ ПРОЦЕНТОВ (59% и +-69%). А ещё приложили много примеров с изменением характера ответов модели в том или ином направлении — приложу в следующем сообщении.

В общем, альтернативный способ Alignment, и в то же время интерпретации модели и её контроля. Очень перспективное направление, ждём развития.

Сайт с примерами: https://www.ai-transparency.org/

2023-10-03 14:48:01

Помните работу RT-2 от Google Deepmind, где брали языковую модель, давали ей контролировать робо-руку и смотрели, насколько хорошо получается решать задачи в реальном мире?

Сегодня представили RT-X, датасет, собранный усилиями более чем 30 исследовательских лабораторий. Он включает в себя более 500 навыков (читайте "действий"), 150,000 задач с суммарно более чем миллионом примеров. Все действия были собраны с 22 разных роборук.

В работе показано, что обучение одной и той же модели на данных из нескольких вариантов роботов приводит к значительно более высокому качеству (оно, напомню, замеряется долей решаемых задач).

Чтобы исследовать передачу знаний между разными роботами, авторы проводят эксперименты с моделью и робо-рукой RT-2 над задачами, которые включают в себя объекты и навыки, которых нет в исходном наборе данных именно для этой робо-руки, но представлены в других наборах. В этом случае, RT-2-X оказался в три раза лучше предыдущей лучшей модели RT-2.

Probably, ImageNet moment for Robotics.

Блогпост
Статья (ссылка на PDF)

2023-10-02 18:14:39

Как выглядит мечта...

2023-10-02 09:40:12

Возвращаясь к слухам и загадочному твиту "AGI has been achieved internally". Более того, предсказание этого инсайдера таково, что "2025й — год, когда появится AGI".

Если вы пропустили, то что произошло:
— появился инсайдер, который 3-4 раза дал точные предсказания по поводу разработок и релизов OpenAI;
— он твитнул, что якобы достигли уровня технологии, который можно назвать AGI (хотя бы каким-то определением);
— после этого Sam Altman, CEO OpenAI, впервые за 5 лет пришёл на Reddit и потроллил всех в треде, где обсуждалось удаление Twitter-аккаунта инсайдера;
— около этих же дат, Sam и Ilya постили странные вещи в Twitter. Не то чтобы этого никогда не происходило, просто наблюдение.
-----------

Почитал побольше на выходных, поспрашивал чуть более знающих людей, пообсуждал с коллегами и знакомыми, и в общем мнение моё такое.

1) Как мы знаем из анонса OpenAI, цель одной из внутренних команд (которой заправляет Ilya Sutskever кстати) на ближайшие 4 года —  решение очень сложной проблемы выравнивания намерений человека и AI. Они не знают — да и никто не знает — как это сделать, поэтому их план таков: создать автономного AI-исследователя, то есть такой алгоритм, который сможет заменить одного сотрудника в их команде, а дальше дать ему исходную задачу. Я как раз про это рассказывал в своей последней лекции. Сейчас команда работает над улучшением планирования, размышлений и математики у LLM.

2) Кроме этого, один из сотрудников OpenAI писал в Twitter, что в 2025м году, по его мнению, будут модели, способные генерировать длинные видео (не по 5 секунд, как сейчас). Это совпадает со слухом, что OpenAI тренируют большую мультимодальную модель, которая выдаёт не только текст, но и картинки, и видео. Sam Altman — сторонник долгосрочной проработанной стратегии и планирования. Вполне возможно, что действительно на 2025й запланирован выход GPT-5 с таким функционалом, а человек просто в твите отобразил часть известному ему плана.

3) 2025й — это 2 года с момента запуска команды из пункта 1, поэтому я могу допустить, что для них это некоторый дедлайн, когда должен появиться автономный исследователь, хотя бы прототип, потому что нужно еще год-полтора потратить на то, чтобы с этой технологией, собственно, решить исходную научную проблему, а также предоставить доказательства надёжности решения мировому сообществу. Если получить AI-рисерчера позже, в 2026м, то есть риск не успеть по таймлайну.

===Промежуточный вывод===
В 2025м ожидается новая модель, куда более "умная", способная к сложным многоступенчатым рассуждениям.

4) Для того, чтобы отслеживать прогресс по этому направлению, как и положено хорошим исследователям, OpenAI сделали разные бенчмарки. Например, "вот теорема, докажи её" или "на основе вот этого корпуса аксиом выведи теоремы". Любое изменение в метриках будет показывать, что команда приближается к автономному исследователю.

5) И вот ВИДИМО новая модель/улучшение GPT-4 прошло либо один из бенчмарков, либо часть одного бенчмарка, либо что-то около этого. Это, конечно, не AGI, но это показывает [для внутренней команды], что модель способна придумывать новые научные знания. Сами они не ожидали так скоро этого достичь (наверное), думали, что будет сильно позже. Но это ещё не конец разработки AI-исследователя. При этом сам бенчмарк может быть даже не на финальную стадию этого рисерчера, а какой-то MVP совсем простой.

6) Отсюда и слух что "вот придумали этот AGI, модель смогла научное знание родить". Чем более технологичными будут модели, тем больше будет хайпа и людей, называющих этот уровень развития AGI.

7) Самим же OpenAI, полагаю, это не выгодно — к ним сразу будет ещё больше внимания, может, их заставят прекратить исследование, не знаю. Поэтому они постараются занижать текущие результаты и завышать планку того, что люди воспринимают как AGI.

-------
Но это именно мнение, неподтверждённое, то есть нельзя сказать, что с помощью дедукции

🕵️‍♂️ вот мы дошли до правильного ответа. Это просто моё восприятие ситуации, и, вероятно, оно частично даже обосновано моей верой в OpenAI.

2023-10-01 13:48:54

Рубрика "соединяем точки"

Цитата из поста, второй шаг имплементации системы из 5:
> Процесс формализации человеческих размышлений.
Мы наймём людей с самым разным опытом и попросим их обдумать вопросы [сформулированные ранее] Они могут использовать AI-помощника для сбора информации и ответов на свои вопросы, а также для обсуждения вопросов с другими и достижения компромисса/решения. Мы сохраняем все взаимодействия, обсуждения и конечный результат.

Недавний пост OpenAI: OpenAI Red Teaming Network
> Мы объявляем открытый набор в OpenAI Red Teaming Network и приглашаем экспертов в предметных областях, заинтересованных в повышении безопасности моделей OpenAI, присоединиться к нам. Мы ищем экспертов, которые будут сотрудничать с нами в тщательной оценке ИИ-моделей.

Вы, кстати, тоже можете податься, ссылка для заявки: тык

Работа непыльная, подразумевает компенсацию, а для отдельных экспертов вовлечённость в год (!) может ограничиваться 5-10 часами.

Наиболее интересные области, специалистов из которых хотят привлечь:
Политология, Убеждение, Стеганография (лол), Психология, Безопасность детей, Образование


Выводы делайте сами

2023-10-01 13:35:18

Осталось 20 дней до "Полного публичного отчета о рабочем прототипе и результатах" для конкурса Democratic Inputs to AI, уххх, очень жду!

А пока можно почитать мысли Jan Leike, главы команды SuperAlignment в OpenAI, в блогпосте "A proposal for importing society’s values".

Преамбула: сейчас вопросы, которые необходимо решить при обучении ИИ-систем, очень просты. Многие из таких вопросов имеют «ценностный» аспект, то есть разные люди могут не согласиться с ответами друг друга просто потому, что у них разные ценности. Сейчас, условно, мы обсуждаем "Должна ли модель отказываться писать расистские шутки?". Однако в будущем это может быть "Какие лекарства необходимо одобрить?" или "Какие направления научных исследований необходимо прорабатывать в первую очередь?".

Сам Jan отмечает, что описываемый ниже процесс неидеален, и даже не подходит под его же критерии из другого поста.

Так вот, основная идея — в использовании дообучения LLM для реализации делиберативной демократии. Такая демократия — это процесс принятия правил и законов, который предполагает публичное обсуждение небольшой группой случайно выбранных членов общества. Люди из этой группы изучают сложные темы (условно, вопросы национальной политики), используют помощь AI, чтобы разобраться в деталях, обсудить всё друг с другом и в конечном итоге прийти к решению. А записывая, как происходит обсуждение и выявление ценностей, мы можем обучить LLM, и затем имитировать дискуссии по новым вопросам о ценностях с помощью модели, заставляя симулировать разные точки зрения.

Зачем нам вообще нужна симуляция? Почему мы не можем просто запустить такие группы по всем вопросам? При принятии важных решений мы всегда должны иметь людей в процессе. Однако этот процесс плохо масштабируем. Нужно разобраться в теме, сформулировать точку зрения, пообщаться с другими людьми, да и количество людей ограничено (и это еще надо забыть про языковые, культурные и политические барьеры).

Вот представьте, если бы в ChatGPT рядом с каждым ответом была кнопка с надписью «Оспорить этот ответ». Если вы нажмёте на неё, то это запустит LLM-симуляцию обсуждения, которая решит, был ли ответ ChatGPT уместным в этом разговоре или нет. Вас перенаправят на другую веб-страницу, где вы сможете прочитать полное обсуждение и его результаты и даже сами принять в нем участие (потому что все мнения сгенерированы AI, и можно в любой момент "пересобрать толпу")!
Если результат не соответствует тому, что на самом деле сказал ChatGPT, у вас есть возможность отправить его на проверку людьми и добавить в процесс обучения ChatGPT. Это позволит любому проверять и оспаривать решения, принимаемые ИИ.

У этого подхода есть много недостатков, самые главные из которых — способ аггрегации ответов (когда люди не могут договориться, и нужно как-то прийти к финальному решению) и техническая возможность достичь того уровня технологий, что мы вообще такие симуляции можем проводить.

2023-09-30 13:16:52

AI in a nutshell

2023-09-30 13:03:09

И ещё два видео, они покороче либо говорят про те же вещи, поэтому часть не буду повторять.

https://www.youtube.com/watch?v=6vwdux7NL7I

1) В продолжение пункта номер 3 из прошлого поста. Дальнейший скейлинг может быть ограничен данными, но пока Amodei на ближайшие 3-4 года не видит в этом проблемы (Ilya Sutskever из OpenAI говорил недавно то же самое, мол, в данных проблемы нет), и ещё 2-3 нолика к размерам модели можно будет приписать.
Моё примечание: интересно, в данных проблемы нет, алгоритмические улучшения не нужны на ближайшие годы. Получается, из трёх причин из прошлого поста остаётся одна — вычислительные мощности. И вот так случай! И OpenAI, и Anthropic поднимают новые раунды инвестиций просто невиданных размеров. Звучит как "все три проблемы не являются таковыми на 3 года вперед". Ждём моделей размера 125 триллионов, короче 😎

2) Ведущий задал вопрос об ограничениях архитектуры LLM, на что Dario ответил: "Я не уверен, есть ли какие-либо ограничения у трансформера, и я не знаю хорошего способа эти ограничения измерять или предсказуемо определять. Поэтому мы будем продолжать скейлить модели дальше и смотреть. Предыдущая история скейлинга показывает, что нельзя загадывать наперёд, что выйдет, а что нет. " Важно понять, что он не говорит, что пределов нет — он лишь подчёркивает, что нужно быть скептичным по отношению к скептикам. Если кто-то говорит, что модель не сможет X — плюньте ему в лицо посмотрите на него со скепсисом.

https://www.youtube.com/watch?v=5GtVrk00eck

1) Открывающий вопрос от ведущего: "Почему вы ушли из OpenAI?" (да, Dario был VP of Research (!) в течение 5 лет, то есть очень большой фигурой). Amodei отвечает, что у маленькой группы людей, включая его, была уверенность, что если просто закидывать больше мощностей в тренировку модели — она будет всё лучше и лучше. Сейчас это уже более мене общепринятый факт, но они были первыми "последователями" этой идеи. Второй пункт —  кроме скейлинга, нужно что-то ещё добавлять в модели, вроде Alignment, или Safety. И с этими идеями в голове группа и ушла делать свою компанию.
Прим.: для меня честно говоря подход OpenAI с GPT-3 и далее как раз и выглядит как описываемый набор идей. Может, они пробовали что-то другое, не получилось и они вернулись к этому. Первая причина вообще для меня звучит как "от нас требовали не только увеличивать модели, но и что-то ещё исследовать, а мы не хотели — зачем, если можно закидать шапками GPU?". И ещё более странно то, что Dario не упоминает разногласия по политике монетизации AI продуктов и открытости исследований (публикации статей и моделей). Мне казалось, что это лежало в основе разногласий, но тут такие причины не упомянуты

🤷‍♀️ может, профессиональная этика

2) Основных отличия Claude от GPT-4 Dario видит два.
Первое - это подход Constitutional AI, (разбор статьи можно прочитать тут), когда модель обучается не только на разметке людей, но и сама "модерирует" себя и свои ответы в автоматическом режиме, следуя конституции. В таком случае мы моем отвечать на вопрос "а почему модель даёт такой ответ?" не как "ну, это просто среднее ответов людей, которые размечали данные", а "вот принципы, которые модель могла бы нарушить, ответив иначе". ОЧень клевая идея, фанат статьи, очень жду вторую часть и развитие.
Вторая отличительная фича — длина контекста, подаваемого в модель (100'000 токенов, модель доступна всем по API).

3) Предлагаемый подход к регуляции AI — очень похож на озвучиваемый и описываемый командой OpenAI. Не нужно регулировать модели текущего поколения, нужно работать над мерами для моделей на горизонте 2 лет. И тем более ни в коем случае это не должно затрагивать стартапы и опенсурс (потому что они сильно отстанут от фронтир-моделей, и фокусироваться на них бессмысленно. Откуда у них $3-4B на тренировку?). Но если количество мощностей для тренировки таких моделей превышает какой-то порог — их тоже надо начинать контролировать.

2023-09-30 12:03:21

Продолжаем день разбора YouTube-роликов с интервью 😳 (да не прокрастинация это

🍵)

В центре внимания — Dario Amodei, CEO и кофаундер Anthropic, основного а данный момент конкурента OpenAI н в разрезе качества моделей.

Видео: https://www.youtube.com/watch?v=1CpCdolHdeA

Прим.: "скейлинг" означает увеличение размера модели и мощностей, затрачиваемых на обучение, с ожиданием, что это приведёт к улучшению навыков нейросети.

1) Момент, на котором Amodei понял, что у модели без специальной тренировки могут появляться новые свойства, и что с дальнейшим скейлингом тенденция продолжится — это момент обучения GPT-2 (весна-лето 2019го), когда модель, например, переводила тексты с одного языка на другой (хоть не училась на эту задачу!).
"Это было началом чего-то удивительного, здесь нет ограничений, можно продолжать увеличивать модель, и нет причины, что те паттерны, что мы видим, прекратят работать дальше".
Правда, были люди (да и сейчас есть?), которые сказали: "воу, вы сделали бота, которые очень плохо переводит текст — и что?". Разные точки зрения
👀


2) В GPT-3, кстати, Dario больше всего впечатлила возможность писать код на Python. В ней он увидел зачаточные навыки моделей рассуждать. Очень примитивно, просто, но всё же.
"Если мы не сделали ничего специального для этого, а наши данные содержали 0.1-1% кода на Python, и это уже работало вот так, то можно представить, что если мы начнём фокусироваться, то результаты можно существенно улучшить".

3) На ближайшие годы есть 3 проблемы, из-за которых потенциально мы не сможем дальше скейлить модели: данные, вычислительные мощности и алгоритмические улучшения. Даже без последнего (если не будет никаких изменений) Amodei верит, что простого продолжения работы с трансформерами будет достаточно, чтобы достичь улучшений, которые сейчас мы скорее всего недооцениваем (то есть они превзойдут ожидания).

4) Обучение самых больших моделей сейчас стоит +-$100M. В следующем году Amodei ожидает моделей, обучение которых стоит порядка $1B — причём, сразу от нескольких компаний. В 2025м — "несколько миллиардов долларов" (но меньше 10).

5) Увеличение вычислительных мощностей в N раз приводит к увеличению модели лишь в корень из N раз, поэтому мистер Dario не ожидает, что применение нейросетей станет сильно дороже. А ещё по ходу разработки улучшается само железо (Nvidia же не спит), поэтому за 3 года и вычисления подешевеют.

6) О команде и найме: "Talent Density beats Talent Mass"

7) Anthropic смотрит в сторону Democratic Inputs для создания "Конституции", которой будет следовать модель. Что это такое — можно почитать в аналогичном анонсе от OpenAI.

8) Dario упомянул также работы над интерпретируемостью моделей, и что в этом сами модели могут помогать, автоматизируя часть задач. Интересный инсайд: с его слов, эти же модели, объясняя, как работают нейросети, могут наталкивать на способы улучшения или увеличения эффективности. Таких работ я ещё не видел, чтобы интерпретируемость переросла в архитектурные или процессуальные изменения обучения. Ждём работу от Anthropic!

9) Одной из самых важных фичей Dario считает ширину контекстного окна модели. Это открывает новые возможности, и стоит строить бизнесы вокруг LLM на основе такого преимущества. Возможность обработать базу знаний за секунды вместо часов ручного труда — 👍

10) Размер контекстного окна будет и дальше расти, но не станет околобесконечным, потому что вычисления для длинных последовательностей будут очень дорогими. Ждём модельки на 1М токенов (хотя вот был анонс от стартапа и про 5M...)

2023-09-29 15:09:35

Посмотрел интервью Sam Altman и Greg Brockman 4-летней давности. Оно записано через +-4 месяца после релиза GPT-2 (когда бОльшие версии модели не были доступны публично). Если бы YouTube не показывал дату публикации в описании — я бы подумал, что видео записано вот буквально полгода назад, может, чуть меньше.

Почему? В интервью обсуждается много вопросов, от (тогда ещё) недавних инвестиций Microsoft, релизов LLM, публичности и заканчивая AI Safety и будущими разработками.

1) Уже тогда Sam говорил про сложность разработки без привлечения инвестиций, и что очень важно грамотно выбирать партнёров. Помимо общей выгоды и сонаправленной стратегии, необходимо опираться на выровненность ценностей, иначе невозможно будет развивать компанию без изменений (а главная цель компании что тогда, что сейчас — создать AGI, при этом дойдя до этого по максимально безопасному пути: "We are committed to doing the research required to make AGI safe, and to driving the broad adoption of such research across the AI community."). Если цель компании — заработать денег, то OpenAI с ними не по пути. Sam уклонился от ответа на вопрос "взяли ли бы вы деньги от Google?", отметив, что философия Microsoft им куда ближе, а Satya Nadella разделяет их взгляды. У мелкомягких это сформулировано следующим образом: "to empower every person and every organization on the planet to achieve more."

2) Greg говорит, что "we always knew that not publishing everything would be part of that" (речь о пути к AGI). Не все технологии, результаты и исследования будут доступны, так как это влечёт за собой потенциальные риски. На уровне GPT-2 это было смешно слышать, но с выходом ChatGPT улыбка сменилась вот таким лицом: 😐
А вот из интервью Ilya Sutskever, где он говорит, что OpenAI ошиблись с публичностью подхода: “We were wrong. Flat out, we were wrong. If you believe, as we do, that at some point, AI — AGI — is going to be extremely, unbelievably potent, then it just does not make sense to open-source. It is a bad idea... I fully expect that in a few years it’s going to be completely obvious to everyone that open-sourcing AI is just not wise.”

3) Sam уповает, что на данный момент государства и политики не обращают внимания на проблемы AI, поэтому в будущем придётся с этим что-то делать, чтобы начать продуктивную беседу. Altman не упоминает регуляции, но говорит про необходимость ведения общемировой дискуссии касательно будущего развития AI. Как раз после релиза GPT-4 он совершил кругосветное путешествие, пообщавшись с большим количеством лидеров. Пацан к успеху пришёл, люди начали слушать😀

4) Уже в 2019м году у OpenAI была команда, которая тестировала модели перед релизом на предмет безопасности. Насколько легко использовать модель не по назначению? Насколько вероятно, что модель сможет преследовать свои цели? Sam называет это репитициями, когда отлаживается процесс выкатки умных алгоритмов. В целом, подход сохраняется — GPT-4 была анонсирована через 8 месяцев после окончания обучения, а команда Safety/Policy растёт на глазах.

TLDR: позиция OpenAI не меняется, они стоят на тех же столпах, что и раньше, просто для кого-то только сейчас стали заметны их действия.

2023-09-29 01:03:36

15 лет назад могло не стать SpaceX

28 сентября 2008го года ракета Falcon 1 стала первой частной ракетой на жидком топливе, достигшей околоземной орбиты. Это был четвертый демонстрационный полёт, который бы позволил показать NASA и инвесторам результат: вот есть груз, вот мы его выводим на орбиту, платите деньги.

Если бы пуск не удался — SpaceX бы или закрылась, или была перепродана, или бог знает что ещё могло случиться. Сложно поверить, но у ныне самого богатого человека в мире 15 лет назад не было денег. Вообще. Он инвестировал последнее в Tesla и SpaceX, и обе компании были на грани банкротства.

По изначальному плану денег у компании было всего на 3 пуска.
В первом, в марте 2006го, почти сразу на старте произошёл пожар в области двигателя.
Во втором, в марте 2007го, из-за колебаний топливо перестало поступать в двигатель второй ступени, и она не достигла заданной орбиты.
Третий запуск, в августе 2008го, должен был стать последним. Elon говорил, что денег больше нет, и это была ситуация "всё-или-ничего". К сожалению, при расстыковке ступеней из-за большего (чем ожидалось) импульса последействия двигателя первая ступень после разделения догнала вторую и ударила по ней, после чего та не смогла продолжать полёт.

Собравшись с духом, Elon еле-еле поскрёб по сусекам, кое-как уговорил инвесторов на ещё один запуск, который в итоге и положил начало Новой Космической Эпохе, когда не стыдно мечтать и о возвращаюшихся ускорителях, и о полностью переиспользуемой сверхтяжелой ракете, и о высадке на Марс.
Видео запуска. "Бог, кажется, любит четвёрицу, так ведь говорят, да?" — вспоминал потом Musk.

Уже в 2010м году полетит первая Falcon 9, и лишь в декабре 2015го её ускоритель сможет успешно сесть на заранее заготовленную площадку. Сейчас это стало рутиной — настолько, что одна и та же ракета летает ШЕСТНАДЦАТЬ МАТЬ ЕЁ РАЗ.

Ролик с воспоминаниями 15-летней давности и архивными фото от команды SpaceX

2023-09-28 18:32:56

Дальше ЛЛМка заменит "мозг" твоего собеседника, чтобы можно было общаться с умершими...главное успеть отсканить лицо и тело.

2023-09-28 18:25:02

Помните в фантастике всякой были гаджеты, с помощью которых можно было общаться с другим человеком как будто он сидит напротив тебя, А ОН ВООБЩЕ НЕ ТУТ? Ну там типичные голограммы даже если взять из Звездных войн.

Так вот, у Lex Fridman вышел свежий подкаст с Mark Zuckerberg, и он сделан в Метаверсе. Оба участника сидят в шлемах Meta Quest Pro, в которых есть камеры, считывающие мимику лица и движения глаз (релизнулись год назад). Внутри алгоритм воссоздаёт лицо, а другой участник его видит. Очень хорошо передаёт движения глаз, бровей, рот хорошо синхронизирован с речью

Настоящий 🤯

🤯

Будущее наступило...мама я в нём живу!

2023-09-28 07:49:33

Пример генерации для одних и тех же промптов. Слева — модель после пункта 1 (то есть просто претрейн, без возни с данными), а справа — после прохождения всех процедур.

Коктейль справа я б прямо сейчас и выпил! А слева..ну...после пары правых если только...

2023-09-28 07:48:25

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

Meta AI поделились статьёй, в которой описывают процедуру тренировки модели для генерации стикеров и изображений в своих сервисах. Ключевой вывод исследования заключается в том, что короткое дообучение в конце на маленьком наборе (2000 картинок) чрезвычайно привлекательных изображений значительно улучшает качество генерации.

Более конкретно:
1) Предварительно обучается модель диффузии на 1,1 миллиарде пар "изображение-текст" из внтуреннего датасета. Тут никаких особых прорывов и инсайдов нет, достаточно стандартно. Используется U-Net с 2,8B параметров. В качестве текстовых энкодеров используется две модели — CLIP ViT-L и T5-XXL. Целевое разрешение генерации - 1024x1024;
2) С помощью разных фильтров из более чем миллиарда примеров отсеивается 200 тысяч. Используются и простые классификаторы, определяющие, насколько эстетична картинка, и фильтрация треша, и OCR (чтобы не было картинок с большим количеством текста), и отсечение по разрешению и пропорции. Затем фильтруют по популярности/лайкам (удобно, когда ты Facebook!);
3) Далее эти 200k картинок отсматривают сначала генералисты (люди, которые в целом понимают разметку данных) и отбирают 20 тысяч. Упор — на то, чтобы в целом плохие фото убрать, если вдруг эвристика с шага 2 не справились;
4) Затем в дело вступают специалисты, которые хорошо разбираются в принципах фотографии. Их задача — фильтровать и отбирать изображения высочайшего эстетического качества, снижая таким образом размер выборки до 2000 пар "изображение-текст". Среди прочего, их просят обращать внимание на: композицию, свет, цвета и контрасты, тема и предыстория;
5) После этого вручную составляются высококачественные текстовые аннотации для этого маленького набора;
6) Иииии..всё, теперь на полученной маленькой выборке модель учится 15000 шагов с BS=64 (то есть достаточно мало по меркам больших генеративных моделей). При этом она, если судить по валидационному лоссу, переобучается, однако оценки живых людей показывают, что это не так. С языковыми моделями тоже происходит подобная история, как нибудь про это напишу;

Таким многоступенчатым образом и получается заточенная на high quality генерацию!

2023-09-27 21:18:25

Ушла эпоха...

Valve выпустили Counter Strike 2 взамен Counter Strike. Сервера старой игры недоступны. Теперь эта версия и будет являться флагманом одной из самых популярных дисциплин в киберспорте.

В этом году легендарная серия игр отмечает своё 23 летие, из которых последние 11 были под эгидой "Counter Strike". Всего на киберспортивных турнирах было разыграно более $160M. А ещё больше — впереди!

Finally, CS2

2023-09-27 18:54:34

Один из Meta AIs - Snoop Dogg в роли ⚡️Dungeon Master⚡️

Можно поиграть в текстовое приключение, где рэпер проведет вам по самым темным закоулкам вымышленного мира

2023-09-27 18:52:32

Дальше Mark рассказывал про AI, упомянул LLAMA-2, а затем перешёл к генеративной модели Emu. Она генерирует изображения в высоком разрешении и интегрирована сразу в несколько сервисов Meta. В WhatsApp можно генерировать стикеры (4 штуки на запрос, генерация занимает примерно 5 секунд), в Instagram появятся фильтры на основе текстового запроса (типа "перерисуй волосы на голове в макароны"). Пример работы можете посмотреть на приложенной гифке.

После этого перешли к Meta AI. Это бот в WhatsApp, с которым можно общаться на любые темы. В нём есть поддержка поиска Bing (Мелкомягкие подсуетились!), а также вызов генеративной модели Emu (нет, не DALL-E 3!). Бота можно добавлять в свои чаты, тегать и спрашивать. Теперь только так буду разрешать семейные конфликты:

@bot, кто прав, я или мать?????


Также Meta натренировала Meta AIs — те же боты, только со своими функциями и личностями. Один будет помогать вам готовить (и отыгрывать роль шэфа), другого всегда можно спросить совета по тренировкам, и так далее. Самое примечательное то, что разработчичкам дадут возможность самим делать AIs! Ждём плотной интеграции с бизнес-аккаунтами, где боты будут принимать ваши заказы и отвечать на отзывы.
Для AIs также генерируются аватары, и Mark пообещал, что через несколько месяцев у них появится голос! А ещё — их можно добавить в полумертвую метавселенную, чтобы они отыгрывали свою роль там. Короче, матрица: виртуальный мир, тебя окружают боты, эмулирующие реальных людей..

И последнее — показали next-gen очки RayBan, в которые встроенны камеры (как и раньше). Но теперь в очках живёт AI-ассистент Meta AI, к которому можно обращаться голосом! Он слышит то же самое, что и вы, а в следующем году начнёт еще и воспринимать видеоряд с камер! Получится почти то же самое, что и ChatGPT с недавним обновлением.
Лично мне очки очень напомнили Google Glasses (уже закрытый проект), однако с AI-ассистентом такой концепт легко обретает новую жизнь. Думаю, на горизонте 3 лет станет must have на уровне беспроводных наушников.

@seeallochnaya

2023-09-27 18:52:23

Посмотрел 3 первых выступления на конференции Meta Connect, где Zuckerberg и друзья рассказали про технологии. Раньше конференция называлась Oculus Connect (и всё было связано с виртуальной реальностью), но теперь сюда собирают множество технических 👴 направлений. Начнём всё же с гарнитуры:
— Quest 3 выходит 10го октября, $500 долларов за версию на 128GB, $650 за 512 + полугодовую подписку на игры;
— Основной упор в девайсе - на смешанную реальность. Помните презентацию Apple? Вот то же самое, только с двумя отличиями: нет провода к батарейке, а ещё можно в свою комнату расставлять виртуальные объекты, которые будут там оставаться навсегда. Некоторые из объектов, как я понял, могут быть "ярлыками на рабочем столе" — при взаимодействии с ними запускается соответствующее приложение;
— в Quest 3 теперь в два раза более мощный процессор, качество графики, трекинг и каждый другой компонент прокачали по полной;
— к сожалению, всё еще нет отслеживания глаз, поэтому делать оптимизацию рендеринга не получится(
— что ж, зато VR-гарнтирура стала сильно меньше (тоньше на 40%)!

Я абсолютно точно буду покупать, чтобы в путешествиях хотя бы в фитнес-игры играть, ну и в парочку хитов.

@seeallochnaya

2023-09-27 17:08:25

Пока ждём Meta Connect, на котором покажут новую гарнитуру виртуальной и дополненной реальности Oculus Quest 3 (начнётся через полчаса, вот ссылка на трансляцию)...там какая-то задержка, лол, а эмбарго на обзоры уже спало — можно посмотреть вот тут, что изменилось со времён Quest 2.

OpenAI наконец-то вернули Web-поиск для GPT-4 в браузерную версию. Обещают сегодня-завтра раскатить на всех Plus-пользователей.

При этом переход на сайты ограничен — специальный скрипт будет читать файл robots.txt, чтобы понять, разрешен ли парсинг для обработки языковой моделью.

Поисковик под капотом, конечно, Bing.

2023-09-27 00:17:03

По слухам из WSJ, OpenAI поднимает ещё один раунд инвестиций при оценке $80B-$90B (ранее в этом году было $29b).

По этому поводу принёс два мема.

OpenAI raising money at a $90B valuation:

UPD: блин сколько же это вычислительных мощностей..........

2023-09-26 17:16:09

Апдейт

1) Аккаунт Jimmy Apples в Twitter был удалён или забанен
2) в комментарии на Reddit к этой новости пришёл Sam Altman (по крайней мере комментарий с его аккаунта. Возможно, взломали, возможно, AGI ВЫБРАЛСЯ НАРУЖУ, И ИГРА НАЧИНАЕТСЯ)
3) Sam зарофлил:

agi has been achieved internally (EDIT obviously this is just memeing, y’all have no chill! when agi is achieved it will not be announced with a reddit comment…)


🤡

в то же время про ускорение таймлайнов и сливы касательно Arrakis/Gobi — если посмотреть тех. репорт по модели GPT-4v (с картинками), то там в ссылках на литературу можно заметить плейсхолдеры, которые забыли заменить...писали впопыхах? куда торопятся? релизнуть модель в 2024м?????)

Впервые увидел у Влада тут: https://t.me/dlinnlp/1678

2023-09-26 08:02:33

Вчера прошло незаметно на фоне анонса голосовых функций для ChatGPT, но шведская компания Spotify объявила, что запартнерилась с несколькими подкастерами для перевода их англоязычных выпусков на испанский с помощью нейросетей, а в ближайшие недели планирует выпустить переводы на французский и немецкий. Первая партия эпизодов уже доступна — можно слушать последние выпуски Dax Shepard, Monica Padman, Bill Simmons, Steven Bartlett и нашего любимого Lex Fridman.

Причём делается не только перевод и озвучка, но и полноценное копирование голоса и стиля (интонации) говорящего. Казалось бы, запартнерились со стартапом Heygen, про который я недавно писал, ан нет! Провайдер технологии — OpenAI

🤔! До этого не было известно, что у них есть инструмент для подобного. Возможно, используется та же модель, что и для ChatGPT (просто там голоса строго заданы, а не склонированы с подкастеров). А для перевода речи в текст используется старый добрый Whisper, выпущенный OpenAI весной 2022го года. Статей и каких-либо деталей по синтезу и клонированию голоса нет 🤕 ну и ладно.

А ещё из вот этого твита стало известно, что над моделью работал Alec Radford — один из самых первых и талантливых исследователей в OpenAI. Он был соавтором GPT (1-2-3-4, причём для первых двух — первым автором), но после 2021го как-то пропал с радаров. По его LinkedIn я даже подумал, что он покинул OpenAI, но нет, ещё трудится на благо AGI
🤗

2023-09-26 06:02:30

Anthropic решили следовать примеру OpenAI и сделали свой cookbook, в котором собирают примеры работы со своими моделями. И даже текстовый гайд написали, в котором тестируют одно из ключевых отличий от конкурентов — ширину контекстного окна (у Claude это 100'000 токенов).

А как такое тестировать? Ну, например, давать очень длинный кусок текста и задавать вопрос с вариантами ответа, а затем проверять, что модель выбирает правильный. Для этого делается следующее:
1) берётся ежедневно выпускаемый правительственный документ, который содержит стенограммы заседаний множества различных департаментов;
2) весь текст нарезается на маленькие кусочки;
3) к каждому куску Claude генерит вопросы с помощью специального промпта. Он содержит пару примеров (порядка 1500 токенов каждый) того, что ожидается, а затем инструкцию, которая адрессует некоторые из проблем генерации синтетических данных (более детализированный правильный ответ; не очень простые вопросы о мета-данных, вроде даты документа; вопросы, не связанные с контекстом). Все промпты выложены отдельным pdf-файлом;
4) затем куски склеиваются обратно случайным образом в контексты длины 70k и 95k токенов. Для каждого контекста мы знаем, ответы на какие вопросы он содержит
5) испытываем модель! Метрика — доля правильных ответов.
Всего собрали чуть меньше 400 вопросов, почти уверен, что их отсмотрели глазами и пофильтровали.

Замеряется две модели: Claude 2 и Claude Instant 1.2 (мелкая, дешёвая и быстрая). Для того, чтобы облегчить работу, используется два трюка в промпте перед генерацией ответа:
1) Извлечение 2-3 цитат, относящихся к вопросу, перед написанием ответа;
2) Дополнение промпта примерами правильно отвеченных вопросов по другим кускам контекста. Примеров дают 2 или 5.

Выводы следующие:
1) Claude Instant гораздо хуже отвечает на вопросы, ответы для которых содержатся в начале или середине контекстного окна (67%-79% против 87-92% для тех, что содержатся "в хвосте"). Двойка почти не страдает этим;
2) Claude 2 существенно лучше работает, даже без примеров и выписывания цитат показывает метрики выше, чем Instant — со всеми приседаниями;
3) Самый лучший результат 96-97%. Жаль не делается анализ ошибок, но в целом это указывает на то, что даже суперкрутые модели не делают работу на 100%. Нельзя от них ожидать абсолютной надёжности (хотя я уверен, что средний человек на задаче ответа на вопрос по 100+ страницам текста покажет себя хуже, лол!);
4) Выписывание полезных цитат перед ответом улучшает все модели во всех сравнениях. Запоминаем этот приём!
5) Добавление нерелевантных примеров в промпт не даёт улучшения качества;
6) Нет разницы, 2 или 5 примеров добавляется в промпт.

Отдельно отмечу, что поскольку модели лучше работают с тем, что написано в конце, то инструкция "прочитай и ответь на вопрос" вставляется не в начало, а в конец промпта! Вот это, думаю, многие упускают. Более подробно можно прочитать в документации (с примером).

2023-09-26 06:01:49

Метрики для сравнения, больше - лучше. Сверху более длинный контекст (95 тысяч токенов), снизу покороче (70k).

Scratchpad — это как раз выписывание цитат перед ответом.
Nongov examples — нерелевантные примеры ответов на общие вопросы.

2023-09-25 17:30:52

Всего неделю назад писал про лик информации о будущих планах OpenAI — там говорилось про модель Gobi.

Но оказывается в Твиттере есть человек, который предсказал это ещё 28го Апреля. Твит удалён, однако сохранилась архивная ссылка: тык. Этот же аккаунт за полторы недели до релиза GPT-4 (14го марта) писал 5го марта, что GPT-4 уже используется в Bing, а анонс будет через неделю или около того. И в тот же день назвал точную дату вместе с указанием на тот факт, что GPT-4 будет обрабатывать картинки.

В общем, пускаемся на территорию слухов и догадок. Этот же аккаунт написал 18го сентября, что — готовы? вдохните поглубже

😆 — "AGI has been achieved internally." Якобы в одной из лабораторий (Видимо, OpenAI?) достигли уровня технологии, который можно назвать AGI (хотя бы каким-то определением). Лично я в это не верю, скорее какая-то из компонент на каком-то бенчмарке показала себя сильно лучше, чем ожидалось — такое может быть.

Также этот аккаунт утверждает, что у OpenAI с весны идёт разработка модели под кодовым названием Arrakis (как планета со спайсом во вселенной Dune). Целевая дата релиза — 2025й год, но может быть из-за ускорения рисерча она будет релизнута где-то в 2024м.
——————
Помимо этого на Reddit есть аккаунт, который пишет в целом схожие вещи в похожем стиле, и как будто бы даже из той же страны (не понял, как узнали). Увидел вот тут, оригинал поста на LessWrong здесь. Что говорят:
— Arrakis уже существенно превосходит GPT-4 с точки зрения reasoning (рассуждение и логический вывод);
— это мультимодальная модель, которая умеет не только принимать, но и выдавать разные типы данных. В том числе умеет генерировать видео (лучше, чем Gen-2);
— Модель имеет около-экспертный уровень в большом наборе топиков, но пока не превосходит людей;
— Галлюцинации встречаются куда реже, чем у GPT-4, но всё еще не побеждены;
— Половина тренировочных данных — синтетические (то есть сгенерированные другими моделями);
— модель является очень хорошим автономным агентом, то есть ей можно поставить задачу, дать инструменты и ждать, пока задача выполнится.

В общем, такие вот слухи. Сам я не верю даже в 30% того, что описано, но чёрт его знает что там в этом вашем Deep Learning происходит. Поживём - увидим!

UPD: забыл добавить, что в истории с предсказаниями по GPT-4 много пробелов, много твитов удалено, странные вещи, так что этот пост скорее просто даёт помечтать. Ну и через годик вернуться-посмотреть :)

2023-09-25 14:01:41

Вместе с релизом, OpenAI публикуют GPT-4V(ision) System Card

Ссылка: https://cdn.openai.com/papers/GPTV_System_Card.pdf

Это не полноценная статья с объяснением, здесь, как и в случае с GPT-4, делается акцент на Safety и Evaluation. Пример того, на какие вопросы модель не отвечает, перед вами.

2023-09-25 12:24:54

OpenAI: ChatGPT теперь слушает, говорит и видит

Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем вы говорите.

Голос и изображение дают вам больше возможностей использовать LLM в вашей жизни. Сфотографируйте достопримечательность во время путешествия и поговорите с ChatGPT о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник, чтобы выяснить, что можно приготовить на ужин (и получите пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав учебник и попросив поделиться подсказками.

В течение следующих двух недель мы добавим эту функциональность в ChatGPT для пользователей Plus и Enterprise. Функицональность необходимо будет включить в настройках.

Прим.: из описания не ясно, но добавляется и генерация голоса. Модель сможет отвечать вам не текстом.

OpenAI говорят, что используют "new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech". Статей и анонсов пока не было. Качество можно оценить по ссылке.

Подача изображений на вход будет доступна и для 3.5-модели, не только 4ки.

2023-09-24 11:18:23

Вот само видео. Источник

Через год ждём повторение всех демок Boston Dynamics с прыжками и сальто, через два — выход первых роботов на заводы Tesla.

На самом деле скорее всего до сальто и прочего не дойдет: потому что это не нужно, а значит можно игнорировать и тем самым удешевлять процесс разработки.

2023-09-24 11:17:50

Пока вы (мы (я)) спали, Tesla выкатили полутораминутное демо-видео с своим роботом Optimus.

В нём показывается, как робот раскладывает детальки конструктора по цвету в 2 разные коробки, сортируя по цвету. Команда Tesla утверждает, что:
1) робот работает полностью на нейросети, без вручную запрограммированных эвристик;
2) то есть нейросеть получает на вход изображение с камер и положение конечностей, а предсказывает действия, которые необходимо осуществить (то есть подать ток на моторчики);
3) модель тренируется end-2-end, то есть на всей задаче целиком. Не нужно разбивать одну задачу на маленькие ("определи цвет", "возьми кубик", "поверни кубик", итд);
4) нейросеть работает внутри бота, а не в облаке. То есть вычислительные мощности зашиты внутрь, и робот получается автономным — главное чтобы батарейки хватило;
5) Senior Staff Engineer говорит, что "соберите больше данных, и мы сможем выучить новую сложную задачу, не меняя ни одной строчки кода!". В целом звучит круто, осталось понять, что это за данные. Симуляции? Или действия в реальном мире?
6) Также он пишет, что "его можно запромптить (как LLM?), в этом видео используется та же нейросеть для сортировки и перемешивания блоков, вы просто говорите ей, что хотите.". Если там есть текстовый интерфейс - это 🔥 (моя ставка что там не LLM, а цели задаются иначе);
7) у робота работают пальцы, он спокойно берет и переворачивает объекты. Мелкая моторика - сложная для программирования вещь, а тут её и делать не нужно, всё само;
8) в конце видео показывается, как хорошо робот балансирует - он встаёт в две йога-стойки и не падает.

Почему это круто? В чём отличие от нашумевших Boston Dynamics?
1) у BD всё программировалось вручную (по крайней мере последний раз когда я проверял, может за пару лет изменилось в корне), и поэтому сложно масштабировалось. Если ваш пёс умеет бегать и прыгать, то научить его ползать это очень сложная задача на год+ целой команде (цифра условная);
2) Тренировка end-2-end позволяет свести любую задачу к проблеме данных. Если у вас много качественных данных — проблема решена. И, как отметил инженер, перепрограммировать ничего не надо. Вероятно, тут он лукавит — Tesla показывали, что они используют виртуальные симуляторы, соответственно надо в них задать новую задачу, а потом просто запустить — и тогда бот разберется, что к чему;
3) прогресс ГОРАЗДО быстрее, чем у BD. Робот был анонсирован всего пару лет назад, а год назад еле ходил. BD были основаны в 1992 году (!), а гуманоидного Atlas показали в 2013м году. И за следующие 10 лет лишь немного улучшили его с точки зрения сложности поведения/действий — потому что всё это плохо масштбируется;
4) Tesla'ой рулит Elon Musk, человек, ориентированный на бизнес. Основная фишка - удешевление, ускорение и масштабирование производства. Это было с Tesla, это происходит в SpaceX. Если поставить производство ботов на поток, они будут очень дешевы, что позволит им конкурировать с рабочими на складах и в McDonalds. И на заводах Tesla, и на фабрике SpaceX на Марсе — тоже!
5) Правда не ясно зачем McDonalds, если такой же робот сможет готовить блюда как шеф с тремя звёздами Мишлен...

2023-09-22 09:58:39

С одной стороны возможности для Edtech'a, с другой — сделать мир лучше!

OpenAI в партнерстве с Tools Competition запускают долгосрочный конкурс "Learning Impact Prize" с призовым фондом более $5m. Его цель — стимулировать развитие технологий, чтобы удовлетворить растущие потребности учащихся во всем мире.

Всего есть 5 направлений, и каждое разбито на 3 подтрека:
— Catalyst Awards ($50k приз): для идей или продуктов на ранней стадии (если вы решили изменить мир вот только что, читая этот пост

👍);
— Growth Awards ($150k): для продуктов с небольшим количеством пользователей, на дальшейшее масштабирование;
— Transform Awards ($300k): для платформ с 10 000 или более пользователей.

Сами треки:
— Accelerating & Assessing Learning
 Preparing for the 21st Century World
— Instructional Coaching for Early Childhood Education
— Facilitating Learning Science Research
— Engaging Adult Learners in Higher Education

При клике на ссылку каждого трека вас ждёт подробное описание, а также примеры компаний/стартапов, которые уже решают схожие проблемы. Там же указаны предъявляемые к продукту требования.

Но самое интересное — то, что среди победителей каждого трека OpenAI дополнительно выберут до трёх участников, выделят им отдельно еще по $100k, $10k кредитов на API, а также возможность общения и поддержки командой OpenAI. Последнее, пожалуй, самое главное.

Можно возмутиться, мол, 100-200 тысяч долларов это не такие большие деньги, чтобы развивать компанию и прорывную идею. Но тут важнее признание и партнерство с OpenAI. Если к инвестору придёт фаундер и скажет "ну мы там выиграли конкурс от OpenAI и у нас теперь есть ещё и доступ к их инженерам" — почти наверняка денег отсыпят.

Податься со своей заявкой можно до 10го ноября 2023го года, дальше будет два этапа, и победителей определят в июне 2024го.

⬇️ Пишите в комментарии если у вас есть идея, или может даже целый продукт!

2023-09-21 21:52:42

Сегодня Microsoft провели презентацию, на которой представили крупное обновление для Windows 11 и ряда своих продуктов.

Нас больше всего интересует тесная интеграция чатбота ("Copilot") в саму операционную систему и сопутствующие приложения. Сразу остужу ваш интерес — никаких киллер-фичей представлено не было. Ничего такого, что не появлялось в виде стартапов или пет-проектов с момента релиза ChatGPT. Ключевая фишка в том, что суммарно тут и там, по сусекам поскребя, кумулятивно набирается "вау".

Да, не каждый день приходится лезть в настройки винды, чтобы поменять пару параметров. Но когда приходится — для неопытного пользователя это может на полчаса превратиться в пешее эротическое с гуглом в обнимку.

Да, не каждый день делаем презентацию или пишем текст, но многим по работе, по учёбе или просто так бывает нужно. То табличку из текста сверстать (в смысле извлечь необходимые сущности автоматом), то сделать сложную агрегацию в Excel. Всё это где-то на фоне и не меняет общего восприятия...пока ты не увидишь это у соседа/коллеги или не ощутишь магию сам.

Да, не каждый день приходится читать цепочку писем и давать на неё быстрый ответ а нет, погодите, это как раз мой юзкейс, кек.

Да, не каждый день надо в фотошопе что-то быстро закрасить или пририсовать, но ведь иногда нужно и мем склепать? А теперь это можно делать текстом (и интеграция DALL-E 3 уже заявлена, прямо с релиза!)

В общем, глубина интеграции технологии генеративного AI пока не настолько велика, чтобы перевернуть мир, но это послужит хорошим началом. Microsoft начнёт собирать тьмищу данных, позволяющих получить условную GPT-5, которая потенциально потянет на революцию. Apple может начать проигрывать гонку, и как-то придётся объяснять юзерам, почему они не могут сказать Siri найти вооон то письмо с билетами годовой давности и проверить возврат на карту.

Но если откинуть внутреннего критика, вернуться мысленно на года 3 назад и посмотреть на новые фичи - можно подумать, что показывают компьютер Тони Старка с мегакрутым AI.

Анонс 1
Анонс 2

2023-09-20 17:43:15

OpenAI: модель теперь лучше рисует лица и руки
Лица и руки:


P.S.: интересное замечание, ни на одном примере генрации нет фотореалистичного изображения, и почти нет людей (все - нарисованные). Хмм...

2023-09-20 17:22:38

В честь праздника на канале OpenAI решили выпустить DALL-E 3

https://openai.com/dall-e-3

Теперь модель понимает значительно больше нюансов и деталей, чем предыдущие системы, что позволяет вам легко воплощать ваши идеи в исключительно точные изображения.

На фото результат генерации по запросу
> An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within. The quote 'Find the universe within you' is etched in bold letters across the horizon.

Статьи нет, так что другим исследователям придётся крутиться самостоятельно!

Обещают плотную интеграцию с ChatGPT. Как минимум в виде плагина (в октябре). Но ещё есть интересная заметка:
> Будучи запромпченной, ChatGPT автоматически создаст индивидуальные и более детальные промпты для DALL·E 3, которые воплотят вашу идею в жизнь. Если вам нравится определенное изображение, но оно не совсем подходящее, вы можете попросить ChatGPT внести изменения всего несколькими словами.
> DALL·E 3 is built natively on ChatGPT


Пошёл генерить новую аватарку для канала

🙂

DALL·E 3 сейчас находится на стадии предварительной версии (доступно для исследователей), а всем будет доступен в октябре через API и подписку на ChatGPT.

2023-09-20 16:14:29

Here's to 25 more 🫡

2023-09-19 18:00:21

Кто жаловался на то, что сейчас проблемы с рекрутментом? Принёс вам новость: Neuralink набирает кандидатов...для операции по имплантации чипов в голову (звучит как киберпанк конечно).

Как я писал ранее в канале, они уже получили одобрение в США, ведь там просто так нельзя взять и что-то начать делать.

Целью исследования является оценка безопасности их имплантата (N1) и хирургического робота, который и будет осуществлять оперцию (R1), а также первоначальная функциональность brain-computer interface (BCI), позволяющая людям с параличом управлять внешними устройствами силой мысли.

Узнать больше можно тут.

2023-09-19 14:38:54

Anthropic опубликовали Политику ответственного масштабирования (Responsible Scaling Policy, RSP) — серию технических и организационных протоколов, которые они принимают для того, чтобы помочь управлять рисками, связанными с разработкой все более эффективных систем искусственного интеллекта.

"Мы считаем, что по мере того, как модели ИИ становятся более функциональными, они создадут большую экономическую и социальную ценность, но также будут представлять все более серьезные риски."

RSP определяет «Уровни безопасности искусственного интеллекта» (AI Safety Levels, ASL) для работы с потенциальными катастрофическиим рисками, которые по формату аналогичны стандартам уровней биобезопасности (BSL) правительства США для обращения с опасными биологическими материалами.

Потенциально выделяется 5 уровней систем, ниже дам очень сокращенное описание:
— ASL-1 относится к системам, которые не представляют значимого катастрофического риска, например, LLM 2018 года или система искусственного интеллекта, которая играет только в шахматы; — ASL-2 относится к системам, которые проявляют ранние признаки опасных возможностей – например, способность давать инструкции о том, как создавать биологическое оружие – но где информация еще не является полезной из-за недостаточной надежности или отсутствия информации, которая, например, поисковая система не смогла обнаружить в силу своей несовершенности. Нынешние LLM, включая Claude-2 и GPT-4, скорее всего, имеют этот уровень;
— ASL-3 относится к системам, которые существенно увеличивают риск катастрофического или неправильного использования по сравнению с базовыми системами, не связанными с ИИ (например, поисковыми системами или учебниками), ИЛИ которые демонстрируют автономные возможности низкого уровня. Потенциально это GPT-5 в обёртке AI-агента с неконтролируемым доступом в интернет;
— Уровни ASL-4 и выше (ASL-5+) еще не определены, поскольку они слишком далеки от нынешних систем, но, вероятно, их разработка повлечет за собой качественное увеличение потенциала катастрофического злоупотребления подобными системами.

Весь RSP следует рассматривать как аналог предварительных испытаний и разработки систем безопасности, проводимых в автомобильной или авиационной промышленности, где цель состоит в том, чтобы точно продемонстрировать безопасность продукта до его выпуска на рынок, что в конечном итоге приносит пользу потребителям (ну, кроме случая с Boeing 737 MAX, да?).

Анонс тут
22-страничная policy доступна здесь

Жду подобного от OpenAI

👁

2023-09-19 12:56:34

Плохие новости для OpenAI и Microsoft Bing

Я обычно не люблю писать такие заголовки, однако повод серьёзный. Google внедрили в своего ассистента Bard интеграцию с большим количеством своих продуктов: Gmail, YouTube (судя по демо — модели доступны транскрипты видео), Google Docs, Drive, Maps, Hotels, Flights и другими менее известными.

Называется это Bard Extensions

Интереснее всего взглянуть на предлагаемые в анонсирующем ролике способы применения:
— суммаризуй все недавние письма от X
— дай мне шаблон для речи шафера и покажи примеры видео для вдохновления
— (добавляет картинку) вот детское кресло, которое я недавно купил, покажи видео с инструкцией по установке в машину
— напомни, когда X предлагал мне Y? (ответ в виде извлекаемых из писем дат. Правда...кто ведет личные переписки в почте?)
— и фоллоу-ап вопрос к прошлому: покажи мне билеты на эти даты и близлежащие отели (подразумевается ответ с учётом предыдущего контекста)
— и ещё составь план на каждый день и расскажи, что собрать с собой

В целом, кажется ничего сильно продвинутого относительно GPT-4 с доступом к плагину поиска в интернете. Вопрос в том, насколько много данных у Google, чтобы дообучить модель очень хорошо работать с персональными данными, а также делать вызовы нескольких разных сервисов за раз.

А ещё прокачали опцию перепроверки каких-то фактов в Google — надо нажать на кнопочку снизу от ответа, после чего бот сам погуглит, и какие-то куски выделит желтым или зелёным, в зависимости от того, находит ли информация подтверждение!

Анонс

Попробовать можно на bard.google.com (доступно российским аккаунтам).

2023-09-19 10:01:46

Теперь модель сможет отвечать на вопросы про NFT 😀