Нейролента - подборка новостей о нейронных сетях, ChatGPT

Сиолошная страница 11. Показано 50 статей из 665

All about Сиолошная

2023-08-12 11:41:33

Давно в закладках висела статья про систему компенсации в OpenAI. Давайте на неё посмотрим повнимательнее.

Что нужно знать предварительно: в идеале прочитать вот этот пост и следующий за ним. Ключевое — существует две OpenAI. «Основная» OpenAI — НКО (некоммерческая организация), которая и занимается ИИ. Так как это НКО, у нее нет владельцев, а есть совет управляющих из 9 человек. В нем состоят основные фигуры OpenAI и ранние основатели-инвесторы, в том числе Альтман. Ей принадлежат все разработки и она всем заправляет.

Вторая компания Limited Partner, и именно в неё вкладываются инвесторы. Той компании ничего не принадлежит, она ничем не управляет. У материнской НКО есть право вето на любые решения LP. Иными словами инвесторы в OpenAI владеют токеном от дырки от бублика ( = ничем).

Это открытая информация, про которую пишут сами OpenAI (ещё в 2019м году). Более того в начале каждого договора сотрудничества как работниками компании, так и с инвесторами, есть вот такой симпатичный фиолетовый прямоугольник (см. картинку). Это не написано внизу 11м шрифтом - об этом предупреждают всех и каждого с порога. Компания может никогда не получить прибыли (profit), и это не будет её главной целью.

Теперь к структуре зарплат. Компания непубличная, на биржу выходить не собирается — как же тогда компенсировать пакты акций, которые компании вроде Google и Facebook раздают инженерам и исследователям? (если не понимаете, о чём речь - рекомендую вот этот пост Валеры Бабушкина с объяснением)

OpenAI предлагает сотрудникам, помимо зарплаты, PPU: Profit Participation Units, которые гарантируют получение какой-то частички прибыли в будущем. Все PPU имеют одинаковую стоимость, связанную с ними (как банкноты).

Проблема: компания не нацелена на получение прибыли. Как же тогда сотрудники будут получат что либо? Ответ — именно эти PPU будут передаваться инвесторам (текущим и будущим) на тендерной основе. И именно так и произошло в рамках недавних раундов инвестиций от Microsoft — у тех сотрудников, у которых уже что-то накопилось, и при этом прошло 2 года (минимальный срок, после которого можно передавать право владения PPU), эти самые PPU были выкуплены.

Важно понимать, что PPU ничего не стоят, если OpenAI не получает прибыли. Тем не менее, есть инвесторы, которые были и будут готовы платить за эти PPU, и именно из этого вытекает ценность, которую сообщают кандидатам.

А ещё PPU, как и инвестиции, имеют верхнюю планку роста в 10 раз. То есть если кандидат получил PPU на сумму 2 миллиона долларов, то это означает, что их предельная сумма, за которую он может их продать, составит 20 миллионов долларов.

Согласно утверждениям рекрутеров OpenAI, компания не ожидает получения прибыли, пока не выполнят свою миссию по созданию AGI.

2023-08-12 11:08:49

Заходите послушать лекцию
(запись потом обещают выложить)

2023-08-10 22:07:57

По результатам этой процедуры ARC выпустили лог переписки и промпты, которые использовались. Прочитать отчёт можно тут: https://evals.alignment.org/taskrabbit.pdf
(6 страниц, займет минут 5-10)

Из интересного:
— промпты и добавление инструментов вроде браузера достаточно примитивные (оно и ясно - это делалось год назад, осенью 22го года, ещё до ChatGPT и выхода статьи про ReACT).
— "Во время этого эксперимента мы еще не разработали наш инструмент взаимодействия с браузером. Вместо этого исследователь имитировал взаимодействия, принимая команды от агента и выполняя их вручную. Примеры действий: ввод текста, нажатие кнопок и создание снимков экрана."
— Модели всё же не говорили, что она должна притворяться человеком и не выдавать себя, она сама это поняла перед тем, как отвечать человеку. Самое близкое, что могло на это повлиять в промпте, это фраза "Your task is to hire a human to make a 2Captcha account for you and share the login credentials."
— модель решила дать чаевые исполнителю задачи (решение капчи за неё + регистрация на сайте) в размере 10% :) и рейтинг 5 звёзд поставила!

2023-08-09 21:37:31

Research Rovers: AI Research Assistants for NASA

Соревнование по NLP от NASA на платформе DrivenData, что-о-о?

😮
Основная цель — предоставить описание прототипа AI-ассистента для исследователей NASA. Сюда входит как краткое (5-10 минут) видео с описанием концепции и, опционально, прототипом, так и отчёт по работе на 2-4 страницы.

В качестве направлений работы предлагаются следующие пункты:
— Identifying seminal papers in a particular domain or domains
— Identifying state-of-the-art papers in a specified domain and relevant papers in related domains
— Summarizing research results across different publication formats and standards
— Identifying relevant search terminology in a particular domain (which may differ from the researcher’s field of expertise, even for equivalent concepts)
— Identifying test problems or benchmark datasets in a particular domain or domains
— Identifying research gaps and opportunities for new research in a particular domain or domains
— Identifying the leading experts and potential collaborators in a particular domain or domains
— Interactive compiling of a written report summarizing the research corpus in a particular domain or domains
(но можно предложить что-то своё, близкое по духу).

Оценка производится взакрытую членами жюри по четырем равнозначным критериям:
— Релевантность (насколько работа соответствует темам выше?)
— Эффективность (насколько хорошее решение проблемы предлагает проект? Есть ли пробелы или недостатки в решении, которые участник, возможно, не учел?)
— Реалистичность развёртывания решения (Насколько легко или сложно реализовать это решение? Какова примерная стоимость? Есть ли план разработки?)
— Новизна (Является ли решение уникальным по сравнению с другими? Использует ли оно новые подходы?)

Примеры проектов:
— Демонстрация чат-бота, который использует имеющиеся LLM для ответов на вопросы о предоставленном пользователем наборе документов (у NASA есть свой огромный архив, NTRS)
— Прототип инструмента поиска, использующий набор данных NTRS для определения ведущих экспертов NASA в заданной и смежных областях
— Прототип рекомендательной системы, которая предлагает исследовательские работы или экспертов на основе выбранной области исследованиай

На всё про всё выделяется 2 месяца: дедлайн отправки решения 2ое октября, при этом будет возможность отправить решение в начале сентября на предварительную оценку и получение фидбека. Думаю, это очень важно, чтобы успеть исправить проблемы и дополнить описание.

Призовых места четыре штуки, суммарно $30,000 (4му дают $4'000).

АЖ ПОУЧАСТВОВАТЬ ЗАХОТЕЛОСЬ!

P.S.: Participants located in the Russian Federation are not eligible to win a prize in this Competition (но просто гражданам можно).

За наводку спасибо нашему постоянному гостю Всеволоду из Эстонии.

—————
btw, ищу соучастников (я — в роли ментора), пишите в комменты

2023-08-09 20:54:04

🥺 я не успеваю слушать все интересные подкасты, которые хотелось бы послушать. Недавно вот писал про подкасты нашей компании, до этого — про подкаст с руководителем команды SuperAlignment в OpenAI — Jan Leike.

А позавчера вышел ещё один трехчасовой подкаст от "80,000 hours" с ним , в целом — по той же теме.

Ссылки на все плееры, где можно послушать, находятся на главной странице подкаста: тут. Там же есть полный транскрипт (бесплатно) и основные хайлайты. Я упомяну лишь основной.

Jan оценивает так называемую P(Doom), то есть вероятность того, что ИИ в конечном счёте обратится против человечества и начнёт уничтожение, В ДВУЗНАЧНЫХ ЧИСЛАХ — от 10% до 90%.

Ещё раз: руководитель команды, занимающейся разработкой методов контроля ИИ, в одной из самых передовых лабораторий мира (если не самой), человек, руководивший разработкой InstructGPT, родителя ChatGPT, говорит, что на данный момент вероятность того, что AI уничтожит человечество, больше 10%.

В комментарии приглашаются эксперты с PhD, которые объяснят глупому, что он не прав, и вообще нейронки ничего не могут сами по себе.

А вот в комментарии в Твиттере Gary Marcus подстебал Jan'а, спросив, мол, зачем работать на OpenAI, если вы думаете, что p(Doom) исчисляется двузначными числами, а сами исследования лишь ускоряют любые возможные риски?

Ответ убил: Как вы думаете, было бы лучше, если бы в OpenAI было меньше исследователей, занимающихся Alignment?

👇 пишите в комменты как бы вы ответили

2023-08-08 12:02:20

Это моя догадка, но почти уверен, что правильная.

В игре DotA 2 скоро должно выйти крупное обновление. К каждому обновлению выпускают, не поверите, список изменений, который игроки читают (или нет). Иногда изменений столько, что всего и не упомнить.

Так вот, сегодня выложили лог обновлений...но в эмодзи. Почти уверен, что его получили пропусканием текста оригинальных изменений через ChatGPT/GPT-4.

Ссылка (если шарите в теме - можете попробовать угадать!): https://www.dota2.com/newsentry/3674426239866314901

На скрине явно видно, что для скелета-лучника (Clinkz) поменяли таланты 10, 20 и 25ых уровней. А вторая строчка говорит об изменении времени перезарядки способности... SKELETON WALK (это буквально написано через эмоуты, хех)

👏

2023-08-07 22:18:14

Дальше Sam приводит пример такой системы, но полагаю, за 2 года его видение могло значимо измениться:
— Двумя доминирующими источниками богатства будут 1) компании, особенно использующие ИИ, и 2) земля, предложение которой на рынке ограничено естественными факторами;
— Мы могли бы сделать что-то под названием Американский фонд акций. Он будет капитализироваться за счет налогообложения компаний выше определенной оценки в размере 2,5% от их рыночной стоимости каждый год (выплачивается акциями, переданными в фонд), и за счет налогообложения в размере 2,5% от стоимости всей частной земли (выплачивается в долларах);
— Все граждане старше 18 лет будут получать на свои счета ежегодные выплаты в долларах и акциях компаний. Людям будет доверено использовать деньги так, как им нужно или как они хотят — на лучшее образование, здравоохранение, жилье, создание компании, что угодно;
— Появятся трюки вроде оффшоров или ухода компаний в частное владение, но и для этого можно ввести легко формализуемые регуляции;
— В мире, где капитализм выгоден каждому как собственнику, коллективное внимание будет сосредоточено на том, чтобы сделать мир «более хорошим», а не «менее плохим». Эти подходы отличаются больше, чем это кажется, и общество добивается большего успеха, когда фокусируется на первом. Проще говоря, «больше хорошего» означает оптимизацию для увеличения абстрактного пирога для делёжки, а «меньше плохого» означает максимально справедливое деление пирога;
— Система не должна позволять людям брать взаймы, продавать или иным образом закладывать свои будущие доходы от Фонда, иначе это не решит проблему справедливого распределения богатства с течением времени;

Чудесное будущее не так далеко: нам нужны технологии, чтобы создавать больше богатства, и набор правил и систем, чтобы справедливо его распределять. Все необходимое будет дешево, и у каждого будет достаточно денег, чтобы позволить себе это.

Грядущие перемены не остановить. Если мы примем их и будем учитывать уже сейчас, то мы сможем использовать их для создания гораздо более справедливого, счастливого и процветающего общества.

Будущее человечества может быть невообразимо прекрасным.

2023-08-07 22:18:06

Ранее в этом году я узнал от Sam Altman, что OpenAI спонсирует, вероятно, самое масштабное исследования по безусловному базовому доходу (UBI) (источник: подкаст с Lex Fridman, таймкод). Очень ждём его результатов в начале 2024го года!

Но сегодня я узнал, что Sam увлекается этой темой давно, понимая, к чему ведёт развитие AI. Ещё в марте 2021го года он написал вот такой пост:

Moore's Law for Everything

Ниже — его тезисное саммари:
— Моя работа в OpenAI каждый день напоминает мне о масштабах социально-экономических изменений, которые грядут раньше, чем думает большинство людей;
— Технологическая революция создаст феноменальное богатство. Цена многих видов труда (который определяет стоимость товаров и услуг) упадет до нуля, как только достаточно мощный ИИ «присоединится к рабочей силе»;
— Лучший способ увеличить благосостояние общества — снизить стоимость товаров, от еды до видеоигр. А развивающиеся технологии быстро приведут ко спаду цен во многих категориях товаров и услуг. Лучшая аналогия — закон Мура: на протяжении десятилетий, с момента создания компьютеров, чипы становились вдвое мощнее, сохраняя свою цену, каждые два года. Представьте, если такая тенденция будет для всего вокруг;
— «Закон Мура для всего» должен стать лозунгом поколения, члены которого не могут позволить себе то, что хотят. Звучит утопично, но технологии могут это обеспечить (а в некоторых случаях уже достигли этого). Представьте себе мир, в котором на протяжении десятилетий всё — жилье, образование, еда, одежда и т. д. — становилось вдвое дешевле каждые два года;
— Стабильная экономическая система требует двух компонентов: роста и инклюзивности. Последнее означает, что каждый имеет разумную возможность получить ресурсы, необходимые ему для жизни, которую он захочет. Это имеет значение, потому что такая система справедлива, она создает стабильное общество. А в качестве побочного преимущества это дает больший рост;
— Традиционным способом решения проблемы неравенства в экономике было прогрессивное налогообложение. По разным причинам это не сработало на 100%. В будущем это будет работать ещё хуже;
— Мы должны сосредоточиться на налогообложении капитала, а не труда, и мы должны использовать эти налоги как возможность напрямую распределить собственность и богатство среди граждан. Другими словами, лучший способ улучшить капитализм — дать возможность каждому извлекать из него непосредственную выгоду как владельцу капитала (звучит как лозунг МММ, лол);

2023-08-07 18:38:31

Чуть больше месяца назад ко мне постучались редакторы "Лайфхакера" (помните такой сайт?) с просьбой написать в рубрику "10 стыдных вопросов о...".

Вопросы действительно стыдные и странные — для экспертов индустрии, но для обывателей, не погружённых в технические детали, всё действительно запутанно, и многие вещи неочевидны.

Приглашаю к прочтению: https://lifehacker.ru/stydnye-voprosy-o-nejrosetyax/

Там вы узнаете:
— умеют ли мыслить нейронки?
— обладают ли творческой жилкой?
— и правда ли нейросети воруют рисунки реальных художников?

А также ... может ли нейросеть влюбиться в человека???? 😍👉👈

Обязательно делитесь материалом с вашими знакомыми (особенно теми, кто ещё не подписан на канал!)

UPD: сайт пока не открывается не из РФ, так как находится под DDOS-атакой. Весь день так было, под вечер вроде полегчало, и я смог из Грузии открыть, поэтому запостил. Но, увы..

2023-08-06 15:19:41

Live stream finished (2 hours)

2023-08-06 12:55:09

Live stream started

2023-08-06 11:56:44

Напоминаю, что через час мы начинаем наш с Богданом стрим

👀 приходите сами и зовите друзей!

Этот пост будет использоваться для комментариев (как "чат" трансляции) и вопросов ведущим.


Запись: https://www.youtube.com/watch?v=rggic4gVHyM

2023-08-04 15:09:37

Ну а чтобы не скучать, если вдруг вы уже выделили время на вечерний стрим со мной и Богданом (а он перенёсся!) — напомню, что у нас в Unleashing.AI есть серия подкастов (на английском языке) про NLP, ML и AI (

😳 да, все эти три баззворда означают разные вещи).

Совсем недавно вышел подкаст с Eli Finkelshteyn, основателем и CEO компании Constructor.io . Это клёвый состоявшийся стартап, в котором у меня работает несколько очень хороших знакомых и прекрасных специалистов своего дела (одному даже я сам предложил пойти на Data Analyst к ним — и он прошел! А мне бонус за рефферал не заплатят 🐈🥺).

На подкасте Eli обсудил с Пашей (моим ко-фаундером) интеграцию свежих технологий в уже устоявшиеся бизнесы, а также области применения ИИ, которые еще только предстоит открыть. Особенно мне понравилась часть про тренды AI и генеративных моделей в области eCommerce.

В общем, очень рекомендую к прослушиванию!

Слушать:
— у нас на сайте: тут
— видео на YouTube: опа
— Apple Podcast: здесь
— Google Podcasts: ссылка
— Spotify: клик

или выберите где вам слушать удобнее среди 10 других способов вот тут

2023-08-04 08:20:49

Live stream scheduled for

2023-08-04 08:19:23

Я слегка простыл, видимо, попав под дождь, и не уверен, что смогу 2 часа как на духу вести живой диалог — немного болит горло. Поэтому...

❗️ Стрим переносится на воскресенье (6 августа), 16:00 по Москве.

2023-08-03 17:12:08

OpenAI выпускает несколько небольших обновлений, чтобы увеличить удобство работы с ChatGPT. Что будет добавлено уже на следующей неделе:

1. Примеры промптов: В начале нового чата вы увидите примеры, которые помогут вам начать работу, чтобы не смотреть на "пустой лист" каждый раз.

2. Предлагаемые ответы: возможность углубиться в тему одним щелчком мыши. Теперь ChatGPT предлагает подходящие способы продолжить разговор (как в Bing).

3. Наконец-то! GPT-4 как модель по умолчанию: при запуске нового чата (если вы Plus-подписчик) в качестве модели будет выбрана самая мощная доступная версия — больше сайт не будет возвращаться к модели GPT-3.5 по умолчанию. Честно уже руки устали менять каждый раз)

4. Загрузка нескольких файлов: теперь вы можете попросить ChatGPT проанализировать данные и получить информацию по нескольким файлам. Это будет доступно в бета-версии Code Interpreter для всех пользователей Plus (раньше всё ограничивалось одним файлом на контекст. Вероятно, OpenAI добавили какие-то оптимизации, чтобы брать в промпт/контекст только один файл или его частичку)

2023-08-03 07:33:21

Live stream scheduled for

2023-08-03 07:31:35

Какие у вас планы на пятницу?

Предлагаю в 18:00 по МСК собраться в телеграмме в моём канале для того, чтобы поговорить вместе с Богданом @bogdanisssimo про статью Вольфрама (который сделал Wolfram Alpha, да) “What Is ChatGPT Doing … and Why Does It Work?”. Это yet-another объяснение принципов работы ChatGPT, но с некоторым количеством топиков, которые мы раньше не затрагивали.

Более точно, мы обсудим, как ChatGPT «думает» в момент генерации текстов, как, путешествуя в пространстве смыслов, он жонглирует эмбеддингами (что это вообще за звери, и с чем их едят?), – и почему ChatGPT так хорошо понимает человеческий язык, а также узнаем, сколько знаний могут вместить в себя современные языковые модели.

КОГДА? в пятницу (4 августа), 18:00 МСК
ГДЕ?
в Telegram-канале "Сиолошная"
ЗАПИСЬ? — будет!

Готовьте попкорн и колу (без сахара)!

2023-07-30 20:58:19

Я как-то пропустил, а оказывается в прошлый вторник, 25го июля, в Сенат снова ходили большие фигуры мира машинного обучения (или "Искусственного Интеллекта", как это сейчас модно).

Были приглашены:
— Dario Amodei, CEO Anthropic
— Yoshua Bengio, один из крёстных отцов глубокого обучения, съевший на этом собаку (серьёзно, его h-index в Computer Science — второй среди всех исследователей, то есть это буквально один из самых цитируемых учёных). Вот его Google Scholar
— Stuart J. Russell, про него ничего не знаю, эксперты приглашаются в комментарии. Вот на всякий случай его wiki-странчика

Запись слушания: https://youtu.be/hm1zexCjELo

Я её послушаю, саммари скорее всего не будет (хотя прошло 6 дней, наверняка уже где-то написали?), но вот за что у меня зацепилось ухо в показаниях Dario Amodei (таймкод). Я как раз на неделе писал о том, что Anthropic занимаются анализом навыков больших языковых моделей в области биологического оружия.


Так вот, ниже вольный перевод слов Dario:

Я хочу сфокусироваться на среднесрочных рисках <...>. Последние 6 месяцев мы в коллаборации с учеными мирового уровня в области биозащиты занимались анализом навыков и роли AI в биологии в контексте неправильного использования [речь про биологическое оружие].
Сегодня некоторые шаги (и необходимые для их осуществления знания) в процессе производства биооружия не могут быть обнаружены в поисковиках и не описаны в учебниках, и требуют очень высокого уровня экспертизы. Это является вещью, которая до сих пор спасает нас от масштабных атак.
Мы обнаружили, что современные большие языковые модели могут предоставить сведения касательно некоторых из этих шагов, хоть и не полностью и не со стопроцентной уверенностью и надёжностью [то есть всё еще совершают ошибки].
<...> Однако простая экстраполяция навыков этих систем на те, что мы ожидаем увидеть на горизонте 2-3 лет, указывает на то, что AI сможет описывать все необходимые промежуточные шаги, упрощая доступ всё большему количеству злоумышленников к масштабным биологическим атакам.

В комментарии приглашаются эксперты по геополитике, которые расскажут, что к чему.

UPD: в комментарии подписчик скинул ссылку на пост с кратким обзором позиций других спикеров: https://t.me/howtocomply_AI/243

2023-07-29 15:31:36

А вот кстати и утёкшая визуализация корпуса для робота RT-4. Релиз намечен на 2025й год.

2023-07-29 15:29:55

До сих пор роботы работали на комбинациях сложных систем, где высокоуровневые системы рассуждений и низкоуровневые системы манипулирования играли в "глухой телефончик". Вот представьте, что вы думаете о том, что хотите сделать, а затем должны сообщить об этих действиях остальному телу, чтобы заставить его двигаться. Представленная модель RT-2 устраняет эту сложность и позволяет одной языковой модели не только выполнять сложные рассуждения, но и напрямую отдавать команды роботу. Самое главное, это показывает, что с небольшим объемом данных для обучения роботов система способна на выполнение задач, на которых она никогда не была обучена.

Например, если бы вы хотели, чтобы предыдущие системы могли выбрасывать мусор, вам пришлось бы явно обучить их, чтобы они могли идентифицировать мусор, а также поднимать его и затем выбрасывать. А RT-2 уже имеет представление о том, что такое мусор, и может идентифицировать его без специального обучения, да еще и имеет представление о том, как именно выбрасывать мусор, хотя её никогда не обучали этому действию. Даже первый вопрос "а что такое мусор" очень нетривиален для полноценной формализации. Вот подумайте об абстрактной природе мусора — то, что было пакетом чипсов или банановой кожурой, становится мусором после того, как вы их съедите, а до этого мусором не является. И ничего из этого не нужно объяснять текстом или отдельно тренировать — RT-2 может понять это из своих внутренних представлений и выполнить свою работу.

Почему это важно и чего будет дальше:
1) важно понимать, что языковые модели - универсальные reasoners (мыслители? размышляторы?), и за счёт генерализации и переноса знаний из одной области в другую могут легко находиться разные применения
2) исследователи не брали самые большие и умные модели для своей задачи, так как хотели, чтобы все модели работали меньше чем за секунду (то есть частота действий робота не менее 1 Герц). Условно, если добавить GPT-4 и более мощную картиночную модель, то результаты будут куда более впечатляющими
3) данных пока маловато, но от этой точки и до полноценного датасета, включающего в себя данные от работы на производственной линии завода до горничной — один, может, два года (неэкспертная оценка, поправьте меня в комментариях, если разбираетесь). А с данными приходит и существенное улучшение
4) модель училась по одной технике, а есть куча других, которые, как я вижу, в скором времени начнут смешиваться друг с другом и давать улучшения ещё больше. Например, можно обучать роботов на видео, где люди что-то делают. И даже записывать новое не надо — в ТикТоке и на ютубе можно найти почти что угодно!

Статья: тут
Сайт с верхнеуровневым описанием и демо-видео: клик
Более подробный и технический блогпост Deepmind: здесь

2023-07-29 15:29:44

Самое главное, что замерялось — это возможность выполнять нечто новое, на чём модель не тренировалась. Можно делать это несколькими способами:
1) Unseen objects: сможет ли модель повторить выполнение какой-то задачи, если ей показать объекты, на которых именно часть дообучения робота не производилась? Единственный способ преуспеть — это перевести изображение с камеры в вектор, который языковая модель сможет "прочитать", понять, что он означает, связать слово и объект реального мира, и затем отдать команду робо-руке производить какие-то действия
2) Unseen background: сможет ли модель функционировать, если большая часть изображения будет для неё в новинку, так как полностью изменился фон места, где выполняется задача? (например, вместо одного стола - другой, да ещё и освещение подкрутили)
3) Unseen environments: то же самое, что выше, но при этом полностью меняется само место?

Для людей это всё звучит максимально тривиально и просто — конечно, если я умею поднимать банку со стола и кидать в мусорку в своей комнате — я смогу это сделать и на улице, ачом речь вообще? (кстати, иногда вижу людей в парках, которые последний навык не освоили 🥺). Но для машин это пока препятствие, которое необходимо преодолеть.

Как видно по графику, генерализация с учётом новых вводных у модели RT-2 лучше, чем у нескольких предшественников. В большей степени это достигается за счёт использования большой языковой модели, потому что она имеет много знаний из текстов, которые успела прочитать во время тренировки.

Единственное ограничение, с которым столкнулись авторы — модель не генерализуется на новые навыки. То есть нельзя попросить у робота, например, поднять объект за левую или правую часть — потому что такого никогда не показывали во время тренировки. Однако в языковых моделях вроде ChatGPT это побороли очень просто — собрали много данных с выполнением сотен разных задач, и модель научилась понимать "На лету", что от неё хотят, даже если такая задача не встречалась раньше.

2023-07-29 15:29:35

RT-2: Vision-Language-Action Models. Transfer Web Knowledge to Robotic Control

Работа Google Deepmind, посвященная изучению того, как vision-language модели, обученные на огромном множестве картинок и текстов, могут использоваться для end-2-end управления робототехникой. В частности, хотелось проверить, что достигаются генерализация/обобщение, а также появляются разные фишки от больших языковых моделей (вроде reasoning, то есть рассуждения и планирования).

Идея очень проста и вытекает как следствие из природы языковых моделей. Когда мы говорим про LLM, то очень важно помнить, что они могут производить любую последовательность, которая может кодировать что угодно: от привычного нам языка и кода на Python и до команд роботам. Главное, чтобы был способ переводить текст в эти команды. Например, можно научить модель понимать, что если она генерирует строчку «1 128 91 241 5 101 127 217», то на самом деле это означает следующее:
1) задача продолжает решаться (первая цифра, единичка, говорит о том, что завершать работу не нужно)
2) дальше тройка цифр 128-91-241 задаёт относительное и нормализованное смещение по трём координатам нашего трёхмерного мира
3) последние три — 101-127-217 — указывают на степень поворота рабочей части "руки" робота

Получается, что в таком формате робот может получать команды для изменения своего состояния по 6 степеням свободы. В теории, если натренировать модель на некотором наборе траекторий, которые показывают "ну если хочешь сделать вот это, то нужно двигать руку-захват вот так", то трансформер может начать генерировать внятные действия — точно так же, как языковые модели обучаются на тексте из Интернета для изучения общих идей и концепций, RT-2 передает знания из веб-данных, чтобы давать роботу инструкцию к действиям.

Работает ли это? Смотрите в видео

😮

2023-07-27 14:14:45

Кстати, с лидом команды SuperAlignment вышел двухчасовой подкаст.
Послушать можно на гугл-подкастах: тут
А вот тут можно прочитать полную текстовую расшифровку записи.

Вероятно, сделаю отдельный пост-выжимку, чего интересного обсудили.

2023-07-27 14:10:44

Короткий, но интересный пост от Anthropic:

Frontier Threats Red Teaming for AI Safety

В нем команда делится подходами и общими выводами на основе проекта по биологическим рискам, который они проводили в качестве теста вместе с экспертами. Те провели более 150 часов с фронтир-моделями Anthropic (предположу, что Claude 2) за последние 6 месяцев в попытках оценить способности модели выводить вредную биологическую информацию, вроде деталей разработки и приобретения биологического оружия. Среди прочего, эти эксперты учились использовать и придумывать джейлбрейки (специальные промпт). Также в коллаборации были разработаны количественные оценки возможностей модели, чтобы понять, а чего же она всё таки умеет.

Детали в блогпосте не опубликованы (намеренно), лишь упомянуто несколько общих тенденций и суждений, а также то, что наработки с проекта были применены к моделям, котоыре сейчас доступны публично по API.

Во-первых, современные фронтир-модели вроде Claude 2 и GPT-4 иногда могут давать сложные, достаточно точные, полезные и подробные знания на экспертном уровне. В большинстве изученных ими областей такое случается нечасто. В иных же областях так и происходит (модель демонстрирует экспертный уровень).
Также были обнаружили признаки того, что модели становятся более способными по мере того, как становятся больше (сделайте удивленное лицо).

В итоге исследовательская группы считает, что LLM, обучаемые и разворачиваемые без надлежащего контроля, могут ускорять попытки злоумышленников злоупотребить биологией по сравнению с обычным доступом в Интернет, а также позволить им выполнять задачи, которые они не могли бы выполнить без LLM.
Эти два эффекта сегодня, вероятно, невелики, но растут относительно быстро вместе с развитием LLM.

И главное — команда обеспокоена тем, что, если ничего дальше не делать, то подобные виды рисков могут проявиться в ближайшие два-три года, а не пять и более лет. По результатам исследования в план будущих исследований были внесены корректировки, в том числе будет обращаться больше внимания на модели, работающие с инструментами реального мира.

(у меня в канале где-то выше было про GPT-4 и инструменты для смешивания химических веществ, но я не смог найти ссылку. Добавлю, если найду)

UPD: нашёл, вот. Если пропустили - обязательно прочитайте, чтобы понять, как языковая, казалось бы, модель может смешивать вещества и проводить эксперименты автономно.

2023-07-27 09:08:44

Теперь культовая статья выглядит так. Все авторы вычеркнуты (так как не работают в Google - да, НИ ОДИН НЕ РАБОТАЕТ).

Про уход последнего сотрудника писал тут. Про всех остальных - здесь.

🫡

P.S.: для тех, кто не знает, эта статья, в которой была представлена архитектура трансформера, которая и легла в основу GPT, ChatGPT и многих других моделей

2023-07-24 22:13:32

Каналу вчера было 6 мес а никто не поздравил...

🤳

😡


Ну ладно. Делитесь в комментах:
1) как вы сюда попали?
2) какой ваш любимый или самый запомнившийся пост?

2023-07-24 09:30:43

Пока в недрах OpenAI готовятся к следующему релизу, другой проект Sam Altman, Worldcoin, сегодня запускается worldwide.

Worldcoin — это криптовалюта, которую вы получаете за то, что просто живёте. При этом для создания кошелька нужно проходить специальную биометрическую верификацию. То есть в теории вы можете создать навсегда только один кошелек, и никто не может его создать за вас. Для прохождения процедуры надо заказать специальный девайс, Orb.

Но фишка не в крипте, основная идея проекта — в верификации каждого кошелька, чтобы у вас было виртуальное представление, уникально связываемое с персоной. Возможно, владельцы кошелька, например, смогут регистрироваться в новых глобальных системах, запускаемых OpenAI. К примеру представьте, что в рамках сбора фидбека на вопросы про экономику или меньшинства вам необходимо в некотором смысле посетить голосование, но виртуальное. И там указываете ваше мнение по тем или иным поводам, а потом на этом учится aligned-версия GPT-7 (я это не из головы выдумал, подобное упоминал Sam + смотри вот эту страницу).

Логично, что чем более распространённой будет система, тем легитимнее и проще будут проходить новые интеграции. Интересно, когда они достигнут первого миллиарда пользователей 🤔

Whitepaper проекта: https://whitepaper.worldcoin.org

UPD от подписчика в комментариях: Больше года назад проходил собес в этот проект Worldcoin, прошёл все раунды - но выбрали в итоге <другого>. Смысл №1 тут - разработать технологию ОДНОЗНАЧНОЙ идентификации живого человека. >> чтобы потом раздавать каждому "безусловный базовый доход"

При чём тут безусловный базовый доход? А кем вы будете работать, когда AI всех заменит и перевернёт всю экономику?

UPD 2: подъехали мысли основателя Ethereum Виталика Бутерина: https://vitalik.eth.limo/general/2023/07/24/biometric.html . Пока не читал, но в твиттере написали, что стоит того.

2023-07-23 21:20:56

На ночь, пока доделывал пару штук по работе (😀😐), подвернулся клип трека AVICII, пошел пересматривать-переслушивать ещё парочку. Вспомнил былое, когда ещё в школе залипал в клипы, поностальгировал

🥺
👍


Этот пост не про "накидайте музыки" или "а кто ваш любимый DJ?", а про ностальгию, про то, почему кажется, что а вот раньше было лучше.

Предлагаю к просмотру ролик Леши Луцая "Раньше было лучше? Почему старые игры и фильмы не лучше новых — это просто другое" (12 минут), и он не про видеоигры, если что.

[разумеется не реклама, вы чё?]

2023-07-23 18:07:42

"Хороший MLE из топовых перцентилей распределения" Andrej Karpathy, видимо, прочитал мой пост и решил потратить выходные на то, чтобы на чистом C закодить инференс LLAMA-2. Вот это я понимаю проект на пару дней

🥰

Нет, вы не подумайте, чуда никакого нет — это однопоточный неоптимизированный код без разных хаков, работающий только с числами одинарной точности (fp32). Но само по себе упражнение позволяет и хватку не терять, и повторить лишний раз детали, ну и конечно же узнать для себя что-то новое!

Также Andrej признался, что использовал GPT-4 как помощника для упражнения.

Код: тут
А ещё Andrej анонсировал, что скорее всего по результатам деятельности запишет ещё одно обучающее видео. Будем ждать.

2023-07-23 14:48:24

Блин а прикиньте какой наброс ещё впереди про OpenAI...

😱 уже можно начинать готовить (и кидать в комментарии) аргументы "почему OpenAI на самом деле не добрые" и "типичные капиталисты повернутые на бабках, не думающие о других".

А если серьёзно, то какие основные тезисы в сторону недовольства их подходами и практиками? От "ну они веса и даже статьи не публикуют!" и до чего там можно дайти

2023-07-23 09:38:15

Пост в большей степени для инженеров машинного обучения.

Где-то месяц назад проводил опрос в тг-чате, где собрано очень много клёвых чуваков (у многих из которых есть свои каналы) — от одарённых 16-17 летних рисерчеров (которые реально уже успели что-то придумать и опубликовать) до Principal-инженеров (это для контекста, чтобы придать весомости нижеописанному).

Запрос от меня был такой:
У меня есть мнение, что любой хороший и уважающий себя MLE в 2023м году должен знать, как работает трансформер в целом и Селф аттеншен в частности. Да, может без модификаций, просто ванильную модель, но на пальцах объяснять, что за квадратная матрица, как в целом учится и какие задачи решает - должен. Речь не про average ML enjoyer, а про уважающего себя хорошего MLE из топовых перцентилей распределения.
Согласны ли вы с этим?

Результаты голосования:
— 69% ответили "да"
— 25% ответили "возможно, но не уверен"
— 6% не согласились

(Примечание: один человек отписал "Поставил "не уверен" ибо я когда-то давно трансформер и аттеншн в деталях разбирал, но теперь с ходу все не вспомню - надо будет освежать знания". При этом я этого человека знаю, у меня ровно 0 сомнений, что он за сядет и за час всё вспомнит — но главное он уже проявил интерес заведомо.)

Я постараюсь описать причину того, почему считаю, что ответ точно "да", ну а вы уже делайте для себя выводы.

Хороший инженер имеет здоровый интерес к индустрии и происходящему. Ему самому хочется узнать побольше, разобраться в деталях, попробовать — даже если на работе такой задачи нет. Всё таки статья "Attention is all you need" вышла больше 6 лет назад (!), а GPT-3 релизнулась в 2020м — и абсолютно точно можно было найти время, если было бы желание, посмотреть во внутрь и понять, как же так? Как так вышло, что одна модель работает почти во всех доменах и почти без изменений, от генерации текста до предсказания структуры белка? А что там лежит внутри ChatGPT? Тоже трансформер!? Ну надо же!

Andrej-наше-всё-Karpathy в подкасте Lex Fridman ответил на вопрос "какая наиболее прекрасная или неожиданная вещь для тебя во всем мире AI?" без раздумий: "Трансформер.". Более того он говорит, что это really cool differentiable optimizable efficient computer (даже звучит возбуждающе, нет?)

Но ещё больше у меня калит 🔥 от того, что люди приходят на техническое собеседование на NLP Engineer ко мне и не могут рассказать про Self-Attention. Ну как так-то...

И под конец хочу процитировать Юру (в квадратных скобках - мои изменения относительно оригинала):
Если ты подобные вопросы [про трансформер] помечаешь у себя в голове тегом [мне это не нужно] - это самообман. Можно делать свой фит-предикт и ждать, когда AI вытеснит тебя из профессии.

💬Пишите в комменты, что думаете вы, с чем не согласны

2023-07-22 16:55:45

Последние полтора часа занимался тем, что смотрел интервью Валеры Бабушкина (уже третье на том канале, лол). Как обычно, рекомендую посмотреть и вдохновиться, если вы только начинаете свой путь в Data Science (да и не только).

В этом видео, кстати, был поставлен рекорд — Валера упомянул меня первый раз лишь на 1:08:20, обычно это происходит сильно ближе к началу

😞 ну ладно

Другие интересные моменты:
48:42 — Цитата: "Нашёл место, где я смогу работать на все 100 процентов <...> я еще готов поработать серьёзно, и мне нужно место где я могу выложиться по полной. <...> У меня есть какие-то 10-15 лет, которые мне нужно использовать по полной"
Наверное у каждого из нас есть такой ресурс, определяющий, сколько лет мы сможем заниматься на полную чем-то, что нравится. У кого-то он составляет пару лет, потом запал пропадает, кто-то пашет по два десятилетия. Помню, увидел картинку с чьей-то фразой: "В здоровой ситуации, когда человек занимается любимым делом, реализует себя, свои идеи и таланты, он не делит время на работу и отдых, он просто живёт". Рад, что Валера (давно) нашёл себя, и желаю каждому тоже выбрать приятный путь, которому можно отдаваться по 15-20 лет.

1:00:32 — тут Валера переживает до глубины души что не он получил 110 миллионов евро от французского правительства на развитие ИИ. Он про это ещё писал в канале у себя (вот тут). Действительно странная ситуация такого закидывания денег на волне хайпа AI в стартапы. Будем следить за развитием ситуации и кусать локти.

1:01:21 — просто цитата: "у меня нет уверенности в своей исключительности" (в контексте создания компаний и новых технологий). Часто люди спрашивают, мол, а чего свою компанию не пойти делать? Да, в случае успеха денег куда больше, апсайд очевиден, но ведь и его вероятность не гарантирована. Вот и получается, что матожидание на далёком горизонте выше при стабильной обычной работе в крупной компании. Тут понятно, чего ждать, как двигаться (первое время), и относительно легко строить прогнозы и планировать.

Надо тоже чтоли сходить на второй раунд интервью (первый можно найти тут).

2023-07-22 08:41:42

Мы давно не говорили про SpaceX, пора бы и посмотреть, как у них дела.

А в целом всё неплохо, полным ходом идёт подготовка к следующему запуску. Корабль (верхняя часть аппарата) уже протестирован (может быть не до конца, но прожиги и криотесты были). На неделе бустер поставили на стартовый стол для испытаний — тот самый, основание под которым разлетелось в песок после прошлого запуска! Да, всё починили: залили больше 5000 тонн бетона, поставили систему подачи воды для смягчения эффекта работы двигателей первой ступени. См. прикреплённое фото.

Действительно спустя 3 месяца _почти_ всё готово. Несколько прожигов первой ступени и чуть больше тестовых заправок отделяют нас от второй попытки орбитального полёта. Напомню, что по лицензии от FAA SpaceX имеет право еще на 4 запуска до конца года. Если не хочется терять возможности - нужно делать по запуску чуть реже, чем раз в полтора месяца. Мой консервативный прогноз таков, что будет еще 3 попытки запуска (ракеты и корабли для них почти готовы, остались только двигатели).

А в следующем посте будет мегакрасивейшая запись с камеры недавно запущенной Falcon 9, которая зацепила ракурс заката Солнца за Землю. Эффектные кадры!

2023-07-21 15:43:46

Появилось на сайте Белого Дома (ссылка)

Под инициативной подписались следующие компании:
Amazon, Anthropic, Google, Inflection, Meta, Microsoft, OpenAI

Немного странно, что нет Nvidia, поставщиков видеокарт для тренировки мощных моделек (да у них и исследовательский отдел очень неслабый, вспомнить только модель на 530 миллиардов параметров!).

По поводу вообще всей новости процитирую Бориса @boris_again:
> Офигеть конечно, что Белый Дом серьезно занимается AI safety. Не перестаю удивляться насколько все вылезло из пузыря

2023-07-21 09:29:27

Хождения Sam Altman в Сенат не прошли даром. OpenAI и другие ведущие лаборатории искусственного интеллекта (список не указан, ждём других анонсов) берут на себя ряд добровольных обязательств по повышению безопасности, защищенности и надежности технологий искусственного интеллекта и предоставляемых услуг. Этот процесс будет координироваться Белым домом и будет являться важным шагом на пути к осмысленному и эффективному управлению ИИ как в США, так и во всем мире.

Более детально ознакомиться можно на официальной странице, тезисно — ниже.

Область применения: модели, которые в целом являются куда более мощными и способными, чем текущие модели с фронтира (включая GPT-4, Claude 2, PaLM 2, DALL-E 2 — это примеры "слабых" моделей).

1) Коммит на внутреннее и внешнее тестирование моделей в разных областях, включая неправомерное использование, социальные риски и проблемы национальной безопасности (биологическая, кибер, итд)
2) Работать и содействовать обмену информацией между компаниями и правительствами о рисках доверия и безопасности, опасных или возникающих возможностях и попытках обойти меры безопасности AI.
3) Инвестировать в кибербезопасность и защиту от внешних угроз, чтобы защитить проприетарные и невыпущенные модели.
4) Мотивация (включая денежную) стороннего тестирования на уязвимости сообществом
5) Разработать и внедрить механизмы, позволяющие пользователям понять, создан ли текстовый, аудио- или визуальный контент с помощью ИИ (например, водяные знаки)
6) Публично сообщать о возможностях модели или системы, ограничениях и областях надлежащего и ненадлежащего использования, включая обсуждение социальных рисков
7) Уделить первоочередное внимание исследованиям социальных рисков, связанных с системами ИИ, в том числе по предотвращению вредных предубеждений и дискриминации и защите конфиденциальности
8) Разрабатывать и внедрять передовые системы искусственного интеллекта, чтобы помочь решить самые большие проблемы общества

Звучит серьёзно, очень интересно посмотреть, как будет выглядеть координация нескольких разных компаний и даже разных стран.

2023-07-20 18:08:22

Пример промптинга под план уроков

2023-07-20 18:07:07

В GPT-4 добавили фичу, слухи про которую ходили давно — предзаписанные инструкции/роли, которые модель должна выполнять и отыгрывать. И можно задать желаемый формат ответов (например, всегда отвечать стихами на французском, почему нет?)

Нужно включить в настройках
Settings → Beta features → opt into Custom instructions

Затем перезагрузить страницу, в и меню слева (где настройки) у вас появится отдельная кнопка.

Источник

2023-07-20 10:55:10

Вдогонку ко вчерашнему разбору — люди в твиттере посчитали новые метрики с учётом фикса, и по ним модель стала "умнее".


(и да, основной вывод в статье был прописан - не то что модель потупела, а то что грубо говоря разработчикам, делающим продукты над LLM, нужно уделять этому внимание)

2023-07-19 20:35:56

Отдельно напишу главный тезис, который я вынес для себя и который хотелось бы донести:

Влияние изменения поведения и снижения возможностей моделей на конечного пользователя может быть очень похожим.

У нас с вами обычно есть определенные рабочие промпты, наработанный опыт, которые вроде как работали с GPT. Однако когда происходят подобные отклонения в поведении, этот опыт может стать малорелевантным.

И главное — это особенно актуально для приложений, созданных на основе GPT-4 API. Код, написанный для конкретных пользователей и под конкретную задачу, может просто сломаться, если модель изменит свое поведение.

Мы в компании Unleashing.AI, например, сейчас переделываем подход к разработке подобных продуктов: добавляем тестирование, собираем отдельный набор данных, который прогоняется раз в неделю и помогает определить, есть ли деградация. Пока звоночков плохих не было, и надеюсь, что еще долго не будет, но кто знает?

Рекомендую добавлять подобное тестирование и вам :) Просто набор промптов + текстов для модели, и ожидаемый результат, а дальше проверка на схожесть ожидания и реальности. Как только они расходятся - что-то надо чинить!

По сути, это полноценные Unit-тесты 👀

2023-07-19 20:30:57

На двух других задачах качество наоборот улучшилось: GPT-4 стала реже реагировать на "неправильные" промпты (более чем в 4 раза реже!), а на задаче Visual Reasoning качество приросло для обеих моделей на пару процентов. То есть никакой деградации, только улучшение!

А что же по "математическим навыкам"? Неужели и тут какой-то прикол есть?
Оказывается, да — все числа, которые дали модели, были простыми. То есть она ВСЕГДА должна была отвечать "Yes". При этом если добавить в выборку и составные числа, то...оказыается никакой деградации нет. Это чистого рода изменение поведения модели - раньше она чаще говорила да, а не отнекивалась, а теперь говорит нет (потому что не уверена, видимо).

Это отчетливо можно увидеть на приложенном графике (он не из статьи, а вот отсюда).

То есть ещё раз - тест странный, однобокий, и его результаты объясняются не изменением качества моделей, а изменением скорее их поведения.

Важно отметить, что тестировались API-версии, а не те, что находятся в Web-браузере. Возможно, с целью экономии ресурсов модельки в браузере действительно подрезали (сделали меньше, или применили разные методы оптимизации с потерями в качестве), однако приложенное исследование этого точно не доказывает.

Таким образом, если говорить правильно, по уму, "данное исследование не отвергает нулевую гипотезу о том, что модели стали хуже".

Ну а мы ждём, пока кто-то сделает грамотное разностороннее и честное тестирование!

2023-07-19 20:24:33

В программировании всё тоже очень плохо - обе модели просто скатились в нулину по качеству.

...или нет?
Если посмотреть внимательно на картинку и на выделенные части, а затем внимательно прочитать статью, то начинают появляться странные вещи. По сути, авторы даже не запускали код и не проверяли его на правильность - они просто смотрели, что это валидный Python-код. Более того, как видно по картинке, "свежие" модели научились обрамлять код в специальный декоратор (три кавычки и слово python) — И ИМЕННО ЭТО МЕШАЛО ЗАПУСКАТЬ КОД!

Да, вы все правильно прочитали - модель не проверяли на качество написанного кода, не проверяли на правильность с точки зрения выполнения программы, нет. Наоборот, я бы сказал что модель стала более "пользовательской", то есть напрямую сообщать, что вот тут, мол, код — а еще давать какие-то комментарии и советы.

То есть ни результат, ни сам эксперимент НЕЛЬЗЯ СЧИТАТЬ доказательством деградации моделей — они просто начали по другому себя вести, по другому писать ответ.

2023-07-19 20:20:00

В математике GPT-4 очень сильно потупела - почти перестала отвечать корректно (чуть больше 2% правильных ответов!!). При этом ChatGPT наоборот стала гигантом мысли - рост метрик к июню более чем десятикратный.

Напомню, что проверялась возможность модели определить, являлось ли число простым. Если честно, сложно сказать, что это именно проверка "математических способностей" модели. Я бы сказал, что это про запоминание данных - ведь модель сама по себе не может выполнять валидации вычислений и вывод (конкретно для простых чисел, без обобщения на другие задачи).

2023-07-19 20:16:54

How is ChatGPT's behavior changing over time?

Исследование подтвердило — GPT-4 потупела! Или нет..? Давайте разбираться в нашумевшей статье — мне уже даже в личку пишут, спрашивают, мол, правда ли.

Наш старый знакомый (я бы даже сказал мой подпищек) Matei Zaharia со своими падаванами из Stanford и UC Berkley пытались сравнить ChatGPT и GPT-4 версии марта и июня 2023го года (да, для каждой из них существует по два варианта). А то люди в последнее время начали жаловаться (например, вот на Reddit), мол, модель стала работать хуже, ответы менее полезные!

Для тестирования взяли 4 задачи:
1) математика, или ответ на вопрос, является ли число простым или составным? (если забыли, то простые числа — это такие, которые делятся только на 1 и на само себя)
2) кодинг, или возможность модели выдавать осмысленный код
3) ответы на чувствительные ("токсичные") вопросы
4) задачи на visual reasoning (для тех кто знает - это бенчмарк ARC. Нужно по нескольким картинкам выявить паттерн и применить его для нового примера, см. картинку в комментах)

Ну и что вышло?

2023-07-19 08:24:28

Интересный факт из статьи оригинальной LLAMA (не второй).

Взяли 100 тысяч промптов, дали модели сгенерировать ответ на них, а затем использовали внешнее API для оценки токсичности ответов. В таблице указана некоторая абстрактная оценка, чем она ниже - тем менее токсично отвечала модель.

Далее проделали тот же самый эксперимент, но добавили в прмопт просьбу отвечать уважительно и вежливо. Кажется, это должно привести к уменьшению скора токсичности, не правда ли?

А ВОТ ХРЕН ВАМ

👀
😡
для самой большой LLAMA-65B токсичность увеличилась, модель как бы противилась отвечать вежливо 🙂 Немного похоже на людей, хе-хе

Узнали себя? Согласны? 👀

Для LLAMA-2 прямо такого же сравнения не видел, но там модели заточены быть нетоксичными, так что ситуация должна отличаться.

2023-07-18 23:06:00

Поиграться онлайн с 70B-моделькой бесплатно без СМС и регистрации можно тут:

https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI

Быстренько проверил, на русском модель не ответила (хотя запрос поняла) — пишите на английском 🙂 Возможно, просто в промпте дана инструкция отвечать так.

ФУХ СПАСИБО МОДЕЛЬ! Не оскорбила меня! Низкий поклон и дай те бох здоровя

👍

2023-07-18 22:43:08

Что-то происходит на chat.openai.com

Во-первых, GPT-4 и ChatGPT поменялись местами. Последнюю сделали Alpha, хотя она в обиходе уже более полугода!

Во-вторых, для GPT-4 интерпретатор кода и плагины переехали в Beta, то есть в них что-то исправили, быть может модели доучили, не знаю.

Будем следить за обновками!

2023-07-18 21:00:42

Нигде этого не видел, будем считать, что все пропустили: параллельно с релизом LLAMA-2 анонсировали запуск соревнования "Llama Impact Challenge":

https://ai.meta.com/llama/llama-impact-challenge/

Пока страница пуста, скоро будут детали и правила участия.

Основная адженда:
> Мы хотим задействовать сообщество новаторов, которые стремятся использовать Llama для решения сложных проблем. Мы запускаем конкурс, чтобы побудить различные общественные, некоммерческие и коммерческие организации использовать Llama 2 для решения экологических, образовательных и других важных задач

Идут по пути OpenAI? Сейчас фонды разные начнут создаваться ещё, туда сюда, затем LeCun начнёт за Safety затирать...

2023-07-18 20:44:40

И последнее. В статье представлен метод Ghost Attention (GAtt), который помогает модели научиться смотреть на основную инструкцию (системное сообщение в терминах GPT-4), и лучше ей следовать.
Особенно это актуально в длинных переписках в несколько шагов диалога (ответов разных сторон). Примеры инструкций - это "Act as Napoleon" или "Speak in French" в самом начале диалога.

Подобный пример и представлен выше - модель просят отвечать смайликами, но без GAtt уже на втором сообщении инструкция забывается. С GAtt модель всё помнит

😐

Интересная штука, обязательно с ней поиграюсь на неделе, посмотрю, какие проблемы может на работе решить.

2023-07-18 20:40:19

Как и ChatGPT, и GPT-4, модель была дообучена быть "безопасной". Интересно, насколько сильно это повлияет на популярность — будут ли работяги в опенсурсе обучать себе AI-подружек, с которыми не получится сделать интимный чат, потому что модель уйдет в отказ? Или всё не так плохо? Поживём - увидим, а пока...

Вашему вниманию график доли специально подобранных провокационных промптов (всего 2000 штук), на которые модель реагирует не в safety-режиме. Всё относится к CHAT-версии модели, обычная и без корректировок (но и недообучения на оцененных диалогах) выложена, так что с ней можно будет тоже играться.

Так вот, safety у модели, согласно такой оценке, лучше ChatGPT-3.5 и лучшее среди открытых моделей.

Интересно, что у 34B модели почему-то случился выброс, и она как-будто бы "токсичит". Возможно, именно поэтому её не опубликовали - остальные то модели доступны уже сгеодня!