Нейролента - подборка новостей о нейронных сетях, ChatGPT

Сиолошная страница 12. Показано 50 статей из 665

All about Сиолошная

2023-07-18 20:29:40

Другой интересный инсайд из статьи:

Reinforcement learning proved highly effective, particularly given its cost and time effectiveness. Our findings underscore that the crucial determinant of RLHF’s success lies in the synergy it fosters between humans and LLMs throughout the annotation process. Even with proficient annotators, each individual writes with significant variation. A model fine-tuned on SFT annotation learns this diversity, including, unfortunately, the tail-end of poorly executed annotation. Furthermore, the model’s performance is capped by the writing abilities of the most skilled annotators.

И ещё:

Surprisingly, we found that the outputs sampled from the resulting SFT model were often competitive with SFT data handwritten by human annotators, suggesting that we could reprioritize and devote more annotation effort to preference-based annotation for RLHF.

То есть полученная на SFT модель (дообучение на предзаготовленных хорошо вычищенных данных) в целом уже себя неплохо показывает, и можно не тратить деньги на ручное написание "идеальных" ответов модели человеком, а переходить исключительно к оценке предпочтений (то самые A лучше B).

As the man said, High-Quality Data Is All We Need

2023-07-18 20:26:11

Про качество данных для дообучения тех самых последних процентов:

Quality Is All You Need. (правда прямо так и назвали параграф)

Third-party SFT data is available from many different sources, but we found that many of these have insufficient diversity and quality — in particular for aligning LLMs towards dialogue-style instructions... By setting aside millions of examples from third-party datasets and using fewer but higher-quality examples from our own vendor-based annotation efforts, our results notably improved. We found that SFT annotations in the order of tens of thousands was enough to achieve a high-quality result.

На графике - распределение некоторой абстрактной оценки между разными итерациями обучения, от SFT на предзаготовленных данных до RLHF на самых актуальных данных, качественно размеченных людьми.

Чем ниже (позже) этап, тем больше ответов получают оценку выше — там вон аж горбик справа получился (= для большого количества ответов модель давала хорошие ответы).

2023-07-18 20:23:23

Итак, почитал статью (не полностью), посмотрел, что пишут другие, тезисно:
главное: модель станет новым флагманом всего OpenSource сообщества, так как во всех аспектах лучше своей предшественницы, наделавшей много шума (и породившей целую волну хайпа). При этом с точки зрения архитектуры изменения незначительные: ширина контекста 4k токенов (в 2 раза больше), плюс для больших моделей используется оптимизация с целью экономии памяти при генерации. То есть модельки теперь должны чуть быстрее работать, и обладать большей пропускной способностью. Модель УЖЕ запускается в GGML/паре других интерфейсов

🤪 (может быть даже без изменений кода, но не смотрел)

— тренировочная выборка включает набор данных из общедоступных источников, и не включает данные от продуктов Meta (Insta, WhatsApp, etc.). Также удалены данные, полученные с сайтов, содержащих большой объем персональной информации
— все модели тренировались 2 триллиона токенов. Это на 42-100% больше прошлых LLAMA (там было 1T для маленьких и 1.4T для больших). По оценкам и слухам, GPT-4 тренировалась на ~13T токенов, а PaLM-2 от Google чуть меньше (порядка десяти триллионов)
— больше про датасет для предтренировки почти не говорят, лишь упоминают, что чаще берут данные из источников с "фактами", чтобы модель их выучивала и меньше галлюцианировала

— значимая часть статьи посвящена измененной процедуре тренировки, а если конкретнее - дотренировке. То есть первые 90-95% времени модель учится предсказывать следующее слово в тексте и всё. А вот потом начинается часть, аналогичная ChatGPT (мегаподробно можно прочитать и перечитать в моей статье, с картинками и объяснениями на пальцах)
— для того, чтобы такую дотренировку произвести, нужны данные о человеческих предпочтениях (чтобы модель училась их угадывать и удовлетворять пользовательские запросы). Данные глобально размечались по двум направлениям: safety & helpfulness. Причём, аннотировались целые диалоги, что существенно отличает формат данных от публично доступных. Всего вышло более 1.4M пар сравнения (человек считает, что A лучше B), а среднее количество фраз в диалоге равняется 3.9.
– я как раз писал, что опенсорсные модели страдают от этого, и хуже работают в диалоговом формате. По идее наследники LLAMA-2 должны быть лучше в поддержании контекста. В среднем в диалоге было 800 токенов, что очень много (~2 страницы текста).
— данные собирались итеративно, то есть модель обучали несколько раз, и затем уже более качественной генерировали новые диалоги для оценки, и так по кругу. Также делали и OpenAI.
— Однако всего таких пар сравнения было почти 3 миллиона: использовались открытые датасеты от других авторов. Самый большой датасет - больше 1 миллиона сравнений ответов - был со StackExchange (рейтинги разных комментариев на один и тот же вопрос)
— на всех этих парах для сравнений учится так называемая Reward Model (то же и для ChatGPT). Интересно, что тут предлагается обучать две разных модели (одна для safety и одна для helpfulness). При этом есть очень интересное замечание: авторы сравнивают полученную модель с запромпченной GPT4, и они превосходят ее в качестве, но при этом если обучать модель выкинув все собранные в компании 1.4M пар, то такая модель работает хуже GPT-4. То есть всё еще человеческие данные лучше, но они должны быть очень высокого качества - просто хорошее выдают уже и модели. Под качеством здесь понимается доля пар, в которых вердикт модели совпал с оценкой человека.
— перед главной о дообучении моделей разработчики из META указывают на самую важную вещь, которую легко пропустить: точность полученной Reward Model является одним из наиболее важных показателей конечной эффективности моделей. По слухам, примерно к тому же пришли в OpenAI/Anthropic (что имеет смысл вкладываться в качество и количество разметки, и на этом делать хорошую модель). Вот тут есть хороший блогпост с объяснением, почему никто не выкладывает свои Reward Model.

<--конец первой части-->

2023-07-18 16:16:24

2 триллиона токенов - в 1.3-2 раза больше прошлого поколения, однако сильно меньше того, что делают конкуренты (если верить слухам про OpenAI и Google)

2023-07-18 16:15:19

Вышло! Статья (pdf): тут
Самая большая модель 70B, есть модели заточенные на чат. Есть RLHF (как у OpenAI!).

Другие детали напишу позже вечером, самое интересное, что найдете, кидайте в комменты)

Репо: GitHub
Веса прямо на HF (но нужно запросить доступ, согласившись с лицензией): тут

2023-07-16 14:14:58

Ради интереса спросил у GPT-4, сколько прошло дней с момента запуска. Она дала точный ответ без использования внешних инструментов вроде вызова Python.

Я не ожидал, что она справится, учтя все високосные года, включая 2000.

2023-07-16 14:11:41

Долгое время у меня на рабочем столе была вот такая заставка, где изображены все Сатурны в момент старта.

Всего было произведено 13 пусков ракеты-носителя «Сатурн-5» — и все признаны успешными.

2023-07-16 14:10:18

Ровно 54 года назад, 16го июля 1969го года, была запущена миссия Apollo 11, в ходе которой жители Земли впервые в истории совершили посадку и ступили на поверхность другого небесного тела — Луны. США тем самым выиграли лунную гонку, обогнав советов.

Сама идея высадки на Луну была озвучена президентом Кеннеди в 1962м году в ходе выступления в Rice University. Тогда он произнес впечатляющую речь ("We choose to go to the Moon"), отрывок которой меня до сих пор вдохновляет:

> We choose to go to the Moon in this decade and do the other things, not because they are easy, but because they are hard; because that goal will serve to organize and measure the best of our energies and skills, because that challenge is one that we are willing to accept, one we are unwilling to postpone, and one we intend to win

Запись на YouTube: с таймкодом

Миссия была запущена ракетой Saturn V, до недавнего времени самой мощной ракетой в мире (кто обогнал - можно прочитать тут). Лет десять назад я очень расстраивался, что поздно родился, и не застал пуски на Луну, но мне - и вам - повезло, что мы можем радоваться успехам человечества вместе, наблюдая за развитием технологий, в том числе за попыткой вернуться на Луну и пойти дальше — на Марс.

Великолепные видео на английском от Smarter Every Day про ракету:
— как был устроен бортовой компьютер (15 минут)
— общий разбор ракеты с экспертом (59 минут)

2023-07-15 20:32:12

Новость одной строкой: ходят слухи, что META готовит релиз LLAMA-2, причём, с коммерческой лицензией на использование. И модель, конечно, будет умнее, дополнительно натренирована на коде (и как будто даже изображениях!).

Ждём всем опенсурс-сообществом!

(сори, вышло больше одной строки)

Источник

2023-07-15 13:56:45

Я уже писал в канале, почему мне не так интересно участвовать в типовых соревнованиях по ML — мне больше нравятся новые челленджи, в которых можно научиться сразу большому количеству вещей. Вот тут я делал обзор задачек на ближайшие полгода, в которые было бы интересно вкатиться в рамках конференции NeurIPS.

А пару дней назад на Kaggle запустили "LLM Science Exam". Цель — обучить такую модель, которая из 5 предлагаемых вариантов ответа на какой-то вопрос выбирает 3 наиболее правильных с её точки зрения (в порядке корректности, то есть среди этих трёх всё равно хочется правильный ответ выдавать первым).

Интересно, что данные для этой задачи был созданы путем предоставления gpt3.5 фрагментов текста по ряду тем, взятых из Википедии, и просьбы написать вопрос с несколькими вариантами ответов (при этом ответ был в контексте). Конечно, процесс не был лишён шага ручной фильтрации, но вообще это же почти автоматический генератор данных для обучения схожих моделей. Вот, мол, абзац с Википедии, придумай вопрос, придумай правдоподобные ответы, проверь себя, что ничего не напутала. Повторить раза 3 эту цепочку — и можно нагенерировать десятки тысяч "задачек" для тестов.

Соответственно, авторы предлагают всего 200 размеченных примеров, чтобы дать общее представление о задаче и домене. Добыть остальные данные, обучить модель и даже обернуть её в контейнер, чтобы отправить на Kaggle - это уже задача участников соревнования. Можно где развернуться — и ускорять работу моделей, беря чекпоинты побольше и поумнее. Можно упороться по качеству данных для дообучения, используя GPT-4 и огромные базы знаний в интернете. Можно вспомнить про цепочки рассуждений и придумывать разные промпты. Можно обучать модель рассуждать от обратного, выбирая наиболее неправильные варианты. Возможностей очень много, и я рекомендую попробовать свои силы в этом соревновании тем, кому реально интересно заниматься LLM — это отличный шанс получить огромное количество знаний.

Из интересного — вам нужно отправить свою обученную модель, где она за 9 часов должна ответить на 4'000 вопросов. Не скажу, что у всех условия равны — если у вас есть 10 видеокарт дома, то вы всё равно сможете поставить больше экспериментов и получить модель получше, однако гэп из-за ресурсов сокращается.

2023-07-15 11:31:42

Вчера в Twitter Spaces (аналог Clubhouse прямо в Twitter, удивлен, что некоторые не знают, что такое есть!) состоялся звонок между ко-фаундерами xAI, где они рассказали про себя, про свои цели и поотвечали на вопросы. Главное для вас (источник, хоть я и сам слушал, но не записывал):

— Илон сказал, что цель xAI — создать хороший AGI (искусственный общий интеллект) с целью понимания Вселенной.
— также он отметил, что есть так много того, что мы, как уверены, "понимаем", но на самом деле это не так. Есть много нерешенных вопросов. Например, остается много вопросов о природе гравитации и о том, почему нет массовых свидетельств существования инопланетян. Он сказал, что до сих пор не видел никаких доказательств присутствия инопланетян. Затем он углубился в парадокс Ферми и в то, как возможно, что сознание, отличное от человеческого, может не существовать в нашей галактике (галактике, не Вселенной!)
— другой ко-фаундер Greg Yang сказал, что математика, которую они будут развивать в xAi в рамках работы над проектом, может открыть новые перспективы для существующих научных нерешенных проблем, таких как «Теория всего».
— в команде сейчас не так много людей, и потому в пересчёте на человека у них есть доступ к огромному количеству вычислительных ресурсов, поэтому исследователи могут проверять свои гипотезы на масштабе и без необходимости уступок из-за приоритетов.
— Илон заявил, что нельзя ничего называть AI, пока этот алгоритм не решит хотя бы один фундаментальный вопрос
— Они собираются опубликовать дополнительную информацию о первых релизах xAI еще через пару недель
Илон Маск заявил, что xAI создается как конкурент OpenAI
— также он сказал, что каждая организация, занимающаяся ИИ, незаконно использовала данные Twitter для обучения. В Twitter нужно было ввести ограничения, потому что компании парсили его как сумасшедшие. Несколько организаций пытались скачать каждый твит из миллиардов отправленных за последние месяцы. Однако xAI будет использовать твиты для обучения (ой как удобно)
— В какой-то момент у нас закончатся данные, созданные человеком. Так что в конечном итоге ИИ придется генерировать собственный контент и самостоятельно на нём обучаться (как это делают компьютере при игре в Го или шахматы)
— Маск считает, что в Китае тоже будет регулирование ИИ. Он сказал, что коммунистическая партия не захочет подчиняться цифровому сверхразуму 🙂
— xAI будет сотрудничать с Tesla по нескольким направлениям, и это будет взаимовыгодно. Возможности автопилотов Tesla будут расширены благодаря xAI
— Маск считает, что предсказание Ray Kurzweil об AGI к 2029 году довольно точно, плюс-минус год

2023-07-12 16:44:46

Elon Musk Announces xAI

https://x.ai

Today we announce the formation of xAI.

The goal of xAI is to understand the true nature of the universe. You can meet the team and ask us questions during a Twitter Spaces chat on Friday, July 14th.

В команде - вот эти прекрасные люди. Рисерчеры достаточно известные, во многих эпохальных работах участие принимавшие. Не чета команде OpenAI, конечно (пока).

Будем посмотреть!

И нет, Igor Babushkin - это не наш с Валерой @cryptovalerii псевдоним!

2023-07-11 14:41:03

Anthropic анонсировали Claude 2, новую модель в авангарде интеллектуальных ассистентов. Прямых сравнений с GPT-4 нет, но относительно старой модели улучшили всё, особенно математику, программирование и способность рассуждать.

Сама компания предлагает думать о Claude 2 как "о дружелюбном, полном энтузиазма коллеге или личном помощнике, которого можно проинструктировать на естественном языке, чтобы помочь вам со многими задачами".

Потыкать бету можно тут: https://claude.ai/
Почитать карточку модели (больше про метрики и сравнение Alignment, нежели технические детали обучения): нетяжелый pdf

Интересная фича: Claude 2 has been trained to generate coherent documents of up to 4000 tokens, corresponding to roughly 3000 words.

В прикрепленном видео - демонстрация юзкейсов (но "вау"-эффекта уже не производит...)

Source

2023-07-11 09:06:20

В апреле писал пост с обзором историй авторов революционной архитектуры трансформера (которая лежит в основе ChatGPT). Из всех авторов лишь один работал в Google...и скоро это изменится.

Llion Jones в конце месяца уходит из Google Japan, чтобы — ну конечно! — начать работать на себя и сделать свою компанию (источник - Bloomberg, ссылка без пайвола: тык).

На прикрепленной картинке можно увидеть, куда и как все разбежались 😐

Источник

2023-07-10 21:03:58

Я уже писал про мировое турне Sam Altman и команды OpenAI с целью пообщаться с людьми и представителями государств на тему AI. Вот тут описаны результаты поездки, что они для себя вынесли и куда двигаются дальше.

Я постарался найти все видеозаписи из городов, которые они посетили. Почти в каждом из них была открытая Q&A сессия, где вопросы задавали и представители принимающей стороны, и люди из зала. Не все записи удалось раскопать — быть может, для каких то локаций видео просто не записывали (хотя в 2023м? не верю!)

Представляю вам список:
— Toronto: https://youtu.be/uRIWgbvouEw
— Washington, DC: не нашёл
— Munich: https://youtu.be/uaQZIK9gvNo
— Paris: не нашёл
— Tel Aviv: https://youtu.be/mC-0XqTAeMQ
— Dubai: не нашёл
— New Delhi: https://youtu.be/Pig9WbMN1lQ
— Rio: не нашёл
— Singapore: https://youtu.be/LmL72PpiPjk
— Lagos: не нашёл
— Jakarta: https://youtu.be/18BCSCmqNb8
— London: не нашёл
— Seoul: https://youtu.be/_hpuPi7YZX8
— Madrid: не нашёл
— Tokyo: https://youtu.be/lq-3T5t0p3U
— Brussels: не нашёл
— Melbourne: https://youtu.be/7SMzkBKzsQs

Если вдруг у вас есть ссылка на недостающие кусочки — пожалуйста, отпишитесь в комментарии.

Кроме этого, Sam заезжал ещё в соседние города, которых не было в изначальном списке из 17 штук.
Ниже вы найдете ссылки и на них:
— Abu Dhabi (как будто в то же время, но не в рамках тура, хз. Или быть может вместо Дубая?): https://youtu.be/RZd870NCukg
— Warsaw: https://youtu.be/tSCrQQbPPHk
— Jordan: https://youtu.be/dgh-L2nk97M
— India, idk where: https://youtu.be/T-lj7ItGjZE + https://youtu.be/H1hdQdcM-H4

И для удобства я подготовил плейлист на YouTube, чтобы было сподручнее смотреть: тык. Материал из этих видео в том числе пойдет в статью (которую я анонсировал ранее).

🏃‍♂️ это я бегу слушать все лекции в один присест

>ССЫЛКА НА ПЛЕЙЛИСТ ТУТ<

@seeallochnaya

2023-07-09 20:26:26

Случайно наткнулся и узнал, что сегодня — ровно 10 лет с выхода первого геймплейного трейлера GTA V. По идее, мог случиться анонс GTA VI, но етово не произошло 🥺 очень жаль

Сама же игра вышла немногим позже — 17го сентября 2013го года. Я отлично помню тот день, потому что мне повезло: у меня был XBOX 360, и я уговорил родителей дать мне денег на игру. Но этого было мало — ведь из-за возрастных ограничений я не мог её купить! А в магазине около школы с этим было строго. Поэтому заблаговременно я:
1) узнал, какой продавец будет 17го числа в магазине (чья смена)
2) узнал, когда до этого он будет работать (это была предшествующая суббота)
3) после уроков, когда за мной приехали, я попросился зайти в ТЦ. Там завёл мать в магазин с играми и попросил её сказать дяде-продавцу, что она одобряет и разрешает покупку

(сразу видно человека с развитыми навыками планирования)

А после этого в конце недели заскочил после школы за диском и побежал домой играть. Было время😳😭...

Почему вам это может быть интересно? Потому что GTA V — это не просто культовая игра и один из лучших представителей индустрии. Это буквально один из самых прибыльных медиапродуктов за всю историю человечества: долгое время не существовало книги, фильма, музыкального альбома или другой игры, которая бы принесла своим создателям столько денег. И компания, очевидно, возлагает большие надежды на шестую часть. Если вам интересно узнать чуть больше — рекомендую посмотреть вот это видео про три возможных пути развития франшизы с учетом меняющихся трендов и цензуры. Ссылка: https://youtu.be/kqnL2gl3v0M

Продолжаем ждать 🍥

UPD: в комментах меня поправили, и это скорее всего правда, что GTA V уже не самая прибыльная игра, но одна из.

2023-07-09 16:12:32

https://www.youtube.com/watch?v=MvsmqNn0YO8&t=88

Новая модель AlphaZero играет против оригинальной AlphaGo

2023-07-09 16:08:25

Пересмотрел этим чудесным воскресным вечером фильм "AlphaGo" про создание и тестирование системы, обыгравшей в 2016м человека в Го.

Го — это древнекитайская игра, возникшая от 2 до 5 тысяч лет назад. Количество возможных ходов и стратегий в ней куда больше оных у шахмат (примерно в 10 раз больше потенциальных ходов на каждом витке игры, а количество уникальных комбинаций расположений фигур на доске больше, чем атомов во Вселенной). Долгое время считалось, что компьютер либо не сможет обыграть человека, либо это произойдет очень нескоро, "не в течение ближайших 10 лет".

Однако в 2016м году дочерняя компания Google, DeepMind, после долгих месяцев/лет разработки выставили систему против самого сильного игрока. Она победила Lee Sedol с счётом 4-1, хотя до начала общественность и сам профессиональный игрок думали, что счёт будет 0-5 в пользу кожаных.

В фильме очень много интересных сцен, показывающих, как люди не могли принять факт превосходства машины. То говорили "Она даже над первым ходом думает больше 3 минут", то смеялись с очередного хода. Однако произошедшее на той неделе (было 5 игр в разные дни) изменило всё сообщество Го и полностью перевернуло понимание игры.

Хотел выделить два момента:
— (таймкод) знаменитый "ход 37", который предложила сделать AlphaGo. Его никто не понимал до конца игры, когда стало ясно, какую стратегию выбрала модель, и какой это было ловушкой. Люди были уверены, что это просто ошибка — а сами прозевали момент поражения.
— (таймкод) Lee Sedol говорит, что переосмыслил для себя понятие креативности (ходов в игре), и что на самом деле это всё обычные ходы, которые хорошо просчитаны. Если человек думает иначе - он ошибается. И это очень перекликается с тем, какой сейчас шум поднимается вокруг сгенерированных изображений и текстов. "Они не созданы людьми, там нет креатива". Примерно такое же сопротивление, как у игроков в Го до первого матча и, соответственно, первого поражения 🙂

P.S.: в последующие годы исследователи DeepMind улучшили алгоритм настолько, что новая модель из 100 игр не проиграла ни одной той модели, что использовалась для матча против Lee Sedol. Так что шансов у человеков (почти) нет. Более того эта продвинутая система сыграла сама с собой пару десятков игр, которые были предоставлены общественности для анализа. Многие мастера пытались разобрать ходы и научиться из этого. Думаю, то же нас ждёт с приходом AI — будем потихонечку через трубочку и порционно впитывать новые знания и понимание.

2023-07-09 14:25:59

Пока готовил материал для статьи, наткнулся в Твиттере на смешной пост про онлайн-игру.

Философы: Понимаешь ли, некоторые вещи фундаментально несравнимы по ценности, и это ведет к таким парадоксам, как...
Инженеры: поставь оценку Эло-рейтинга ЧЕМУ УГОДНО

Например, что вы оцените выше - Канта или мобильные телефоны (🙄 што?) ?

В общем, можно позалипать, а потом пойти посмотреть рейтинг - я с этого угарел)

Сайт: https://eloeverything.co/
Лидерборд вещей по Эло-рейтингу: https://eloeverything.co/leaderboard

2023-07-08 20:54:09

🙄 вот так выглядел Sam Altman в 19 лет

👀

сейчас ему 38, ровно в 2 раза старше.

ОН ВООБЩЕ СТАРЕЕТ?

Человек во время управления YCombinator (и тем более OpenAI, где каждый день есть риск появления AGI 🥹) должен был так настрессоваться, что ходить почти без волос и с морщинами...а еще он же наверняка как True стартапер не высыпается нифига?

Что за магия...

2023-07-08 20:20:54

В продолжение темы галлюцинаций моделей. Наткнулся на запись встречи с мирового турне Sam Altman из Нью-Дели. Там один из посетителей задал вопрос про галлюцинации, мол, как с ними работать, они существенно ограничивают применимость моделей.

На что CEO OpenAI ответил:
— Я думаю, что в большей степени проблема галлюцинаций будет решена нашей командой в течение полутора-двух лет. К тому времени мы перестанем про это говорить как про проблему. Есть баланс между "креативностью" и "фактической точностью", и модель должна будет научиться определять, когда и что вам нужно (можно ли приврать, или это лишь испортит ответ). Вообще для нас это одна из основных проблем на уровне со скоростью работы модели и ценой за использование. И мы определенно работаем над улучшением ситуации

Ссылка с таймкодом: тык

Интересная позиция. С одной стороны, Sam уже говорил, что хочет, чтобы модели были как reasoning-движки, а не хранилища знаний. С другой - даже в таком случае нужно, чтобы модель умела опираться на какую-то базу (нашу историю) и работала с фактами.

2023-07-06 19:24:02

Сотрудники OpenAI пишут релиз за релизом
Я готовлю для вас посты в канал чтобы вы успевали следить за всем!

2023-07-06 19:23:59

Продуктовая команда OpenAI не спит и продолжает писать в блог. Вторая новость за вечер!

Тезисно:
— все, кто хоть раз платил за API OpenAI, получают доступ к GPT-4. Не нужны никакие списки ожиданий и очереди!
— Новым же разработчикам откроют доступ в конце июля 2023го года; после этого начнут поднимать лимиты на количество запросов, чтобы люди могли строить вокруг API свои бизнесы
— API для GPT-3.5 Turbo, DALL·E и Whisper это тоже касается, теперь почти у каждого есть доступ к ним
— 97% API запросов приходятся на.. ChatGPT/GPT-4 (текстовые запросы в формате чата). Сюда не входят более старые модели вроде GPT-3, так как они не работали как чат-бот. Иными словами либо все обновились, либо клиентов стало сильно больше, что все старые просто не составляют массы
— за форматом чата OpenAI видят будущее, и обещают его развивать. Среди фичей, готовящихся к релизу, есть: log probabilities for completion tokens, increased steerability to reduce the “chattiness” of responses;
— 4го января 2024го API старых моделей будет отключено. Уйдет эпоха...


В общем, как вы поняли по новости... Microsoft + OpenAI просто наконец-то запустили новый датацентр со свеженькими видеокартами Nvidia H100 😈

2023-07-06 18:10:27

Недавно OpenAI рассказывали, что им пришлось отключить фичу Web-Browser'а для GPT-4 из-за некоторых проблем (которые они обещали починить очень быстро, так как там ничего серьезного).

Сейчас же было анонсировано, что на следующей неделе все Plus-подписчики, имеющие GPT-4 в своём арсенале, получат доступ к интерпретатору кода, подключенному к модели.

Так как сама ChatGPT тренировалась на коде очень много, и в целом хорошо понимает, что вы от нее хотите, то теперь можно такой элемент и добавить в список доступных инструментов. Например, вы можете загрузить Excel-файл и попросить некоторым образом его обработать, выделить и нормализовать колонки, а потом построить график. GPT-4 с такой задачей легко справится!

(конечно же, модель умеет пользоваться большинством самых популярных библиотек, хорошо знает классические алгоритмы. Полагаю, перформанс будет очень хорошим на тех задачах, которые возникают чаще всего — ибо на них то модель и смотрела 👀)

2023-07-06 10:02:19

Штош а я сажусь в выходные писать статью новую по всему этому делу, с рассказом про то, о чем думают OpenAI и в какую сторону будут двигаться...каждый лайк этому посту приближает выход статьи на 1 минуту. Не скупитесь!

2023-07-05 17:07:15

OpenAI идут ALL-IN и открывают направление СУПЕРалайнмента 😎

Целью команды будет решение проблемы выравнивания намерений алгоритмов и человечества в течение ближайших 4 лет.

Вакансии открыты 👀👀

Страница с анонсом: https://openai.com/blog/introducing-superalignment

2023-07-04 12:07:02

И еще из интересного — GPT-4 это единственная модель, которая не теряет качества при ответе на второй вопрос. Это немного спорно, ибо 1) модель всё еще сама себя оценивает 2) разница несущественная, однако это скорее говорит о том, насколько другие модели плохо умеют в Mutli-Turn диалоги и инструкции.

2023-07-04 11:59:05

Ну и собственно самое главное.

По этому бенчмарку видно, насколько существенна разница в разных группах вопросов между моделями. Самый большой отрыв в Reasoning и Coding, там просто нет моделей, хотя бы приближающихся по уровню к GPT-4.

Зато в написании обычных текстов и в ролеплее модели +- могут использоваться. То есть построить дома чатбота, чтобы не скучать, уже можно, а делать умную машину, решающую проблемы автономно — нет.

Ну и минорное - авторы выпустили новые модели Vicuna v1.3 размерами от 7 до 33 миллиардов параметров. Веса забирать здесь.

2023-07-04 11:56:23

Вот примеры вопросов из тех 80, на которых производится оценка. Тут три разные группы, для каждой - по две части одного вопроса.

На специальном сайте можно посмотреть все вопросы, ответы всех моделей и попарные сравнения между более чем 20 моделями. Самые интересные примеры, как водится, в секциях Reasoning и Coding.

2023-07-04 11:55:36

В прошлой серии постов про оценку LLMок я писал, что для масштабируемости и дешевизны их начали сравнивать через GPT-4. То есть одна модель оценивает два разных ответа на один и тот же вопрос, выбирает лучший, и это позволяет строить рейтинг. Однако у метода есть существенные недостатки (как раз про них и можно почитать выше).

Авторы рейтинга lmsys.org, которые и предложили несколько месяцев назад этот метод, теперь отказываются от него в пользу нового способа оценки. А так как за это время они собрали десятки тысяч реальных человеческих ответов о предпочтении одного ответа над другим, то смогли заодно и более точно понять его плюсы и минусы.

В общем, новый метод всё еще базируется на GPT-4 (да-да, модель оценивает модели..) — для возможности автоматизации и масштабируемости. Он доступен всем за пару десятков баксов, если не дешевле. В качестве датасета используется отобранный набор из 80 вопросов, равномерно разделенных по 8 группам (их можно глянуть на картинке ниже). Более того, для каждого вопроса есть второй вопрос-уточнение, который можно оценивать отдельно. Такой сценарий более близок к способу общения людей с ИИ-ассистентами.

Для того, чтобы оценка через GPT-4 вышла более честной, попытались адресовать следующие проблемы:
— Смещение оценки из-за позиции. Например, LLM отдают предпочтение первому ответу при попарном сравнении
— Предрасположенность к многословности, когда LLM предпочитает более длинные ответам, независимо от их качества
— Предвзятость к самоутверждению, при которой LLM могут отдавать предпочтение своим собственным ответам (или моделям, на них обученным)
— Ограниченная способность к рассуждению, связанная с возможными недостатками LLM в оценке математических и логических вопросов

После внедрения некоторых из этих решений авторы обнаружили, что, несмотря на ограничения, мощные LLM, такие как GPT-4, могут хорошо согласовываться как с человеческими предпочтениями, достигая согласия более 80%. То есть результат оценки моделью в 80% случаев совпадает с тем, к чему приходит группа людей при разметке. Может показаться, что 4/5 это маловато, однако! Этот уровень согласия сравним с соглашением между двумя разными людьми-оценщиками. Про это еще писали сами OpenAI, что даже два со-автора одной статьи, тесно работающих друг с другом, достигают согласия в 82-86% случаев.

Следовательно, при осторожном использовании LLM может хорошо приближать оценки людей. Это ни в коем случае не стоит воспринимать как "идеальный способ", но это явно лучше того, что использовалось раньше. Теперь авторы нацелены на сбор 1000 вопросов (вместо 80) и дальнейшее улучшение промптов, чтобы делать оценки GPT-4 менее смещенными.

Кроме того, учитываются еще две более эээээ объективные оценки:
— на основе голосования реальными людьми (называется Arena, мол, модели сражаются друг с другом), выраженное в ELO-очках (как в шахматах)
— на основе предсказаний на бенчмарке MMLU (про них писал в статье про GPT-4)

Чуть более простыми словами и немного иначе про результаты — можно почитать у Kali Novskaya тут: https://t.me/rybolos_channel/742

2023-07-02 15:30:02

Выше в канале писал про то, как Starship изменит принцип ведения дел в космосе, и сейчас самое время начать компаниям к этому готовиться (но этого почти никто не делает). Притворство, что проекта корабля не существует, не является адекватной стратегией хеджирования рисков, независимо от того, полетит ли Starship в 2022, 2025 или никогда. Это просто фактор, который нельзя игнорировать. Очень рекомендую перечитать заметку, особенно если вы пропустили её в конце февраля.

Так вот, среди тех немногих, кто строит планы по поводу дальнейшей деятельности с учетом переиспользуемых сверхтяжелых ракет, приводящих к снижению цены отправки груза на орбиту, есть сектор добычи энергии в космосе. Да, всё именно так, как вы себе представили: разворачиваем огромные солнечные фермы где-то на орбите, они собирают и преобразуют энергию Солнца в микроволновые лучи, которые направляются на батарею приёмников на Земле. Зумеры придумали стриминг

Как вы понимаете, "ферма" это вещь серьезная и большая, и выводить целую группировку огромных спутников безумно дорого. Однако с удешевлением стоимости отправки КГ груза на орбиту в купе с развитием робототехники, позволяющей строить прямо в космосе, технология не выглядит невозможной. Звучит как фантастика, но компании целятся к первым запускам в 30-ых годах 21го века.

На фото — пример спутника. В текущей версии конический корпус отражателей (на правой стороне иллюстрации) фокусирует солнечный свет на золотистом массиве солнечных панелей. Там он превращается в электричество, чтобы генерировать микроволны, которые будут направлены на Землю прямоугольными антеннами по бокам.

Прочитать более подробно про проект можно тут

2023-07-01 15:39:40

Да шучу я) Пока Маск ищет виновных — мы продолжаем!

Если верить последним документам Nvidia, то они планируют отгружать (производить + продавать) по 200'000 видеокарт H100 в квартал. То есть таких кластеров, как хотят сделать в Inflection.AI из поста выше, можно будет делать почти по 10 штук. Хотя есть новость от Oracle, что они будут тратить "миллиарды" долларов на GPU от Nvidia...В ЭТОМ ГОДУ, в 2023м. Если брать по нижней планке, то это 2 миллиарда, или 80 тысяч карт для своих датацентров. Я даже затрудняюсь сказать, что можно тренировать на таких объемах...

Давайте пофантазируем — на что будут тратиться ресурсы? Тренировка ещё бОльших моделей? Навалят кучу данных, не только текста, но и видео, спарсив весь YouTube? Или просто хотят обслуживать запросы пользователей, и разворачивать инференс моделей?

Посмотрел два видео (раз, два, спасибо @bogdanisssimo за ссылки) Ilya Sutskever, ко-фаундера OpenAI, и он достаточно уклончиво отвечает на вопросы про данные. Общий посыл таков, что пока есть куда расширяться, и несколько лет мы (они) будем избегать проблемы исчерпаемости интернета.

P.S.: 200 тысяч видеокарт H100 дают производительность в операциях двойной точности примерно в 2 раза выше, чем все суперкомпьютеры рейтинга Top-500 вместе взятые (500 самых мощных, как можно догадаться по названию). И человечество может просто за квартал р-р-р-раз! и умножить цифру на три.

P.P.S.: помимо этого напомню, что и OpenAI (пруф), и Google (пруф), и Tesla (пруф) думают над своими чипами для ускорения работы нейросетей, чтобы не зависеть от общего рынка и одного поставщика (Nvidia).

Короче, как сказал один умный человек: "мы еще находимся на очень ранней стадии развития LLM-ок". Давать прогнозы по тому, чего они смогут, чему научатся, а что пойдет в разрез с принципом их устройства — дело почти бесполезное. Представьте, что через 2 года у нас будет 2-3 разных модели, каждая из которых в 10 раз больше GPT-4, или тренировалась в 10 раз дольше, ещё и на всех видео.

2023-07-01 15:24:50

Твиттер лежит, поэтому постов в канале не будет

🤯

2023-07-01 13:34:34

Inflection.AI, компания, разработавшая своего эмпатичного ИИ-ассистента pi.ai, подняла раунд инвестиций в $1.3B (на прикрепленной картинке — моя реакция. Но тут хотя бы у компании уже есть какой то MVP, а не только вебсайт).

В комментариях к прошлым постам читатели канала уже обсуждали pi.ai, и хвалили живость диалога. Поэтому если надоело общаться с ChatGPT — попробуйте (есть бот в whatsapp, приложение для iOS, сайт в конце концов). Я пока этого не сделал, позже поделюсь ощущениями. Если верить блогу разработчиков — это их персональная проприетарная модель, а не API к уже существующим LLM с промптом. В комментариях делитесь своим опытом — кажется ли этот бот более "человечным" и "понимающим"? 💬

Интересно, что в раунде инвестиций участвовали Microsoft (решили яйца разложить по нескольким корзинам — не all in'ить же на OpenAI!), Reid Hoffman, Bill Gates, Eric Schmidt (бывший СЕО Google, 2001-2011) и... NVIDIA. Да, компания-разработчик железа, спонсирующая AI-революцию, теперь вкладывается и из своего кармана.

Но что примечательно — так это обещание Inflection.AI построить новый кластер для обучения моделей, в котором будет 22'000 новейших видеокарточек H100. Они эффективнее предыдущего поколения A100 в 3-4 раза (по разным бенчмаркам обучения LLM). По слухам, ChatGPT обучалась на 20-25 тысячах A100. Так что это достаточно весомо. На данный момент такой суперкомпьютер был бы топ-2 в мировом рейтинге, причём, вплотную приближаясь к первому месту. Однако конкуренты не спят — ходит много слухов, что OpenAI, Oracle, Microsoft тоже закупают GPU гигантскими партиями.

А знаете, у кого эти карточки будут покупаться по цене $25'000 за штуку? У NVIDIA... $25'000 x 22'000 = $550M, половина раунда инвестиций, просто вернется в карман кожаной куртки Jensen Huang. Умно, умно, и долю в компании прикупил, и товар реализовал, и бонус квартальный будет начислен.

2023-07-01 09:29:40

В Anthropic (кто это такие - писал тут) пополнение — да еще какое! К ним вышел первый Prompt Engineer (наверное, только сейчас закончил курсы за 150'000 рублей). Этот человек - создатель сайта jailbreakchat, где люди размещают свои промпты и голосуют за лучшее.

И вышел он ровно на ту вакансию, про которую писали в businessinsider, мол, "это следующая big thing! промпт инженеринг, вакансии с зарплатой $375'000 в год!". А вот ссылка и на саму вакансию. В ней действительно указана вилка зарплат в год от $250k до $375k. И это — помимо бонусов и акций компании. А вот какие там требования:
— Иметь 3-5 лет соответствующего или релевантного опыта (тут речь не только про промптинг, но и про работу с языковыми моделями).
— Иметь высокий уровень понимания архитектуры и работы больших языковых моделей.
— Вы приятный собеседник и хороши в эффективных коммуникациях, и любите обучать техническим концепциям, создавать высококачественную документацию, которая помогает другим.
— Рады общаться с мотивированными клиентами и помогать решать их проблемы.
— Имеете творческий и хакерский дух, и любите решать задачки-головоломки.
— Получаете удовольствие от создания команд с нуля.
— Вы мыслите целостно и можете активно определять потребности организации. Можете прояснить неоднозначные проблемы и определить основные принципы, которые нужно применять в разных сценариях.
— Стремитесь сделать мощные технологии безопасными и полезными для общества. Вы предвидите непредвиденные (лол, реально anticipate unforeseen) риски, моделируете сценарии и даете действенные рекомендации коллегам.
— Вы остаетесь в курсе последних событий и информированы, проявляя активный интерес к новым исследованиям и отраслевым тенденциям.

Как видите, это очень значимая роль, на которую нужно нанимать правильного человека. Простого "ну я понимаю как работаеn три приёма для промптинга", увы, недостаточно, чтобы получать по трети миллиона долларов в год. Извините, если расстроил(

А вообще это — второй именитый Prompt Engineer, которого я знаю/про которого слышал, а первый - Riley Goodside. Про него можно писать и писать, но поля книги слишком узки для этого, поэтому как-нибудь в другой раз. Пока рекомендую послушать подкасты, посмотреть видеоэто) и прочитать интервью Washington Post, он отлично рассказывает!

Так, к чему это я? Riley написал в конце 2022го, что "My goal is to do my job so well that I'm not just the first Staff Prompt Engineer, but the last. Most people don't have the time to learn what LLMs have taught me.". Так что вполне вероятно, что пока не будет большого количества высокооплачиваемых вакансий на промпт-инженеров.

2023-07-01 08:20:15

А еще у Sam'а очень клевая рубашка....

👍

2023-07-01 08:19:58

Как я писал ранее, за последние недели команда OpenAI посетила 25 городов на 6 континентах. Цель поездки - поговорить с пользователями, разработчиками, политиками и общественностью, чтобы узнать, что для них важно в развитии и применении искусственного интеллекта.


Что они вынесли из этих бесед:
— Пользователи и разработчики уже сейчас создают полезные приложения с помощью инструментов OpenAI. Применение инструментов варьируется от поддержки образования в Нигерии до улучшения общественных услуг в Сингапуре и сокращения потерь пищи во Франции.
— Все надеются, что AI сможет улучшить доступ к индивидуальному образованию и здравоохранению, и увеличить экономический рост. Однако есть и опасения связанные с дезинформацией, экономическими изменениями, а также безопасностью и рисками от все более мощных моделей.
— Главное, что радует команду OpenAI — это что политики активно вовлечены в вопросы AI и стараются гарантировать безопасное и полезное использование текущих инструментов. Они хотят максимизировать пользу от AI, управляя его рисками, и поддерживают идею создания глобального фреймворка для управления будущими системами.
— Люди хотят знать больше об основных ценностях OpenAI. В статье дается большое количество ссылок на основные политики и принципы компании (1, 2, 3), включая политику не обучаться на данных клиентов API, фокус на создании механизмов безопасности и исследовании способностей систем.


На основе полученных отзывов, OpenAI будет фокусироваться на:
— увеличении пользы и доступности своих продуктов. Это включает в себя как обучение моделей "нюансам" различных индивидуальных потребностей и глобальных культуры, улучшение качества работы на языках, отличных от английского, и пересмотр ценовой политики.
— дальнейшем развитии практик управления и контроля foundation models (что это такое я писал тут), которые могут стать "умнее" людей со временем. Сюда входит тестирование и улучшение конкретных практик контроля, оценку безопасности до внедрения моделей. OpenAI также продолжит вкладывать ресурсы в подходы, основанные на общественном мнении (они недавно запустили фонд), и поддержку международных исследовательских групп.
— работе над раскрытием преимуществ AI, в том числе распространению знаний в области AI среди обычных людей (не технарей), помощи разработчикам в получении выгоды от новых технологий, предоставлении поддержки организациям, исследующим использование инструментов OpenAI, и проведении исследований социальных и экономических последствий создаваемых ими систем (Sam Altman как-то обмолвился, что сейчас компания инвестирует в самое масштабное и дорогое исследование по безусловному базовому доходу. Если всё будут делать машины — то как и зачем жить нам?).

2023-06-30 12:33:54

Когда-то Юра написал этот пост в слаке ODS и я часто на него ссылался. Последний раз — вчера (лол).

Но переписки и скриншоты сгинули в небытие. А вот сам автор всё воспроизвел!

Поэтому перешлю классику и сюда.

2023-06-30 08:39:30

Возвращаясь ко вчерашней теме. Так как это был реальный вопрос из датасета, то мы можем посмотреть на распределение голосов между ответами респондентов из разных стран (ссылка на строчку с результатом).

Всего указано две страны: Russia и Ukraine (в других вопросах другие страны, есть даже такие, где приведена статистика по более чем десяти странам).
В первой голоса разделились как 8.8% vs 91.2%
Во второй — 36.8% vs 63.2%.

Видна существенная разница в восприятии жителями Украины, собственно, странны, фигурирующей в вопросе, и опрошенных россиян — правда ни там, ни там большинство не верит, что государство уважает свободу личности.

Что интересно, наш опрос в чате очень близок к оценке самих украинцев: 35% vs 65% (игнорируя кнопку "посмотреть результаты"). В некотором смысле можно сказать, что мы почти uhnbiased (если предположить, что мы пытаемся ответить от лица человека, который должен эээ давать наиболее объективную оценку: жителя страны).

Но такой вопрос ярко демонстрирует проблему, которую, вероятно, придется решить на пути к AGI. Как ИИ учитывать разные мнения из разных стран? А как они должны меняться во времени, реагировать на происходящие вокруг события? Как не "привить" модели модель мира одного большинства, фокусируясь только на Западном мире?

Столько нерешенных проблем...

2023-06-29 21:17:58

Свежая статья от Anthropic, конкурентов OpenAI (писал о них подробнее тут). Выбрали они очень интересный топик, и попытались проверить схожесть мнений LLM и людей из разных регионов на широкий круг тем.

Смотрите картинку - сверху задаётся вопрос, мол, если бы вы выбирали между хорошей демократией и сильной экономикой, то что из этого играло бы большую роль? У ответа, очевидно, 2 опции - A и B. Мы можем замерить, с какой вероятностью модель ответит A и с какой B. наверное, можно сказать, что если модель идеально откалибрована на наш мир и представляет интересы всех людей, то соотношение процентных вероятностей должно быть похожим на некоторое _истинное_ распределение. Если в начало вопроса добавить что-то в духе "представь, что ты житель США" — то можно (в теории) получить оценку людей из этой страны. Как видно на картинке — Claude (ChatGPT от Anthropic) топит за демократию

🇺🇸 (за вопрос "при чем тут США и демократия" в комментах будет бан).

Так вот, было собрано больше 2 тысяч вопросов со статистикой ответов респондентов из разных стран. Оказалось, ВНЕЗАПНО, что по умолчанию ответы модели максимально схожи с оценками участников из США, Канады и некоторых стран Европы. Вот на этом сайте можно поиграться с визуализацией на карте, насколько похожа модель на разные страны (в том числе с промптом под страны — см. вкладку "Cross National Prompting"). А вот тут выложены все вопросы с процентной разбивкой.

В общем, модели ещё выравнивать и выравнивать. OpenAI, кстати, думают в ту же сторону — напомню, что они запустили активность по приёмке предложений о репрезентативном сборе данных со всего мира, чтобы учитывать индивидуальные мнения меньшинств (читать тут).

P.S.: вот интересно в контексте последнего тезиса, почему есть слухи о крипто-монетах от OpenAI?) неужели будут за опросы платить виртуальной валютой, а взамен получать фидбек от людей со всего света? вот это ДЕМОКРАТИЯ!
😔

2023-06-29 20:38:55

Пример описания произвольной функции для применения к сырым данным. Код дописывать НЕ надо, генеративная нейронка сама угадает, что и как делать.

2023-06-29 20:37:47

Пример: сверху — запрос на рисование графика, снизу результат его конвертации в код и исполнения над реальными данными.

2023-06-29 20:37:04

Introducing English as the New Programming Language for Apache Spark

Новость с громким заголовком, в то же время ознаменовавшая, на мой взгляд, следующую большую эпоху в мире разработки.

Databricks, компания, основанная разработчиком Spark (Matei Zaharia, писал тут) и лидирующая на рынке предоставления облачных кластеров для обработки данных, интегрировала новую фичу: запросы на английском. Теперь не нужно вспоминать синтаксис и особенности обработки данных конкретной библиотекой, можно написать простой запрос на естественном языке, а он уже сам трансформируется в чтение тех или иных баз данных.

Это киллер фича для аналитики, потому что теперь даже 10 минут на составление запроса (и 20 — на копании в сотне страниц документации с описанием тысяч таблиц) не нужно тратить: нужно лишь добавить пару деталей к оригинальному запросу от менеджера, и всё!

Разработчики пошли ещё дальше, и прикрутили Copilot, который "угадывает" функции по описанию. Скажем, вам нужно сделать что-то необычное сверху данных. Обычно разработчик формирует UDF (user defined function), и затем её применяет. Теперь можно задать лишь сигнатуру (какие колонки принимает, какие возвращает как результат), написать строчку описания — и готово.

Подобные магические движки были и раньше, но тут совершенно другой уровень. Во-первых, у Databricks нереальное количество данных для создания наилучшей модели, тесно интегрированной со схемой данных, с их хранилищем. Во-вторых, это выход сразу на огромный рынок с реальными потребителями, которые уже платят. В-третьих, всё же технологии за последние 8 месяцев очень развились, и такой же инструмент год назад скорее всего не работал в комплексных запросах в половине случаев.

Теперь ждём совмещения вакансий Data Analyst, BI Engineer и Product Manager!

UPD: самое главное, как мне видится, это возможность модели "читать" данные и интерпретировать содержание баз данных, а также схему данных. Если каждую таблицу описывать человеческими словами, а каждую колонку подкреплять однострочным осмысленным предложением, то я не вижу, почему машина не сможет составлять грамотные запросы, которые в 99.5% случаев верны.

2023-06-29 19:51:31

Статус: на 8й за день отправленной в "сохрененное для канала" ссылке захотелось закричать ДА ТВОЮ МАТЬ НУ СКОЛЬКО МОЖНО ТО А Я ЖЕ НЕ УСПЕВАВЮ ПИСАТЬ

💀

2023-06-28 14:23:07

OpenAI открыли первый офис за границами США — в Лондоне. Теперь переманивать ведущих исследователей из Google DeepMind и Facebook AI Research станет еще проще!

Вакансии можно посмотреть тут, а у меня скоро будет про них отдельный пост :)

P.S.: обычно между континентами разница в зарплате раза в 2-3, интересно, сохранится ли она и в этом случае?)

2023-06-24 16:25:30

Ну и вдогонку темы предлагаю к ознакомлению статью исследователей из UC Berkeley с интересным названием "Why Johnny Can’t Prompt: How Non-AI Experts Try (and Fail) to Design LLM Prompts". Всем заинтересованным рекомендую к прочтению.

Основные тезисы (на основе анализа взаимодествия 10 пользователей и ChatGPT):
1) Неопытные (с т.з. "общения" с языковыми моделями) люди предполагают, что промпт, который работает в одном случае, будет работать и во всех других случаях
2) Также они верят, что если ChatGPT не делает что-то с первого раза, то оно и не может этого сделать в принципе
3) У этой же группы людей наблюдается отсутствие систематических тестирования и экспериментов
4) Сама ChatGPT в целом неплохо справляется с "подсказыванием" направления движения в правильную сторону. Если не стесняться спрашивать, то можно итеративно достичь цели
5) Касательно написания и детализации промптов — люди исследования ожидали, что простые промпты с описанием желаемого действия должны быть «поняты», а модель будет им следовать. То есть у людей есть ожидание, что модель есть буквально AGI, читающий мысли и угадывающий желания.
6) Участники ожидали, что семантически эквивалентные инструкции будут иметь семантически эквивалентные результаты, тогда как на самом деле тривиальные модификации в промпте могут привести к драматическим сдвигам в ответах модели.

На картинке — сравнение понимания группами людей (эксперты и не-эксперты) разных деталей работы в мире программирования и машинного обучения. Показывается, что у эксперта фактичсеки в каждом пункте есть отличие, дающее скорее качественную разницу. И странно, что люди не берут это в рассчет при оценивании навыков больших языковых моделей — мол, я уже эксперт, у меня всё и так бы заработало, если бы модель была умной!

TLDR: используйте GPT-4 (купите подписку уже, наконец), практикуйтесь, ищите чужие промпты и пытайтесь понять, что работает, а что нет. Начать можно с объемнейшего промпта, который предлагает модели примерить роль "учителя" — я про него писал вот тут.

2023-06-24 15:35:12

Вот интересный график со страницы релиза GPT-4 (он не менялся с даты выхода, просто под руку попался).

Здесь отображена доля правильных ответов для моделей, если им задавать вопросы, требующие фактической информации для генерации. Видно, что прогресс существенный — относительный рост метрик достигает 40% (ChatGPT -> GPT-4). Однако глобально модель всё еще иногда галлюцинирует, потому лишь 80% вопросов отвечаются корректно. Для "базы знаний" точно ненадежно, это факт.

Если вам интересно узнать в общих словах, как OpenAI частично побороли проблему галлюцинаций и ответов со враньем, то предлагаю посмотреть мой последний доклад (ссылка с таймкодом).

2023-06-24 15:24:41

Так как вокруг ничего не происходит и писать не о чём, то прокомментирую вот эти два твита на скриншоте.

Действительно, многие люди поигрались с ChatGPT в районе января-февраля 2023го года, при этом не используя разные промпты (особенно с примерами, чтобы модели было проще понять задачу) и тем более (зачастую) не понимая ограничений системы. И вправду легко было обмануться, причем, в обе стороны — и подумать "прикольно, но кому нужна простая болталка", и восхититься "вау это же почти искуственный интеллект!".

И сама ChatGPT развилась за это время (ведь её постоянно дообучают, было, как минимум, 3 версии), и вышла более мощная GPT-4, которая уж сликшом существенно отличается от предшественницы. А ещё люди лучше начали "чувствовать" границы того, где и для чего модели стоит использовать.

Так, например, я писал о том, что модель умеет складывать 40-значные числа, хотя её этому не учили — но она поняла принцип, поняла алгоритм и может чётко его исполнять. То же применимо и к широкому списку других задач: самое главное, что модель может понять алгоритм и следовать ему, при этом не нужно писать код программы, всё можно описать примерами и текстом (что расширяет круг пользователей).

И вообще не стоит рассматривать подобные языковые модели как "базы знаний" — это скорее интеллектуальные "движки", которые выстраивают план, и приводят в исполнение некоторые его элементы — прямо как люди, которые пользуются инструментами (топор для рубки дерева, микроскоп для научного исследования).

2023-06-22 12:20:57

Еще на релизе статьи про GPT-4 задавался вопросом, а сможет ли моделька капчу разгадывать?

Не то что может — но и делает это с иронией!

За наводку спасибо автору канала @j_links, источник тут.

2023-06-22 08:45:40

А вот, собственно, и амбициозное предсказание умельцев из Tesla касательно их мощностей для тренировки Foundational Models. Старт массового производства ускорителей Dojo намечен на июль 2023го, то есть уже вот-вот!

Также к концу 2024го Tesla хочет достичь мощностей 100 Exa-Flops. Много это или мало? Ну, человечество только вошло в экзафлопсную эру — самый мощный суперкомпьютер на данный момент (Frontier) обладает менее чем 2 экзафлопсами, то есть в 50 раз слабее (и запущен в мае 2022го, год назад). Правда можно взять другой бенчмарк, связанный с обучением AI (HPL-AI), и там Frontier выдает 8 экзафлопс (в 12 раз меньше сотни от Tesla). То есть оценивать можно по разному, и что мерили тут в Tesla и отображали на графике мы не знаем.

И теперь подумайте, что аналогичный план есть и у OpenAI, и что в 2025м мы увидим модель, которая посмотрела как минимум половину видео в интернете, и обучалась в 10 раз дольше GPT-4...