Нейролента - подборка новостей о нейронных сетях, ChatGPT

Снова наткнулся на видео со вступительной речью Andrej...

Снова наткнулся на видео со вступительной речью Andrej Karpathy перед хакатоном, посвященным AI-агентам (AGI House). Там ничего интересного в целом нет, кроме одного кусочка в конце видео

Таймкод

OpenAI очень хороши в тренировке больших трансформеров/языковых моделей (в том смысле, что имеют большое количество экспертизы и опыта).
Как пример можно привести следующую ситуацию. Если выходит новая статья, предлагающая оригинальный способ тренировки моделей, и её скидывают в слак OpenAI, то там пишут что-то в духе: "О да, кто-то пробовал это 2.5 года назад, и вот что получилось. А вот почему это не сработало", и это всё хорошо проработано и сохранено.

Но когда выходит новая статья про AI-агентов, то всем это интересно, сотрудники OpenAI смотрят, читают и думают "вау, круто, это реально что-то новое". И причина этому — то , что тут ни у кого нет большого преимущества с точки зрения опыта. Мощные модели появились вот-вот совсем недавно, и доступны всем в интернете по скромной цене. И теперь все соревнуются со всеми, перезаимствуя идеи — просто потому что таково состояние отдельно взятого домена в индустрии.

Для желающих погрузиться в историю развития AI-агентов предлагаю два survey:
— A Survey on Large Language Model based Autonomous Agents (авугст 23го)
— The Rise and Potential of Large Language Model Based Agents: A Survey (сентябрь 23го)

Думаю, имеет смысл немного углубиться в тему и подразобрать основные подходы, ограничение применимости, и начинать следить за происходящим. С развитием возможностей самих базовых моделей можно будет переиспользовать концепты агентов без изменений кода — и пр этом получать солидные результаты. Просто нужно моделькам стать ещё чуточку умнее 🥰