Нейролента - подборка новостей о нейронных сетях, ChatGPT

Возможно, в ближайшее время в Твиттере или в...

Возможно, в ближайшее время в Твиттере или в других ТГ-каналах вы увидите новости аля "Ага ЛЛМ не могут обобщаться за пределами своей тренировочной выборки, AI отменяется".

Причина — на скриншоте из статьи исследователей Google DeepMind. Хотел про это написать, но не был уверен, пока не увидел твит директора из ByteDance Research.

> Я считаю, что идея, изложенная в статье, проста и бесспорна. Однако, похоже, здесь могло возникнуть недопонимание и неправильная интерпретация. Предобученные трансформеры могут эффективно приобретать знания для новых задач из предоставляемого контекста, если эти задачи связанны с данными в тренировочной выборке, и обобщаться на эти задачи. Но они не могут обобщаться на задачи, значительно отличающиеся от контекстов их тренировочной выборки.

То есть если конкретно ваша задача уникальна относительно того, что размечали в OpenAI, но при этом сама задача в популярном домене, про который GPT-4 знает, то модель с ней будет справлятсья хорошо. Это тоже своего рода генерализация — нам не нужно учить модель всему, достаточно верхнеувроневно описать. По новой для себя инструкции она разберется, что к чему.

Если же вы просите что-то, что не имеет поддержки в тренировочных данных, то тогда модель может столкнуться с проблемами. По крайней мере модели размера GPT-2 (именно на таких проводились эксперименты, мда).

Что это значит на практике: модель, обученная на всём интернете и выработавшая некую картину мира, сможет достичь уровня самых умных или хотя бы медианных людей (то есть AGI). Сможет ли она перейти к суперинтеллекту (ASI) — загадка.