На GPQA тоже есть улучшение до 125 примеров,...

На GPQA тоже есть улучшение до 125 примеров, потом идёт просадка. Unsupervised ICL ведёт себя очень по-разному, закономерности нет, то лучше, то хуже, и обычно хуже Reinforced ICL. Как SoTA здесь заявлен Claude-3 Opus (я только не понял, в режиме zero-shot?), лучший из 125-shot к нему приближается.

Ещё проверили на восьми задачах из Big-Bench Hard. Reinforced ICL превзошёл человеческий 3-shot CoT промпт практически на всех задачах и в целом качество монотонно растёт с ростом числа примеров.

В работе есть анализ поведения модели в режиме ICL при переходе от few-shot к many-shot режиму.

Например, many-shot позволяет устранить bias’ы (сделать unlearning) предобучения за счёт множества примеров. В работе воспроизвели сеттинг другой работы, где метки классов были изменены ротацией ([‘negative’, ‘neutral’, ‘positive’] в [‘neutral’, ‘positive’, ‘negative’]) либо заменены на абстрактные ([‘A’, ‘B’, ‘C’]). Во few-shot режиме качество сильно проседает относительно оригинальных меток, но с ростом числа примеров сильно растёт и догоняет. Model confidence тоже выравнивается.

На других задачах неязыковой природы надо выучивать абстрактные математические функции с числовыми входами. Авторы сфокусировались на функциях чётности и линейной классификации в пространстве высокой размерности. Классификация с ростом числа примеров приближается к бейзлайну в лице kNN. Чётность также заметно улучшается.

Из интересных наблюдений то, что от порядка примеров в промпте очень многое зависит. Причём лучший порядок на одной задаче не факт что будет лучшим на другой.

Также поизучали как связан negative log-likelihood с перформансом модели в режиме ICL. Там существенно полезных для предсказания результатов не обнаружено.

Отдельным непонятным вопросом остался почему иногда при увеличении числа примеров качество ухудшается.

Такие дела. С одной стороны результат ожидаем, с другой -- хорошо, что он широко подтверждён и подкреплён. В реальной жизни, вероятно, многое будет определяться экономикой (как соотносятся затраты на дообучение против затрат на большой контекст) и перформансом (где нужно быть ближе к рилтайму, длинные контексты будут проигрывать, потому что требуют большего времени на обработку -- но тут могут появиться множество оптимизаций). Возможно, это будет хорошим методом для генерации синтетики, где разовые затраты ок, а дальше файнтюним другую модель. Reinforced ICL и Unsupervised ICL тоже могут где-то пригодиться.

В любом случае ICL даёт дополнительную гибкость и универсальность, что должно открыть дорогу новым применениям моделей.

Источник: gonzo-обзоры ML статей

2024-04-25 20:33:39