Для проверки гипотезы генерализации (обобщения) делается следующее:. 1

Для проверки гипотезы генерализации (обобщения) делается следующее:
1. GPT-2 обучается на правильных метках классов разных задач. Всего их 3 типа. Первый — бинарная классификация на 22 известных NLP-датасетах. Вторая — предсказание лучшего шахматного хода на доске. Третья — выбор того, какой из ответов LLM человек выберет как предпочтительный (про эту задачу писать не буду, с ней почти нчиего не сработало). Получается модель—учитель.
2. GPT-4 обучается на тех же данных, её качество очевидно лучше. Это — верхняя планка того, чего можно достичь.
3. А теперь GPT-4 обучается на предсказаниях «учителя», то есть GPT-2. Как будто глупая модель показывает умной как надо. В обычной ситуации можно было бы предположить, что лучше GPT-2 результатов не получить — ну а как, если метки классов очень неточные?

НО....не всё так просто. GPT-4 сама по себе не глупая, и у неё есть внетренние представления о том, что и как в этом мире работает. Да, оно не идельно, но «из коробки» даже просто с промптами модель на предложенных задачах показывает какие-то нетривиальные результаты. То есть нам не нужно научить их новым задачам с нуля, нам просто нужно выявить их скрытые знания, и скорректировать направление (их = сильных AI, или GPT-4 в данном случае).

И это действительно получается. Качество здесь замеряется от 0 до 1, где 0 — качество модели-учителя из первого пункта (нижняя планка), а 1 — из второго (верхняя планка). И этот «разрыв» в метриках мы и пытаемся сократить. С такой простой системой GPT-4 в среднем достигает 0.2 (или 20%) результата.

Но что можно сделать ещё? Ну, такой способ проверки всё же закрепляет ошибки глупой модели — при том что для умной всё может быть очевидно. Давайте добавим в обучение условие, что если GPT-4 сильно расходится с GPT-2 на конкретном примере, то мы не будем её сильно штрафовать? В частности, добавим в функцию потерь дополнительный член, который усиливает уверенность сильной модели в ее собственных прогнозах, даже если они не совпадают со слабыми метками. Желающие могут посмотреть формулу в appendix A.4.

И...такой трюк позволяет наверстать 80% разрва в качестве между GPT-4 и GPT-2! То есть ещё раз: умная модель, обучаясь на раметке от глупой, существенно превосходит её, вплотную приближаясь к случаю, как если б GPT-4 саму сразу учили на правильной разметке — и превосходя по качеству GPT-3 (но недостало до GPT-3.5...). Это и есть weak-to-strong generalization!

Источник: Сиолошная

2023-12-14 18:10:44