Сейчас лучшие модели вроде GPT-4 обучаются с помощью...

Сейчас лучшие модели вроде GPT-4 обучаются с помощью RLHF: reinforcement learning from HUMAN feedback. Это такой метод, где мясные разметчики выбирают, какие ответы модели лучше, а какие хуже, а нейронка учится выдавать генерации как можно качественнее (с точки зрения оценщиков-людей). Часть этого процесса можно заменить на AI, такую работу в конце прошлого года показывали Anthropic (и схожие наработки были и OpenAI).

Но главная проблема подхода — это что в центре процесса стоит HUMAN. Если мы верим, что в какой-то момент появятся системы умнее нас (хотя бы в отдельных областях, а не всё, везде и сразу) — нужно понять, а как же методы будут масштабироваться? Как нам глупым и слабым вести за руку мощные AI? Например, мы запряжем GPT-7 писать программы для автоматизации труда, а на выходе получим миллион строк кода. Мы не сможем в адекватное время провести полноценную валидацию, и нуно быть уверенным, что внутри не зашито вирусов, намеренных бекдоров и так далее.

К сожалению (или к радости?) у нас нет супер-AI сейчас, и проводить работы предлагается в игрушечном сетапе: сравнивать GPT-4 и GPT-2. Может ли GPT-4 улучшить свою работу на конкретных задачах, если её учителем будет глупая GPT-2? Об этом и поговорим.

Источник: Сиолошная

2023-12-14 18:10:37