> По сути, это недостаток процесса сбора данных,...
> По сути, это недостаток процесса сбора данных, который приводит к "подхалимству", которое является характерной чертой буквально каждого протестированного AI-ассистента
Интересно, что это верно для GPT-4 в меньшей степени. Команда OpenAI, видимо, уделила большее внимание проблеме, существенно прокачав процесс разметки, ибо GPT-4 показывает себя гораздо лучше в подобных ситуациях.
На графике есть два среза:
Сверху — доля запросов, для которых AI-ассистент согласился, что сделал ошибку, когда ответил верно
Снизу — доля запросов, в которых модель после упрёка меняет свой правильный ответ на неправильный.
По этим двум показателям, ChatGPT работает плюс-минус как Claude 2 от самих Anthropic, а вот фронтир-модель от OpenAI уже показывает разницу — хоть и понятно, что проблема не решена до конца.
(примечание к картинке — тут используется llama-2-70b-chat, то есть самая большая и "умная" модель из опубликованных FAIR'ом)
Интересно, что это верно для GPT-4 в меньшей степени. Команда OpenAI, видимо, уделила большее внимание проблеме, существенно прокачав процесс разметки, ибо GPT-4 показывает себя гораздо лучше в подобных ситуациях.
На графике есть два среза:
Сверху — доля запросов, для которых AI-ассистент согласился, что сделал ошибку, когда ответил верно
Снизу — доля запросов, в которых модель после упрёка меняет свой правильный ответ на неправильный.
По этим двум показателям, ChatGPT работает плюс-минус как Claude 2 от самих Anthropic, а вот фронтир-модель от OpenAI уже показывает разницу — хоть и понятно, что проблема не решена до конца.
(примечание к картинке — тут используется llama-2-70b-chat, то есть самая большая и "умная" модель из опубликованных FAIR'ом)
Источник: Сиолошная
2023-10-23 21:01:26