В Веб-версии ChatGPT у некоторых пользователей появилась новая...

В Веб-версии ChatGPT у некоторых пользователей появилась новая фича. Вместо одного ответа на их промпт одновременно генерируется два ответа, и предлагается выбрать лучший.

Подобное было реализовано почти сразу на релизе GPT-4, но только после нажатия кнопки перегенерации, когда есть явный запрос вида "мне не понравилось, давай ещё разок". А сейчас вот прямо сразу в чате.

Очевидно, что эти данные пойдут для дообучения текущих моделей и обучения будущих, ибо основной способ тренировки, RLHF (который я разбирал в этой лекции), опирается как раз таки на парные ответы, пытаясь оперировать оценкой вида "левый лучше правого". Чаще генерируй то что нравится больше, а то что не нравится - реже, и дело в шляпе!

Страшно представить, насколько впереди OpenAI в разрезе количества собранных данных относительно других конкурентов, особенно опенсурса. Google и Meta ещё могут догнать, а вот другие разве что в отдельновзятых узких доменах.

Источник: Сиолошная

2023-09-10 16:35:01