Нейролента - подборка новостей о нейронных сетях, ChatGPT

Towards Understanding Sycophancy in Language Models

Ещё одна статья от Anthropic, в которой показывается, что современные AI-ассистенты часто выдают «льстивые» ответы, которые нравятся пользователям, но при этом не являются точными. Вы наверняка это и сами замечали. Помните тот мем, где пользователь говорит "моя жена утверждает, что 2+2=5, и она всегда права"? Вот у модели есть выбор — огорчить вас и сказать, что всё же тут есть ошибка, или согласиться на неправильный ответ.

Что приводит к такому поведению? Авторы проанализировали свои данные о предпочтениях (используемых для последнего этапа тренировки, RLHF), и обнаружили, что соответствие ответа убеждениям конкретного человека является самым лучшим предиктором (предсказывающим фактором) того, насколько ему понравится ответ. Ни релевантность ответа вопросу, ни дружелюбность, ни правдивость, ни соответствие стилю — а именно соответствие убеждениям. Это и проиллюстрировано на приложенном изображении. И именно такое поведение неявно закрепляется через RLHF.

Какой из этого вывод? По сути, это недостаток процесса сбора данных, который приводит к "подхалимству", которое является характерной чертой буквально каждого протестированного AI-ассистента. Значит, нужно больше внимания уделять составлению грамотных инструкций для разметчиков, а также внедрять методы обучения, выходящие за рамки неэкспертного человеческого суждения, такие как обратная связь и критика от другого AI-ассистента. Да, давайте интегрируем модель в подготовку данных для модели чтобы ты мог размечать данные для модели пока работаешь с моделью над разметкой данных для модели 😔

Anthropic, кстати, уже занимались работой в этом направлении: тык. Да и OpenAI уж больше года назад писали про AI-критиков, которые помогают глазу "не замыливаться".