Нейролента - подборка новостей о нейронных сетях, ChatGPT

No, GPT4 can’t ace MIT

На фоне хайпа статьи выше в твиттере нашлись другие исследователи из MIT, которые задались вопросом - а это вообще правда, что 100% правильных ответов набралось?

Конечно, нет. Самая первая простая и понятная придирка - это как вообще понимать, что "давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет."? Кто-то проверял, что модель хорошо оценивает решения? Нет. То есть модель сама же оценивала свои же ответы! Ну конечно же это непрвильно, и нельзя говорить, что это честная оценка.

А дальше начались чистые анекдоты.
1) Оказывается, среди вопросов были повторы, и как только мы добавляем поиск похожих вопросов - мы по сути сразу же берем и добавляем правильный ответ на точно такую же задачу в промпт! (не знаю, почему это не привело к 100% сразу, теряюсь в догадках). Вы буквально говорите "так, модель, 3+4=7, а 2+2=4. Теперь реши задачу: 2+2=?". Ну и конечно она знает ответ!
2) примерно 4% вопросов были нерешаемыми для языковой модели — потому что там были вопросы про диаграмы и графики. Как модель может только по тексту на них ответить? да никак, если только ответа нет в промпте (см. пункт 1)
3) Часть вопросов...вообще не была вопросами. Это просто текст, начало задачи, и из-за того, что на проверке это просмотрели, такое попалось в наборе вопросов.
4) ну и конечно нет разбивки по годам, чтобы понять, а не видела ли GPT-4 эти задачи в интернете? Потому что даже без поиска похожих вопросов уже получается 90%, что достаточно весомо (хах, настолько же, как и 90% в Bar Exam, американском экзамене для юристов - писал про проблемы с ним тут)

И все это нашлось буквально за несколько часов и только по малой доле опубликованных вопросов — кто знает, что было бы, если авторы полностью выложили и вопросы, и ответы, и генерации модели?

В общем, нет, модель не решает 100% вопросов по-честному, и сама оригинальная работа не должна (пока) восприниматься всерьёз. И вообще конкретно сейчас очень важно гораздо внимательнее относиться к способам оценки и валидации моделей, тем более что мы не знаем, на чем и как они тренировались. Есть риски наделать много ошибок в логических цепочках, особенно если делать ничем не подкрепленные выводы в духе "ну модель сама может проверить по ответу корректность, да".

Главный посыл: важно очень четко понимать, что и как мы проверяем у модели, и насколько этому можно доверять.