У меня не влезло из-за ограничений телеграма, поэтому...
У меня не влезло из-за ограничений телеграма, поэтому допишу пятый "анекдот" отдельным сообщением, однако он не такой однозначный.
Авторы применяли все методы по цепочке. То есть если GPT-4 не смогла ответить на вопрос, то тогда ей показывали 3 самых похожих примера в промпте и просили решить. Если не могла - добавляли фразу "думай шаг за шагом". Не справлялась снова - пиши код. Ну и так далее. А те вопросы, на которые модель ответила правильно (согласно самой же GPT-4, напомню), уже не переспрашивались.
Кажется, тут можно сказать "ну это абсурдно же, так как по сути мы смотрим на правлиьные ответы. Это как будто кто-то на экзамене стоит над вами, и к каждому решению говорит, что оно неправильное. А если оно правильное - перестает ругаться, а вы перестаете его менять". С одной стороны, да, это правда - получается, что воспроизвести подобное в продакшене не получится (потому что нет правильного ответа, чтобы сравнить и остановить цепочку рассуждений).
Также ясно, почему это нечестно с точки зрения метрик - кажется, если модели на правильный ответ дать хотя бы промпт критика, мол, "найди тут ошибки и исправься" - то правильное решение может стать неправильным, ответ изменится, и всё!
Но с другой стороны OpenAI недавно выпустили статью, про которую я писал, где показывали, что можно научить модель очень качественно валидировать промежуточные шаги в решении задач и вычислениях. Так что при наличии оной (или если GPT-4 научится/умеет делать также) в теории можно повторить.
В хорошей статье, конечно, это тоже должно было исследоваться, как сильно меняются метрики, и на сколько просаживается качество. А эта статья, ну...нехорошая🐈
Авторы применяли все методы по цепочке. То есть если GPT-4 не смогла ответить на вопрос, то тогда ей показывали 3 самых похожих примера в промпте и просили решить. Если не могла - добавляли фразу "думай шаг за шагом". Не справлялась снова - пиши код. Ну и так далее. А те вопросы, на которые модель ответила правильно (согласно самой же GPT-4, напомню), уже не переспрашивались.
Кажется, тут можно сказать "ну это абсурдно же, так как по сути мы смотрим на правлиьные ответы. Это как будто кто-то на экзамене стоит над вами, и к каждому решению говорит, что оно неправильное. А если оно правильное - перестает ругаться, а вы перестаете его менять". С одной стороны, да, это правда - получается, что воспроизвести подобное в продакшене не получится (потому что нет правильного ответа, чтобы сравнить и остановить цепочку рассуждений).
Также ясно, почему это нечестно с точки зрения метрик - кажется, если модели на правильный ответ дать хотя бы промпт критика, мол, "найди тут ошибки и исправься" - то правильное решение может стать неправильным, ответ изменится, и всё!
Но с другой стороны OpenAI недавно выпустили статью, про которую я писал, где показывали, что можно научить модель очень качественно валидировать промежуточные шаги в решении задач и вычислениях. Так что при наличии оной (или если GPT-4 научится/умеет делать также) в теории можно повторить.
В хорошей статье, конечно, это тоже должно было исследоваться, как сильно меняются метрики, и на сколько просаживается качество. А эта статья, ну...нехорошая
Источник: Сиолошная
2023-06-17 21:42:07