Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models
Исследователи из MIT, лучшего технического университета мира (если верить множеству рейтингов), решили понять, сможет ли GPT-4 сдать экзамены в их альма-матер, чтобы получить диплом. А то GPT-4 то, GPT-4 это, то она юрист, то историк. Может и инженер?
Было выбрано 30 курсов (от базовой алгебры до топологии ). Получилось собрать 1679 задач, или 4550 отдельных вопросов. Малую часть этого, порядка 10%, отложили для оценки способностей модели, а всё остальное испольовали как вспомогательный материал — на этих данных либо учили модели, либо помещали в базу данных для того, чтобы для каждого тестового вопроса находить наиболее похожие (по векторам от вопросов) и подавать в промпт как пример.
Помимо примеров в промпте, использовали также другие методы:
— цепочка рассуждений (попросить модель думать шаг за шагом, прям в промпте написать, да)
— вместо самого решения написать код для получения ответа (не применимо ко всем задачам)
— критик: отдельный промпт (всего 3 уникальных), которые добавляется после ответа и подается снова на вход GPT. Мол, найди ошибки в решении, и попробуй дать правильный ответ. И так можно делать несколько раз к ряду
— (!) Expert Prompting: добавлять в самое начало промпта фразу, которая, как мы верим, заставляет GPT-4 думать как определенный человек. Например, "You are an MIT Professor of Computer Science and Mathematics teaching Calculus". Фишка в том, что эти фразы тоже предварительно генерит модель, отвечая на вопрос "Give an educated guess of the three experts most capable of solving this question."
А дальше всё просто - комбинировали методы выше в цепочки (зачастую это просто объединение двух-трех промптов, не более: ДА, ВОТ ТАК ПРОСТО), генерировали ответы и проверяли их. Причем, тоже интересно: давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет.
GPT-4 без разных техник решила 90% (от тех. 10%, что отложили), а со всеми трюками выше дала 100% правильных ответов. То есть идеально прорешала все вопросы, таким образом, как бы "получив" диплом MIT.
СТО ПРОЦЕНТОВ ВСЁ РЕШИЛА ПОНИМАЕТЕ? Никого ничего не смутило?
Исследователи из MIT, лучшего технического университета мира (если верить множеству рейтингов), решили понять, сможет ли GPT-4 сдать экзамены в их альма-матер, чтобы получить диплом. А то GPT-4 то, GPT-4 это, то она юрист, то историк. Может и инженер?
Было выбрано 30 курсов (от базовой алгебры до топологии ). Получилось собрать 1679 задач, или 4550 отдельных вопросов. Малую часть этого, порядка 10%, отложили для оценки способностей модели, а всё остальное испольовали как вспомогательный материал — на этих данных либо учили модели, либо помещали в базу данных для того, чтобы для каждого тестового вопроса находить наиболее похожие (по векторам от вопросов) и подавать в промпт как пример.
Помимо примеров в промпте, использовали также другие методы:
— цепочка рассуждений (попросить модель думать шаг за шагом, прям в промпте написать, да)
— вместо самого решения написать код для получения ответа (не применимо ко всем задачам)
— критик: отдельный промпт (всего 3 уникальных), которые добавляется после ответа и подается снова на вход GPT. Мол, найди ошибки в решении, и попробуй дать правильный ответ. И так можно делать несколько раз к ряду
— (!) Expert Prompting: добавлять в самое начало промпта фразу, которая, как мы верим, заставляет GPT-4 думать как определенный человек. Например, "You are an MIT Professor of Computer Science and Mathematics teaching Calculus". Фишка в том, что эти фразы тоже предварительно генерит модель, отвечая на вопрос "Give an educated guess of the three experts most capable of solving this question."
А дальше всё просто - комбинировали методы выше в цепочки (зачастую это просто объединение двух-трех промптов, не более: ДА, ВОТ ТАК ПРОСТО), генерировали ответы и проверяли их. Причем, тоже интересно: давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет.
GPT-4 без разных техник решила 90% (от тех. 10%, что отложили), а со всеми трюками выше дала 100% правильных ответов. То есть идеально прорешала все вопросы, таким образом, как бы "получив" диплом MIT.
СТО ПРОЦЕНТОВ ВСЁ РЕШИЛА ПОНИМАЕТЕ? Никого ничего не смутило?
Источник: Сиолошная
2023-06-17 19:40:15