Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

Исследователи из MIT, лучшего технического университета мира (если верить множеству рейтингов), решили понять, сможет ли GPT-4 сдать экзамены в их альма-матер, чтобы получить диплом. А то GPT-4 то, GPT-4 это, то она юрист, то историк. Может и инженер?

Было выбрано 30 курсов (от базовой алгебры до топологии ). Получилось собрать 1679 задач, или 4550 отдельных вопросов. Малую часть этого, порядка 10%, отложили для оценки способностей модели, а всё остальное испольовали как вспомогательный материал — на этих данных либо учили модели, либо помещали в базу данных для того, чтобы для каждого тестового вопроса находить наиболее похожие (по векторам от вопросов) и подавать в промпт как пример.

Помимо примеров в промпте, использовали также другие методы:
— цепочка рассуждений (попросить модель думать шаг за шагом, прям в промпте написать, да)
— вместо самого решения написать код для получения ответа (не применимо ко всем задачам)
— критик: отдельный промпт (всего 3 уникальных), которые добавляется после ответа и подается снова на вход GPT. Мол, найди ошибки в решении, и попробуй дать правильный ответ. И так можно делать несколько раз к ряду
— (!) Expert Prompting: добавлять в самое начало промпта фразу, которая, как мы верим, заставляет GPT-4 думать как определенный человек. Например, "You are an MIT Professor of Computer Science and Mathematics teaching Calculus". Фишка в том, что эти фразы тоже предварительно генерит модель, отвечая на вопрос "Give an educated guess of the three experts most capable of solving this question."

А дальше всё просто - комбинировали методы выше в цепочки (зачастую это просто объединение двух-трех промптов, не более: ДА, ВОТ ТАК ПРОСТО), генерировали ответы и проверяли их. Причем, тоже интересно: давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет.

GPT-4 без разных техник решила 90% (от тех. 10%, что отложили), а со всеми трюками выше дала 100% правильных ответов. То есть идеально прорешала все вопросы, таким образом, как бы "получив" диплом MIT.

СТО ПРОЦЕНТОВ ВСЁ РЕШИЛА ПОНИМАЕТЕ? Никого ничего не смутило?

Источник: Сиолошная

2023-06-17 19:40:15