Извините что долго писал этот пост — я смеялся
Извините что долго писал этот пост — я смеялся. Спасибо подписчику за то, что принёс ссылку на блог Microsoft.
Там ребята пишут, что решили поиграть в промпт-инженеров над GPT-4, чтобы сравнить модель по-честному с Geminin Ultra на задачах, которые Google'овцы выбрали для оценки (флекса). Ну, мелкомягкие тоже умеют флексить, бросаясь фразами в духе «Our end-to-end exploration, prompt design, and computing of performance took just a couple of days»👁
Ну, и сравнили метрики с Gemini Ultra...👁 👁 👁 даже жалко немного Google... Где-то разрыв метрик прям ЖЕСТКИЙ, а в MMLU лишь поровнялись.
(Medprompt+ на картинке — это изменённый промпт для одноименной работы. Надо сказать, что это достаточно навороченный приём, но остальные указанные — простые и общие, не требующий глубого копания и тюнинга под задачу)
Все скрипты с промптами доступны на GitHub — ссылка.
Просто рандомный факт: обучение GPT-4 было закончено в августе 2022го, больше года назад👍
Там ребята пишут, что решили поиграть в промпт-инженеров над GPT-4, чтобы сравнить модель по-честному с Geminin Ultra на задачах, которые Google'овцы выбрали для оценки (флекса). Ну, мелкомягкие тоже умеют флексить, бросаясь фразами в духе «Our end-to-end exploration, prompt design, and computing of performance took just a couple of days»
Ну, и сравнили метрики с Gemini Ultra...
(Medprompt+ на картинке — это изменённый промпт для одноименной работы. Надо сказать, что это достаточно навороченный приём, но остальные указанные — простые и общие, не требующий глубого копания и тюнинга под задачу)
Все скрипты с промптами доступны на GitHub — ссылка.
Просто рандомный факт: обучение GPT-4 было закончено в августе 2022го, больше года назад
Источник: Сиолошная
2023-12-12 18:37:48