Тэк, вижу нотки непонимания, давайте по другому
Тэк, вижу нотки непонимания, давайте по другому.
Вот есть экзамен по истории. Вашей группе выдали 100 билетов для подготовки.
Кто-то сидел, зубрил ответы именно на них, кто-то просто читал учебник, доп. материалы и искренне интересовался историей.
В день экзамена приходит препод и говорит: «это пранк, на самом деле я буду спрашивать по новым 100 билетам. Ни один вопрос не пересекается со старой стопкой, но те, кто реально учил — у вас проблем не будет».
У тех, для кого билеты были лишь общим направлением, кто искренне интересуется предметом и изучает самостоятельно — у них трудностей не возникнет. Они и за те, и за эти билеты готовы пояснить.
А у довечника Васи, который только и запомнил, что «текст билета -> зазубренный ответ» (и то для половины) — у него произойдет оказия. Дай бог он сможет на троечку наскрести, вспомнив максимально похожий билет из первой сотни, по которой он готовился. Но вне этого у него знаний и понимания нуль.
===
Так и тут. Есть 8 тысяч задач старых, есть 1250 задач новых. Если LLM дает ответы одинаково хорошо и там, и тут — она понимает. Если она переобучилась на старые задачи — качество ответов упадёт. Не настолько сильно, как в примере с Васей (он то вообще ни бум-бум), но достаточно, чтобы заметить. Это и есть переобучение: когда модель показывает качество лучше на той выборке, что она видела, нежели на новой. Часть ответов/задач LLM запомнила, и ответ на них не является показателем навыков. Можно сказать, что нет обобщения.
В мире машинного обучения такое случается постоянно, поэтому обычно делают отложенную выборку, которую никогда не показывают модели (и в идеале по ней даже не принимают решения, что лучше а что хуже), а затем в конце проверяют, что всё ок.
Вот есть экзамен по истории. Вашей группе выдали 100 билетов для подготовки.
Кто-то сидел, зубрил ответы именно на них, кто-то просто читал учебник, доп. материалы и искренне интересовался историей.
В день экзамена приходит препод и говорит: «это пранк, на самом деле я буду спрашивать по новым 100 билетам. Ни один вопрос не пересекается со старой стопкой, но те, кто реально учил — у вас проблем не будет».
У тех, для кого билеты были лишь общим направлением, кто искренне интересуется предметом и изучает самостоятельно — у них трудностей не возникнет. Они и за те, и за эти билеты готовы пояснить.
А у довечника Васи, который только и запомнил, что «текст билета -> зазубренный ответ» (и то для половины) — у него произойдет оказия. Дай бог он сможет на троечку наскрести, вспомнив максимально похожий билет из первой сотни, по которой он готовился. Но вне этого у него знаний и понимания нуль.
===
Так и тут. Есть 8 тысяч задач старых, есть 1250 задач новых. Если LLM дает ответы одинаково хорошо и там, и тут — она понимает. Если она переобучилась на старые задачи — качество ответов упадёт. Не настолько сильно, как в примере с Васей (он то вообще ни бум-бум), но достаточно, чтобы заметить. Это и есть переобучение: когда модель показывает качество лучше на той выборке, что она видела, нежели на новой. Часть ответов/задач LLM запомнила, и ответ на них не является показателем навыков. Можно сказать, что нет обобщения.
В мире машинного обучения такое случается постоянно, поэтому обычно делают отложенную выборку, которую никогда не показывают модели (и в идеале по ней даже не принимают решения, что лучше а что хуже), а затем в конце проверяют, что всё ок.
Источник: Сиолошная
2024-05-02 13:13:52