Про качество данных для дообучения тех самых последних...
Про качество данных для дообучения тех самых последних процентов:
Quality Is All You Need. (правда прямо так и назвали параграф)
Third-party SFT data is available from many different sources, but we found that many of these have insufficient diversity and quality — in particular for aligning LLMs towards dialogue-style instructions... By setting aside millions of examples from third-party datasets and using fewer but higher-quality examples from our own vendor-based annotation efforts, our results notably improved. We found that SFT annotations in the order of tens of thousands was enough to achieve a high-quality result.
На графике - распределение некоторой абстрактной оценки между разными итерациями обучения, от SFT на предзаготовленных данных до RLHF на самых актуальных данных, качественно размеченных людьми.
Чем ниже (позже) этап, тем больше ответов получают оценку выше — там вон аж горбик справа получился (= для большого количества ответов модель давала хорошие ответы).
Quality Is All You Need. (правда прямо так и назвали параграф)
Third-party SFT data is available from many different sources, but we found that many of these have insufficient diversity and quality — in particular for aligning LLMs towards dialogue-style instructions... By setting aside millions of examples from third-party datasets and using fewer but higher-quality examples from our own vendor-based annotation efforts, our results notably improved. We found that SFT annotations in the order of tens of thousands was enough to achieve a high-quality result.
На графике - распределение некоторой абстрактной оценки между разными итерациями обучения, от SFT на предзаготовленных данных до RLHF на самых актуальных данных, качественно размеченных людьми.
Чем ниже (позже) этап, тем больше ответов получают оценку выше — там вон аж горбик справа получился (= для большого количества ответов модель давала хорошие ответы).
Источник: Сиолошная
2023-07-18 20:26:11