К чуть менее криповым примерам (и как это...
К чуть менее криповым примерам (и как это полезно на практике).
В задачке по математике про скрепки ответ маленькой модели зависит от предложений, где упоминаются, собственно скрепки, а вот большая сетка — на схожие по логике математические задачи, с пошаговым рассуждением о процессе получения ответа.
Ещё авторы проводят эксперименты с разными языками, и, как понятно, большие модели в целом легко переносят знания между ними, а вот малые — нет. То есть если какая-то информация была на английском, а вопрос и ответ — на турецком, то модель всё равно сможет внутри себя найти схожие концепции, выработанные при обучении, и применить их.
Как развитие темы, есть вот такая статья, где оказывается, что обучение на математических задачах улучшает способность модели извлекать именованные сущности🤷♂️
В задачке по математике про скрепки ответ маленькой модели зависит от предложений, где упоминаются, собственно скрепки, а вот большая сетка — на схожие по логике математические задачи, с пошаговым рассуждением о процессе получения ответа.
Ещё авторы проводят эксперименты с разными языками, и, как понятно, большие модели в целом легко переносят знания между ними, а вот малые — нет. То есть если какая-то информация была на английском, а вопрос и ответ — на турецком, то модель всё равно сможет внутри себя найти схожие концепции, выработанные при обучении, и применить их.
Как развитие темы, есть вот такая статья, где оказывается, что обучение на математических задачах улучшает способность модели извлекать именованные сущности
Источник: Сиолошная
2024-03-27 19:15:18