К чуть менее криповым примерам (и как это...

К чуть менее криповым примерам (и как это полезно на практике).

В задачке по математике про скрепки ответ маленькой модели зависит от предложений, где упоминаются, собственно скрепки, а вот большая сетка — на схожие по логике математические задачи, с пошаговым рассуждением о процессе получения ответа.

Ещё авторы проводят эксперименты с разными языками, и, как понятно, большие модели в целом легко переносят знания между ними, а вот малые — нет. То есть если какая-то информация была на английском, а вопрос и ответ — на турецком, то модель всё равно сможет внутри себя найти схожие концепции, выработанные при обучении, и применить их.

Как развитие темы, есть вот такая статья, где оказывается, что обучение на математических задачах улучшает способность модели извлекать именованные сущности

🤷‍♂️

Источник: Сиолошная

2024-03-27 19:15:18