То есть чем больше слоев у трансформера -...
То есть чем больше слоев у трансформера - тем более точно он будет "фититься" под заданную промптом задачку. Как бы "stack more layers" - это не новость, но явная аналогия с Gradient Descent - это интересно.
Анализ хоть и проведен на простой задаче линейной регрессии, но дает инсайты о том, как оно работает и в случае текста (только там задача гораздо сложнее и нелинейная).
@ai_newz
Анализ хоть и проведен на простой задаче линейной регрессии, но дает инсайты о том, как оно работает и в случае текста (только там задача гораздо сложнее и нелинейная).
@ai_newz
Источник: эйай ньюз
2023-08-15 14:37:32