И наконец берут классическую LLM c обучением на...

И наконец берут классическую LLM c обучением на the Pile. Первый слой всегда softmax SA, потому что на этом слое создаётся mesa-objective. Последующие слои либо softmax, либо линейные, либо mesa. Чистый softmax трансформер здесь вне конкуренции, а вот mesa бьёт линейный и иногда догоняет softmax. Про наличие меза-оптимизации в этом месте непонятно:

“Strictly speaking, these results are not sufficient to make claims on whether mesaoptimization is occurring within standard Transformers. However, the high performance achieved by the hybrid-mesa models, which operate on mesa-optimization principles by design, suggests that mesa-optimization might be happening within conventional Transformers. More reverse-engineering work is needed to add weight to this conjecture.”

Вообще движуха любопытная. Интересно в этом свете было бы посмотреть на universal transformer (https://arxiv.org/abs/1807.03819) с adaptive computation time, который в цикле может гонять слой, пока не посчитает, что пора остановиться.

Источник: gonzo-обзоры ML статей

2023-09-18 10:21:48