И наконец берут классическую LLM c обучением на...
И наконец берут классическую LLM c обучением на the Pile. Первый слой всегда softmax SA, потому что на этом слое создаётся mesa-objective. Последующие слои либо softmax, либо линейные, либо mesa. Чистый softmax трансформер здесь вне конкуренции, а вот mesa бьёт линейный и иногда догоняет softmax. Про наличие меза-оптимизации в этом месте непонятно:
“Strictly speaking, these results are not sufficient to make claims on whether mesaoptimization is occurring within standard Transformers. However, the high performance achieved by the hybrid-mesa models, which operate on mesa-optimization principles by design, suggests that mesa-optimization might be happening within conventional Transformers. More reverse-engineering work is needed to add weight to this conjecture.”
Вообще движуха любопытная. Интересно в этом свете было бы посмотреть на universal transformer (https://arxiv.org/abs/1807.03819) с adaptive computation time, который в цикле может гонять слой, пока не посчитает, что пора остановиться.
“Strictly speaking, these results are not sufficient to make claims on whether mesaoptimization is occurring within standard Transformers. However, the high performance achieved by the hybrid-mesa models, which operate on mesa-optimization principles by design, suggests that mesa-optimization might be happening within conventional Transformers. More reverse-engineering work is needed to add weight to this conjecture.”
Вообще движуха любопытная. Интересно в этом свете было бы посмотреть на universal transformer (https://arxiv.org/abs/1807.03819) с adaptive computation time, который в цикле может гонять слой, пока не посчитает, что пора остановиться.
Источник: gonzo-обзоры ML статей
2023-09-18 10:21:48