Во-первых, три года назад такое уже было (Анжела...
Во-первых, три года назад такое уже было (Анжела Фан, Эдуард Грейв и ко, https://t.me/gonzo_ML/508), но авторы относят эту работу (как и Recurrent memory transformer, RMT, Миша Бурцев и ко) к категории, где верхний уровень залинкован на нижний, и нету связи между промежуточными нейронами. В случае RMT это наверное верно (Миша, поправь меня если что), но для работы Анжелы Фан это вообще говоря не так, так агрегируются репрезентации всех уровней и агрегат получают тоже все уровни (см. картинку тут https://t.me/gonzo_ML/510). То есть в текущей работе как бы то же самое, но без агрегации всех уровней, только с агрегацией внутри уровня. Ещё это похоже на другую ещё более старую работу того же Эдуарда Грейва про Continuous Cache (https://t.me/gonzo_ML/516), тогда это применялось ещё к RNN. Ещё одно, на что это всё похоже, это DeepMind’овский Compressive Transformer (https://t.me/gonzo_ML/165), где память копилась внутри каждого слоя (см. https://t.me/gonzo_ML/166). Выглядит всё в общем как вариация на тему и непонятно, почему этим работам отведено так мало места или они описаны как сильно другие. Про работу Анжелы Фан в двух местах вообще сказаны разные вещи (и обе неправильные):
“The first approach is linking the topmost layer to the bottommost (Fan et al., 2020; Bulatov et al., 2022). However, this cannot model feedback between interneurons, and this has only one global working memory.”
“There have been attempts to incorporate feedback mechanisms into the Transformer, but most of them involve feeding the output activations from the top layer to the bottom (Bulatov et al., 2022; Chevalier et al., 2023) or to intermediate layers (Fan et al., 2020).”
Во-вторых, ну классно, что сравнили с BSWA, но было бы реально интересно сравнить со всем перечисленным. Я ставлю на то, что оно не лучше, ибо и относительно BSWA разница не везде заметная. Уж Compressive Transformer то можно было бы проверить, как никак тоже внутри Гугла сделан. Про него сказано так:
“There were papers that compressed information blockwise (Rae et al., 2019; Guo et al., 2019; Gupta & Berant, 2020; Mohtashami & Jaggi, 2023; Mu et al., 2023). However, in those papers, the information was not propagated infinitely“
Я честно говоря не понимаю, почему в Compressive Transformer информация распространяется менее infinitely. В деталях предложенный механизм конечно отличается, но я не удивлюсь, если математически он сводится к тому же, не чувствуется концептуальной разницы. Если кто более умный видит разницу, подсветите плиз.
Вторая работа “Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention” (https://arxiv.org/abs/2404.07143) делает что-то очень похожее. Она прям явно добавляет compressive memory к механизму внимания. Глубоко разбирать не хочется, вот тут есть готовый разбор: https://t.me/quant_prune_distill/247.
Про Compressive Transformer в статье сказано:
“However, the previous segment-level compression methods, including Compressive Transformers (Rae et al., 2019) still discard the memory entries of old segments in order to free up space for the new ones, limiting their context window to the most recent segments. This is in contrast to our Infini-attention that computes incremental memory updates to a fixed amount of memory parameters in a recurrent fashion.“
При этом в самой работе про Compressive Transformer явно написано:
“The TransformerXL discards past activations when they become sufficiently old (controlled by the size of the memory). The key principle of the Compressive Transformer is to compress these old memories, instead of discarding them, and store them in an additional compressed memory.”
Сравнения с ним тоже конечно нет, даже на его родном датасете PG19.
Я не понял прикола. Такое чувство, что у авторов размер контекста относительно предыдущих работ стал ограниченным, и мы теперь пересказываем старые работы с небольшими изменениями. Это какие-то дежавю трансформеры, ей богу. Просветите меня, если я чего-то важного в этих работах не понимаю.
“The first approach is linking the topmost layer to the bottommost (Fan et al., 2020; Bulatov et al., 2022). However, this cannot model feedback between interneurons, and this has only one global working memory.”
“There have been attempts to incorporate feedback mechanisms into the Transformer, but most of them involve feeding the output activations from the top layer to the bottom (Bulatov et al., 2022; Chevalier et al., 2023) or to intermediate layers (Fan et al., 2020).”
Во-вторых, ну классно, что сравнили с BSWA, но было бы реально интересно сравнить со всем перечисленным. Я ставлю на то, что оно не лучше, ибо и относительно BSWA разница не везде заметная. Уж Compressive Transformer то можно было бы проверить, как никак тоже внутри Гугла сделан. Про него сказано так:
“There were papers that compressed information blockwise (Rae et al., 2019; Guo et al., 2019; Gupta & Berant, 2020; Mohtashami & Jaggi, 2023; Mu et al., 2023). However, in those papers, the information was not propagated infinitely“
Я честно говоря не понимаю, почему в Compressive Transformer информация распространяется менее infinitely. В деталях предложенный механизм конечно отличается, но я не удивлюсь, если математически он сводится к тому же, не чувствуется концептуальной разницы. Если кто более умный видит разницу, подсветите плиз.
Вторая работа “Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention” (https://arxiv.org/abs/2404.07143) делает что-то очень похожее. Она прям явно добавляет compressive memory к механизму внимания. Глубоко разбирать не хочется, вот тут есть готовый разбор: https://t.me/quant_prune_distill/247.
Про Compressive Transformer в статье сказано:
“However, the previous segment-level compression methods, including Compressive Transformers (Rae et al., 2019) still discard the memory entries of old segments in order to free up space for the new ones, limiting their context window to the most recent segments. This is in contrast to our Infini-attention that computes incremental memory updates to a fixed amount of memory parameters in a recurrent fashion.“
При этом в самой работе про Compressive Transformer явно написано:
“The TransformerXL discards past activations when they become sufficiently old (controlled by the size of the memory). The key principle of the Compressive Transformer is to compress these old memories, instead of discarding them, and store them in an additional compressed memory.”
Сравнения с ним тоже конечно нет, даже на его родном датасете PG19.
Я не понял прикола. Такое чувство, что у авторов размер контекста относительно предыдущих работ стал ограниченным, и мы теперь пересказываем старые работы с небольшими изменениями. Это какие-то дежавю трансформеры, ей богу. Просветите меня, если я чего-то важного в этих работах не понимаю.
Источник: gonzo-обзоры ML статей
2024-05-01 12:02:47