Scaling Transformer to 1M tokens and beyond with...
Scaling Transformer to 1M tokens and beyond with RMT
Парни из DeepPavlov (привет, если читаете!) на днях выпустили тех-репорт, где соорудили Recurrent Memory Transformer, который способен держать контекст в 1M токенов!
Чтобы вы понимали, ChatGPT сейчас имеет контекст в 32k токенов. А 1 миллион токенов - это несколько книг приличного размера. Теперь модель сможет держать гораздо больше информации "в голове", и например, написать эссе по целому роману, вместо того чтобы работать на маленьких отрывках.
Принцип работы похож на рекурентную сеть, где трансформер постепенно поедает куски контекста, при этом сжимая инфу из каждого куска и обновляя свое внутреннее состояние. В результате такой компресси финальный результат получается слегка хуже чем при работе с маленькими контекстами. Ну, и работает это медленно, ведь все равно придется прогнать все 1M токенов через сеть.
Однако, это интересный результат, который, вероятно, через несколько месяцев доработают и оптимизируют.
Код для BERT
Статья
@ai_newz
Парни из DeepPavlov (привет, если читаете!) на днях выпустили тех-репорт, где соорудили Recurrent Memory Transformer, который способен держать контекст в 1M токенов!
Чтобы вы понимали, ChatGPT сейчас имеет контекст в 32k токенов. А 1 миллион токенов - это несколько книг приличного размера. Теперь модель сможет держать гораздо больше информации "в голове", и например, написать эссе по целому роману, вместо того чтобы работать на маленьких отрывках.
Принцип работы похож на рекурентную сеть, где трансформер постепенно поедает куски контекста, при этом сжимая инфу из каждого куска и обновляя свое внутреннее состояние. В результате такой компресси финальный результат получается слегка хуже чем при работе с маленькими контекстами. Ну, и работает это медленно, ведь все равно придется прогнать все 1M токенов через сеть.
Однако, это интересный результат, который, вероятно, через несколько месяцев доработают и оптимизируют.
Код для BERT
Статья
@ai_newz
Источник: эйай ньюз
2023-04-24 11:01:26