Нейролента - подборка новостей о нейронных сетях, ChatGPT

Используя свои возможности обобщения, RMT и RMT-R демонстрируют...

Используя свои возможности обобщения, RMT и RMT-R демонстрируют стабильную производительность на более длинных последовательностях, достигая 128 тысяч токенов, с лишь незначительным ухудшением качества. Улучшенные возможности RMT-R становятся особенно очевидными благодаря дополнительной информации из извлеченных состояний памяти.

Удивительно, но даже при размерах контекста, достигающих 1 миллиона и даже 10 миллионов токенов, что более чем в 600 раз превышает длину обучения, рекуррентные модели устойчиво превосходят свои более крупные аналоги, использующие RAG. Этот замечательный скачок в качестве рассуждений на чрезвычайно длинных последовательностях подчеркивает потенциал рекуррентности в сочетании с обучаемым механизмом самоизвлечения.

В целом, работа показывает, что рекуррентная память является многообещающим направлением для обработки очень длинных текстов.

=======

Такие дела. Надо ещё, конечно играться с промптами, пока это довольно тупой 2-shot на почти рандомных примерах. Интересно было бы также сделать такое же самое саммари через модель на базе RMT.