In Search of Needles in a 10M Haystack:...
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss
Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
Статья: https://arxiv.org/abs/2402.10790
Код: https://github.com/booydar/babilong
Тема про длинные контексты в 1M и 10M становится всё более популярной. На днях вышла новая статья про это и рекуррентный memory transformer от Миши Бурцева и ко. Я решил провести эксперимент и закинуть её в Gemini 1.5 Pro с контекстом в 1M (https://t.me/gonzo_ML/2350) и посмотреть, какое саммари модель напишет. А Мишу и соавторов призываю в комментариях или чате отрейтинговать это саммари и сказать, что Gemini 1.5 сделала плохо (или хорошо). А также, если есть желание, рассказать про работу самим из первых уст 🙂
Далее текст, созданный Gemini 1.5 Pro 1M без правок кроме восстановления абзацев (почему-то она сгенерировала большую часть текста с переносом строк после каждого слова). Трансформаторы из текста не убирал 🙂
=======
В этой статье рассматривается проблема обработки длинных документов с помощью генеративных трансформаторных моделей.
Для оценки различных подходов авторы представляют BABILong, новый бенчмарк, предназначенный для оценки способности моделей извлекать и обрабатывать распределённые факты в больших текстах. Оценка, включающая бенчмарки для GPT-4 и RAG, показывает, что обычные методы эффективны только для последовательностей до 10^4 элементов. В то же время, GPT-2, дообученная с использованием рекуррентных дополнений памяти, способна справляться с задачами, включающими до 10^7 элементов. Это достижение является значительным скачком, поскольку это самый длинный вход, обработанный какой-либо открытой нейронной сетью на сегодняшний день, что демонстрирует значительное улучшение возможностей обработки длинных последовательностей.
Основная идея бенчмарка BABILong ("Benchmark for Artificial Intelligence for Long-context evaluation") - увеличить длину существующих задач, чтобы оценить способность генеративных моделей эффективно обрабатывать длинные контексты. Для этого "прячут" предложения исходной задачи между предложениями не относящегося к делу текста, взятого из другого, тесно связанного распределения. Примеры создаются путём постепенного добавления новых предложений из фонового набора данных в их естественном порядке, пока дополненный образец не достигнет нужной длины. Таким образом, можно оценивать даже самые длинные доступные модели с размерами контекста до миллионов токенов.
В качестве фонового текста используются книги из набора данных PG19 из-за значительной длины книг и естественно возникающих длинных контекстов. Модель должна сначала отличить предложения, относящиеся к исходной задаче, затем запомнить их и впоследствии использовать для генерации правильного решения.
В этой работе авторы сосредоточились на расширении бенчмарка bAbI, который состоит из 20 задач, предназначенных для оценки основных аспектов рассуждения.
GPT-4 и Mistral с большими окнами контекста не смогли эффективно выполнить задачи "иголка в стоге сена", когда количество отвлекающего текста было чрезвычайно велико. Дообучение GPT-3.5 с помощью API OpenAI улучшило качество поиска фактов в контексте среднего размера, но при увеличении количества шума производительность всё равно снижалась.
RAG с GPT-4-turbo показал посредственную, но масштабируемую производительность для вложений предложений и плохую масштабируемость с вложениями частей текста. Слабая производительность RAG может быть связана с временными зависимостями, присущими задаче, где релевантный факт расположен в конце текста.
Рекуррентные модели (RMT и RMT-R) с GPT-2 в качестве базовой модели показали отличные результаты на последовательностях длиной до 16 тысяч токенов, присутствующих в обучающем наборе. RMT и RMT-R значительно превзошли GPT-4, что подчеркивает эффективность механизма памяти. Более того, превосходство рекуррентных моделей распространяется на последовательности за пределами области обучения, превышающие размер обучения.
Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
Статья: https://arxiv.org/abs/2402.10790
Код: https://github.com/booydar/babilong
Тема про длинные контексты в 1M и 10M становится всё более популярной. На днях вышла новая статья про это и рекуррентный memory transformer от Миши Бурцева и ко. Я решил провести эксперимент и закинуть её в Gemini 1.5 Pro с контекстом в 1M (https://t.me/gonzo_ML/2350) и посмотреть, какое саммари модель напишет. А Мишу и соавторов призываю в комментариях или чате отрейтинговать это саммари и сказать, что Gemini 1.5 сделала плохо (или хорошо). А также, если есть желание, рассказать про работу самим из первых уст 🙂
Далее текст, созданный Gemini 1.5 Pro 1M без правок кроме восстановления абзацев (почему-то она сгенерировала большую часть текста с переносом строк после каждого слова). Трансформаторы из текста не убирал 🙂
=======
В этой статье рассматривается проблема обработки длинных документов с помощью генеративных трансформаторных моделей.
Для оценки различных подходов авторы представляют BABILong, новый бенчмарк, предназначенный для оценки способности моделей извлекать и обрабатывать распределённые факты в больших текстах. Оценка, включающая бенчмарки для GPT-4 и RAG, показывает, что обычные методы эффективны только для последовательностей до 10^4 элементов. В то же время, GPT-2, дообученная с использованием рекуррентных дополнений памяти, способна справляться с задачами, включающими до 10^7 элементов. Это достижение является значительным скачком, поскольку это самый длинный вход, обработанный какой-либо открытой нейронной сетью на сегодняшний день, что демонстрирует значительное улучшение возможностей обработки длинных последовательностей.
Основная идея бенчмарка BABILong ("Benchmark for Artificial Intelligence for Long-context evaluation") - увеличить длину существующих задач, чтобы оценить способность генеративных моделей эффективно обрабатывать длинные контексты. Для этого "прячут" предложения исходной задачи между предложениями не относящегося к делу текста, взятого из другого, тесно связанного распределения. Примеры создаются путём постепенного добавления новых предложений из фонового набора данных в их естественном порядке, пока дополненный образец не достигнет нужной длины. Таким образом, можно оценивать даже самые длинные доступные модели с размерами контекста до миллионов токенов.
В качестве фонового текста используются книги из набора данных PG19 из-за значительной длины книг и естественно возникающих длинных контекстов. Модель должна сначала отличить предложения, относящиеся к исходной задаче, затем запомнить их и впоследствии использовать для генерации правильного решения.
В этой работе авторы сосредоточились на расширении бенчмарка bAbI, который состоит из 20 задач, предназначенных для оценки основных аспектов рассуждения.
GPT-4 и Mistral с большими окнами контекста не смогли эффективно выполнить задачи "иголка в стоге сена", когда количество отвлекающего текста было чрезвычайно велико. Дообучение GPT-3.5 с помощью API OpenAI улучшило качество поиска фактов в контексте среднего размера, но при увеличении количества шума производительность всё равно снижалась.
RAG с GPT-4-turbo показал посредственную, но масштабируемую производительность для вложений предложений и плохую масштабируемость с вложениями частей текста. Слабая производительность RAG может быть связана с временными зависимостями, присущими задаче, где релевантный факт расположен в конце текста.
Рекуррентные модели (RMT и RMT-R) с GPT-2 в качестве базовой модели показали отличные результаты на последовательностях длиной до 16 тысяч токенов, присутствующих в обучающем наборе. RMT и RMT-R значительно превзошли GPT-4, что подчеркивает эффективность механизма памяти. Более того, превосходство рекуррентных моделей распространяется на последовательности за пределами области обучения, превышающие размер обучения.
Источник: gonzo-обзоры ML статей
2024-02-20 11:07:28