Апдейт по
Апдейт по тестированию in-context retrieval новой модели Anthropic. У исследователей, видимо, немного пригорело, что они дали человеку из твиттера доступ к модели, кредиты, а он взял и показал, что модель плохо выцепляет детали из длинного контекста. Их можно понять...
В общем, в свежем блогпосте они делятся своими тестами. Если немного переделать промпт, добавив первую фразу ответа AI-ассистента «Here is the most relevant sentence in the context:» (см. картинку), то качество вырастает с 27% до 98%. Кроме этого, описывается ещё пара схожих бенмарков, где показывается, что трюк работает. Интересная механика работы LLM, в общем — нужно менять не только свою инструкцию, ну и конструировать первую часть ответа модели.
Бонус: в посте указывается, что Claude 2.1 была обучена с использованием большого количества разметки для задач над длинными документами, которые пользователи находят важными. Например, суммаризация «S-1 length document». Если я правильно загуглил, S-1 — это типовая форма, которую заполняют компании в США при подаче заявки на IPO (в WIki пишут, что на заполнение уходит почти тысяча часов, хоть сама форма и занимает 8 страниц). Эти и десятки прочих документов действительно могут являться хорошим источником качественных данных, для которых можно придумать кучу задач при дообучении моделей — берём на заметку.
UPD: в комментариях указали, что заполненная форма может достигать нескольких сотен страниц (у AirBNB было 300+, к примеру, у WeWork 220).
В общем, в свежем блогпосте они делятся своими тестами. Если немного переделать промпт, добавив первую фразу ответа AI-ассистента «Here is the most relevant sentence in the context:» (см. картинку), то качество вырастает с 27% до 98%. Кроме этого, описывается ещё пара схожих бенмарков, где показывается, что трюк работает. Интересная механика работы LLM, в общем — нужно менять не только свою инструкцию, ну и конструировать первую часть ответа модели.
Бонус: в посте указывается, что Claude 2.1 была обучена с использованием большого количества разметки для задач над длинными документами, которые пользователи находят важными. Например, суммаризация «S-1 length document». Если я правильно загуглил, S-1 — это типовая форма, которую заполняют компании в США при подаче заявки на IPO (в WIki пишут, что на заполнение уходит почти тысяча часов, хоть сама форма и занимает 8 страниц). Эти и десятки прочих документов действительно могут являться хорошим источником качественных данных, для которых можно придумать кучу задач при дообучении моделей — берём на заметку.
UPD: в комментариях указали, что заполненная форма может достигать нескольких сотен страниц (у AirBNB было 300+, к примеру, у WeWork 220).
Источник: Сиолошная
2023-12-07 17:25:59