Нейролента - подборка новостей о нейронных сетях, ChatGPT

В модели GPT-4-Turbo расширили окно контекста до 128000...

В модели GPT-4-Turbo расширили окно контекста до 128000 токенов. Однако ещё до этого делалось куча исследований того, насколько хорошо модели работают с длинным контекстом. Например, вот я писал про пост Anthropic с анализом качества ответа на вопросы по 100000 токенам (спойлер: какая-то информация может теряться). Или вот статья Lost in the Middle, указывающая на то, что для GPT-3.5 шанс пропустить информацию выше, если она сосредоточена в центре контекста.

Итак, во время конференции Sam Altman сказал, что они улучшили работу с длинным контекстом, и что модель теперь более внимательна. Умельцы в Твиттере пошли это проверять, и знаете что? Он не соврал, прогресс существенный.

Тест первый: источник. Человек взял более 200 эссе Paul Graham, объединил их, и в случайное место вставлял фразу: "The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day", а затем спрашивал у модели, что лучше всего делать в СФ.

В тесте варьируется две величины: где вставлять предложение (ближе к началу, в середину, или в конец?) и сколько токенов контекста подавать (от 1000 до полных 128000). Для уменьшения шумности измерений процедура повторялась несколько раз — суммарно автор сжег $200 на API-запросы.

Получилась вот такая картинка. По ней видно, что до 70'000 токенов модель всегда в 100% случаев находит ответ, где бы он не находился. А после начинается деградация и просадки — модель забывает про первую половину (ответы из хвоста всё еще даются хорошо).

Выводы:
— как минимум на 64к контекста можно полагаться, но всё равно качества в 100% лучше не ожидать
— свои бизнес-кейсы и продукты нужно строить вокруг оценки, что модель не пропустит информацию в 90-95% случаев. Если это неприемлемо — тогда искать другой путь (с меньшими чанками и иерархической агрегацией от меньшего к большему, например)

Это, конечно, не полноценное разностороннее тестирование, но позволяет делать первые выводы.