Нейролента - подборка новостей о нейронных сетях, ChatGPT

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

Работа Scale.ai по оценке переобученности отдельных моделей на популярный датасет Grade School Math 8k (задачи уровня начальной школе по математике). В каждой задаче от 2 до 8 действий с четырьмя базовыми операциями (+, −, ×, ÷) — никакого рокет саенса. Оригинальный датасет, кстати, готовили и публиковали OpenAI (аж в 2021-м!), и вот теперь компания, которая занимается для них разметкой, повторяет трюк.

Чтоб было нагляднее, вот пример задачи: Ли купил 6 акций Delta по цене 40 долларов за акцию. Если он хочет заработать 24 доллара на этой сделке, сколько должна стоить акция Delta, когда он ее продаст?

Логика такая: если модель показывает тот же результат на новых задачах, собранным по тем же критериям и с той же сложностью, то модель не запоминала конкретные задачи (то есть её разработчики тщательно отфильтровали датасет). Если же заметна просадка — значит, модель скорее всего уже видела данные из старого датасета, и может запомнить часть ответов.

Не буду перечислять всё, что сделали исследователи, однако отмечу, что они очень грамотно подошли к вопросу фильтрации своих данных, чтобы те максимально отражали качества исходного датасета. Например, берут старые модели, вышедшие до GSM8k, и смотрят, что те показывают не то что одинаковые доли правильных ответов — а даже что распределение вероятностей совпадает. И что люди решают одинаковый процент задач. Итого получилось 1250 штук.

Датасет останется приватным, чтобы на него не переобучались — никто не знает, что там за задачи и какие у них ответы (кроме 50 примеров из статьи, но они не участвуют в оценке, просто даны для сведения). Таким образом, по метрикам на нём можно будет бить себя в грудь и говорить ДА Я ДА МЫ ДА НАША МОДЕЛЬ РЕАЛЬНО ЛУЧШАЯ. Кстати, умный ход от компании, которая, кхм, занимается разметкой данных - делать приватные бенчмарки as a service и становиться индустриальным стандартом.