Когда вышла GPT-4, то люди в твиттере что...

Когда вышла GPT-4, то люди в твиттере что только не проверяли, чтобы понять границы применимости. Среди интересных и полезных отметил для себя тогда шахматы: модель играла очень плохо, примерно на 1000 ELO или даже чуть меньше. ELO - это относительный рейтинг, позволяющий сравнивать двух игроков. Например, разница в 100 очков означает, что вероятности побед соотносятся как 65:35, а 250 очков говорят о ситуациии 80:20. У гроссмейстеров рейтинг начинается от 2500 (то есть он выиграет 100 игр из 100 против GPT-4).

Вчера OpenAI анонсировали новую модель

gpt-3.5-turbo-instruct

. Но хайповать не нужно — ничего нового, кажется, в ней не появилось, это просто замена прошлым поколениям, и кажется, что она недотренированна на формате диалога (как и предыдущие, которые должно заменить). OpenAI пишут, что "It’s trained similarly to previous Instruct models such as the text-davinci series while maintaining the same speed as our turbo models."

Теперь к делу. В твиттере наткнулся на пост, где новую модель опробовали в шахматах, и оказалось, что без формата диалога (просто продолжая написанный текст в специальном формате Portable Game Notation, типа

1.e4 c6 2.d4 d5 3.Nc3 dxe4

, откуда куда совершается ход) модель играет очень даже ничего — примерно на 1800 ELO (второй или первый разряд, КМС начинается от 2000). Оценка производилась методом игры с ботом Stockfish. Модель с 1700 рейтинга была обыграна, а вот 2000 не далась — так что рейтинг где-то между. А 1800 я взял из твита сотрудника OpenAI, которые, видимо, у себя внутри тоже проводили схожие тесты (правда он пишет про GPT-4!):

> GPT-4 играет в шахматы на сильном клубном уровне при наличии соответствующего промпта. Такого уровня невозможно достичь без хорошего понимания игры и моделирования игровой доски. Даже в Go эта модель работает примерно в 10 раз лучше, чем та, что делает ходы случайно.

Возвращаясь к свежей модели — автор отметила, что новая GPT не предсказывала неправильные ходы (несуществующими фигурами или не по правилам), чем страдала GPT-4.

Интересно, что даже после того, как GPT сделал плохой ход, модель все еще был в состоянии *предсказать* ход Stockfish (бот-оппонент), который воспользовался бы ошибкой GPT. Таким образом, мы, вероятно, могли бы получить ELO > 2000 для GPT, приложив немного усилий к имплементации своего рода поиска (того, как работают настоящие шахматные боты) по дереву. И вы не поверите — про это я рассказывал в недавней лекции как один из путей дальнейшего развития LLM! Вот таймкод. Так что если вы не поняли, что это за поиск — можно посмотреть там.

Промпт дял тестирования можно подрезать тут.

Источник: Сиолошная

2023-09-19 09:47:48