Не мог (не хотел
Не мог (не хотел 😀 ) уснуть, и из интереса решил накопать побольше информации про загадочную gpt2-chatbot, совсем недавно удивившую общественность. Перечитал обновлённый блогпост, новости, перерыл с десяток Reddit-тем, новых интервью Sam Altman, etc.
Тезисно:
— Sam не первый раз говорит, что слово «сюрприз» не должно идти рядом с AI, и OpenAI хотят итеративно улучшать свои технологии, делая их достоянием пользователей (хоть бы и через платный продукт в виде подписки на ChatGPT). Такой путь гораздо лучше для общественности, чем если пару лет не будет новостей, а потом бах, GPT 6, и все сидят такие😨
— GPT-4 сейчас, полгода назад и на релизе — это три разные модели. Со временем они становились лучше и лучше, как по Эло-рейтингу от LMSYS, где живые люди сами сравнивают генерации моделей и выбирают те, что нравятся им больше, так и по объективным бенчмаркам (например). Вчера вот узнали даже, что OpenAI вроде как не переобучаются конкретно на датасеты для проверки, по крайней мере по математике — доверимся им, что и по другим метрикам никаких грязных трюков нет.
— Последнее улучшение модели было направлено на способности к рассуждению и решению задач, особенно по математике.
— Однако об улучшениях в написании кода не заявлялось. И именно этим выгодно отличается модель gpt2-chatbot. Видел, что люди говорили про разношёрстные вопросы, мол, «она на уровне четвёрки, не лучше», но вот про код...я сам узрел, как с первого раза мне написало очень клёвый пример простого рейтрейсинга сцены с несколькими объектами. БЕЗ ОШИБОК. И большая часть примеров, которыми хвастались люди (и на реддите, и вот даже Denis Sexy IT), где прям ВАУ — это именно примеры с кодом.
— При этом получить модель уровня GPT-4 не так-то и просто, на данный момент это удалось сделать 2.5 компаниям (META'е дадим скидку и предположим, что их LLAMA 3 на 405B, выходящая летом, будет соответствовать). Конечно, может появиться новый игрок, но это маловероятно.
— А теперь самое интересное. Почему можно предположить, что новая модель именно от OpenAI? Тут есть несколько косвенных признаков. Первое: в ней используются те же специальные токены начала/конца реплики, что и у всех моделей OpenAI. Модели Mistral и LLAMA отличаются. Второе: и сама модель так говорит, и в промпте у неё написано, что она от OpenAI. Это, конечно, может быть галлюцинацией, но фронтир модели в таком не были уличены (почти, иногда Mistral грешит) — только те, что были натренированы на синтетике. Третье (и главное): если добиться ошибки сервера своим запросом (например, длиной запроса или его темой, чтобы он не прошёл модерацию) — будет показана ошибка один-в-один, что и у любой другой модели OpenAI. Однако все остальные модели имеют отличные сообщения о возникших неполадках.
— Так что (я уверен на 99%) это модель OpenAI, которая лучше в кодинге, что логично. И тянет на грядущую итерацию, но не GPT-4.5 и тем более не GPT-5. Это подтвердил Sam Altman в ходе своего тура по университетам США, думаю, тут ему можно верить в силу аргументов выше.
— Вероятно, её релиз должен быть совсем скоро, в течение месяца. Как мне видится, через Арену собрали примерную оценку, чтобы на презентации или в релизных заметках написать: «Да, наша модель оч крутая, вот независимое подтверждение на всеми признанном лидерборде». Так как на всё про всё ушло всего 3 дня — делать такую оценку сильно заранее не имеет большого смысла: за это время модель можно дообучить, собрать данные, то да сё. В общем, улучшить. Тогда бы уж ту и проверяли!
🔽 продолжение
Тезисно:
— Sam не первый раз говорит, что слово «сюрприз» не должно идти рядом с AI, и OpenAI хотят итеративно улучшать свои технологии, делая их достоянием пользователей (хоть бы и через платный продукт в виде подписки на ChatGPT). Такой путь гораздо лучше для общественности, чем если пару лет не будет новостей, а потом бах, GPT 6, и все сидят такие
— GPT-4 сейчас, полгода назад и на релизе — это три разные модели. Со временем они становились лучше и лучше, как по Эло-рейтингу от LMSYS, где живые люди сами сравнивают генерации моделей и выбирают те, что нравятся им больше, так и по объективным бенчмаркам (например). Вчера вот узнали даже, что OpenAI вроде как не переобучаются конкретно на датасеты для проверки, по крайней мере по математике — доверимся им, что и по другим метрикам никаких грязных трюков нет.
— Последнее улучшение модели было направлено на способности к рассуждению и решению задач, особенно по математике.
— Однако об улучшениях в написании кода не заявлялось. И именно этим выгодно отличается модель gpt2-chatbot. Видел, что люди говорили про разношёрстные вопросы, мол, «она на уровне четвёрки, не лучше», но вот про код...я сам узрел, как с первого раза мне написало очень клёвый пример простого рейтрейсинга сцены с несколькими объектами. БЕЗ ОШИБОК. И большая часть примеров, которыми хвастались люди (и на реддите, и вот даже Denis Sexy IT), где прям ВАУ — это именно примеры с кодом.
— При этом получить модель уровня GPT-4 не так-то и просто, на данный момент это удалось сделать 2.5 компаниям (META'е дадим скидку и предположим, что их LLAMA 3 на 405B, выходящая летом, будет соответствовать). Конечно, может появиться новый игрок, но это маловероятно.
— А теперь самое интересное. Почему можно предположить, что новая модель именно от OpenAI? Тут есть несколько косвенных признаков. Первое: в ней используются те же специальные токены начала/конца реплики, что и у всех моделей OpenAI. Модели Mistral и LLAMA отличаются. Второе: и сама модель так говорит, и в промпте у неё написано, что она от OpenAI. Это, конечно, может быть галлюцинацией, но фронтир модели в таком не были уличены (почти, иногда Mistral грешит) — только те, что были натренированы на синтетике. Третье (и главное): если добиться ошибки сервера своим запросом (например, длиной запроса или его темой, чтобы он не прошёл модерацию) — будет показана ошибка один-в-один, что и у любой другой модели OpenAI. Однако все остальные модели имеют отличные сообщения о возникших неполадках.
— Так что (я уверен на 99%) это модель OpenAI, которая лучше в кодинге, что логично. И тянет на грядущую итерацию, но не GPT-4.5 и тем более не GPT-5. Это подтвердил Sam Altman в ходе своего тура по университетам США, думаю, тут ему можно верить в силу аргументов выше.
— Вероятно, её релиз должен быть совсем скоро, в течение месяца. Как мне видится, через Арену собрали примерную оценку, чтобы на презентации или в релизных заметках написать: «Да, наша модель оч крутая, вот независимое подтверждение на всеми признанном лидерборде». Так как на всё про всё ушло всего 3 дня — делать такую оценку сильно заранее не имеет большого смысла: за это время модель можно дообучить, собрать данные, то да сё. В общем, улучшить. Тогда бы уж ту и проверяли!
🔽 продолжение
Источник: Сиолошная
2024-05-03 02:55:08