Приятель посоветовал посмотреть интервью с Aidan Gomez, CEO...
Приятель посоветовал посмотреть интервью с Aidan Gomez, CEO Cohere (это от них недавно вышла CMD R+, на пару дней лучшая опенсурсная LLM. А ещё он ко-автор трансформера, и конечно работал в Google)
Ссылка с таймкодом
«...все похвалы должны быть направлены OpenAI за то, что они попробовали все эти идеи (LLM, модели генерации изображений) на огромном масштабе, особенно в то время, когда исследователи глубокого обучения стигматизировали за использование подхода «тупого добавления большего количества слоев» (мем Stack More layers). Исследователи из OpenAI имели смелость сказать: мы даже не начали увеличивать модели, подержите моё пиво!»
Интересно, что буквально на днях прочитал вот этот блогпост с David Luan, ~30м сотрудником OpenAI (то есть очень ранним). Он также был лидом в Google Brain и вёл направление языковых моделей. Там он отвечал на вопрос «Почему Google не сделали GPT-3»:
«В то время в Google существовала такая штука, как Brain Credit Marketplace. Каждому подразделению выделен кредит и квота. Если у вас есть кредиты, вы можете покупать вычислительные мощности, в зависимости от спроса и предложения. Итак, если вы хотите выполнить огромную работу, обучить большую модель, вам нужно убедить 19 или 20 ваших коллег не делать ИХ работу. Действительно сложно собрать критическую массу, чтобы масштабировать модели. [в OpenAI] мы смогли победить Google просто потому, что мы делали большие шаги в одном направлении, на которое был весь фокус»
(Ilya Sutskever так вообще за масштабирование болел с допотопных времён, ещё в 2012-м, кек)
Ну теперь-то с выходом ChatGPT, когда всем-снова-всё-стало-очевидно, у Google такой фокус появился, что 1) объединили две команды, Google Research и Google DeepMind 2) у команды Gemini было больше 900 авторов 3) выделили ресурсы и расписали план наперёд!
UPD: в Google был такой Noam Shazeer, тоже очень известный и крутой дядька, много чего придумал — и он тоже топил за масштабирование. И его тоже обделяли ресурсами, хоть некоторе его и поддерживали и говорили SOMEBODY, PLEASE! Get this man a GPU. А потом он ушёл делать свою компанию (жаль не в OpenAI...🥺 )
UPD-2: (ссылка на мою лекцию) у Google в момент выхода GPT-3 самая большая модель была Т5-11B, на её обучение потратили в 10 раз меньше вычислительных мощностей. С одной стороны кажется «ой, всего в 10?», а с другой — это другой порядок инженерных работ. Нужно гораздо больше мощностей связать воедино, чтобы это всё заработало, отладить, и потом только тренировать модели.
Ссылка с таймкодом
«...все похвалы должны быть направлены OpenAI за то, что они попробовали все эти идеи (LLM, модели генерации изображений) на огромном масштабе, особенно в то время, когда исследователи глубокого обучения стигматизировали за использование подхода «тупого добавления большего количества слоев» (мем Stack More layers). Исследователи из OpenAI имели смелость сказать: мы даже не начали увеличивать модели, подержите моё пиво!»
Интересно, что буквально на днях прочитал вот этот блогпост с David Luan, ~30м сотрудником OpenAI (то есть очень ранним). Он также был лидом в Google Brain и вёл направление языковых моделей. Там он отвечал на вопрос «Почему Google не сделали GPT-3»:
«В то время в Google существовала такая штука, как Brain Credit Marketplace. Каждому подразделению выделен кредит и квота. Если у вас есть кредиты, вы можете покупать вычислительные мощности, в зависимости от спроса и предложения. Итак, если вы хотите выполнить огромную работу, обучить большую модель, вам нужно убедить 19 или 20 ваших коллег не делать ИХ работу. Действительно сложно собрать критическую массу, чтобы масштабировать модели. [в OpenAI] мы смогли победить Google просто потому, что мы делали большие шаги в одном направлении, на которое был весь фокус»
(Ilya Sutskever так вообще за масштабирование болел с допотопных времён, ещё в 2012-м, кек)
Ну теперь-то с выходом ChatGPT, когда всем-снова-всё-стало-очевидно, у Google такой фокус появился, что 1) объединили две команды, Google Research и Google DeepMind 2) у команды Gemini было больше 900 авторов 3) выделили ресурсы и расписали план наперёд!
UPD: в Google был такой Noam Shazeer, тоже очень известный и крутой дядька, много чего придумал — и он тоже топил за масштабирование. И его тоже обделяли ресурсами, хоть некоторе его и поддерживали и говорили SOMEBODY, PLEASE! Get this man a GPU. А потом он ушёл делать свою компанию (жаль не в OpenAI...
UPD-2: (ссылка на мою лекцию) у Google в момент выхода GPT-3 самая большая модель была Т5-11B, на её обучение потратили в 10 раз меньше вычислительных мощностей. С одной стороны кажется «ой, всего в 10?», а с другой — это другой порядок инженерных работ. Нужно гораздо больше мощностей связать воедино, чтобы это всё заработало, отладить, и потом только тренировать модели.
Источник: Сиолошная
2024-04-20 08:52:23