Пост в большей степени для инженеров машинного обучения
Пост в большей степени для инженеров машинного обучения.
Где-то месяц назад проводил опрос в тг-чате, где собрано очень много клёвых чуваков (у многих из которых есть свои каналы) — от одарённых 16-17 летних рисерчеров (которые реально уже успели что-то придумать и опубликовать) до Principal-инженеров (это для контекста, чтобы придать весомости нижеописанному).
Запрос от меня был такой:
У меня есть мнение, что любой хороший и уважающий себя MLE в 2023м году должен знать, как работает трансформер в целом и Селф аттеншен в частности. Да, может без модификаций, просто ванильную модель, но на пальцах объяснять, что за квадратная матрица, как в целом учится и какие задачи решает - должен. Речь не про average ML enjoyer, а про уважающего себя хорошего MLE из топовых перцентилей распределения.
Согласны ли вы с этим?
Результаты голосования:
— 69% ответили "да"
— 25% ответили "возможно, но не уверен"
— 6% не согласились
(Примечание: один человек отписал "Поставил "не уверен" ибо я когда-то давно трансформер и аттеншн в деталях разбирал, но теперь с ходу все не вспомню - надо будет освежать знания". При этом я этого человека знаю, у меня ровно 0 сомнений, что он за сядет и за час всё вспомнит — но главное он уже проявил интерес заведомо.)
Я постараюсь описать причину того, почему считаю, что ответ точно "да", ну а вы уже делайте для себя выводы.
Хороший инженер имеет здоровый интерес к индустрии и происходящему. Ему самому хочется узнать побольше, разобраться в деталях, попробовать — даже если на работе такой задачи нет. Всё таки статья "Attention is all you need" вышла больше 6 лет назад (!), а GPT-3 релизнулась в 2020м — и абсолютно точно можно было найти время, если было бы желание, посмотреть во внутрь и понять, как же так? Как так вышло, что одна модель работает почти во всех доменах и почти без изменений, от генерации текста до предсказания структуры белка? А что там лежит внутри ChatGPT? Тоже трансформер!? Ну надо же!
Andrej-наше-всё-Karpathy в подкасте Lex Fridman ответил на вопрос "какая наиболее прекрасная или неожиданная вещь для тебя во всем мире AI?" без раздумий: "Трансформер.". Более того он говорит, что это really cool differentiable optimizable efficient computer (даже звучит возбуждающе, нет?)
Но ещё больше у меня калит🔥 от того, что люди приходят на техническое собеседование на NLP Engineer ко мне и не могут рассказать про Self-Attention. Ну как так-то...
И под конец хочу процитировать Юру (в квадратных скобках - мои изменения относительно оригинала):
Если ты подобные вопросы [про трансформер] помечаешь у себя в голове тегом [мне это не нужно] - это самообман. Можно делать свой фит-предикт и ждать, когда AI вытеснит тебя из профессии.
💬 Пишите в комменты, что думаете вы, с чем не согласны
Где-то месяц назад проводил опрос в тг-чате, где собрано очень много клёвых чуваков (у многих из которых есть свои каналы) — от одарённых 16-17 летних рисерчеров (которые реально уже успели что-то придумать и опубликовать) до Principal-инженеров (это для контекста, чтобы придать весомости нижеописанному).
Запрос от меня был такой:
У меня есть мнение, что любой хороший и уважающий себя MLE в 2023м году должен знать, как работает трансформер в целом и Селф аттеншен в частности. Да, может без модификаций, просто ванильную модель, но на пальцах объяснять, что за квадратная матрица, как в целом учится и какие задачи решает - должен. Речь не про average ML enjoyer, а про уважающего себя хорошего MLE из топовых перцентилей распределения.
Согласны ли вы с этим?
Результаты голосования:
— 69% ответили "да"
— 25% ответили "возможно, но не уверен"
— 6% не согласились
(Примечание: один человек отписал "Поставил "не уверен" ибо я когда-то давно трансформер и аттеншн в деталях разбирал, но теперь с ходу все не вспомню - надо будет освежать знания". При этом я этого человека знаю, у меня ровно 0 сомнений, что он за сядет и за час всё вспомнит — но главное он уже проявил интерес заведомо.)
Я постараюсь описать причину того, почему считаю, что ответ точно "да", ну а вы уже делайте для себя выводы.
Хороший инженер имеет здоровый интерес к индустрии и происходящему. Ему самому хочется узнать побольше, разобраться в деталях, попробовать — даже если на работе такой задачи нет. Всё таки статья "Attention is all you need" вышла больше 6 лет назад (!), а GPT-3 релизнулась в 2020м — и абсолютно точно можно было найти время, если было бы желание, посмотреть во внутрь и понять, как же так? Как так вышло, что одна модель работает почти во всех доменах и почти без изменений, от генерации текста до предсказания структуры белка? А что там лежит внутри ChatGPT? Тоже трансформер!? Ну надо же!
Andrej-наше-всё-Karpathy в подкасте Lex Fridman ответил на вопрос "какая наиболее прекрасная или неожиданная вещь для тебя во всем мире AI?" без раздумий: "Трансформер.". Более того он говорит, что это really cool differentiable optimizable efficient computer (даже звучит возбуждающе, нет?)
Но ещё больше у меня калит
И под конец хочу процитировать Юру (в квадратных скобках - мои изменения относительно оригинала):
Если ты подобные вопросы [про трансформер] помечаешь у себя в голове тегом [мне это не нужно] - это самообман. Можно делать свой фит-предикт и ждать, когда AI вытеснит тебя из профессии.
Источник: Сиолошная
2023-07-23 09:38:15