Нейролента - подборка новостей о нейронных сетях, ChatGPT

#ml

#ml #искусственный_интеллект

# The Bitter Lesson

The Bitter Lesson - знаменитое эссе от профессора Rich Sutton и один из самых важных текстов для спекциалистов по ML и всех пытающихся разобраться в буме AI. Текст написан в 2019 году и оказался пророческим, предсказав бум ChatGPT/GPT-4 и победу подхода OpenAI.

Речь вот о чем. Традиционно ученые в AI считали, что искусственный интеллект требует какого-то особого подхода, какой-то “звездной пыли.” Это называется inductive bias: некие особые знания о проблеме, направляющие машинное решение. Считалось, что чем умнее мы хотим получить машину, тем хитрее должны быть наши эвристики и тем глубже должно быть наше понимание проблемной области.

Эмпирически это казалось верным. Например, ученые наблюдали сильынй прирост качества в машинном переводе после того, как глубоко изучили лингвистику и закодировали часть ее правил в свою систему. Аналогично в анализе изображений кто-то мог придумать хитрый фильтр или стоэтапный выделять ключевые точки. Такие результаты позволял ученым почувствовать себя очень умными (и не зря!), опубликоваться, защитить свои PhD и в целом удовлетворить всех участников академической среды.

Но вот что происходило из раза в раз: кто-то просто докидывал вычислений и побольше данных. И побеждал все хитрые методы! Все добытые слезами, потом и кровью inductive bias методы оказывались на пыльной полке истории.

Так было в шахматах: сначала все делали хитрые движки, но победила система построенная практически на полном переборе. Так же было с Go. Так же было со Старкрафтом. Скорее всего так будет с Nethack.

В компьютерном зрении конволюционные нейросети победили “ручной” SIFT и подобные методы. Автор SIFT позже сказал, что создал свой метод только потому, что у него не было нейросетей, которые делают бррр. В машинном переводе LSTM положили на лопатки все системы на основе правил. ChatGPT/GPT-4 это предельный случай: модель построенная на чистом “stack more layers” обращается с языком лучше, чем все создания компьютерных лингвистов.

Горький урок в том, что общие методы построенные на вычислениях побеждают хитрости построенные на человеческой интуиции. Урок этот все еще не усвоен до конца: PhD продолжают делать хитрые методы, а общие системы остаются не в почете. Тот кто усвоит урок будет иметь более точную модель реальности.

Очень советую прочитать оригинал эссе по ссылке в заголовке.