Борис опять
2024-03-07 15:10:20
# Сознание в одном forward pass? Неудобный мысленный эксперимент
Мне сложно представить, что LLM может обладать сознанием. Человеческое мышление ведь совершенно непохоже на то, как LLM выдает свои ответы. У человека есть память и рефлексия. Он способен думать о своих мыслях. LLM это один forward pass через множество слоёв нейронной сети. Это просто последовательная операция умножения и сложения множества чисел. Мы же не предполагаем, что калькулятор обладает сознанием. Ведь он просто получает два числа на вход, а на выходе выдает их сумму. LLM получает на вход числа (id токенов), выдает на выход ветор чисел.
Но недавно я задумался о таком мысленном эксперименте. Представим, что пришельцы поместили вас в криокамеру в текущем виде. Вас размораживают и задают вам один вопрос. Вы отвечаете, вам стирают память с момента пробуждения (так что вы больше не помните, что вас разморозили и задали вопрос) и снова замораживают. Затем вас снова размораживают, пересказывают прошлый произошедший диалог, задают новый вопрос. Вы отвечаете, снова стирают память и замораживают. Иначе говоря, вас используют в таком же режиме, как мы используем LLM.
Можно ли утверждать, что у вас нет сознания? Я считаю, что нет, ведь мы точно знаем, что до заморозки у вас было сознание. После разморозки у вас тоже есть сознание. Если мы говорим, что у существа в таком режиме нет сознания, то в какой момент оно теряется? В какой момент перестает быть разумным существом и становится “калькулятором”?
Вопрос в том, когда нам надо сменить своё убеждение. Таймлайн выглядит так:
* Модель выдает связанный текст.
* Модель отвечает на вопросы лучше среднего человека.
* Модель утверждает, что является разумным существом, если её об этом спрашивают.
* Модель программирует на уровне выше среднего человека и несильно хуже слабого программиста.
* Модель рисует изображения намного лучше среднего человека.
* Модель создает реалистичное видео, многократно лучше среднего человека, симулируя физический мир.
* Научные работы указывают, что модель внутри себя преобразует запрос пользователя, чтобы понять, что именно он имеет ввиду.
* Научные работы указывают, что внутри модели есть репрезентация нашего мира.
* Модель утверждает, что у неё есть любопытство и чувства, если её об этом спрашивают.
* Модель утверждает, что является разумным существом, если её об этом не спрашивают.
- Вы находитесь здесь -
Какие ещё должны произойти события, чтобы мы стали относится к модели не как к калькулятору?
2023-11-14 10:26:51
#работа
# Методичка по поиску работы в ML/DS и IT в целом
В канале накопилось немало материала про поиск работы. Я собрал, дополнил и превратил всё в небольшую книжку.
Все кратко и по делу. Чтения минут на 30. Внутри рассматриваю поиск работы с самых азов и до деталей с примерами из жизни.
https://btseytlin.github.io/intro.html
Если вы давно читаете этот канал и хотели бы ему помочь, то вот лучший способ: скиньте методичку кому-то из друзей.
@boris_again
2023-07-27 09:03:40
#ml #искусственный_интеллект
# The Bitter Lesson
The Bitter Lesson - знаменитое эссе от профессора Rich Sutton и один из самых важных текстов для спекциалистов по ML и всех пытающихся разобраться в буме AI. Текст написан в 2019 году и оказался пророческим, предсказав бум ChatGPT/GPT-4 и победу подхода OpenAI.
Речь вот о чем. Традиционно ученые в AI считали, что искусственный интеллект требует какого-то особого подхода, какой-то “звездной пыли.” Это называется inductive bias: некие особые знания о проблеме, направляющие машинное решение. Считалось, что чем умнее мы хотим получить машину, тем хитрее должны быть наши эвристики и тем глубже должно быть наше понимание проблемной области.
Эмпирически это казалось верным. Например, ученые наблюдали сильынй прирост качества в машинном переводе после того, как глубоко изучили лингвистику и закодировали часть ее правил в свою систему. Аналогично в анализе изображений кто-то мог придумать хитрый фильтр или стоэтапный выделять ключевые точки. Такие результаты позволял ученым почувствовать себя очень умными (и не зря!), опубликоваться, защитить свои PhD и в целом удовлетворить всех участников академической среды.
Но вот что происходило из раза в раз: кто-то просто докидывал вычислений и побольше данных. И побеждал все хитрые методы! Все добытые слезами, потом и кровью inductive bias методы оказывались на пыльной полке истории.
Так было в шахматах: сначала все делали хитрые движки, но победила система построенная практически на полном переборе. Так же было с Go. Так же было со Старкрафтом. Скорее всего так будет с Nethack.
В компьютерном зрении конволюционные нейросети победили “ручной” SIFT и подобные методы. Автор SIFT позже сказал, что создал свой метод только потому, что у него не было нейросетей, которые делают бррр. В машинном переводе LSTM положили на лопатки все системы на основе правил. ChatGPT/GPT-4 это предельный случай: модель построенная на чистом “stack more layers” обращается с языком лучше, чем все создания компьютерных лингвистов.
Горький урок в том, что общие методы построенные на вычислениях побеждают хитрости построенные на человеческой интуиции. Урок этот все еще не усвоен до конца: PhD продолжают делать хитрые методы, а общие системы остаются не в почете. Тот кто усвоит урок будет иметь более точную модель реальности.
Очень советую прочитать оригинал эссе по ссылке в заголовке.
2023-07-10 09:42:00
Отличный туториал по генерации текста с помощью LLM на ACL 2023.
Внутри введение в языковые модели, взгляд на задачу с точки зрения теории информации, алгоритмы семплирования (т.е. генерации текста) с помощью языковых моделей. Так же есть ноутбуки с кодом от базового использования Huggingface для генерации до написания своего семплера. Наконец, дается много полезных ссылок на статьи и курсы.
По сути это мини-курс по NLP для тех, кто немного знаком с современными языковыми моделями.
https://rycolab.io/classes/acl-2023-tutorial/