Текущие модели типа GPT внутри пока чисто нейросетевые,...
Текущие модели типа GPT внутри пока чисто нейросетевые, работающие в режиме стимул-реакция, без какого либо внятного места для размышлений в стиле Системы 2. Те заходы, что есть (например, https://t.me/gonzo_ML/2100), пока в массе своей довольно детские. Но прямо сейчас где-то там разрабатываются разные гибридные, в том числе нейро-символьные, модели или модели с элементами планирования. Привет тайному Q* (https://t.me/gonzo_ML/2202) или другим свежим заходам в эти палестины типа, например, https://arxiv.org/abs/2402.14083. Даже в существующем на сейчас режиме, in-context обучение новой задаче по учебнику выглядит безумно круто (если работает). В режиме с полноценными “System 2 - like“ способностями это может быть вообще бомбой. Один из фронтиров пролегает где-то тут.
3) Интересный вопрос встанет с ценой на такой интеллект. Существующий прайсинг Gemini 1.0 Pro (https://ai.google.dev/pricing) в 0.125$ за миллион символов (что в переводе на токены ну пусть будет 0.2$ за миллион) уже сильно круче, чем у OpenAI (https://openai.com/pricing) с их 10$ за миллион токенов для GPT-4 Turbo, $30 для GPT-4 и 0.5$ для существенно менее крутой GPT-3.5 Turbo. И круче, чем Anthropic Claude 2.1 c 8$ за миллион (https://www-cdn.anthropic.com/31021aea87c30ccaecbd2e966e49a03834bfd1d2/pricing.pdf). [*] Речь здесь про входные токены, для выходных цена выше в 2-3 раза, но на выходе нам обычно не нужно генерить миллионы, это важно в первую очередь для задач с большим входом.
Если у Gemini 1.5 Pro будет такой же прайсинг, готовы вы платить по 10 центов за ответ по книге? А за генерацию кода для автоматизации задачи, которую вы записали на видео?
Мой личный ответ на второй вопрос да, а на первый -- хз. Если надо задать десятки вопросов, то это уже единицы долларов. Для анализа юридического документа или для разового саммари книги ок, а если надо делать это на потоке, то вопрос. Надо считать экономику. В сервисах, предоставляющих решения на базе таких моделей, надо как-то явно учитывать usage чтоб не разориться.
4) Независимо от экономики, должны быть способы экономить и кешировать результаты. Если надо задать кучу вопросов по одному и тому же набору документов, то странно делать это каждый раз как бы с нуля. Если структура промпта выглядит как {большой текст} + {вопрос}, то логично было бы первую часть как-то закешировать, раз она постоянная. Технически внутри трансформера эти просчитанные многослойной сеткой эмбеддинги входа можно было бы где-то сохранить и при новом вопросе считать только для этой новой добавки, экономя кучу ресурсов. Но инфраструктуры для этого пока нет (или я пропустил) и даже если вы разворачиваете модель у себя, то всё равно сходу такое не сделаешь, надо попрограммировать.
Мои ожидания, что что-то такое должно появиться и на уровне API, и инфраструкрурно для кеширования результатов локальных моделей. Возможно, какая-то удобная и лёгкая связка с векторной базой данных (ну вы поняли, что надо делать).
5) При правильном использовании это всё способно сильно увеличить производительность в куче задач. Я лично не удивлюсь, если отдельные люди станут в 10 или в 100 раз более продуктивными, что безумно круто. Понятно, что это не панацея и все задачи не решит, плюс по-прежнему актуальны проблемы конфабуляций (то, что лучше употреблять вместо галлюцинаций) и перепроверки результата.
Вероятно, есть классы задач, где проверка сильно дешевле, чем решение задачи самостоятельно (можем для прикола назвать этот класс “когнитивными NP” задачами), и их точно много -- те же написания писем или постов в блог явно ложатся сюда. Я лично уже давно пишу в англоязычный блог через перевод сразу всего текста GPT с последующим редактированием, это существенно быстрее, чем писать с нуля самому. Замечу, что косяки при этом встречаются сравнительно редко, даже GPT-4 Turbo нередко выдаёт текст, где вообще можно ничего не менять. Иногда -- сделать одну-две правки. Ни разу ещё не понадобилось переписывать не то что целый текст, а хотя бы один абзац.
3) Интересный вопрос встанет с ценой на такой интеллект. Существующий прайсинг Gemini 1.0 Pro (https://ai.google.dev/pricing) в 0.125$ за миллион символов (что в переводе на токены ну пусть будет 0.2$ за миллион) уже сильно круче, чем у OpenAI (https://openai.com/pricing) с их 10$ за миллион токенов для GPT-4 Turbo, $30 для GPT-4 и 0.5$ для существенно менее крутой GPT-3.5 Turbo. И круче, чем Anthropic Claude 2.1 c 8$ за миллион (https://www-cdn.anthropic.com/31021aea87c30ccaecbd2e966e49a03834bfd1d2/pricing.pdf). [*] Речь здесь про входные токены, для выходных цена выше в 2-3 раза, но на выходе нам обычно не нужно генерить миллионы, это важно в первую очередь для задач с большим входом.
Если у Gemini 1.5 Pro будет такой же прайсинг, готовы вы платить по 10 центов за ответ по книге? А за генерацию кода для автоматизации задачи, которую вы записали на видео?
Мой личный ответ на второй вопрос да, а на первый -- хз. Если надо задать десятки вопросов, то это уже единицы долларов. Для анализа юридического документа или для разового саммари книги ок, а если надо делать это на потоке, то вопрос. Надо считать экономику. В сервисах, предоставляющих решения на базе таких моделей, надо как-то явно учитывать usage чтоб не разориться.
4) Независимо от экономики, должны быть способы экономить и кешировать результаты. Если надо задать кучу вопросов по одному и тому же набору документов, то странно делать это каждый раз как бы с нуля. Если структура промпта выглядит как {большой текст} + {вопрос}, то логично было бы первую часть как-то закешировать, раз она постоянная. Технически внутри трансформера эти просчитанные многослойной сеткой эмбеддинги входа можно было бы где-то сохранить и при новом вопросе считать только для этой новой добавки, экономя кучу ресурсов. Но инфраструктуры для этого пока нет (или я пропустил) и даже если вы разворачиваете модель у себя, то всё равно сходу такое не сделаешь, надо попрограммировать.
Мои ожидания, что что-то такое должно появиться и на уровне API, и инфраструкрурно для кеширования результатов локальных моделей. Возможно, какая-то удобная и лёгкая связка с векторной базой данных (ну вы поняли, что надо делать).
5) При правильном использовании это всё способно сильно увеличить производительность в куче задач. Я лично не удивлюсь, если отдельные люди станут в 10 или в 100 раз более продуктивными, что безумно круто. Понятно, что это не панацея и все задачи не решит, плюс по-прежнему актуальны проблемы конфабуляций (то, что лучше употреблять вместо галлюцинаций) и перепроверки результата.
Вероятно, есть классы задач, где проверка сильно дешевле, чем решение задачи самостоятельно (можем для прикола назвать этот класс “когнитивными NP” задачами), и их точно много -- те же написания писем или постов в блог явно ложатся сюда. Я лично уже давно пишу в англоязычный блог через перевод сразу всего текста GPT с последующим редактированием, это существенно быстрее, чем писать с нуля самому. Замечу, что косяки при этом встречаются сравнительно редко, даже GPT-4 Turbo нередко выдаёт текст, где вообще можно ничего не менять. Иногда -- сделать одну-две правки. Ни разу ещё не понадобилось переписывать не то что целый текст, а хотя бы один абзац.
Источник: gonzo-обзоры ML статей
2024-02-26 17:36:17