Способности у модели достаточно обширные
Способности у модели достаточно обширные.
По паре картинка-текст, модель может генерировать описание картинки: распознавать известных людей и места, определять еду и логотипы, понимать медицинские изображения и различные сцены, и даже справляться с counterfactual examples. Жаль, не взяли картинку с самолётом из классической работы “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289).
Модель может заниматься локализацией и подсчётом объектов, и делать Dense Captioning. Обладает каким-то здравым смыслом и пониманием мира; способна понимать шутки и мемы; отвечать на вопросы по физике, географии, биологии; учитывать визуальные подсказки.
Может распознавать текст, таблицы, графики и понимать документы. При этом владеет множеством языков и для генерации, и для промптов, и для распознавания на изображениях. Умеет генерировать LaTeX, markdown, код на питоне.
Модель может работать с видео как последовательностью кадров.
Умеет справляться с тестами на Abstract Visual Reasoning и интеллект. Может читать эмоции по фото лиц или предугадывать эмоции, которые вызовет у человека картинка, генерить Emotion Conditioned Output.
В отдельном разделе авторы предлагают идеи для Emerging Applications. Ну, makes sense, если своих идей нет и хотите вдохновиться. Прикольный вариант по сборке Embodied Agent на базе GPT-4V. Для прототипирования самое то 🙂 Можно сделать следующий шаг относительно Generative Agents (https://t.me/gonzo_ML/1481). Прикольно было бы собрать покадровую игру в Doom через GPT-4V. В GUI кстати тоже может навигировать, можно наверное не ждать ACT-1 (https://t.me/gonzo_ML/1141), быстрее уже на GPT-4V такими темпами соберём 🙂 Нишу RPA (Robotic Process Automation) вероятно тоже должно серьёзно подизраптить скоро.
В конце есть интересный раздел про LMM Powered Agents, где обсуждают multimodal plugins, multimodal chains, self-reflection, self-consistency (обсуждали недавно https://t.me/gonzo_ML/1885), retrieval-augmented LMMs (обсуждали многократно). Успеет Langchain адаптироваться или ему на смену какой-то другой чейн придёт? Мне, кстати, лично нравится майкрософтовский же Semantic Kernel (https://learn.microsoft.com/en-us/semantic-kernel/overview/).
В общем, будущее здесь, просто оно неравномерно распределено. Я, пожалуй, понимаю, почему OpenAI, Anthropic и прочие поднимают раунды по таким оценкам. Доступная когнитивная автоматизация скоро выйдет на совсем иной уровень, и кто обладает такими технологиями, тот и молодец. А чек на вход конский.
По паре картинка-текст, модель может генерировать описание картинки: распознавать известных людей и места, определять еду и логотипы, понимать медицинские изображения и различные сцены, и даже справляться с counterfactual examples. Жаль, не взяли картинку с самолётом из классической работы “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289).
Модель может заниматься локализацией и подсчётом объектов, и делать Dense Captioning. Обладает каким-то здравым смыслом и пониманием мира; способна понимать шутки и мемы; отвечать на вопросы по физике, географии, биологии; учитывать визуальные подсказки.
Может распознавать текст, таблицы, графики и понимать документы. При этом владеет множеством языков и для генерации, и для промптов, и для распознавания на изображениях. Умеет генерировать LaTeX, markdown, код на питоне.
Модель может работать с видео как последовательностью кадров.
Умеет справляться с тестами на Abstract Visual Reasoning и интеллект. Может читать эмоции по фото лиц или предугадывать эмоции, которые вызовет у человека картинка, генерить Emotion Conditioned Output.
В отдельном разделе авторы предлагают идеи для Emerging Applications. Ну, makes sense, если своих идей нет и хотите вдохновиться. Прикольный вариант по сборке Embodied Agent на базе GPT-4V. Для прототипирования самое то 🙂 Можно сделать следующий шаг относительно Generative Agents (https://t.me/gonzo_ML/1481). Прикольно было бы собрать покадровую игру в Doom через GPT-4V. В GUI кстати тоже может навигировать, можно наверное не ждать ACT-1 (https://t.me/gonzo_ML/1141), быстрее уже на GPT-4V такими темпами соберём 🙂 Нишу RPA (Robotic Process Automation) вероятно тоже должно серьёзно подизраптить скоро.
В конце есть интересный раздел про LMM Powered Agents, где обсуждают multimodal plugins, multimodal chains, self-reflection, self-consistency (обсуждали недавно https://t.me/gonzo_ML/1885), retrieval-augmented LMMs (обсуждали многократно). Успеет Langchain адаптироваться или ему на смену какой-то другой чейн придёт? Мне, кстати, лично нравится майкрософтовский же Semantic Kernel (https://learn.microsoft.com/en-us/semantic-kernel/overview/).
В общем, будущее здесь, просто оно неравномерно распределено. Я, пожалуй, понимаю, почему OpenAI, Anthropic и прочие поднимают раунды по таким оценкам. Доступная когнитивная автоматизация скоро выйдет на совсем иной уровень, и кто обладает такими технологиями, тот и молодец. А чек на вход конский.
Источник: gonzo-обзоры ML статей
2023-10-03 19:14:29