The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)....
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
Статья: https://arxiv.org/abs/2309.17421
Microsoft разродился 166-страничной статьёй про анализ способностей GPT-4V, идейно похожей на широко известную их же (но других авторов) 155-страничную статью про “Sparks of Artificial General Intelligence: Early experiments with GPT-4” (https://arxiv.org/abs/2303.12712).
Как известно, GPT-4 (https://t.me/gonzo_ML/1383) в оригинале была обучена (ещё в 2022-м) как картиночно-текстовая модель, умеющая на входе принимать картинки в дополнение к тексту, и в оригинальной работе даже было несколько клёвых демонстраций (https://t.me/gonzo_ML/1398). С марта 2023 избранные получили к ней доступ (как Microsoft, сделавший тогда статью про Sparks of AGI, хотя они щупали даже ещё более ранние версии). В API оно правда пока так и не появилось, зато на днях (https://t.me/gonzo_ML/1901) OpenAI анонсировали поддержку изображений и звука в ChatGPT, а также наконец опубликовали (https://t.me/gonzo_ML/1902) карточку модели GPT-4V (GPT-4 with vision).
Можно, наверное, ожидать, что скоро это наконец появится и в API. И вообще, не стрёмно сделать краткосрочный прогноз, что 2024-й год будет годом картиночно-текстовых (а может ещё и +аудио) моделей: GPT-4, Gemini (https://t.me/gonzo_ML/1547) которую по слухам уже тестируют избранные клиенты, опенсорсные реимплементации Flamingo (https://t.me/gonzo_ML/941) которых тоже уже есть по крайней мере пара, Microsoft Kosmos-1 (https://t.me/gonzo_ML/1364) и 2, и стопудово ещё что-то появится. А когда и генерить смогут мультимодально, картинки + текст + …, то вообще бомба будет. До этого тоже, кажется, не очень далеко уже.
Если посмотреть в карточку GPT-4V (https://cdn.openai.com/papers/GPTV_System_Card.pdf), то там фокус на безопасности модели и подготовку её к широкому выкатыванию. Среди ранних тестеров были также Be My Eyes, разрабатывающая тулы для людей с нарушениями зрения. К сентябрю 2023 в бета-тестировании участвовало уже 16к пользователей оттуда, и за время тестирования модель удалось неплохо прокачать на предмет уменьшения галлюцинаций и ошибок.
Модель много анализировали на предмет опасного контента, privacy, кибербезопасности и проходе капчи, изучали мультимодальные джейлбрейки. GPT-4V даёт отказ (refusal) в большем проценте опасных запросов, чем GPT-4 во время релиза, а в сочетании с неописанной Refusal System достигает 100% на некоторых внутренних тестах типа джейлбрейков.
Был большой ред тиминг с фокусом на 6 областей: Scientific proficiency, Medical advice, Stereotyping and ungrounded inferences, Disinformation risks, Hateful Content, Visual vulnerabilities. В работе есть чуть более подробное описание проблем и результатов этих направлений. Видно, что проделали большую работу, и результаты свежей версии GPT-4V стали лучше.
Работа “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” ещё интереснее.
GPT-4V может работать с несколькими картинками и чередовать картинки с текстом. У модели есть несколько режимов промптинга.
Во-первых, она может следовать текстовым инструкциям, включая Constrained prompting (например, запросить выдачу в JSON для фото водительских прав) или Condition on good performance, что настраивает LLM на успешное решение задачи, а не на какое-то (“You are an expert in counting things in the image. Let’s count the number of apples in the image below row by row to be sure we have the right answer.” -- блин, ну реально NLP, то самое, что с Гриндером и Бендлером 😁).
Можно делать Visual Pointing, передавая координаты внутри изображения или указывая на регионы как-то ещё: стрелочками, выделением прямоугольником или кружочком и т.п. Авторы предлагают метод взаимодействия с моделью под названием “visual referring prompting.”
Промптинг может быть совмещённым текстовым + визуальным и довольно гибким за счёт возможности перемежать текст с картинками. Например, можно делать текстово-картиночный few-shot learning, добавляя визуальные примеры.
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
Статья: https://arxiv.org/abs/2309.17421
Microsoft разродился 166-страничной статьёй про анализ способностей GPT-4V, идейно похожей на широко известную их же (но других авторов) 155-страничную статью про “Sparks of Artificial General Intelligence: Early experiments with GPT-4” (https://arxiv.org/abs/2303.12712).
Как известно, GPT-4 (https://t.me/gonzo_ML/1383) в оригинале была обучена (ещё в 2022-м) как картиночно-текстовая модель, умеющая на входе принимать картинки в дополнение к тексту, и в оригинальной работе даже было несколько клёвых демонстраций (https://t.me/gonzo_ML/1398). С марта 2023 избранные получили к ней доступ (как Microsoft, сделавший тогда статью про Sparks of AGI, хотя они щупали даже ещё более ранние версии). В API оно правда пока так и не появилось, зато на днях (https://t.me/gonzo_ML/1901) OpenAI анонсировали поддержку изображений и звука в ChatGPT, а также наконец опубликовали (https://t.me/gonzo_ML/1902) карточку модели GPT-4V (GPT-4 with vision).
Можно, наверное, ожидать, что скоро это наконец появится и в API. И вообще, не стрёмно сделать краткосрочный прогноз, что 2024-й год будет годом картиночно-текстовых (а может ещё и +аудио) моделей: GPT-4, Gemini (https://t.me/gonzo_ML/1547) которую по слухам уже тестируют избранные клиенты, опенсорсные реимплементации Flamingo (https://t.me/gonzo_ML/941) которых тоже уже есть по крайней мере пара, Microsoft Kosmos-1 (https://t.me/gonzo_ML/1364) и 2, и стопудово ещё что-то появится. А когда и генерить смогут мультимодально, картинки + текст + …, то вообще бомба будет. До этого тоже, кажется, не очень далеко уже.
Если посмотреть в карточку GPT-4V (https://cdn.openai.com/papers/GPTV_System_Card.pdf), то там фокус на безопасности модели и подготовку её к широкому выкатыванию. Среди ранних тестеров были также Be My Eyes, разрабатывающая тулы для людей с нарушениями зрения. К сентябрю 2023 в бета-тестировании участвовало уже 16к пользователей оттуда, и за время тестирования модель удалось неплохо прокачать на предмет уменьшения галлюцинаций и ошибок.
Модель много анализировали на предмет опасного контента, privacy, кибербезопасности и проходе капчи, изучали мультимодальные джейлбрейки. GPT-4V даёт отказ (refusal) в большем проценте опасных запросов, чем GPT-4 во время релиза, а в сочетании с неописанной Refusal System достигает 100% на некоторых внутренних тестах типа джейлбрейков.
Был большой ред тиминг с фокусом на 6 областей: Scientific proficiency, Medical advice, Stereotyping and ungrounded inferences, Disinformation risks, Hateful Content, Visual vulnerabilities. В работе есть чуть более подробное описание проблем и результатов этих направлений. Видно, что проделали большую работу, и результаты свежей версии GPT-4V стали лучше.
Работа “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” ещё интереснее.
GPT-4V может работать с несколькими картинками и чередовать картинки с текстом. У модели есть несколько режимов промптинга.
Во-первых, она может следовать текстовым инструкциям, включая Constrained prompting (например, запросить выдачу в JSON для фото водительских прав) или Condition on good performance, что настраивает LLM на успешное решение задачи, а не на какое-то (“You are an expert in counting things in the image. Let’s count the number of apples in the image below row by row to be sure we have the right answer.” -- блин, ну реально NLP, то самое, что с Гриндером и Бендлером 😁).
Можно делать Visual Pointing, передавая координаты внутри изображения или указывая на регионы как-то ещё: стрелочками, выделением прямоугольником или кружочком и т.п. Авторы предлагают метод взаимодействия с моделью под названием “visual referring prompting.”
Промптинг может быть совмещённым текстовым + визуальным и довольно гибким за счёт возможности перемежать текст с картинками. Например, можно делать текстово-картиночный few-shot learning, добавляя визуальные примеры.
Источник: gonzo-обзоры ML статей
2023-10-03 19:14:29