Там собрали окружение (на базе виртуальной машины) для...

Там собрали окружение (на базе виртуальной машины) для тестирования мультимодальных агентиков в работе с реальной операционной системой.
Внутри стоят реальные приложения, которыми мы с вами пользуемся. Также на выбор несколько операционок.

Агент может управлять мышкой и клавиатурой.
А на входе получает скриншот экрана + XML-format accessibility (a11y) tree (дерево доступности, представляющее собой дополнительную информацию вроде позиций окон и их размеров, позиции указателя и тд), а еще инструкцию с описанием задачи.

Ещё подготовили бенчмарк с 369 задачками, на котором протестировали современные LLM/VLM.
Задачки вроде: "Можешь помочь мне очистить мой компьютер, избавившись от всех файлов cookie, которые мог сохранить Amazon?", которые проверяют способность пользоваться возможностями операционных систем и программ.

Пишут, что человек способен выполнить 72.36% всех задач.

GPT-4 показала лучший результат среди LLMок: 12.24% (получая на вход A11y tree).
GPT-4V показала результат 12.17% (Screenshot + A11y tree на входе).

Интересненько. Отсюда ведь можно еще и датасетики собирать теперь, чтобы учиться...

https://os-world.github.io/

https://github.com/xlang-ai/OSWorld

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
https://arxiv.org/abs/2404.07972

Источник: Агенты ИИ | AGI_and_RL

2024-04-14 20:54:41