Design2Code: How Far Are We From Automating Front-End Engineering?

Статья от DeepMind и исследователей из Stanford University с очень интересной постановкой вопроса~~: а чё, когда можно будет фронтендеров попереть или хотя бы срезать ставку?~~

Авторы создали бенчмарк из дизайна 484 реальных сайтов. Задача модели — по дизайну (в данном случае скриншоту) страницы создать код, который выдавал бы максимально похожую картинку при рендеринге в браузере. Несмотря на то, что цифра в менее чем 500 сайтов кажется незначительной, тест достаточно сложный: в среднем, код состоит из 30 тысяч токенов (std 25k) и имеет глубину вложенности элементов вёрстки 13 (то есть финальный блок, который вы видите, в среднем утоплен в нескольких родительских элементах, описывающих место, дизайн, etc.).

Вводится несколько метрик, по которым GPT-4V как будто бы показывает неплохие результаты, но это скучно: давайте спросим реальных людей. Так вот, аннотаторы считают, что веб-страницы, сгенерированные GPT, могут заменить исходные веб-страницы с точки зрения внешнего вида и содержания в 49% случаев. И, что более удивительно, в 64% веб-страницы, созданные с помощью GPT-4V, оцениваются лучше, чем исходные. GPT-4V со сложным промптом с рефлексией выигрывает (согласно человеческой оценке) Gemini Pro в 76% случаев.

Фото генерируемых сайтов можно глянуть тут.
Код есть, а промпты можно украсть здесь.

А то тут в комментах часто спрашивают а что делать, а идти ли в программирование 😀

😀

Источник: Сиолошная

2024-03-06 03:42:40