И эта цифра существенно (и всё еще статистически...

И эта цифра существенно (и всё еще статистически незначимо...) растёт — это можно увидеть в табличке.

Среди экспертов без опоры на LLM 3, 4 и 5 этапы задания прошли на более чем 8 баллов 0, 1 и 1 человек соответственно. То есть как будто можно сказать, что они бы не справились со всем процессом от и до. В то время как при использовании LLM эти цифры уже отрываются от нуля и достигают 3, 4, 5.

Если немножечко искажать информацию, то можно сказать, что количество экспертов, которые аккуратно описали бы процесс синтеза и распространения биооружия с LLM вырастает в 4 раза. Искажение в том, что и выборки маленькие, и одна из стадий (Magnification, наращивание объема токсичного агента для достижения опасного объема) без LLM вообще не проходится, но это не значит, что большая выборка также показала бы нуль.

По-моему, это самая главная таблица из исследования, которую стоит держать в уме — то есть эксперты становятся куда более эффективными в выполнении задач, и какие-то затыки, с которыми не могут справиться просто с опорой на интернет, с LLM они уже преодолевают.

Интересный факт: оказалось, что Интернет-ресурсы содержат куда более опасный контент, чем предполагали в OpenAI. Там уже можно найти пошаговые методологии и советы по решению проблем, связанных с разработкой биологически опасных агентов.

Успокаивающий факт: несмотря на то, что способность описать на пару с GPT-4 процесс с учётом нюансов улучшается, всё еще остаются проблемы реального мира: работа в лаборатории, оборудование, гос. контроль и регуляции оборота разных веществ.

Рандомный факт: всего на задачи исполнителям было выделено 5 часов, и они работали не из дома, а под наблюдением специалистов (но без вмешательства). Топик очень деликатный, отбор участников был строгим — чтобы ни дай бог кто не решил использовать обретённые знания или уж тем более постараться выбить все десятки как оценки своего домашнего решения)

Источник: Сиолошная

2024-01-31 19:31:35