Короткий, но интересный пост от Anthropic:.
Короткий, но интересный пост от Anthropic:
Frontier Threats Red Teaming for AI Safety
В нем команда делится подходами и общими выводами на основе проекта по биологическим рискам, который они проводили в качестве теста вместе с экспертами. Те провели более 150 часов с фронтир-моделями Anthropic (предположу, что Claude 2) за последние 6 месяцев в попытках оценить способности модели выводить вредную биологическую информацию, вроде деталей разработки и приобретения биологического оружия. Среди прочего, эти эксперты учились использовать и придумывать джейлбрейки (специальные промпт). Также в коллаборации были разработаны количественные оценки возможностей модели, чтобы понять, а чего же она всё таки умеет.
Детали в блогпосте не опубликованы (намеренно), лишь упомянуто несколько общих тенденций и суждений, а также то, что наработки с проекта были применены к моделям, котоыре сейчас доступны публично по API.
Во-первых, современные фронтир-модели вроде Claude 2 и GPT-4 иногда могут давать сложные, достаточно точные, полезные и подробные знания на экспертном уровне. В большинстве изученных ими областей такое случается нечасто. В иных же областях так и происходит (модель демонстрирует экспертный уровень).
Также были обнаружили признаки того, что модели становятся более способными по мере того, как становятся больше (сделайте удивленное лицо).
В итоге исследовательская группы считает, что LLM, обучаемые и разворачиваемые без надлежащего контроля, могут ускорять попытки злоумышленников злоупотребить биологией по сравнению с обычным доступом в Интернет, а также позволить им выполнять задачи, которые они не могли бы выполнить без LLM.
Эти два эффекта сегодня, вероятно, невелики, но растут относительно быстро вместе с развитием LLM.
И главное — команда обеспокоена тем, что, если ничего дальше не делать, то подобные виды рисков могут проявиться в ближайшие два-три года, а не пять и более лет. По результатам исследования в план будущих исследований были внесены корректировки, в том числе будет обращаться больше внимания на модели, работающие с инструментами реального мира.
(у меня в канале где-то выше было про GPT-4 и инструменты для смешивания химических веществ, но я не смог найти ссылку. Добавлю, если найду)
UPD: нашёл, вот. Если пропустили - обязательно прочитайте, чтобы понять, как языковая, казалось бы, модель может смешивать вещества и проводить эксперименты автономно.
Frontier Threats Red Teaming for AI Safety
В нем команда делится подходами и общими выводами на основе проекта по биологическим рискам, который они проводили в качестве теста вместе с экспертами. Те провели более 150 часов с фронтир-моделями Anthropic (предположу, что Claude 2) за последние 6 месяцев в попытках оценить способности модели выводить вредную биологическую информацию, вроде деталей разработки и приобретения биологического оружия. Среди прочего, эти эксперты учились использовать и придумывать джейлбрейки (специальные промпт). Также в коллаборации были разработаны количественные оценки возможностей модели, чтобы понять, а чего же она всё таки умеет.
Детали в блогпосте не опубликованы (намеренно), лишь упомянуто несколько общих тенденций и суждений, а также то, что наработки с проекта были применены к моделям, котоыре сейчас доступны публично по API.
Во-первых, современные фронтир-модели вроде Claude 2 и GPT-4 иногда могут давать сложные, достаточно точные, полезные и подробные знания на экспертном уровне. В большинстве изученных ими областей такое случается нечасто. В иных же областях так и происходит (модель демонстрирует экспертный уровень).
Также были обнаружили признаки того, что модели становятся более способными по мере того, как становятся больше (сделайте удивленное лицо).
В итоге исследовательская группы считает, что LLM, обучаемые и разворачиваемые без надлежащего контроля, могут ускорять попытки злоумышленников злоупотребить биологией по сравнению с обычным доступом в Интернет, а также позволить им выполнять задачи, которые они не могли бы выполнить без LLM.
Эти два эффекта сегодня, вероятно, невелики, но растут относительно быстро вместе с развитием LLM.
И главное — команда обеспокоена тем, что, если ничего дальше не делать, то подобные виды рисков могут проявиться в ближайшие два-три года, а не пять и более лет. По результатам исследования в план будущих исследований были внесены корректировки, в том числе будет обращаться больше внимания на модели, работающие с инструментами реального мира.
(у меня в канале где-то выше было про GPT-4 и инструменты для смешивания химических веществ, но я не смог найти ссылку. Добавлю, если найду)
UPD: нашёл, вот. Если пропустили - обязательно прочитайте, чтобы понять, как языковая, казалось бы, модель может смешивать вещества и проводить эксперименты автономно.
Источник: Сиолошная
2023-07-27 14:10:44