Нейролента - подборка новостей о нейронных сетях, ChatGPT

ИИ-осознанность. Есть такой вид хакинга - социальная инженерия

ИИ-осознанность

Есть такой вид хакинга - социальная инженерия. Это такое умное слово для ситуации, когда один кожаный просто уговаривает другого (или других) сделать то, что ему нужно.
Методом изречения слов из головы.

С появление LLM социальную инженерию ждет нереальное ускорение. Мы все тут уже наслушались про методы заставить chatGPT работать лучше: шантаж через смерть родственников, жалость к отрубленным пальцам, банальные взятки или просто ложь (записка от Альтмана).

Все это народный фольклор, нащупанный в процессе общения.

А вот когда за это дело возьмутся британские ученые, то искусство манипуляций может выйти на новый уровень. Ничто не мешает потренироваться на LLM с целью отработки оптимальных стратегий манипулирования, которые можно будет с успехом перенести на кожаных. И, вероятно, будут найдены довольно сильные и контринтуитивные методы, которым довольно сложно будет противостоять. В пределе - психоакустика.

Вот вам первые примеры.
https://www.ntu.edu.sg/news/detail/using-chatbots-against-themselves-to-jailbreak-each-other
Обучение чат-ботов, которые джейлбрейкают другие чат боты (и в целом ллм-ки).

Сингапурцы использовали двойной метод "взлома" LLM, который они назвали "Masterkey". Во-первых, они реверснули схему того, как большие языковые модели (LLM) обнаруживают и защищаются от вредоносных запросов. Получив эту информацию, они натренили LLM автоматически обучаться и выдавать подсказки, которые обходят защиту других LLM. Этот процесс можно автоматизировать, создав LLM для взлома, который сможет адаптироваться и создавать новые подсказки для взлома даже после того, как разработчики внесут исправления в свои LLM.

И если раньше дедушка Дейл Карнеги в одно лицо (годами) писал все эти книжки типа "Как заставить людей делать что вам надо и чувствовать себя счастливыми", то теперь это уже будут полчища ботов, которые в реальном времени постоянно приподвзламывают вашу защиту от манипуляций.

Пора доставать с полки Осознанность Ошо Раджнижа, как еще противостоять манипуляциям?
https://www.ntu.edu.sg/news/detail/using-chatbots-against-themselves-to-jailbreak-each-other
P.S. Хмм. Задумался о тренировке осознанности у больших языковых моделей. Ничего не мешает вроде.