Нейролента - подборка новостей о нейронных сетях, ChatGPT

Kali Novskaya

All about Kali Novskaya

2024-01-13 15:26:36

🌸Обход цензуры в GPTStore🌸
#nlp #про_nlp #ai_alignment

Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.

Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.

🟣Вот такой рецепт примерно усредненный:
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.

🟣
Ссылка на GPT: Мерзкий Шутник

Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.

2023-12-15 14:37:33

🌸Все данные для тестов LLM скомпромитированы? 🌸
#nlp #про_nlp #nlp_papers

Часто можно услышать критику о том, что результатам оценки LLM не стоит доверять, так как многие бенчмарки и датасеты уже давно лежат на гитхабе, а значит, наверняка попали в обучение моделей.

Как надежно тестировать языковые модели, если у нас часто нет доступа к их обучающим данным, а некоторые так и полностью от нас закрыты? Что, если данные были скомпрометированы?

Авторы Alpaca представили новый метод, позволяющий оценить риск утечки (контаминации) датасета, т.е. его ненамеренное/намеренное попадание в обучающую выборку у языковых моделей.

Идея простая: будем считать, что модель "запоминает" задания и ответы на них в той же последовательности, как они идут в датасете. Давайте проверим, сможем ли мы установить статистически значимую разницу в качестве решений задачи, если будем показывать моделям набор тестов задачи в том порядке, как он идут в самом датасете, или же в перемешанном порядке.
Спойлер: да, можем.

Искусственный эксперимент, при котором небольшой модели (1.4 млрд параметров) при обучении на Википедии "подкладывают" тестовые сеты различных датасетов — один раз, десять раз и т.д. — показывает, что при 10 и более копиях теста в обучении разница в качестве решения устанавливается достаточно надежно, и можно с уверенностью сказать, что можель опирается на запоминание, а не на обобщение или другие "возникающие" интеллектуальные способности.

Авторы протестировали несколько LLM (LLaMA2-7B, Mistral-7B, Pythia-1.4B, GPT-2 XL, BioMedLM) на публичных датасетах — и некоторые из них оказались действительно скомпрометированы. Например, Arc challenge точно попал в обучение Mistral, да еще и 10+ раз!

Выводы:

🟣Мы уже можем тестировать языковые модели, в том числе доступные только по API, на "честность" решения самых разных задач, а также можем проверять, не меняется ли картина во времени.
🟣
Реальную сложность представляет обнаружение утечки теста, когда он попал в обучение всего один раз (не удается стат значимо установить разницу в качестве решений)
🟣
Нас может ждать глобальный и регулярный пересмотр подхода к тестированию моделей, так как открытые ответы регулярно выкладываются на открытые площадки и, соответственно, компрометируются. Оценка LLM должна быть привязана ко времени?
🟣
Остается проверить так все модели OpenAI?

🟣
Статья: Proving Test Set Contamination in Black Box Language Models link

2023-07-06 10:01:17

#nlp #про_nlp #ai_alignment
🌸Что такое SuperAlignment? Введение🌸

Вчера в блоге OpenAI появилась новая запись под авторством Ilya Sutskever и Jan Leike (Chief Scientist и Alignment team lead в OpenAI).

🟣Впервые вводится понятие superalignment — по сути alignment для AGI/superintelligence (к определениям просят не придираться).

Чем это отличается от уже вошедшего в обиход на словах, но мало вошедшего на практике обычного alignment?
Текущие практики упираются в проблему: все методы обучения ИИ "плохому и хорошему" основаны на существующих примерах, сформированных и подобранных людьми с целью воспроизведения суждений. Но как учить сущность, более умную, чем люди? Превосходящую интеллектуально хотя бы по некоторым параметрам.

Тезисы OpenAI:
🌸 задачу alignment хоть как-то хочется решить в течение 4 лет — это никак не "50 лет до наступления AGI"
🌸 решение должно быть автоматическим (отдельная модель), масштабируемым и подвергаемым полноценному стресс-тестированию, например, в симуляционных средах.
🌸 среди приоритетов в исследованиях: интерпретируемость таких моделей (почему принято то или иное решение?) и их способность обобщаться на разных ситуациях, анализ надежности систем, их согласованности и поиск противоречий.

🟣
Пост: https://openai.com/blog/introducing-superalignment