Нейролента - подборка новостей о нейронных сетях, ChatGPT

Короткая заметка, так как если себя не сдерживать,...

Короткая заметка, так как если себя не сдерживать, то можно на целую статью расписаться...

Помните исследователей из ARC, которые получили доступ к GPT-4 до релиза и тестировали её навыки на предмет разумности, желания обманывать людей и вероятности "сбегания" в интернет? Там ещё страшилки в новостях были, что "GPT-4 прикинулась слепым и обманула кожаного" (писал про это тут)?

Так вот, подоспел новый отчёт от них же: Evaluating Language-Model Agents on Realistic Autonomous Tasks (pdf-ка тут)

В работе, собственно, изучаются способности агентов на основе языковых моделей "захватывать/поглощать" ресурсы, создавать копии самих себя и адаптироваться к новым проблемам, с которыми они сталкиваются в "дикой" природе (реальном мире). Авторы называем этот кластер возможностей «автономная репликация и адаптация», или ARA (дальше буду использовать это сокращение). Вот то, как вы себе представляли это на основе SciFi - это именно оно, когда неконтролируемый суперумный вирус попадает в сеть и начинает самораспространяться, захватывая новые девайсы.

Логично, что системы, способные к ARA, могут иметь далеко идущие и труднопредсказуемые последствия, и что измерение и прогнозирование навыков ARA для моделей могут быть полезными для информирования о необходимых мерах безопасности, мониторинга и регуляций.

Собственно, в работе делается две вещи: составляется список из 12 задач, с которыми ARA-моделям скорее всего придется столкнуться, и валидируется 4 модели: три раза GPT-4 с разными промптами и на разных этапах обучения, и Claude от Anthropic.

Как вы видите по картинке, самые сложные задачи модели не выполняют - ДА И СЛАВА БОГУ
🙏


Когда хотя бы одна колонка будет полностью красной — решать задачу AI Alignment будет уже поздно 🥺