OpenAI

OpenAI выпустили отладчик... для трансформера (модели нейросети, лежащей в основе языковых моделей). Инструмент называется TDB, и это — логические продолжение прошлой работы из этого направления, Language models can explain neurons in language models.

TDB позволяет поставить генерацию LLM (хотя скорее SLM — мы пока только на них тренируемся, интерпретация — очень сложный топик) на паузу с мотать вперёд и назад, и анализировать, как разные слова влияют на конкретное поведение.

Его можно использовать для ответа на такие вопросы, как: «Почему в этом запросе модель выводит токен A вместо токена B?» или «Почему в этом промпте модель направляет своё внимание на символ T?» Делается это путем выявления конкретных компонентов (нейронов, голов внимания, и дополнительно обучаемых автоэнкодеров), которые способствуют поведению.

Вот на картинке в верхней части вы видите, что какие-то слова раскрашиваются в разные цвета. Бирюзовый показывает, какое слово передаёт свой смысл с большей степенью, а розовый — куда он передаётся. Но это один случай одной головы внимания, а их десятки, ещё и в разных слоях, коих тоже десятки. Так много глазами не насмотришь, правда?

И тут в игру вступает GPT-4 из цитируемой работы. Грубо говоря сначала находятся другие тексты, которые имеют схожий паттерн активации, а затем они подаются в GPT-4 для того, чтобы она текстом объяснила, какую зависимость видит. И вам показывается результат, который помогает понять, что заставляет какие-то части сети активироваться наиболее сильно.

Всё это нужно для того, чтобы развивать интерпретируемость модели и выявлять паттерны. Чуть более подробно рассказывал вот тут в лекции (даже ту же статью упоминал, на которой OpenAI пример приводят). Сейчас всё настолько плохо, что самая большая обнаруженная логическая схема в модели состоит из 26 компонент (суммарно в моделях их тысячи, а комбинаций...) и решает примитивнейшую задачу. И это — в самой маленькой GPT-2.

Источник: Сиолошная

2024-03-12 02:40:32