Но и это ещё не всё!. Одна из...
Но и это ещё не всё!
Одна из больших задач в интерпретируемости — это определить, когда модели врут (обманывают) или галлюцинируют.
И вот оказывается, что если заранее определённые головы внимания (старые добрые retrieval heads, которые мы вот только что научились находить) смотрят на одни и те же слова — то всё ок, ответ выписан по тексту. А если они обращены к первому токену (такое обычно называется «слив», когда модели нужно куда-то да посмотреть, но она не хочет — и просто тупит в начало текста) — то значит модель не опиралась на контекст для ответа.
[16-19, 11-15 и другие числа на картинке — это как раз конкретные головы внимания, их номера, за которыми мы следим для определения типа поведения]
Эксплуатируя развитие этой техники можно либо существенно уменьшить количество галлюцинаций, либо ввести какую-то лампочку, которая загорается и говорит пользователю: «скорее всего этот ответ выдуман и является неправильным» (если мы явно хотели добиться обратного).
Одна из больших задач в интерпретируемости — это определить, когда модели врут (обманывают) или галлюцинируют.
И вот оказывается, что если заранее определённые головы внимания (старые добрые retrieval heads, которые мы вот только что научились находить) смотрят на одни и те же слова — то всё ок, ответ выписан по тексту. А если они обращены к первому токену (такое обычно называется «слив», когда модели нужно куда-то да посмотреть, но она не хочет — и просто тупит в начало текста) — то значит модель не опиралась на контекст для ответа.
[16-19, 11-15 и другие числа на картинке — это как раз конкретные головы внимания, их номера, за которыми мы следим для определения типа поведения]
Эксплуатируя развитие этой техники можно либо существенно уменьшить количество галлюцинаций, либо ввести какую-то лампочку, которая загорается и говорит пользователю: «скорее всего этот ответ выдуман и является неправильным» (если мы явно хотели добиться обратного).
Источник: Сиолошная
2024-04-25 23:04:31