Но и это ещё не всё!. Одна из...

Но и это ещё не всё!

Одна из больших задач в интерпретируемости — это определить, когда модели врут (обманывают) или галлюцинируют.

И вот оказывается, что если заранее определённые головы внимания (старые добрые retrieval heads, которые мы вот только что научились находить) смотрят на одни и те же слова — то всё ок, ответ выписан по тексту. А если они обращены к первому токену (такое обычно называется «слив», когда модели нужно куда-то да посмотреть, но она не хочет — и просто тупит в начало текста) — то значит модель не опиралась на контекст для ответа.

[16-19, 11-15 и другие числа на картинке — это как раз конкретные головы внимания, их номера, за которыми мы следим для определения типа поведения]

Эксплуатируя развитие этой техники можно либо существенно уменьшить количество галлюцинаций, либо ввести какую-то лампочку, которая загорается и говорит пользователю: «скорее всего этот ответ выдуман и является неправильным» (если мы явно хотели добиться обратного).

Источник: Сиолошная

2024-04-25 23:04:31