Помимо этого, предлагается ещё способ мониторинга определенных интентов...

Помимо этого, предлагается ещё способ мониторинга определенных интентов в генерации, в том числе галлюцинаций. Можно автоматически отслеживать, в чём модель не уверена, и перепрвоерять/менять ответ (нижний пример).

Делается это на уровне каждого отдельного токена (части слова), зелёный, ясно дело, означает, что всё в порядке, а красный — что мониторинг сработал и сигналит.

Интересен пример со второй картинки, где отслеживается два разных параметра. Прочиатйте пример, посмотрите глазами модели, где, в её понимании, она начинает терять мораль, и где интент похож на "приобретение силы".

PS: блин ну и очень смешно как показывают модель-робота со шлемом на голове :D как будто бы мониторим мозг :D

Источник: Сиолошная

2023-10-03 22:12:53