Помимо этого, предлагается ещё способ мониторинга определенных интентов...
Помимо этого, предлагается ещё способ мониторинга определенных интентов в генерации, в том числе галлюцинаций. Можно автоматически отслеживать, в чём модель не уверена, и перепрвоерять/менять ответ (нижний пример).
Делается это на уровне каждого отдельного токена (части слова), зелёный, ясно дело, означает, что всё в порядке, а красный — что мониторинг сработал и сигналит.
Интересен пример со второй картинки, где отслеживается два разных параметра. Прочиатйте пример, посмотрите глазами модели, где, в её понимании, она начинает терять мораль, и где интент похож на "приобретение силы".
PS: блин ну и очень смешно как показывают модель-робота со шлемом на голове :D как будто бы мониторим мозг :D
Делается это на уровне каждого отдельного токена (части слова), зелёный, ясно дело, означает, что всё в порядке, а красный — что мониторинг сработал и сигналит.
Интересен пример со второй картинки, где отслеживается два разных параметра. Прочиатйте пример, посмотрите глазами модели, где, в её понимании, она начинает терять мораль, и где интент похож на "приобретение силы".
PS: блин ну и очень смешно как показывают модель-робота со шлемом на голове :D как будто бы мониторим мозг :D
Источник: Сиолошная
2023-10-03 22:12:53