Нейролента - подборка новостей о нейронных сетях, ChatGPT

Borges and AI. Léon Bottou, Bernhard Schölkopf. Статья:...

Borges and AI
Léon Bottou, Bernhard Schölkopf
Статья: https://arxiv.org/abs/2310.01425
Код: https://www.penguin.co.uk/authors/181249/jorge-luis-borges

Формат выходного дня.

Работа для любителей Борхеса и AI (для меня бинго). Название работы -- аллюзия на Борхесовский рассказ о Борхесе, “Борхес и я” (“Borges and I”).

Современное понимание LLM (и шире AI) выстраивается через призму картинок, популяризируемых научной фантастикой. Ну вот это всё: обретёт ли машина сознание, восстанет ли, случится ли скрепочный апокалипсис. Но сперва стоит спросить, является ли эта картинка хорошим описанием имеющегося феномена? Авторы работы выступают за понимание LLM через призму Хорхе Луиса Борхеса и выводят отсюда новую перспективу, высвечивающую отношения между языковым моделированием и искусственным интеллектом.

Представьте бесконечную коллекцию всех возможных правдоподобных (plausible, that a human could read and at least superficially comprehend) текстов, произведённых людьми. Она может включать книги, диалоги, статьи, молитвы, веб-страницы, компьютерные программы, в любой форме и на любом языке. Теперь представьте длинную бумажную ленту с несколькими начальными словами текста. Аппарат (“Машина Борхеса”?) сканирует ленту, находит в бесконечной коллекции какое-то вхождение этого текста (рандомное, одно из), выбирает оттуда слово-продолжение, и печатает его на ленте после предшествующих слов. Далее процесс повторяется, добавляя и добавляя слова на ленту. В каждый момент последовательность напечатанных слов на ленте также может быть найдена где-то в этой бесконечной коллекции, и образует одно из правдоподобных продолжений изначального набора слов. Авторы называют это совершенной языковой моделью (perfect language model).

Такую модель легко сконвертировать в чат-бота, введя специальное ключевое слово, аналог кнопки “Send” в мессенджере, передающее ход от модели к человеку и наоборот.

Как в “Саду расходящихся тропок” (“El jardín de senderos que se bifurcan”) каждый добавленный текст ограничивает историю, персонажей, их роли и идеи, будущее, но в то же время выступает стартовой точкой для бесконечной последовательности разветвлений.

Написать такую книгу нереально, но можно её представить аналогично тому, как мы представляем число π, не пиша всех его знаков. Может ли компьютер предоставить аппроксимацию бесконечного сада всех возможных текстов аналогичным образом?

Коллекции присуща внутренняя структура. Каждый текст может быть трансформирован в другой текст множеством способов. Одна из самых простых трансформаций -- замена слова; среди более продвинутых будут изменение времени, тона текста, переименование персонажей, переписывание текста от имени другого персонажа и т.д.

Лингвист Зеллиг Харрис (https://zelligharris.org/) считал, что все предложения на английском могут быть сгенерированы из небольшого числа базовых форм применением последовательности чётко определённых трансформаций. Обучение LLM’ки может быть понято как анализ большого корпуса текста и обнаружение этих трансформаций и базовых форм. Забавно, что первая реально успешная в этой нейросеть была названа “трансформером”. Возможно, будут найдены новые методы обучения, лучше аппроксимирующие совершенную языковую модель.

Машина ограничена тем, что уже напечатано на ленте. Машина может продолжать текст заимствуя факты из обучающих данных (не обязательно истинные) и генерируя подходящие выдумки (не обязательно ложные). То, что принято называть галлюцинациями, лучше называть конфабуляциями (https://www.beren.io/2023-03-19-LLMs-confabulate-not-hallucinate/).

То есть совершенная языковая модель -- это машина, пишущая беллетристику (fiction machine) и из этого и надо исходить в попытках понять, как это на нас влияет. И истории Борхеса могут в этом помочь.

В “Вавилонской библиотеке” (The Library of Babel) содержатся все возможные книги с 410 страницами и с алфавитом в 25 символов, потенциально содержащие все созданные (и не созданные) человечеством тексты, включая и огромную массу фигни.