Сегодня вы наверняка прочитали в новостях, что New...

Сегодня вы наверняка прочитали в новостях, что New York Times (NYT) подали в суд на OpenAI (OAI). В начале уже следующего года нас ждёт много интересных обновлений по этому делу — и за этим надо следить, так как прецедент очень важный, с потенциалом повлиять на ход развития AI.

Почему? Потому что давно известен факт, что данные — новая нефть, особенно в эпоху больших языковых моделей. Хоть тема синтетических данных (таких, что сгенерировала другая модель) и горячо обсуждается, реальных успехов пока не было: максимум получалось обучить маленькую, но удаленькую модельку с уровнем навыка не выше учителя (GPT-4).

Но неужели NYT — такой важный источник, что за него стоит переживать? Например, в одном из крупнейших открытых датасетов Common Crawl NYT является самым крупным проприетарным «контрибьютором» (недобровольным): больше только у английской Википедии (примерно столько же) и реестра патентов, хранящемся на серверах Google. Звучит солидно, однако это капля в море. Но если будет прецедент — все сразу же побегут подавать в суд и требовать свой кусок пирога, и OAI, как и другие игроки рынка, либо разорятся, либо существенно урежут объем собираемых данных.

В иске утверждается, что NYT с апреля 2023го делали безуспешные запросы в OAI с целью договориться. Главной целью истца является «гарантия, что они получают справедливую оплату за использование своего контента». Интересно, что совсем недавно OAI заключили партнёрство с AxelSpringer (владеют изданиями Politico и BusinessInsider), да и анонсировали программу коллаборации по созданию и лицензированию датасетов (писал тут). Видимо, договориться не удалось — быть может, NYT требовали слишком много, а может и что-то иное.

В качество доказательств NYT прилагает порядка сотни скриншотов, где демонстрируется GPT-4, практически идеально воспроизводящая по первым предложениям новости бóльшую часть её текста — и почти никогда не идеально, нет-нет да и проскакивает замена слова на синоним, другой предлог или что-то такое. Всё же стоит помнить, что языковые модели не хранят внутри себя тексты в прямом смысле, поэтому не могут их воспроизводить один в один. Пользователи в твиттере уже опробовали те же затравки — и GPT-4 не выдаёт ответы, близкие к оригиналу. Ну а что вы хотели, вероятностная модель, раз на раз не приходится. Этого NYT тоже боятся — мол, а вдруг там будет врака, и кто-то подумает, что это мы виноваты?

Правда последний тезис они доказывают достаточно смешно: дают задачу модели написать новость про что-то «в стиле крупных изданий». Ну та, естественно, выполняет инструкцию — а те удивляются, как же так! Модель сгенерила фейковую новость от лица NYT! Невероятно 🔥

В общем, остро встаёт вопрос о fair use материалов издания. Ключевое понятие в этой теме — это transformative content. Вы можете использовать чьи-то материалы, если действительно выполянете работу, которая преобразует его в нечто новое, приносящее дополнительное value, и при этом аккуратно относитесь к источнику. По этому принципу BadComedian делает обзоры — он и не показывает сразу весь фильм, и в то же время даёт огромное количество комментариев. ChatGPT делает то же самое — она не только новости NYT пересеказывает, но может выдать и сотни миллионов уникальных сообщений для миллионов пользователей. С этой точки зрения кажется, что OAI будут в дамках.

Будем посмотреть!

Источник: Сиолошная

2023-12-28 13:38:16