Нейролента - подборка новостей о нейронных сетях, ChatGPT

OpenAI

OpenAI описали свою позицию в ответ на иск от NYT, всего 4 пункта

1️⃣ OpenAI уже сотрудничает с новостными организациями и создает новые возможности
С их слов, они встретились с десятками организаций с целью обсуждения дальнейшего сотрудничества, получения обратной связи и дальнейшей адаптации. Всего существует несколько целей для партнёрств:
— поддержка писателей и журналистов через предоставление своих продуктов (GPT-4 может быть хорош в вычитке)
— тренировка моделей на непубличных данных с целью добавления контекста (в том числе исторического)
— предоставление пользователям ChatGPT свежего контента, но с простановкой атрибуции (именно так работает партнёрство с Axel Springer)
Таким образом, OpenAI хотят показать, что они двумя руками за сотрудничество.

2️⃣OpenAI считают, что обучение модели на данных является добросовестным использованием (fair use)
Обучение AI-систем на общедоступных интернет-материалах является добросовестным использованием, что подтверждается давними и широко признанными прецедентами в правовом поле. Тут компания прикладывает с десяток ссылок на комментарии экспертов (в том числе отправленных в US Copyright Office), а также ссылается на законы EU, Японии, Сингапура и Израиля.
Более того OpenAI указывают на то, что ещё в прошлом году выкатили описание процесса, который позволяет любому сайту исключить себя из списка источников под их продуктами. Ясно, что из тренировочных данных статьи NYT это не удалит, однако позволит избежать проблем 1) с интернет-браузингом модели 2) в будущих выборках.

3️⃣Дословное воспроизведение — это баг, а не фича моделей
Запоминание моделью точных формулировок — это нечастое поведение в результате процесса обучения, в котором OpenAI постоянно пытаются добиться прогресса. Такое происходит особенно часто, когда определенный контент появляется в выборке более одного раза (например, если его фрагменты копируются на множестве различных общедоступных веб-сайтов — частый кейс новостей).
OpenAI отмечают, что их выборки настолько объемны, что ни один конкретный источник, пусть даже такой как NYT, не является существенным и единоличным источником знаний модели. Иными словами цель продуктов OpenAI не в копировании и пересказывании конкретных сайтов (и поэтому это fair use, см. пункт выше)

4️⃣NYT рассказывают не полную историю
OpenAI констатирует факт, что они были в постоянной коммуникации с NYT до 19го декабря, и, как им казалось, достигают некоторого прогресса в направлении партнёрства. Сам иск для них был сюрпризом, и о нём OpenAI узнали...из новостей 😀. Также компания отмечает, что демонстрируемое запоминание статей с помощью специальных промптов выглядит как намеренная манипуляция — ведь выбраны очень старые статьи, которые перепечатывались и цитировались в других изданиях множество раз. Но даже попытки воспроизвести новости обычно не добиваются успеха — по крайней мере не с первого раза. То есть нужно генерировать по 10-20 ответов, чтобы найти текст, схожий с оригиналом. А даже если получается — то, во-первых, это не полноценная замена NYT, а во-вторых уж точно не самый главный сценарий использования GPT (что опять же приводит нас к мыслям о fair use — ведь по сути GPT это существенная трансформация оригинального материала, а не его замена)

Поэтому весь пост оканчивается следующим заявлением:
— Мы считаем иск The New York Times безосновательным

Ждём развития ситуации и оценок юристов 🤭