Как обещал, пост про интересное применение длинного контекста...
Как обещал, пост про интересное применение длинного контекста в новой Gemini Pro v1.5
Google доучили свою модельку работать с миллионом токенов (GPT-4 поддерживает 128 тысяч, Claude 2 200 тысяч), причём, мультимодальных — то есть это могут быть и раскадровки видео, и текст, и просто набор изображений. Сюда влезет вся «Война и мир», наконец-то!
Но каждый раз, когда мы говорим про длинный контекст, встаёт вопрос: а он вообще работает? И какие возможности открывает? Я не буду отвечать на второй вопрос, но постараюсь пересказать пример ответа на первый — ведь это один из самых интересных пунктов в демках Google. И связан он с переводом каламанга. Каламанг — это язык, на котором говорит менее 200 человек (не тысяч, просто человек) в западной части Новой Гвинеи, на востоке индонезийского Папуа. Каламанг почти не представлен в Интернете, и любая модель просто не будет его знать — как и профессиональный лингвист.
Однако недавно был предложен бенчмарк по оценке навыков перевода модели с помощью 573-страничной книги лингвистки Eline Visser. В своей работе «A Grammar of Kalamang» она описывает правила языка, его устройство, часто используемые фразы итд. Это уникальный артефакт, позволяющий другим лингвистам с книжкой в одной руке и табличкой «слово -> перевод» в другой за несколько часов разобраться в языке и начать хоть как-то его переводить. Без контекста (книга+словарь) модель Gemini Pro v1.5 делает переводы, сравнимые по качеству со случайным гаданием.
Идея: давайте в промпт языковой модели положим и всю книгу от корки до корки, и словарик, и затем попросим LLM перевести текст либо с каламанга на английский, либо наоборот.
Тогда качество переводов становится сравнимым с качеством перевода человека, который работал с теми же материалами (в рамках бенчмарка им отводилось до 10 часов на перевод определенных текстов). Метрики вышли даже чуть выше, чем у кожаных, что, как предполагают авторы, модель очень эффективно утилизирует контекст, используя знания из книги на полную для выполнения сложной интеллектуальной задачи.
Так как в лабораториях Google тестируется модель на 10M токенов (20-30 книг и учебников?), то можно предположить, что качество перевода для очень редких и малоизученных языков в ближайшие полгода оооооочень сильно скакнёт.
Если вам интересно, как можно сделать такой длинный контекст, то отсылаю вас к этой работе, вышедшей за пару дней до гугловской, и по сути показыающей те же самые навыки (но применительно к видео и точности поиска в контексте).
Google доучили свою модельку работать с миллионом токенов (GPT-4 поддерживает 128 тысяч, Claude 2 200 тысяч), причём, мультимодальных — то есть это могут быть и раскадровки видео, и текст, и просто набор изображений. Сюда влезет вся «Война и мир», наконец-то!
Но каждый раз, когда мы говорим про длинный контекст, встаёт вопрос: а он вообще работает? И какие возможности открывает? Я не буду отвечать на второй вопрос, но постараюсь пересказать пример ответа на первый — ведь это один из самых интересных пунктов в демках Google. И связан он с переводом каламанга. Каламанг — это язык, на котором говорит менее 200 человек (не тысяч, просто человек) в западной части Новой Гвинеи, на востоке индонезийского Папуа. Каламанг почти не представлен в Интернете, и любая модель просто не будет его знать — как и профессиональный лингвист.
Однако недавно был предложен бенчмарк по оценке навыков перевода модели с помощью 573-страничной книги лингвистки Eline Visser. В своей работе «A Grammar of Kalamang» она описывает правила языка, его устройство, часто используемые фразы итд. Это уникальный артефакт, позволяющий другим лингвистам с книжкой в одной руке и табличкой «слово -> перевод» в другой за несколько часов разобраться в языке и начать хоть как-то его переводить. Без контекста (книга+словарь) модель Gemini Pro v1.5 делает переводы, сравнимые по качеству со случайным гаданием.
Идея: давайте в промпт языковой модели положим и всю книгу от корки до корки, и словарик, и затем попросим LLM перевести текст либо с каламанга на английский, либо наоборот.
Тогда качество переводов становится сравнимым с качеством перевода человека, который работал с теми же материалами (в рамках бенчмарка им отводилось до 10 часов на перевод определенных текстов). Метрики вышли даже чуть выше, чем у кожаных, что, как предполагают авторы, модель очень эффективно утилизирует контекст, используя знания из книги на полную для выполнения сложной интеллектуальной задачи.
Так как в лабораториях Google тестируется модель на 10M токенов (20-30 книг и учебников?), то можно предположить, что качество перевода для очень редких и малоизученных языков в ближайшие полгода оооооочень сильно скакнёт.
Если вам интересно, как можно сделать такой длинный контекст, то отсылаю вас к этой работе, вышедшей за пару дней до гугловской, и по сути показыающей те же самые навыки (но применительно к видео и точности поиска в контексте).
Источник: Сиолошная
2024-02-16 17:44:04