Нейролента - подборка новостей о нейронных сетях, ChatGPT

Продолжаем день разбора YouTube-роликов с интервью

Продолжаем день разбора YouTube-роликов с интервью 😳 (да не прокрастинация это
🍵
)

В центре внимания — Dario Amodei, CEO и кофаундер Anthropic, основного а данный момент конкурента OpenAI н в разрезе качества моделей.

Видео: https://www.youtube.com/watch?v=1CpCdolHdeA

Прим.: "скейлинг" означает увеличение размера модели и мощностей, затрачиваемых на обучение, с ожиданием, что это приведёт к улучшению навыков нейросети.

1) Момент, на котором Amodei понял, что у модели без специальной тренировки могут появляться новые свойства, и что с дальнейшим скейлингом тенденция продолжится — это момент обучения GPT-2 (весна-лето 2019го), когда модель, например, переводила тексты с одного языка на другой (хоть не училась на эту задачу!).
"Это было началом чего-то удивительного, здесь нет ограничений, можно продолжать увеличивать модель, и нет причины, что те паттерны, что мы видим, прекратят работать дальше".
Правда, были люди (да и сейчас есть?), которые сказали: "воу, вы сделали бота, которые очень плохо переводит текст — и что?". Разные точки зрения
👀


2) В GPT-3, кстати, Dario больше всего впечатлила возможность писать код на Python. В ней он увидел зачаточные навыки моделей рассуждать. Очень примитивно, просто, но всё же.
"Если мы не сделали ничего специального для этого, а наши данные содержали 0.1-1% кода на Python, и это уже работало вот так, то можно представить, что если мы начнём фокусироваться, то результаты можно существенно улучшить".

3) На ближайшие годы есть 3 проблемы, из-за которых потенциально мы не сможем дальше скейлить модели: данные, вычислительные мощности и алгоритмические улучшения. Даже без последнего (если не будет никаких изменений) Amodei верит, что простого продолжения работы с трансформерами будет достаточно, чтобы достичь улучшений, которые сейчас мы скорее всего недооцениваем (то есть они превзойдут ожидания).

4) Обучение самых больших моделей сейчас стоит +-$100M. В следующем году Amodei ожидает моделей, обучение которых стоит порядка $1B — причём, сразу от нескольких компаний. В 2025м — "несколько миллиардов долларов" (но меньше 10).

5) Увеличение вычислительных мощностей в N раз приводит к увеличению модели лишь в корень из N раз, поэтому мистер Dario не ожидает, что применение нейросетей станет сильно дороже. А ещё по ходу разработки улучшается само железо (Nvidia же не спит), поэтому за 3 года и вычисления подешевеют.

6) О команде и найме: "Talent Density beats Talent Mass"

7) Anthropic смотрит в сторону Democratic Inputs для создания "Конституции", которой будет следовать модель. Что это такое — можно почитать в аналогичном анонсе от OpenAI.

8) Dario упомянул также работы над интерпретируемостью моделей, и что в этом сами модели могут помогать, автоматизируя часть задач. Интересный инсайд: с его слов, эти же модели, объясняя, как работают нейросети, могут наталкивать на способы улучшения или увеличения эффективности. Таких работ я ещё не видел, чтобы интерпретируемость переросла в архитектурные или процессуальные изменения обучения. Ждём работу от Anthropic!

9) Одной из самых важных фичей Dario считает ширину контекстного окна модели. Это открывает новые возможности, и стоит строить бизнесы вокруг LLM на основе такого преимущества. Возможность обработать базу знаний за секунды вместо часов ручного труда — 👍

10) Размер контекстного окна будет и дальше расти, но не станет околобесконечным, потому что вычисления для длинных последовательностей будут очень дорогими. Ждём модельки на 1М токенов (хотя вот был анонс от стартапа и про 5M...)