Нейролента - подборка новостей о нейронных сетях, ChatGPT

AI[ex]Time

All about AI[ex]Time

2024-03-12 02:04:27

Небольшая заметка об изменении архитектуры трансформера с 2017 года. Читая статьи про LLM, можно увидеть фразы вроде "мы используем стандартную архитектуру трансформера". Но что означает "стандартная", и есть ли изменения с момента выхода оригинальной статьи? Давайте на примере языковой модели (т.е. decoder-only) LLaMa-2 посмотрим на основные крупные архитектурные улучшения для LLM:

Post LayerNorm → Pre LayerNorm. Это делает сходимость более устойчивой. Теперь процесс идет так, что исходные эмбеддинги просто идут сквозь блоки декодера, и к ним прибавляются “корректировки” из FFN и Attention. Выглядит изящно, на мой взгляд.

Позиционное кодирование синусом → RoPE. Сам метод заключается в том, что мы вращаем эмбеддинги токенов на угол, зависящий от позиции. И это хорошо работает. Помимо этого, метод открыл целый ряд модификаций по расширению контекста до очень больших чисел.

Функция активации ReLU → SwiGLU. Gated Linear Units (семейство методов, к которому принадлежит SwiGLU. В нем добавляется операция поэлементного умножения матриц, одна из которых прошла через сигмоиду и таким образом контролирует интенсивность сигнала, проходящего из первой матрицы) немного докидывают к качеству на ряде задач.

LayerNorm → RMSNorm. RMSNorm вычислительно проще, но работает с тем же качеством.

Модификации Attention, например, использование одной K-V пары матриц сразу на группу Q матриц. Это улучшение в основном уже влияет на оптимизацию инференса. Но здесь есть и огромное число методов, направленных в сторону снижения квадратичной сложности операции, писал об этом подробнее здесь и здесь.

2023-10-02 14:47:36

Недавно пользователям стала доступна мультимодальная модель от OpenAI, которая может принимать на вход картинки - GPT-4V(ision). Захотелось потестить ее с разных сторон: как работает в плане OCR, может ли дететировать объекты, считать их, отвечать на детальные вопросы по текстовому промпту и так далее. А тут добрые люди скинули статью от Microsoft, где авторы упоролись и выкатили 150-страничную работу с детальным анализом модели: проверили на детекцию, анализ медицинских снимков, ориентацию в пространстве, мультимодальные знания, понимание доменных областей, понимание видео по серии кадров и мнооого чего еще. Можно залипнуть вечерком на пару часиков 🤯

2023-09-29 14:38:01

Вчера Meta презентовали Meta Quest 3 — VR девайс последнего поколения, который поступит в продажу с 10 октября. Сегодня утром увидел ролик о колабе Meta и Kurzgesagt — команда собирается сделать образовательную игру, в которой игроки переносятся между пятью уровнями масштаба нашего мира (молекулярный, клеточный и т.д.), взаимодействуют с формами жизни и свойствами каждого измерения. Для тех, кто не знает, Kurzgesagt — канал на ютубе, уже 10 лет выпускающий классные ролики на тему медицины, космоса, философии и много чего еще. Очень неожиданный проект, на мой взгляд, но надеюсь, игра получится интересной, задумка крутая.