Как вы себе представляете день работяги в DeepMind?...

Как вы себе представляете день работяги в DeepMind? Вот к нему приходят начальники да, просят сделать так же хорошо, как ChatGPT, а он и команда — не могут. Ну они и идут взламывать секреты OpenAI, да?

~~Нет.~~ Да! Вот они выпустили статью «Stealing Part of a Production Language Model», где, как понятно из названия, показывается, как украсть ЧАСТЬ ВЕСОВ МОДЕЛИ, ЛЕЖАЩЕЙ В API.

Трюк работает (пока? Авторы говорят, что не видят, как его масштабировать дальше) только для извлечения матрицы весов финального слоя, формирующего вероятности для предсказания следующего слова. Есть более дешёвый и простой способ просто узнать размерность этого слоя (сколько вещественных чисел в векторе, описывающем каждый токен).

Сначала авторы упражняются с опенсурсными моделями и проверяют, что метод работает, затем атакуют старые модели OpenAI ada, babbage и babbage-002. Так как запросы к ним дешёвые, то узнать размерность получается, потратив на API всего $2. Полную матрицу весов получается извлечь за $12.

Ну и конечно же работяги идут и пробуют это в GPT-3.5. Авторы утверждают, что они
1) извлекли размерность эмбеддинга (стоило $200-$800)
2) доложили об этом OpenAI до публикации статьи
3) те подтвердили, что цифра правильная.
4) Авторы подсчитали, что за $2000-$8000 можно было бы и извлечь часть весов, но по этическим соображениям не стали этого делать.

Также предлагается несколько способов борьбы с этим, но это менее интересно.
В общем, ждём, пока кто-то воспроизведёт атаку за свои кровные и раскроет нам, какого размера эмбеддинги у GPT-4.

Тизер: YouTube

Источник: Сиолошная

2024-03-12 03:12:11