Нейролента - подборка новостей о нейронных сетях, ChatGPT

Ничего особенного

Ничего особенного. Просто LLaMa.cpp на 7 млрд параметров работает со скоростью 40 токенов/сек на MacBook с чипом M2 Max.

Это стало возможным после недавного обновления репозитория от Герганова, где он полностью реализовал инференс моделей на Metal GPU (это специальный ускоритель на новых чипах Apple). Мы видим 0% CPU утилизации, и загрузку всех 38 Metal ядер. Поистине искусный инженер от народа!

От себя добавлю, что очень хочу увидеть будущее, где у каждого локально бегает своя персонализированная LLM-ка, помогающая в рутинных делах. Это называется модулярностью. Огромную модель тренируют централизовано, а далее каждый пользователь легко и быстро (мы к этому стремися) ее дошлифовывает на своих персональных данных и крутит только локально.

@ai_newz