Нейролента - подборка новостей о нейронных сетях, ChatGPT

🤯Там Андрей Карпатый уже вовсю запускает LLaMa-2 на рисоварке

Андрей вдохновился известным репозиторием llama.cpp для инференса LLM моделей на С++ и написал 500 строк кода на чистом C, которые прогоняют инференес модели LLaMa2.

llama2.c — тупо 500 строк... и без всяких внешних зависимостей. Шикарный код! Запускается хоть на чайнике, хоть на калькуляторе, если там есть CPU.

Из-за минималистичности, в коде реализована только точность fp32 и инференс на CPU с паралелизацией через OpenMP. Однако, можно гонять даже LLaMa-2 7B c адекватной скоростью.

Код llama2.c и модели

@ai_newz