🤯Там Андрей Карпатый уже вовсю запускает LLaMa-2 на рисоварке
Андрей вдохновился известным репозиторием llama.cpp для инференса LLM моделей на С++ и написал 500 строк кода на чистом C, которые прогоняют инференес модели LLaMa2.
llama2.c — тупо 500 строк... и без всяких внешних зависимостей. Шикарный код! Запускается хоть на чайнике, хоть на калькуляторе, если там есть CPU.
Из-за минималистичности, в коде реализована только точность fp32 и инференс на CPU с паралелизацией через OpenMP. Однако, можно гонять даже LLaMa-2 7B c адекватной скоростью.
Код llama2.c и модели
@ai_newz
Андрей вдохновился известным репозиторием llama.cpp для инференса LLM моделей на С++ и написал 500 строк кода на чистом C, которые прогоняют инференес модели LLaMa2.
llama2.c — тупо 500 строк... и без всяких внешних зависимостей. Шикарный код! Запускается хоть на чайнике, хоть на калькуляторе, если там есть CPU.
Из-за минималистичности, в коде реализована только точность fp32 и инференс на CPU с паралелизацией через OpenMP. Однако, можно гонять даже LLaMa-2 7B c адекватной скоростью.
Код llama2.c и модели
@ai_newz
Источник: эйай ньюз
2023-07-26 13:14:00