Llama2.rs

Вы хотели запустить LLaMa2 70B на своем стареньком лэптопе? Ну, вот теперь можете.

Чел переписал Карпатовскую llama2.c на Rust, оптимизировал загрузку весов в память (memmap), реализовал Grouped Query Attention и добавил квантизацию.

70B LLaMa2, которая в обычной жизни влазит только в A100, теперь бегает на лаптопе! Кхм, ну как, бегает... скорее ходит. 5 токенов в минуту.

GitHub

@ai_newz

Источник: эйай ньюз

2023-08-06 00:27:03