Нейролента - подборка новостей о нейронных сетях, ChatGPT

Bitsandbytes: Быстрый инференс в точности 4-bit. . Есть...

Bitsandbytes: Быстрый инференс в точности 4-bit

Есть такая библиотечка bitsandbytes, в которой реализованы очень быстрые CUDA-кернелы для 8-битных операций в PyTorch. Выглядит либа как обертки над обычными объектами Pytorch, что огромный плюс, ведь не нужно возиться с C++ кодом как в случае llama.cpp.

В том числе в bitsandbytes есть и оптимизаторы для обучения на 8-битах.

Снижение разрядности операций с fp32 до, например, int8 позволяет в разы сократить время обучения и инференса сетей.

А вчера, автор выложил версию 0.40.0, в которой реализовал эффективный инференс в int4. И на современных GPU мы видим x4 ускорение для операций матричного перемножения и скалярного произведения векторов по сравнению с fp16! А современные трансформеры почти полностью состоят из этого типа операций. То есть при инференсе LLM, мы и экономим драгоценную память, и увеличиваем скорость инференса моделей типа LLaMa до x4.2 раза (см. картинку)!

@ai_newz