Bitsandbytes: Быстрый инференс в точности 4-bit. . Есть...
Bitsandbytes: Быстрый инференс в точности 4-bit
Есть такая библиотечка bitsandbytes, в которой реализованы очень быстрые CUDA-кернелы для 8-битных операций в PyTorch. Выглядит либа как обертки над обычными объектами Pytorch, что огромный плюс, ведь не нужно возиться с C++ кодом как в случае llama.cpp.
В том числе в bitsandbytes есть и оптимизаторы для обучения на 8-битах.
Снижение разрядности операций с fp32 до, например, int8 позволяет в разы сократить время обучения и инференса сетей.
А вчера, автор выложил версию 0.40.0, в которой реализовал эффективный инференс в int4. И на современных GPU мы видим x4 ускорение для операций матричного перемножения и скалярного произведения векторов по сравнению с fp16! А современные трансформеры почти полностью состоят из этого типа операций. То есть при инференсе LLM, мы и экономим драгоценную память, и увеличиваем скорость инференса моделей типа LLaMa до x4.2 раза (см. картинку)!
@ai_newz
Есть такая библиотечка bitsandbytes, в которой реализованы очень быстрые CUDA-кернелы для 8-битных операций в PyTorch. Выглядит либа как обертки над обычными объектами Pytorch, что огромный плюс, ведь не нужно возиться с C++ кодом как в случае llama.cpp.
В том числе в bitsandbytes есть и оптимизаторы для обучения на 8-битах.
Снижение разрядности операций с fp32 до, например, int8 позволяет в разы сократить время обучения и инференса сетей.
А вчера, автор выложил версию 0.40.0, в которой реализовал эффективный инференс в int4. И на современных GPU мы видим x4 ускорение для операций матричного перемножения и скалярного произведения векторов по сравнению с fp16! А современные трансформеры почти полностью состоят из этого типа операций. То есть при инференсе LLM, мы и экономим драгоценную память, и увеличиваем скорость инференса моделей типа LLaMa до x4.2 раза (см. картинку)!
@ai_newz
Источник: эйай ньюз
2023-07-12 14:42:23