Нейролента - подборка новостей о нейронных сетях, ChatGPT

Encodec - High Fidelity Neural Audio Compression

Рассмотрим подробнее, как работает один из SOTA методов по сжатию звука. Принцип похож на VQGAN для картинок.

Архитектура быстра и легка. Это автоэнкодер: в энкодере - 1D конволюции и двухслойный LSTM (для агрегации глобального контекста), декодер - зеркальное отражение. В ботлнеке происходит квантизация векторов с помощью Residual Vector Quantization - это хитрый трюк, который позволяет одному вектору ставить в соответствие серию из N токенов из разных словарей, каждый из которых кодирует невязку, получаемую после предыдущего токена.

Для ускорения обучают еще небольшой трансформер в ботлнеке, кодирующий каждый вектор в N токенов параллельно, а не последовательно.

Все тренируется end-to-end с лоссами:
- Reconstruction loss во временном домене (исходный аудио сигнал) и в частотном (FT спектрограма).
- Adversarial loss от дискриминаторов на разном разрешении.
- Лосс для квантизации.

Работает real-time на 1 ядре CPU (MB Pro 2019)

Примеры

@ai_newz