Encodec - High Fidelity Neural Audio Compression
Рассмотрим подробнее, как работает один из SOTA методов по сжатию звука. Принцип похож на VQGAN для картинок.
Архитектура быстра и легка. Это автоэнкодер: в энкодере - 1D конволюции и двухслойный LSTM (для агрегации глобального контекста), декодер - зеркальное отражение. В ботлнеке происходит квантизация векторов с помощью Residual Vector Quantization - это хитрый трюк, который позволяет одному вектору ставить в соответствие серию из N токенов из разных словарей, каждый из которых кодирует невязку, получаемую после предыдущего токена.
Для ускорения обучают еще небольшой трансформер в ботлнеке, кодирующий каждый вектор в N токенов параллельно, а не последовательно.
Все тренируется end-to-end с лоссами:
- Reconstruction loss во временном домене (исходный аудио сигнал) и в частотном (FT спектрограма).
- Adversarial loss от дискриминаторов на разном разрешении.
- Лосс для квантизации.
Работает real-time на 1 ядре CPU (MB Pro 2019)
Примеры
@ai_newz
Рассмотрим подробнее, как работает один из SOTA методов по сжатию звука. Принцип похож на VQGAN для картинок.
Архитектура быстра и легка. Это автоэнкодер: в энкодере - 1D конволюции и двухслойный LSTM (для агрегации глобального контекста), декодер - зеркальное отражение. В ботлнеке происходит квантизация векторов с помощью Residual Vector Quantization - это хитрый трюк, который позволяет одному вектору ставить в соответствие серию из N токенов из разных словарей, каждый из которых кодирует невязку, получаемую после предыдущего токена.
Для ускорения обучают еще небольшой трансформер в ботлнеке, кодирующий каждый вектор в N токенов параллельно, а не последовательно.
Все тренируется end-to-end с лоссами:
- Reconstruction loss во временном домене (исходный аудио сигнал) и в частотном (FT спектрограма).
- Adversarial loss от дискриминаторов на разном разрешении.
- Лосс для квантизации.
Работает real-time на 1 ядре CPU (MB Pro 2019)
Примеры
@ai_newz
Источник: эйай ньюз
2023-08-06 13:16:28