Нейролента - подборка новостей о нейронных сетях, ChatGPT

MMS: Scaling Speech Technology to 1000+ languages. Коллеги...

MMS: Scaling Speech Technology to 1000+ languages

Коллеги из Meta AI просто на кэжуале выпустили модель, которая переводит 1100 языков из текста в аудио и из аудио в текст.

Это всего лишь новый майлстоун в спич-рекогнишене 😀.

Что по сути:
— wave2vec 2.0: многоязычная модель распознавания речи с 1млрд параметров, обученная на 1107 языках
— ошибка на 50% ниже по сравнению с Whisper.
— это единая модель для преобразования текста в речь (TTS), поддерживающая так много языков: аж 1107!
— включает в себя Классификатор языков, идентифицируюший 4017 языков.

Кроме всего прочего, для обучения собрали и использовали аудио записи, где люди читают Библию на разных языках. Потому что, кажется, нет другой книги, которая была бы переведена на столько разных языков. Очень хитро́!

Самое клёвое, что веса и код уже на гитхабе!

Из минусов такого широкого набора языков в трейне — это то, что модель чуть хуже справляется с популярными языками типа английского, немецкого и тд. по сравнению с Whisper.

Блогпост

@ai_newz