Нейролента - подборка новостей о нейронных сетях, ChatGPT

Ну и вот вам еще одна новость, про...

Ну и вот вам еще одна новость, про расшифровку разговорных данных, которая сильно продвигает обучение ИИ.

Продвигает настолько сильно, что ИИ начинает демонстрировать "новые языковые способности".

Новая модель Text-to-Speech модель от Amazon, по словам создавших авторов вот такой статьи, демонстрирует языковые способности, которым она не обучалась.

Амазоновцы утверждают, что их LLM демонстрирует "самую современную естественность" при работе с разговорным текстом.

Как говорится в статье, модель смогла придумать всевозможные предложения, которые, согласно критериям, разработанным с помощью "эксперта-лингвиста", показали, что она совершает такие языковые скачки, которые естественны для людей, изучающих язык, но которые было трудно получить в ИИ.

Первоначальная модель "Big Adaptive Streamable TTS with Emergent abilities" или BASE TTS, была обучена на 100 000 часах "речевых данных, являющихся общественным достоянием", 90 процентов которых были на английском языке, чтобы научить ее тому, как разговаривают американцы.
Там внутри 1-billionparameter autoregressive Transformer that converts raw texts into discrete codes, а затем декодер на основе свертки, который преобразует эти речевые коды в аудио в потоковой манере.
Чтобы проверить, насколько большими должны быть модели, чтобы продемонстрировать "возникающие способности", или способности, которым они не обучались, команда Amazon обучила две меньшие модели, одну на 1 000 часов речевых данных, а другую на 10 000, чтобы посмотреть, какая из трех - если таковая имеется - демонстрирует тот тип естественности языка, который они искали.

Интересно, что средняя модель на "10 000 часов", набрала наибольшее количество баллов в списке критериев эмерджентных способностей, куда входили такие вещи, как способность понимать знаки препинания, неанглийские слова и эмоции.

BASE TTS никогда не было "явно" приказано придумать свои удивительные результаты.

"Эти предложения предназначены для выполнения сложных задач - разбора предложений, которые вводят читателя в заблуждение, постановки фразового ударения в длинных сложных существительных, создания эмоциональной или тихой речи, правильной фонемной передачи иностранных слов типа "qi" или пунктуации типа "@" - ни одну из которых BASE TTS не была явно не обучена выполнять".

Статья тут, авторов - 18 штук. В качестве обратной связи указана скромная компания:
Amazon AGI
https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data
Послушать записи можно тут:
https://www.amazon.science/base-tts-samples/