Исследователи Сбера и SberDevices нашли способ дистиллировать современные...
Исследователи Сбера и SberDevices нашли способ дистиллировать современные языковые модели (уменьшать в размерах без потери качества). Своим открытием в области искусственного интеллекта исследователи поделились на международной конференции EACL-2024, прошедшей на прекрасной Мальте.
О работе на тему исследования свойств трансформерных архитектур моделей, в которой принимали участие ученые Сбера, рассказали кандидат технических наук, руководитель научной группы FusionBrain научного партнера Сбера – Института AIRI Андрей Кузнецов и научный сотрудник группы FusionBrain Антон Разжигаев. Соавтором работы выступил управляющий директор по исследованию данных Сбербанка Денис Димитров. Они изучили процесс изменения свойств эмбеддингов (числовых представлений данных) двух типов архитектур больших языковых моделей, часто используемых в задачах обработки естественного языка. И результаты исследования теперь помогут в создании новых архитектурных решений при обучении языковых моделей и снижению вычислительных затрат.
Руководитель команды AGI NLP в R&D SberDevices Алена Феногенова и NLP ML-инженер Сбербанка Марк Баушенко представили на конференции свое исследование о генеративных подходах к исправлению орфографии. Новая методология уже по ряду характеристик опережает по качеству открытые решения (HunSpell, JamSpell) и модели OpenAI (gpt-3.5-turbo-0301, gpt-4-0314, text-davinci-003). Академическая статья доступна на сайте конференции. Исследователи в своем методе используют библиотеку SAGE, датасеты и семейство генеративных моделей, обученных для задачи исправления орфографии.
О работе на тему исследования свойств трансформерных архитектур моделей, в которой принимали участие ученые Сбера, рассказали кандидат технических наук, руководитель научной группы FusionBrain научного партнера Сбера – Института AIRI Андрей Кузнецов и научный сотрудник группы FusionBrain Антон Разжигаев. Соавтором работы выступил управляющий директор по исследованию данных Сбербанка Денис Димитров. Они изучили процесс изменения свойств эмбеддингов (числовых представлений данных) двух типов архитектур больших языковых моделей, часто используемых в задачах обработки естественного языка. И результаты исследования теперь помогут в создании новых архитектурных решений при обучении языковых моделей и снижению вычислительных затрат.
Руководитель команды AGI NLP в R&D SberDevices Алена Феногенова и NLP ML-инженер Сбербанка Марк Баушенко представили на конференции свое исследование о генеративных подходах к исправлению орфографии. Новая методология уже по ряду характеристик опережает по качеству открытые решения (HunSpell, JamSpell) и модели OpenAI (gpt-3.5-turbo-0301, gpt-4-0314, text-davinci-003). Академическая статья доступна на сайте конференции. Исследователи в своем методе используют библиотеку SAGE, датасеты и семейство генеративных моделей, обученных для задачи исправления орфографии.
Источник: Метаверсище и ИИще
2024-03-20 16:31:09