🤬 Осторожно, нецензурщина!
Сегодня некий доброжелатель слил 44 гигов исходников разных продуктов Яндекса. Архив можно нагуглить, ссылку постить тут не буду.
Особо ничего полезного, свой Яндекс на коленке из этого снепшота не соберёшь, ведь очень много чего завязано на их инфру, да и код не полный.
Из занятного, там есть часть данных, на которых тренили, например Алису. На скринах стоп слова и всякие ругательства, которые, видимо, использовали чтобы "фильтровать базар" пользователей.
А теперь, представьте, что будет если дообучить LLM на этом богатстве и сделать матную Алису 2.0 без цензуры. Еще поставить такую у себя дома, чтобы гостей развлекала 😅.
@ai_newz
Сегодня некий доброжелатель слил 44 гигов исходников разных продуктов Яндекса. Архив можно нагуглить, ссылку постить тут не буду.
Особо ничего полезного, свой Яндекс на коленке из этого снепшота не соберёшь, ведь очень много чего завязано на их инфру, да и код не полный.
Из занятного, там есть часть данных, на которых тренили, например Алису. На скринах стоп слова и всякие ругательства, которые, видимо, использовали чтобы "фильтровать базар" пользователей.
А теперь, представьте, что будет если дообучить LLM на этом богатстве и сделать матную Алису 2.0 без цензуры. Еще поставить такую у себя дома, чтобы гостей развлекала 😅.
@ai_newz
Источник: эйай ньюз
2023-01-26 13:14:23