Нейролента - подборка новостей о нейронных сетях, ChatGPT

(продолжение поста выше с TLDR'ом подкаста:

(продолжение поста выше с TLDR'ом подкаста: 🔼)
— Mark считает, что META будет продолжать выпускать модели в открытый доступ. Исключение - если они начнут натыкаться на навыки модели, с которыми не будут знать, что делать. Он ушёл от ответа на вопрос про «перевыравнивание» моделей через тренировку (когда исследователи дообучили модель как-то не отвечать и что-то не делать, а люди дообучили её в обратную сторону, и теперь она снова может что-то плохое писать, например). Пока надёжных способов это сделать я не видел, так что хз, как они будут с таким справляться.
— когда хост начал расспрашивать про риски открытых моделей уровня AGI, Zuck привёл уже избитый пример с кибербезопасностью. Мол, да, у плохих людей будет в руках AGI, но он же будет и в руках всех компаний и людей, так? Они смогут его использовать для защиты! Меня этот пример никогда не убеждал: ведь тогда получается, что одним могут вбухать в 100 раз больше мощностей на одну атаку, а «защищающаяся» система не сможет потянуть такое. И очевидно, что есть такие системы, куда многие недоброжелатели хотели бы вклиниться: банки, интерпол, etc. А если AGI должны будут запускать люди у себя дома, и такая модель будет, скажем, для них очищать интернет — кто за это будет платить? Почему политики не смогут в 100 раз больше вложить в создание качественной пропаганды, чтобы обойти такое было очень дорого (или близко к невозможному)?
— Но возможно они сами придут к тому, что побороть никак не смогут, и не будут ничего публиковать 🤷‍♀️
— на вопрос «релизните ли вы модель, обучение которой стоило $10b, если она полностью безопасна?» Mark ответил «да, пока нам это помогает». Под помощью тут подразумевается то, что это как-то облегчит работу компании. Часто Гуглы да Фейсбуки что-то выпускают, и оно становится стандартом индустрии; многие специалисты начинают изучать технологию, и по сути приходят готовыми. А ещё сообщество помогает искать баги 🙂 правда что будет с моделями, какая польза от людей вне компании - представить сложно. «Особенно если будут другие модели, такие, что наша не будет давать каких-то существенных преимуществ» 🙂
🚬

— моё мнение: я вижу очень большое противоречие. Основные приросты качества происходят из-за масштабирования моделей, и чем дальше в лес — тем меньше людей вообще сможет к ним прикасаться. Вот сейчас выйдет 405B модель, и что? На макбуке её уж точно никак не запустить (даже на будущем M4, почти уверен), дома нужен целый сервер. С ней будут работать компании, которые могут себе это позволить. У LLAMA-6 (самой большой версии) вообще круг ЦА потенциально узеньким будет. Людей, которые что-то придумают и улучшат, можно сразу нанимать будет, и всё, никакого опенсурса. И при этом многие вещи (вроде оптимизаций) можно будет переносить с условной LLAMA 4, если окажется, что в архитектуре и общем принципе не будет существенных изменений. В чем тогда смысл и ценность открытия моделей для META? Будем следить!
— (ну или индустрия вычислительных мощностей должна так круто перевернуться, что каждый на тостере реально сможет крутить модели. Молимся на великого Sama
🙏
)
—  META работает над своим железом для обучения LLMок, но даже LLAMA-4 не будет на нём тренироваться. В первую очередь сейчас заняты чипами для разгрузки GPU, чтобы можно было перекинуть все рекомендательные системы и ранжирования на узкоспециализированные чипы (вот недавно новый представили). А уж после начнут с мелких LMок, и там LLMки.