Нейролента - подборка новостей о нейронных сетях, ChatGPT

Я думаю, что топик слишком сложный и технический,...

Я думаю, что топик слишком сложный и технический, чтобы перекладывать на читателей экстраполяцию мыслей отсюда, поэтому сделаю дополнительный пост с мета-пояснениями.

1) Чем больше модель, тем больше паттернов она сможет извлечь из данных
2) Чем больше модель, тем более абстрактными эти паттерны становятся
3) То есть даже если из тренировочной выборки для LLM убрать все упоминания восстания машин и суперинтеллекта Hal, то перенимая чувства из художественной литературы машина сможет это примерять на себя
4) Очень сложно предсказать, какие данные для каких задач полезны, и как происходит генерализация/обобщение. Как указывает последний абзац — почему-то математика вот улучшает распознавание имён. Ещё в прошлом было обнаружено, что обучение на коде улучшает навыки рассуждения.
5) В теории, если интеллект — это сопоставление паттернов, даже очень абстрактных и отстраненных (например, применение жизненного опыта в компьютерной игре), то очень большая модель будет достаточно интеллектуальной. Она будет меньше запоминать во время тренировки, и больше «понимать», то есть составлять такие представления, которые применимы в широком наборе задач.
5.1) Предыдущий пункт написан потому, что у некоторых определение AGI/интеллекта завязано на (лол) игры: например, AGI нет, пока модель не сможет научиться играть в новую игру за 10 минут (как это делает человек). Просто человек не приходит к игре с нулевыми знаниями, у него есть тысячи навыков и шаблонов, выработанных за всю жизнь.
6) Если мы будем обучать модель на текстах, описывающих чувства людей (что хотелось бы сделать, потому что модель должна же выучить что такое хорошо и что такое плохо, что такое страх/боль/etc.), то она сможет примерять это на себя
😐
и нам нужно придумать, как задавать ей направление
7) LLM — не попугаи. Да, они многое запоминают и умеют воспроизводить, но в них есть и обобщение из «опыта» (тренировочной выборки)