У нас есть хороший способ обучения для таких...
У нас есть хороший способ обучения для таких систем -- это другая тема, давно разрабатываемая Хинтоном, дистилляция. В двух словах, дистилляция это обучение “студента” воспроизводить вероятностное распределение “учителя”. Плюс дистилляции в том, что распределение содержит намного больше информации, чем метка класса -- для 1024 классов это 10 бит для метки vs. 1023 числа для распределения. Знание распределения помогает лучше генерализовать. Кроме того для дистилляции не нужно совпадения архитектур студента и учителя, не только на уровне, что элементы могут обладать разными характеристиками, а вообще архитектура может быть совсем другой. Если хотите глубже, то мы много писали про дистилляцию, ищите в канале или начинайте с https://t.me/gonzo_ML/117.
Из забавного, Хинтон считает, что посты Трампа это вообще не про факты и их истинность, а про дистилляцию его убеждений через выучивание поклонниками вероятностного распределения, несущего богатый сигнал.
Если вернуться к обучению аналогового железа, когда бэкпроп недоступен, то можно предложить простую (и неэффективную) процедуру пертурбации каждого веса, которая даст оценку градиента. Можно предложить более эффективные подходы типа пертурбации активаций. Ну и FF тоже куда-то сюда. Крутой локальный алгоритм мог бы обучать большие группы нейронов, возможно с разными свойствами и разными локальными objective functions. Проблема с этими методами в том, что мы _пока_ не научились эффективно обучать ими большие сети.
Текущие LLM на трансформерах хороши именно в классической парадигме -- имеем устройства для прецизионного исполнения команд, бесплатно делаем копию весов, можем шарить градиенты и обучать параллельно на куче машин. Это здорово увеличивает bandwidth, и у шаринга весов bandwidth выше, чем у дистилляции, даже если бы аналоговые устройства пытались брать ею.
Бэкпроп оказался очень крутым алгоритмом и Хинтон сейчас считает, что он превосходит биологические алгоритмы по своим способностям (но тут держим в голове, что его требования не вяжутся с биологическими системами и подразумевают устройства сравнительно высокой мощности).
При этом LLM получают знания через не самую эффективную форму дистилляции, то есть ещё не предел. Когда модели начнут получать знания напрямую из мира, с мультимодальностью и взаимодействием, они смогут выучиться намного лучше. Привет, супер-интеллект.
И тут уже совсем расцветает тема безопасности, которая сильно обеспокоила Хинтона в последний год. В видео из Кембриджа (ссылка будет ниже) это раскрывается намного лучше, чем в тех нескольких интервью, которые были с полгода назад (https://t.me/gonzo_ML/1504).
Плохие акторы смогут использовать супер-интеллект для своих целей. Но вообще, SI будет более эффективен, если будет ставить свои подцели и максимизация власти выглядит тут очевидным способом улучшить достижение других целей. А эту власть легко будет получить, манипулируя людьми. Будет сложно не выучить, как это делается, по всем текущим методичкам.
В общем, будущее наше непонятно. При таком развитии мы как аналоговые компьютеры наверное какое-то время ещё пригодимся, но SI наверняка сможет задизайнить что-то поэффективнее. И тогда мы -- промежуточный этап в эволюции интеллекта.
Краткое саммари темы можно посмотреть в 18-минутном обзоре в Vector Institute (https://www.youtube.com/watch?v=sghvwkXV3VU). Но лучше всего смотреть полное выступление три месяца назад в Кембридже под названием “Two Paths to Intelligence” (https://www.youtube.com/watch?v=rGgGOccMEiY), это больше часа и там самый сок.
Картинка от MJ по запросу “Mortal computers”.
Из забавного, Хинтон считает, что посты Трампа это вообще не про факты и их истинность, а про дистилляцию его убеждений через выучивание поклонниками вероятностного распределения, несущего богатый сигнал.
Если вернуться к обучению аналогового железа, когда бэкпроп недоступен, то можно предложить простую (и неэффективную) процедуру пертурбации каждого веса, которая даст оценку градиента. Можно предложить более эффективные подходы типа пертурбации активаций. Ну и FF тоже куда-то сюда. Крутой локальный алгоритм мог бы обучать большие группы нейронов, возможно с разными свойствами и разными локальными objective functions. Проблема с этими методами в том, что мы _пока_ не научились эффективно обучать ими большие сети.
Текущие LLM на трансформерах хороши именно в классической парадигме -- имеем устройства для прецизионного исполнения команд, бесплатно делаем копию весов, можем шарить градиенты и обучать параллельно на куче машин. Это здорово увеличивает bandwidth, и у шаринга весов bandwidth выше, чем у дистилляции, даже если бы аналоговые устройства пытались брать ею.
Бэкпроп оказался очень крутым алгоритмом и Хинтон сейчас считает, что он превосходит биологические алгоритмы по своим способностям (но тут держим в голове, что его требования не вяжутся с биологическими системами и подразумевают устройства сравнительно высокой мощности).
При этом LLM получают знания через не самую эффективную форму дистилляции, то есть ещё не предел. Когда модели начнут получать знания напрямую из мира, с мультимодальностью и взаимодействием, они смогут выучиться намного лучше. Привет, супер-интеллект.
И тут уже совсем расцветает тема безопасности, которая сильно обеспокоила Хинтона в последний год. В видео из Кембриджа (ссылка будет ниже) это раскрывается намного лучше, чем в тех нескольких интервью, которые были с полгода назад (https://t.me/gonzo_ML/1504).
Плохие акторы смогут использовать супер-интеллект для своих целей. Но вообще, SI будет более эффективен, если будет ставить свои подцели и максимизация власти выглядит тут очевидным способом улучшить достижение других целей. А эту власть легко будет получить, манипулируя людьми. Будет сложно не выучить, как это делается, по всем текущим методичкам.
В общем, будущее наше непонятно. При таком развитии мы как аналоговые компьютеры наверное какое-то время ещё пригодимся, но SI наверняка сможет задизайнить что-то поэффективнее. И тогда мы -- промежуточный этап в эволюции интеллекта.
Краткое саммари темы можно посмотреть в 18-минутном обзоре в Vector Institute (https://www.youtube.com/watch?v=sghvwkXV3VU). Но лучше всего смотреть полное выступление три месяца назад в Кембридже под названием “Two Paths to Intelligence” (https://www.youtube.com/watch?v=rGgGOccMEiY), это больше часа и там самый сок.
Картинка от MJ по запросу “Mortal computers”.
Источник: gonzo-обзоры ML статей
2023-09-28 22:47:51