Нейросимволическая архитектура и ускорение обучения в 700 раз
Нейросимволическая архитектура и ускорение обучения в 700 раз.
Пока весь мир сходит с ума на архитектуре Transformer, есть холодные умы, которые пытаются радикально снизить издержки на обучение в сотни раз, без специальных TPU, при этом понимать о том, почему и как черный ящик принимает решения.
Вадик Асадов прислал интереснейший проект с архетипичным названием Aдам и Ева
Это новая архитектура, которая в 700+ раз быстрее стандартных трансформеров. Коллеги научились делать N вместо N^2 по размеру данным и могут крутить все это хозяйство даже на CPU.
Отсюда два следствия.
Первое, нынешнее обучение LLM дико дорого: стоимость увеличивается квадратично с размером набора данных. Стоимость обучения за последние десять лет увеличилась в миллион раз. Даже OpenAI и другие уже сталкиваются с нехваткой оборудования ИИ. Чтобы полностью реализовать потенциал распространения ИИ, необходимо изучить альтернативные архитектуры ИИ, которые требуют значительно меньшей вычислительной мощности.
Другое законное желание - уметь понимать решения, принимаемые ИИ. Нейронные сети с их распределенным мышлением не интерпретируемые. Непонятно, почему они дают определенные ответы и как на их поведение можно влиять без переобучения всей модели.
Далее дам выжимку из описания, а почитать подробнее и записаться в вейт-лист, можете тут.
Я заинтригован.
https://adam-eva.ai/technology.html
Наши алгоритмы нейросимволического обучения основаны на принципе минимальной длины описания. Этот принцип гласит, что способность модели к точному прогнозированию возрастает с увеличением эффективности сжатия данных.
Мы используем стратегию глубокого сжатия данных, которая выполняется постепенно на нескольких слоях. Каждый слой сжимает данные в более широком временном масштабе, чем его предшественник, что отражает scale-free природу данных, наблюдаемую в естественных языках. Это сходство позволяет предположить, что наша архитектура может быть особенно эффективной для приложений ИИ на основе языка, используя структуру данных, схожую с человеческой лингвистической обработкой.
В нашей архитектуре каждый уровень независимо разрабатывает свой собственный формальный язык, выявляя повторяющиеся шаблоны в потоке входящих символов и эффективно сжимая их в более плотную последовательность часто встречающихся комбинаций, или "слов". Таким образом реализуется сжатие данных внутри слоев без потерь.
Между слоями мы применяем сжатие семантических данных с потерями, чтобы присвоить словам осмысленные интерпретации. Семантический контекст каждого слова отражается в векторах вероятности его соседей. Кластеризуя эти семантические векторы, мы определяем алфавит для последующего слоя, позволяя представить каждое слово как символ, кодирующий информацию в более длительном временном масштабе.
Каждый слой нашей модели состоит из нескольких heads, каждая из которых выступает в роли эксперта по кодированию слов из предыдущего слоя на основе определенной кластеризации. Такая multi-head система позволяет разнообразно интерпретировать данные, подобно multi-head вниманию в "Трансформерах".
Обучение модели представляет собой иерархический процесс. Она изучает ряд формальных языков, в которых слова низкого уровня абстрагируются в символы более высокого уровня. Понимание входного потока возникает в результате анализа снизу вверх всеми слоями, а формирование ответа - это процесс сверху вниз, когда каждый слой вносит свой вклад в реализацию общей стратегии.
Пока весь мир сходит с ума на архитектуре Transformer, есть холодные умы, которые пытаются радикально снизить издержки на обучение в сотни раз, без специальных TPU, при этом понимать о том, почему и как черный ящик принимает решения.
Вадик Асадов прислал интереснейший проект с архетипичным названием Aдам и Ева
Это новая архитектура, которая в 700+ раз быстрее стандартных трансформеров. Коллеги научились делать N вместо N^2 по размеру данным и могут крутить все это хозяйство даже на CPU.
Отсюда два следствия.
Первое, нынешнее обучение LLM дико дорого: стоимость увеличивается квадратично с размером набора данных. Стоимость обучения за последние десять лет увеличилась в миллион раз. Даже OpenAI и другие уже сталкиваются с нехваткой оборудования ИИ. Чтобы полностью реализовать потенциал распространения ИИ, необходимо изучить альтернативные архитектуры ИИ, которые требуют значительно меньшей вычислительной мощности.
Другое законное желание - уметь понимать решения, принимаемые ИИ. Нейронные сети с их распределенным мышлением не интерпретируемые. Непонятно, почему они дают определенные ответы и как на их поведение можно влиять без переобучения всей модели.
Далее дам выжимку из описания, а почитать подробнее и записаться в вейт-лист, можете тут.
Я заинтригован.
https://adam-eva.ai/technology.html
Наши алгоритмы нейросимволического обучения основаны на принципе минимальной длины описания. Этот принцип гласит, что способность модели к точному прогнозированию возрастает с увеличением эффективности сжатия данных.
Мы используем стратегию глубокого сжатия данных, которая выполняется постепенно на нескольких слоях. Каждый слой сжимает данные в более широком временном масштабе, чем его предшественник, что отражает scale-free природу данных, наблюдаемую в естественных языках. Это сходство позволяет предположить, что наша архитектура может быть особенно эффективной для приложений ИИ на основе языка, используя структуру данных, схожую с человеческой лингвистической обработкой.
В нашей архитектуре каждый уровень независимо разрабатывает свой собственный формальный язык, выявляя повторяющиеся шаблоны в потоке входящих символов и эффективно сжимая их в более плотную последовательность часто встречающихся комбинаций, или "слов". Таким образом реализуется сжатие данных внутри слоев без потерь.
Между слоями мы применяем сжатие семантических данных с потерями, чтобы присвоить словам осмысленные интерпретации. Семантический контекст каждого слова отражается в векторах вероятности его соседей. Кластеризуя эти семантические векторы, мы определяем алфавит для последующего слоя, позволяя представить каждое слово как символ, кодирующий информацию в более длительном временном масштабе.
Каждый слой нашей модели состоит из нескольких heads, каждая из которых выступает в роли эксперта по кодированию слов из предыдущего слоя на основе определенной кластеризации. Такая multi-head система позволяет разнообразно интерпретировать данные, подобно multi-head вниманию в "Трансформерах".
Обучение модели представляет собой иерархический процесс. Она изучает ряд формальных языков, в которых слова низкого уровня абстрагируются в символы более высокого уровня. Понимание входного потока возникает в результате анализа снизу вверх всеми слоями, а формирование ответа - это процесс сверху вниз, когда каждый слой вносит свой вклад в реализацию общей стратегии.
Источник: Метаверсище и ИИще
2024-01-20 13:09:31