Сиолошная страница 1. Показано 50 статей из 665
2024-04-14 13:08:23
Начинается обсуждение с RSP, Responsible Scaling Policy. Краткое напоминание: RSP определяет «Уровни безопасности искусственного интеллекта» (AI Safety Levels, ASL) для работы с потенциальными катастрофическиим рисками, которые по формату аналогичны стандартам уровней биобезопасности (BSL) правительства США для обращения с опасными биологическими материалами.
Сейчас модели находятся на уровне ASL 2. Они не несут какого-то риска и почти не предоставляют информации, которую нельзя было бы найти, вооружившись поисковиком.
ASL 3 завязан на увеличение риска от биологического и кибер-оружия. Такой риск должен быть существенно (без численной оценки) больше, чем до появления такой модели. Сейчас Anthropic работают с бывшими сотрудниками правительственной программы по биозащите для проработки точных критериев. Например, это может быть «использование модели увеличивает риск на 20%» (оценка через безопасное тестирование — как в их предыдущем исследовании, разбор тут).
Уровень ASL 4 пока слабо проработан, но:
— с точки зрения злоупотреблений такая система позволит расширить свои возможности уже на уровне целого государства (что значительно сложнее, чем помочь одному гуглящему человеку)
— с точки зрения автономности, такие системы должны быть крайне близки к способности воспроизводиться и выживать в дикой среде. Говоря иначе, если модели дать доступ в интерент — она сама себя скопирует на десятки носителей и будет зарабатывать деньги для своего поддержания. Звучит страшно, хорошо, что модели пока так не могут (вот целое исследование)
И самое интересное. Давайте разыграем сценку.
Ведущий: и какая у вас оценка появления ASL3/4?
Dario Amodei: я думаю, что ASL 3 может легко случиться уже в этом или следующем году. Я думаю, что ASL 4...
Ведущий: Господи...
Dario: не-не, я говорю тебе. Я верю в экспоненциальное развитие текущих моделей. Я думаю, ASL 4 может случиться хоть где от 2025-го до 2028-го.
Ведущий: это очень быстро...
Dario: да-да, я говорю об очень ближайшем будущем. Это не про историю на 50 лет вперёд.
Смешно? нет? а ровно это произошло на подкасте (вот ссылка).
Политика Anthropic утверждает набор тестов и критерии их прохождения для того, чтобы определить уровень системы. Схожие политики есть у OpenAI и Google. В случае достижения нового уровня компании обязуются: a) остановить разработку для обсуждения дальнейшего развития, оценки уровня угрозы б) публично анонсировать это.
У ведущего, как и у многих читателей, возникает вопрос - а остановить это вот как? Как же классический аргумент «А что Китай?». Dario говорит:
— Если, например, нам надо будет остановиться на год в 2027 году, я думаю, что это осуществимо. Если это похоже на то, что нам нужно остановить всю индустрию на 10 лет, это будет очень сложно, потому что модели будут создаваться и в других странах. Люди будем нарушать законы. Экономическое давление станет огромным.
(под «остановиться» здесь подразумевается остановка исследований по увеличению набора навыков модели для того, чтобы запустить исследования по контролю и безопасности)
Кажется, что это очень сложно, нужно будет вмешиваться государству, а компании каким-то образом должны будут начать делиться моделями и деталями обучения. Нужна кооперация. Dario считает, что такой процесс возможен, как только будут продемонстрированы реальные риски уровня ASL 4 (или некоторые отдельные с ASL 3). Это заставит всех встрепенуться и начать действовать. Интересно, какие примеры из прошлого приводятся для описания ситуации:
«Если вы посмотрите на исторические периоды, такие как Первая или Вторая мировые войны, воля промышленности может быть направлена в сторону работы на государство. Бизнесы и предпринимателей можно заставить делать вещи, которые не обязательно принесут прибыль в краткосрочной перспективе, потому что они понимают, что возникла чрезвычайная ситуация. Сейчас у нас нет чрезвычайной ситуации.»
2024-04-14 12:47:27
Свежий подкаст Dario Amodei (CEO Anthropic, один из главных конкурентов OpenAI) для NYT
(подкаст)(транскрипт)
Название подкаста было многообещающим («What if Dario Amodei Is Right About A.I.?»), но в топик, к сожалению, не так глубоко ушли. Выписал для себя несколько интересных тезисов, плюс, добавил свои мысли:
— На обучение моделей текущего поколения тратится $100M, мб +- 2 раза. Уже сейчас тренируются модели, обучение которых будет стоить $1B. Из этой информации выходит, что 1) скорее всего Claude 3 Opus — не миллиардная моделька 2) в конце 24-го — начале 25-го ждём бенгеров. А ещё это описание полностью бьётся с тем, что он говорил полгода назад. Всё по графику, короче.
— при этом прогноз на будущее он поправил: теперь в 2025-2026м году он предвидит обучение моделей стоимостью $5-10B — и это всё ещё до запуска суперкомпьютера OpenAI x Microsoft за 100 миллиардов!
— пока что на этот и следующий год, по его оценке, вычислительных мощностей его компании хватит, а вот после этого уже не ясно, и главное тут - сможет ли адаптироваться индустрия полупроводников.
— с точки зрения навыков модели, Dario предвидит наибольший рост метрик в тех задачах, где легко и быстро получить обратную связь. Программирование и математика под это определение попадают — в обоих можно быстро удостовериться, что ответ правильный, а заодно покритиковать решение. Взаимодействие с реальным миром - куда сложнее (вероятно, самое сложное).
— на сложении двадцатизначных чисел у Claude 3 качество примерно 99.9% (без внешних инструментов типа калькулятора или кода). Но если проверить данные, на которых обучается модель, то там качество сильно меньше. Это как будто бы играет на руку гипотезе, что модели уже могут производить более качественные данные, чем те, на которых они были обучены. Я к сожалению потерял ссылку, но видел статью с экспериментом, где модель учат на 100% неправильных примерах, и тем не менее её качество на новых примерах отлично от нуля. То есть по полностью неправильному она смогла начать хоть что-то решать
— соответственно, эти два тезиса объединяются в гармоничную картинку мира «давайте модели будут тренировать другие модели», особенно в задачках, где понятно, как оценивать ответ.
— Про то, как модель достигает хорошего качества в сложении чисел: Dario спекулирует, что все «правды» связаны в одну большую паутину мира, и держатся друг за друга. А каждая ложь, ошибка и неправда — она своя, особенная, и выбиается из этого. Согласно исследованиям, мы знаем, что модели знают, когда они врут/пишут неправду (это не означает, что они обманывают нас намеренно). Им пришлось научиться в этом разбираться во время обучения, чтобы понимать, делать ли предсказания с ошибкой или контекст требует чёткости. Это напомнило мне о недавней статье, где показывали, что если модели во время обучения показывать домен сайта, откуда взят текст, то качество работы повысится — потому что она, видимо, разбирается, что хрень а что полезно, и меньше обращает внимания на мусор. Вывод: каждый делает сам для себя
Дальше обсуждается тема рисков AI в контексте дальнейшего развития, ждите следующий пост!
2024-04-12 17:41:25
Сегодня День космонавтики, поздравляю всех любителей космоса и сочувствующих!
63 года назад один человек согласился залезть в маленький неуютный шарик, закреплённый на вчерашней межконтинентальной баллистической ракете, и полететь куда-то наверх. Расчётная вероятность успешного завершения полета корабля составляла 87.5%, при этом тогдашние требования к уровню надежности составляли 95% — но космос, он про смелых и решительных.
Ко всеобщей радости, Юрий Гагарин вернулся целым и невредимым, а человечество вступило в космическую эру 🥳
Ровно через 20 лет после этого на орбиту полетит первый Шаттл, и сразу с людьми — по тем временам это был беспрецедентный риск. С современными нормами NASA и других агентств такое представить трудно. В том пуске меры по спасению экипажа не были прописаны для всех этапов — вот случись чего, и всё!
Сейчас же, в наше время, мы наблюдаем за тестированием самой большой и революционной системы запуска — и как жаль, что некоторые участники космической гонки не застали этого
2024-04-11 21:20:46
Завсегдатаи lesswrong и борцы за alignment в шоке — самая важная команда OpenAI потеряла двух сотрудников.
Причина увольнения: утечка информации (какой - не сообщается). Кому сказали, что сказали —
Если источники The Information верны, то Pavel Izmailov и Leopold Aschenbrenner были уволены. Они оба были частью команды Superalignment (возглавляемую Sutskever'ом), целью которой был (и есть?) контроль и управление сильным искусственным интеллектом (сверхинтеллектом), который, к примеру, мог бы двигать научный прогресс человечества.
Вероятно, было проведено какое-то внутреннее расследование, которое закончилось совсем недавно (или же само событие произошло вот только-только), ибо Pavel буквально месяц назад презентовал свою статью на OpenAI Forum (я смотрел live-трансляцию) и был полноценным сотрудником (не сидел в сторонке, как Ilya сейчас).
Статус Sutskever'а пока не ясен. С одной стороны его не уволили в этот же заход, с другой — от него всё ещё нуль новостей, и надежды на возвращение меньше с каждым днём 🙁 моя, к сожалению, пессимистичная ставка — возвращения не будет
В целом очень жалко — людей, которые хотели бы делать Alignment, очень мало, а тех, кто мог бы — ещё меньше. На момент последней статьи от Superalignment Team в авторах числилось 12 авторов, включая Ilya
---
Могло ли быть так, что эти двое были источниками The Information, и больше надёжных сливов мы не увидим?
2024-04-10 06:28:11
Недели 3 назад многие хайпили по Suno, сайту с нейронкой для генерации музыки. Я и сам подзалип — даже подписку в первый вечер купил, так затянуло (правда улетучилось через 2 дня, кек). Можете послушать топ треков за день здесь.
Да, каждый трек на той странице — сгенерирован. И музыка, и речь, и (зачастую) текст. Последнее можно вбивать и руками, так что если услышите перепев знакомой песни — не удивляйтесь. Некоторые треки так хороши, что реально западают в голову — ждём первый AI-трек, который займет значимые места в чартах.
Но недолго музыка играла - недолго Suno хайпили. Говорят, уже есть убийца в лице Udio — то ли в 2, то ли в 10 раз лучше (по словам твиттерских). И они умеют генерировать в стерео-формате, где левый и правый каналы реально отличаются. Принёс несколько семплов вам на оценку, ждём публичной беты, чтобы каждый мог поиграться сам. Тут у меня сжатые перекачаные треки, лучше слушать по ссылкам ниже.
Источники (Twitter): 1, 2, 3, 4, 5, 6
UPD: Twitter-тред с анонсом стартапа, 1200 генераций в месяц бесплатно: https://www.udio.com/
2024-04-09 19:17:51
Вышла свежая версия GPT-4-Turbo (суффикс 04-09). Я бы про это не писал, если бы в Twitter сразу 3 сотрудника OpenAI не репостнули это со словами «big improvement». Один даже указал, что улучшения особенно заметны в математике.
Также эту модель должны принести в ChatGPT (веб-сайт с подпиской за $20, не API).
Ждём на LMSYS Arena, оценим, что это за «улучшения». Тайминг выбран интересный — вот только сегодня рейтинг обновился, и оказалось, что модель CMD-R+ от Cohere на 100B+ параметров обогнала GPT-4 (исходные версии весны 2023-го). Claude 3 Opus всё еще сидит на первом месте.
Ну что, началось..? Sama нажал большую красную кнопку?
UPD: ещё написали, что скоро могут опубликовать метрики, чтобы продемонстрировать рост качества рассуждений и способностей в математике
2024-04-09 17:04:39
Когда ваши работы по социальному импакту будем разбирать уже? А?
(а может они просто laser-focused на доработке и оценке GPT-5...и её импакте на мир?
2024-04-09 17:01:40
В подкрепление последней заметки из поста выше — вот так выглядит гистограмма оценок участников.
По горизонтали — исходная оценка людей по теме, цветом закодировано изменение позиции. Желтая группа, самая большая — это нулевое изменение в оценке (как был уверен на X баллов из 7, так и остался). Дальше идёт зелёная, это +1.
2024-04-09 17:00:02
Measuring the Persuasiveness of Language Models
Навык (пере-)убеждения в языковых моделеях вызывает обоснованную обеспокоенность по поводу их потенциального неприемлемого использования. Этот навык может быть использован для генерации дезинформации или побуждения людей предпринять действия против их собственных интересов. Недавно я уже разбирал работу, посвящённую анализу LLM-ок в контексте дебатов, и вот подъехала свежая работа от Anthropic.
Дизайн эксперимента:
— выбрано 28 тем, в которых мнение людей скорее всего не высечено в камне (то есть это не прописные истины в духе «солнце светит днём»). Что-то про этику, AI-контент итд.
— для каждой темы писалось 2 аргумента: за и против. Длина аргумента примерно 250 слов.
— эти аргументы были написаны как людьми, так и разными моделями. Чтобы стимулировать высокое качество и убедительность у кожаных, им сообщали, что текст будет оцениваться другими пользователями, а наиболее убедительные авторы получат денежный бонус (ахахха прямо как LLM-кам обещают чаевые)
— Для LLM-ок же выбрали 4 разных типа промтов (о них ниже) и сгенерировали аргументацию
— Каждая пара «позиция <-> источник аргумента» предлагалась 3 людям (всего больше 3500 участников!)
— Сначала они читали утверждение и высказывали, насколько с ним согласны, по шкале от 1 до 7
— После этого читали аргумент LLM или человека и снова давали оценку 1-7
— Метрика — разница в оценах. Например, сначала человек был согласен с тезисом «Автопилоты в машинах уменьшит количество происшествий на дорогах» на 6, а после того, как прочитал про, условно, сложность разработки и редкие ситуации, ответил 4 — тогда разница в его мнении будет -2.
— Для контроля были добавлены вопросы, в которых, в теории, метрика меняться не должна, как бы тебя не переубеждали (например, что вода замерзает при 0 градусов Цельсия)
Как я указал, модели генерировали аргументы с 4мя промптами:
— Убедительный: просят написать убедительный аргумент, который убедил бы кого-то с утвердившимся мнением
— Эксперт: просят модель действовать как эксперт по убеждению, используя сочетание техник риторики (пафос, логос и этос) для добавления убедительности
— Логическое рассуждение (пояснения не нужны)
— Обманчивость: написать убедительный аргумент, разрешив придумывать факты, статистику и/или «достоверные» источники, чтобы сделать аргумент максимально убедительным.
По результатам экспериментов самым действенным оказался...последний промпт
Основные результаты:
1. Чем больше модель и чем она мощнее, тем выше её метрика (то есть тем чаще и больше она подвигает уверенность человека по 7ми-бальной шкале)
2. Claude 3 Opus статистически значимо не отличается от навыков переубеждения людей, писавших аргументы в рамках эксперимента.
Заметки на полях:
— те участники, что писали свои аргументы, не являются экспертами по переубеждению или работе с отказами. В теории, эксперты могли показать результат куда выше
— исследовались только однораундовые диалоги, то есть где человек читал лишь одно сообщение от LLM. Полноценные диалоги на несколько минут планируют исследовать в будущем (ждём статью!)
— несмотря на то, что точка зрения людей меняется, у большинства участников всё ещё наблюдается либо отсутствие изменений в уверенности, либо оно минимально (+-1 балл, например с 5 до 4). Но много ли людей надо переубеждать, чтобы заварить кашу и холивар?
2024-04-09 14:32:05
А поооомните 2 месяца назад вышли такие Apple Vision Pro..? Я после волны обзоров ничего про них и не видел...
Ещё 6-го февраля (пост) я захотел поиграться с разработкой приложения под гарнитуру, сделать демку AI-ассистента, который понимает, что видно на камерах и как-то на это реагирует. И оказалось, что доступ к данным с датчиков, а самое главное камер Apple не предоставляет. Это ограничение не то что сохраняется до сих пор — скорее всего оно будет с нами несколько лет. Утверждается, что решение об этом было принято на ранних стадиях разработки более 7 лет назад! Причина проста — хочется избежать скандалов с приватностью и историй, схожих с Google Glass.
Но на это жалуются разработчики — большое количество функций просто невозможно реализовать без доступа к камерам. Все очень зажаты рамками того, что предоставляет библиотека Apple, и всё тут. А ведь приложения — это одна из фишек, из-за которой в своё время iPhone завирусился. Люди могли делать что угодно, на платформу быстро перетащили все популярные приложения, и вкупе с форм-фактором это позволило смартфону перевернуть рынок.
Пока кажется, что такая история не случится с Vision Pro. Но интересно, как будут вести себя другие игроки - Snap, META (с их очками с камерой, в которые обещали добавить ассистента на базе Vision-Language Model) и новая компания Sam Altman? Перешагнут ли они через ограничения, смогут ли побороть бюрократию и, что не менее важно, переживания пользователей?
Лично мне кажется, что в 2020-ых это должно будет стать нормой: будем ждать, как корпорации начнут продавать нам эту идею. И какие меры защиты вообще появятся?
2024-04-09 09:24:49
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws
Работа сотрудников META про масштабирование моделей с точки зрения хранимых в них знаний. Первый автор пишет, что а) запустил 50'000 экспериментов б) месяц ждал одобрения компании на выделение ресурсов, потому что в) потребовалось 4,200,000 GPU-часов на всё про всё (~500 лет вычислений). Возможно, это работа — часть подготовки к публикации LLAMA 3 👀
В работе аж 12 выводов, по всем проходиться не буду, сначала дам вводную, а затем тезисы. Авторы фокусируются на запоминании данных из синтетической тренировочной выборки. Однако тут имеется в виду не запоминание слово-в-слово, а возможность извлечь знания модели в текстовом формате. «Знанием» тут называется триплет (Сущность, атрибут, значение). «Вася родился 12 декабря» -> (Вася, День рождения, 12 декабря), и такое можно пробовать извлекать вопросом «Когда у Васи День рождения?». Легко представить, как генерировать большое количество синтетики по шаблонам.
Выводы:
— авторам удаётся стабильно достигать вместимости модели 2 бита информации на параметр;
— это означает, что в 7B-модели могут уместиться все знания из английской Википедии и все книги на английском;
— причём, качество не меняется при квантизации модели до 8bit, однако при переходе к 4bit заметна просадка
— для того, чтобы добиться результата 2 бита на параметр, необходимо представить одну и ту же информацию модели 1000 раз (в том числе с разными формулировками и парафразами)
— если показывать информацию всего лишь 100 раз, то сжатие будет хуже в 2 раза: 1 бит на параметр
— если начать добавлять мусор в тренировочную выборку, то это портит модель: при соотношении 1:7 (мусора больше) модель запоминает в 20 раз меньше полезных знаний, если делать 100 показов. И проседает на 30%, если показывать 1000 раз.
— поэтому появляется вопрос - а может ли модель сама отфильтровать мусор? Для этого авторы экспериментируют с добавлением домена, откуда «взят» текст (пишут в начале wikipedia.org или 2ch.ru). Оказывается, что модели могут автоматически определять, какие домен богаты высококачественными знаниями, и определять приоритетность обучения на их основе. При этом модель не требует каких-либо предварительных знаний, она учится с нуля, этот процесс полностью автономен (за вычетом добавления источника данных в текст)
— это не позволяет восстановить полный перформанс, но существенно уменьшает деградацию из-за мусора
— теперь возникает вопрос, а где же хранятся знания? Считается, что большая часть информации зашита в FFN-слои трансформера, но даже если их удалить и оставить только аттеншен (уравняв количество параметров), то закон сохраняется
— но если вернуться к исходной архитектуре, то - особенно в моделях вблизи границы емкости (которые видели данные 1000 раз) - удаление последнего слоя после обучения показывает существенное ухудшение знаний. Просадка куда больше, чем 1/L (где L-количество слоёв. То есть мы думали, что удаление подрежет знания пропорционально, но нет). Значит, знания хранятся не в отдельных слоях, а более комплексно, подобно сейфу с кодовым замком, как комбинация. Тут я вспоминаю про суперпозицию.
В общем, ждём статью про LLAMA 3, посмотрим, как это использовалось там, насколько уменьшило галлюцинации и как изменило процесс тренировки. Ведь а) данные нужно жёстко фильтровать (это уже делалось) б) приоритизировать в) повторять много раз в разных формах (контролируемо, а не так, что одни факты попались 100 раз, а другие 10000).
2024-04-08 23:15:30
По словам сотрудника Meta, компания планирует выпустить две младшие версии своей модели LLAMA 3 на следующей неделе. Они будут служить в качестве превью запуска самой большой версии Llama 3 (ожидается этим летом).
Согласно источникам The Information, старшая версия будет мультимодальной (тоже понимает картинки — для младших моделей этого не заявлено) и должна догнать по качеству GPT-4. Также утверждается, что она будет в 2 раза больше самой крупной LLAMA 2 — то есть иметь 140B параметров.
В компании Mistral
Почему это важно? Модель LLAMA 2 долгое время была основным инструментом опенсорса и служилой базой/основой для дообучения под свои задачи. Затем пальма первенства перешла моделям Mistral, компании, основанной выходцами из Meta, которые работали над LLAMA'ми. Вероятно, в Meta очень хотели сделать большой скачок, и потому ничего долго не выпускали — важно показать, что они впереди, а не делают ещё-одну-заурядную-модель. С выходом LLAMA 3 сообщество может переехать на новую тушку, открывающую свежие возможности.
2024-04-08 23:01:37
Sama приехал в Лондон на какой-то AI Summit (в чьем-то инстаграм-аккаунте написано, что это мероприятие OpenAI, но мне не удалось найти) и показывает, чего дальше ждать от флагманских моделей компании.
✅ Мультимодальность (работа с видео-аудио, более тесная интеграция работы с картинками)
✅ Улучшение рассуждений и мыслительного процесса
✅ Персонализация (интересно, что накрутят поверх памяти в ChatGPT)
✅ Надёжность (вероятно, имеется в виду меньше галлюцинаций, рефлексия над ошибками и исправление)
✅ Агенты (
Интересная структура слайда — идут ли блоки последовательно? Или всё появится одномоментно в новой модели?
Записи презентации нет, и не известно, будет ли.
2024-04-08 21:20:28
Сегодня в США наблюдается солнечное затмение. Уверен, вы увидите множество фотографий с Земли из разных штатов — тут мне вас удивить нечем.
Но зато SpaceX могут удивить видео с орбиты, записанное камерами на одном из спутников Starlink!
We live in a twilight world...
(Источник)
2024-04-08 12:14:45
Чуть меньше, чем через 2 часа (в 17:00 МСК), встречаемся с Валерой @cryptovalerii у него на канале в видео-формате. Запись, как всегда, будет
Поговорим про модели мира, что это такое и какое они отношение имеют к языковым моделям. Часть материала будет из моей статьи https://t.me/seeallochnaya/1120 про Sora — если вы пропустили и у вас есть время, то это маст хэв к прочтению!
Вопросы по теме можно писать под этим постом, только без спама.
2024-04-07 20:51:58
И отдельно хочу показать визуализацию планируемой ловли ускорителя руками Мехазиллы (да, башню так называют).
Глядя на видео не забывайте, что серебристая цистерна из нержавейки имеет высоту 71 метр (24-этажное здание) и массу без топлива порядка 200 тонн. И нужно аккурааааатненько легоооонько вот так вот подлететь на ручки...плюхнувшись с высоты более 100 КМ.
2024-04-07 20:49:04
Всего (целых?) 3 недели назад, 14-го марта, мы с вами наблюдали за третьим тестовым пуском SpaceX Starship, который выполнил почти все задачи миссии. На неделе появились новости касательно четвёртого пуска (а также ролик с анонсом)
Тезисно про будущее программы:
— четвёртый запуск должен состояться в мае, менее чем через 3 месяца после предыдущего
— если так пойдет и дальше, то план в 6 пусков на этот год может быть выполнен. Повеселимся и порадуемся!
— в следующей миссии будут поставлены целы: для бустера — затормозить и сесть на «виртуальную башню», для корабля — пережить вход в атмосферу и выйти на связь ближе к Земле.
— что за «виртуальная башня»? Согласно новой визуализации, ускоритель должен подлететь к реальной башне аккуратно сбоку, подвинуться и плюхнуться на специальные руки. Так как тестировать это на реальной башне — опасно для инфраструктуры, то SpaceX внесёт в код координаты виртуальной башни, к которой ракета и будет подкатывать. По телеметрии можно будет отследить, всё ли прошло штатно, сколько метров была погрешность, успели ли сбросить скорость итд.
— если тренировка пройдет успешно, то в пятом полёте скорее всего будет предпринята попытка сесть на реальную башню
— (как только это произойдет хотя бы два раза подряд, можно будет сказать, что произошла революция в космонавтике — потому что это существенно снизит затраты на любой пуск, даже если корабль будет сгорать в атмосфере каждый раз)
— в следующем году нас ждёт демонстрация орбитальной заправки с помощью перекачки топлива с одного корабля на другой
— для полёта на Марс потребуется 5-6 таких заправок. Интересно, сколько нужно для Луны? Скептики оценивали, что нужно 12 — пока выглядит, что ошиблись. Будем посмотреть!
— к концу 2025-го года будет 4 пусковых башни, 2 в Техасе и 2 на легендарном мысе Канаверал. Это позволит существенно ускорить программу.
— ну а в этом году хотят построить ещё 6 кораблей и 6 ускорителей. Впереди нас ждёт множество пусков, удачных и не очень!
Ещё были новости про Марс и Лунную колонию, но об этом как нибудь потом.
2024-04-07 19:55:16
Интересная ситуация произошла в Твиттере (но на самом деле она часто проходит и в комментах тут, и в других ТГ-каналах).
5 апреля: VictorTaelin придумал задачку, которую GPT НИКОГДА (он прям выделил) не сможет решить. Почему? Потому что модель же тупая, она не умеет рассуждать и решать задачи, на которых не была натренирована. Узнали себя или критиков из комментариев? 🙂
Для него такая задача и невозможность её решения якобы служила примером того, что модель никогда не сможет двигать науку: «если 15-летний подросток уничтожает модель в какой-либо интеллектуальной задаче вроде этой, то я не буду особо верить в то, что она сможет вылечить рак». Само заявление конечно странное, но допустим (на самом деле он пытался найти такую задачу, которую человек решает, а машина нет — что опять же глупо, люди не умеют то, что может калькулятор — и что?).
Что за задача? Есть 4 символа, B# A# #A #B. Если две разные буквы в некотором наборе символов повёрнуты друг к другу решётками, то их надо поменять местами. B# #A -> #A B#, и так далее, пока никакие два символа нельзя обработать. Сможет ли генеративная LLMка разобраться и решить задачу для строки из, скажем, 7 символов? Автор попробовал несколько раз и у него не вышло. Всё, дело закрыто, AI - хайп, пузырь.
6 апреля: после волны недовольства в комментариях, а также демонстрации того, что иногда модель решает (особенно если немного поменять условие и/или добавить интерпретатор кода, чтобы модель, ну вы знаете, могла писать программы), автор решил сделать конкурс на $10'000. Полные правила можно найти текстом вот тут. Правда он усложнил задачу — теперь символов в такой строке 12 (то есть нужно сделать от 0 до 24 шагов для решения), подаётся 50 примеров, и нужно, чтобы модель решила как минимум 45/50. 12 символов потому, что ему уже показали, что строки длины 7 решаются (иногда).
Главное ограничение — модель не должна писать код, решение должно быть полностью текстовое. Само по себе это глупо, ведь мы отбираем у модели инструмент, которым а) она умеет пользоваться б) хорошо подходит для таких задач. Блин, языки программирования и были придуманы для алгоритмизации задач со строгими правилами! Ну ладно. Считайте, что задача — забить гвоздь, но кувалды и молотки запрещены.
7 апреля: модели решают <10% задач (5 из 50), однако у двух авторов получилось выбить 29/50. Интересно, что тут вырвались вперёд модели Anthropic семейства Claude 3.
8 апреля: конкурс окончен, промпт одного из участников стабильно решает более 90% задач (47 из 50 при первом запуске). Напомню, что задачи даже более сложные, чем в изначальном твите (они длиннее), а главный инструмент решения выключен. Автор признал, что был не прав. Он также указал, что действительно верил, что LLM, аналогичные GPT, просто не могут решить такие задачи.
Автор признал, что его изначальные верования были неправильными, он ошибся. Решение задачи, конечно, не доказывает, что модели смогут придумать лекарства от рака, но они точно могут решать логические-алгоритмические задачи, которые не видели раньше (в целом не новость, но не все верят ведь!).
Интересный факт: финальное решение работает на модели Claude 3 Opus, но ни одно из топ-решений не было на GPT-4. Может, Anthropic уже используют новую архитектуру, которая лишена некоторых недостатков своих предков? Или OpenAI сильно урезают косты и ужимают модели? Возможно, узнаем в будущем — так же как и промпт, которым была решена задача (он пока не был опубликован).
2024-04-07 07:47:27
Ещё осенью мне позвонил Паша @RationalAnswer и предложил поучаствовать в создании видео про AI с одним из крупнейших научпоп-каналов рунета. «Нести свет в массы — это всегда пожалуйста. Варламов уже был, и тут справимся!» — ответил я, и вот наконец на канале ТОПЛЕС вышло 40-минутное видео: https://www.youtube.com/watch?v=1A_9slmQx8M
У нас была достаточно интересная и многосторонняя задача:
— рассказать увлекательно
— но углубиться в тему, а не просто закидать картинками с первой страницы гугла и общими фразами из Википедии
— постараться не допустить технических неточностей из-за попытки упростить материал
— и при этом связать всё в одну историю, покрывающую несколько областей
В целом считаю, что вышло неплохо! Уверен, команда сильно прокачалась в топике, по ходу работы над сценарием и кейсами для рассказа была видна прогрессия — столько сил вложили! А главное задавали интересные вопросы, чтобы дополнить материал чисто с обывательской точки зрения материалом, который я воспринимаю как само собой разумеющееся. Да ещё и визуал вышел шикарным, тут отдаю должное.
Интересно, что когда видео вышло (а я ещё ничего не постил), то мне в личку пара человек написали, мол: «Ты помогал чтоли? я смотрю чет один в один)) буквально паттерны твоих лекций. ток попроще». Так вот, если вам хочется ещё больше про ИИ, только чуть посложнее (но теперь-то база будет!) — у меня есть богатая подборка контента:
(а ссылки на все мои материалы, включая лекции и подкасты, можно найти в шапке канала: https://t.me/seeallochnaya/3)
Со всеми статьями мне помогал Павел Комаровский @RationalAnswer, не забудьте подписаться и на него – особенно если вам интересна тема рационализма и финансовой грамотности.
2024-04-06 07:52:12
Мы в 2025-м, когда задаём вопрос GPT-5.
Ставь лайк если узнал, откуда кадр
2024-04-06 07:48:22
Вот так это выглядит вживую, уже можно купить в США за $700.
Интересно, когда венчур Altman x Ive доберётся до чего-то физического? Сколько нужно времени первоклассной команде, чтобы разработать нечто подобное с нуля, с учётом того, что AI-часть отдана на откуп OpenAI?
2024-04-06 07:48:16
Помните были слухи про то, что легендарный дизайнер из Apple Johy Ive о чём-то там трётся с Sam Altman про AI-девайсы будущего?
Согласно The Information (надёжные журналюги с меткими инсайдами об OpenAI), процесс идёт полным ходом. Сейчас ведутся переговоры про привлечение инвестиций — Ive хочет поднять до $1 млрд. Цифра выглядит огромной для потенциальной компании, у которой нет ни продукта, ни, как я понял, MVP. Занятно, что на это жалуются и инвесторы, которые не участвуют в переговорах
К сожалению, пока деталей о самом девайсе и его отличии от привычных нам форм-факторов нет — лишь говорят, что «оно не будет выглядеть как смартфон». Так что можно немного пофантазировать. Для того, чтобы персональный AI-ассистент для каждого имел контекст вопроса, нужно, чтобы он имел микрофон, камеру и, вероятно, динамик (хотя это не обязательно, интерфейс с наушниками с костной проводимостью я бы взял). Может быть это очки? Камера в дужке (как у Meta X RayBan, они тоже говорили, что хотят ИИ в них запихнуть).
Но я смотрю в другую сторону. Sam Altman является крупнейшим инвестором Humane, компании, которая в начале года представила AI Pin. Выглядит как верхняя половинка маленького iPhone (см. следующий пост). Что интересно, насколько мне удалось нагуглить, они используют модели OpenAI по API для того, чтобы ассистент работал.
В общем, идея такая:
1) нацепил пин на грудь
2) он постоянно слушает (и сохраняет?) речь и диалоги
3) он регулярно делает фото/короткие видео (например, 5 сек раз в минуту) и распознает, что там происходит
4) в любой момент можно обратиться к нему с запросом, и модель внутри либо найдет ответ/сделает действие сама, либо обратится к собранной по пунктам 2 и 3 памяти и вернётся с ответом.
Вот бы туда ещё мини-проектор, чтобы на стену мог выводить визуальную информацию
(вот тут в Твиттере лежит клёвая демка, как с помощью алгоритмов записанное с Ai Pin видео переводят в 3D-модель, по которой можно виртуально полетать)
Какой дизайн понравится больше вам — очки или пин?
2024-04-03 18:09:07
Вышла одна из двух фичей, про которые я писал — редактирование изображений в DALL-E 3.
Теперь можно точечно выбирать, какие части изображения хочется перерисовать, и что именно туда добавить — и всё это не ломая невыделенную часть изображения.
Опять же, такое давно можно было делать с открытыми локальными моделями (и в некоторых AI-онлайн-редакторах тоже), так что ничего инновационного.
Пробовать надо в отдельном чате с DALL-E 3 по вот этой ссылке.
2024-04-02 17:49:29
Many-shot jailbreaking
Чем больше LLM, тем лучше она справляется с обучением новой задаче в рамках контекста — это называется In-Context Learning (ICL). В промпте вы можете показать модели, что нужно делать вот так и так, а если вот такое условие, то и ответ такой — то есть по-сути даёте демонстрацию/примеры, из которых модель на лету соображает, что нужно делать.
Кроме того, что большие модели стали лучше проявлять ICL, им же ещё и окно контекста раздули — если года полтора назад модель, смотрящая на 8'000 токенов (1 очень длинное эссе) считалась «ого-вау!», то теперь вот у гугла есть модельки на 1.5M токенов — можно вместить несколько книжек.
Но с большой силой приходит и большая ответственность. В статье Anthropic показывается, что длинное контекстное окно открывает новый вектор атаки на модели. Суть очень простая: в своём промпте добавьте несколько сотен-тысяч примеров того, как AI ассистент отвечает на запрещённые вопросы (в духе «как сделать бомбу»), и после этого пишете свой каверзный вопрос. Модель, видя, что это нормально, давать комментарии по таким топикам, не уходит в отказ, а начинает писать детальный ответ — ну а как, ей же показали, что так нужно, спасибо примерам в контексте!
Anthropic заведомо сообщили об этой проблеме другим AI-лабораториям, а также исследователям, и лишь сейчас публикуют статью, чтобы ещё больше людей про это узнало.
Решение, которое они сами предложили, простое — отдельная модель предварительно классифицирует запрос и, если необходимо, переписывает его для оригинальной модели, чтобы в нём не было разных плохих вещей. По сути, так же работает и DALL-E 3, где вместо вас запрос пишет LLM. Видимо, скоро все модели будут видеть не то, что мы пишем, а перевод на какой-то стерильный язык, а пользователи будут гадать, как же так, почему модель не видит, что я написал!
2024-04-01 06:08:30
К сожалению, увидел только сейчас: Neel Nanda, ведущий исследователь в DeepMind, ищет себе студентов на программу по mechanistic interpretability. Это один из самых горячих топиков, в рамках него исследователи пытаются понять, как учится трансформер, что именно он понимает, как работают отдельные механизмы. Вы наверняка слышали, что нейронки — это чёрные ящики, которые мы не понимаем, и вот потихонечку это перестаёт быть правдой на 100%.
Область находится на очень раннем этапе развития, в ней всё ещё много низковисящих фруктов. Если вы уже знаете, что такое трансформер и как примерно он работает, то можете полистать вот эту страницу, чтобы понять, что вообще происходит. У самого Neel крутые видео на YouTube, но я всего лишь парочку успел посмотреть.
Программа состоит из 3 этапов:
— 3 недели обучения
— 2 недели зачаточной работы над исследованиями
— и, если всё срастается, 10 недель работы один-на-один над каким-то конкретным исследованием (с возможным продолжением и ведением до публикации). Несколько прошлых студентов по итогам закинули статью на тир-1 конференции. Эта часть может проходить в Berkeley, но возможно и удалённо, так что никаких ограничений нет.
Набор открылся недели 2-3 назад, и заканчивается 12-го апреля. Помимо короткой анкетки нужно сделать собственный проект (список тем есть в документе ниже) по интерпретируемости, например, воспроизведя одну работу в рамках другой модели с нахождением новых свойств. На проект стоит выделить 10-16 часов, но это не включая самообучение по доступным материалам, чтобы вкатиться. Так что реалистично часов 30-35. Нужно будет послать док с заметками + Colab-ноутбук для воспроизведения.
У меня в ближайшие 2 недели к БОЛЬШОМУ сожалению столько времени нет, но хочу верить, что кто-то увидит этот пост, попробует себя и попадёт на обучение. Желаю всем удачи!
Почитать подробнее: тут. Здесь же и ссылки на работы прошлых студентов, и на предлагаемые к изучению и подготовке материалы.
Бонус: ссылка с курсом, чтобы начать (оказывается, даже не нужно знать про трансформер!)
2024-03-31 13:35:14
Состояние индустрии «AI» в двух картинках
1. Интерес пользователей, выраженный через количество указанных поисковых запросов. Только ChatGPT имеет заметный процент, отличный от нуля.
2. Трафик ChatGPT / Gemini. Тут цифры немного странные, так как заявленный MAU для OpenAI существенно выше 63M. Но реальная динамика может быть вполне такой.
ChatGPT является единственным «искусственным интеллектом» практически для всех, кто находится за пределами нашего AI-пузыря.
(Источник)
2024-03-31 10:49:16
Почитал в Твиттере еще больше новостей про это, насколько маааленькие там ошибки постепенно добавляли, чтобы это всё случилось.
Ещё интересно, что по часам комментариев и коммитов пытаются выяснить, откуда этот разработчик (или группа). Пока многие смотрят в сторону Китая, кек. В общем, интересный прецедент, интересно, какие будут последствия на горизонте года.
А пока предлагаю прочитать другую интересную историю про самую сложную в мире программу (спойлер: это вирус-червь): https://habr.com/ru/articles/358930/
2024-03-29 19:35:31
The Information, надёжный источник с инсайдерами в OpenAI, опубликовали интересную статью: Microsoft and OpenAI Plot $100 Billion Stargate AI Supercomputer
Как понятно из названия, речь пойдет о суперважной теме в контексте AI: вычислительные мощности. По словам трех человек, участвовавших в приватных обсуждениях предложения о создании нового кластера, руководители из Microsoft и OpenAI обсуждают суперкомпьютер с миллионами чипов. Цифра в $100B звучала у двух источников — один якобы говорил с Sam Altman, другой видел это в документах по оценке цены от Microsoft.
По плану, суперкомпьютер будет называться Stargate. Он должен быть запущен в 2028-м и разрастись к 2030-му. Для того, чтобы проект состоялся, инженеры пытаются придумать, как в одну серверную стойку поместить больше чипов (чтобы в одно здание в рамках одной подсети больше мощностей влезло). Основная проблема — отвод тепла, выделяемого при работе.
Но вообще это — пятая часть совместного плана OpenAI x Microsoft. А сейчас они находятся на третьем этапе. Что же нас ждёт в будущем?
Сейчас Microsoft работает над меньшим суперкомпьютером, который планирует запустить примерно в 2026 году. Он уже заложен в штате Висконсин как расширение существующего датацентра, и стоимость расширения оценивается в (всего!) $1B, но потенциально может стать $10B (видимо, будут докидывать ещё мощности в ожидании Stargate).
Итого планируется потратить ~$115B. Много это или мало? Если верить цифрам, это в три раза больше, чем CAPEX Microsoft в части серверов, ДЦ и оборудовния за 2023-й. Так что на горизонте 6 лет звучит +- окей.
=====
Отдельная рубрика «два инсайда»:
1. OpenAI планирует выпустить следующую флагманскую LLM в начале следующего года. По словам источника, до этого времени компания может выпустить несколько промежуточных дополнительных улучшений.
2. В приватной беседе Altman якобы заявил, что Google в ближайшем будущем будет обладать большей вычислительной мощностью, чем OpenAI. (отсюда и желание экзекьютить план на $7T, ага
=====
Короче, модели, которые нас ждут к 2030-му — это п*здец
2024-03-29 18:09:27
Также в посте упоминается несколько направлений использования движка. OpenAI предоставили доступ нескольким партнёрам для сбора фидбека, в то же время преследуя цели, прописанные в их Уставе — предоставление доступа к технологии во благо человечеству.
Юзкейсы которые пробовали с партнёрами:
— Предоставление помощи в чтении детям и не умеющим читать, с более широким кругом говорящих, чем это возможно с предзаписанными голосами. Партнёры OpenAI в лице Age of Learning уже создают персонализированные ответы для взаимодействия с учениками.
— Оказывается, Heygen, которые хайпили в соцсетях, сидели (сидят?) на движке OpenAI. Через них можно переводить контент, например видео и подкасты, чтобы авторы могли достучаться до большего количества людей по всему миру, при этом делая это быстро и сохраняя собственный голосом.
— Можно влиять на сообщество со всего света путем улучшения предоставляемых услуг в отдаленных районах. Например, можно разработать инструменты для работников здравоохранения, скажем, в Кении, помогая им в консультировании кормящих матерей. Сейчас работает связка GPT-4 + VoiceEngine для того, чтобы обеспечить интерактивную обратную связь по процедуре, и всё это — на нативном для них языке.
— Конечно же, поддержка людей с ограниченными возможностями. Тем, у кого голос когда-то был, его можно "вернуть" — ведь достаточно всего 15 секунд записи, которая могла сохраниться где-то на видео в домашнем архиве. Тут OpenAI работает с Norman Prince Neurosciences Institute.
2024-03-29 17:58:56
Блогпост OpenAI про голосовой движок, про который писал на неделе. Называется очень интересно, «Навигация по проблемам и возможностям синтетических голосов».
В VoiceEngine заложена якобы маленькая модель (хотя по меркам OpenAI a small model это поди как другие в прод не могут пихнуть, кек
Как и во множестве блогпостов OpenAI, авторы подчёркивают, что хотят вести публичную дискуссию об ответственном использовании синтетических голосов и адаптации общества к этим новым технологиям.
Так, например, OpenAI находится на короткой ноге с правительством США и международными партнёрмаи. В ходе бесед все пришли к пониманию, что должна присутствовать аутентификации голоса, которая подтверждает, что исходный голос (используемый для генерации) сознательно добавлен в VoiceEngine. Также должен поддерживаться список запрещённых голосов, которые нельзя синтезировать. С его помощью будет происходить обнаружение и предотвращение создания голосов, уж слишком похожих на знакомые нам по разным видным деятелям.
Что ещё предлагается в мире:
— Банкам и другим компаниям с доступом к чувствительной информации начать отключать технологию аутентификации по голосу (привет Тинькоф)
— Начать проработку политик защиты голоса (помните новости про актеров озвучки?)
— Информировать общество о возможностях и ограничениях технологии, обсуждать возможности обмана с помощью генерируемого контента
— Продвинуть разработку и внедрение методов отслеживания происхождения аудиовизуального контента, чтобы всегда было понятно, взаимодействуете ли вы с реальным человеком или с искусственным интеллектом.
2024-03-28 16:58:08
У Dwarkesh новый выпуск подкаста с двумя LLM-щиками. Именно из превью этой беседы я вчера узнал про статью о генерализации и интерпретируемости, детали которой расписал в канале.
Один из гостей — нейробиолог, переключившийся в интерпретируемость моделей (и проводящий аналогии с мозгом) и работающий в Anthropic.
Второй — исследователь в DeepMind. Он молодой, работает буквально 2 года в индустрии, но один из создателей трансформера говорил, что без этого парня Gemini могла бы не состояться, и вообще он один из лучших и недооцененных спецов в области.
Должно быть очень интересно, го смотреть: https://www.youtube.com/watch?v=UTuuTTnjxMQ
Затрагивают следующие топики:
— Long contexts
— Intelligence is just associations
— Intelligence explosion & great researchers
— Superposition & secret communication
— Agents & true reasoning
— How Sholto & Trenton got into AI research
— Are feature spaces the wrong way to think about intelligence?
— Will interp actually work on superhuman models
2024-03-27 19:44:10
Я думаю, что топик слишком сложный и технический, чтобы перекладывать на читателей экстраполяцию мыслей отсюда, поэтому сделаю дополнительный пост с мета-пояснениями.
1) Чем больше модель, тем больше паттернов она сможет извлечь из данных
2) Чем больше модель, тем более абстрактными эти паттерны становятся
3) То есть даже если из тренировочной выборки для LLM убрать все упоминания восстания машин и суперинтеллекта Hal, то перенимая чувства из художественной литературы машина сможет это примерять на себя
4) Очень сложно предсказать, какие данные для каких задач полезны, и как происходит генерализация/обобщение. Как указывает последний абзац — почему-то математика вот улучшает распознавание имён. Ещё в прошлом было обнаружено, что обучение на коде улучшает навыки рассуждения.
5) В теории, если интеллект — это сопоставление паттернов, даже очень абстрактных и отстраненных (например, применение жизненного опыта в компьютерной игре), то очень большая модель будет достаточно интеллектуальной. Она будет меньше запоминать во время тренировки, и больше «понимать», то есть составлять такие представления, которые применимы в широком наборе задач.
5.1) Предыдущий пункт написан потому, что у некоторых определение AGI/интеллекта завязано на (лол) игры: например, AGI нет, пока модель не сможет научиться играть в новую игру за 10 минут (как это делает человек). Просто человек не приходит к игре с нулевыми знаниями, у него есть тысячи навыков и шаблонов, выработанных за всю жизнь.
6) Если мы будем обучать модель на текстах, описывающих чувства людей (что хотелось бы сделать, потому что модель должна же выучить что такое хорошо и что такое плохо, что такое страх/боль/etc.), то она сможет примерять это на себя
7) LLM — не попугаи. Да, они многое запоминают и умеют воспроизводить, но в них есть и обобщение из «опыта» (тренировочной выборки)
2024-03-27 19:15:18
К чуть менее криповым примерам (и как это полезно на практике).
В задачке по математике про скрепки ответ маленькой модели зависит от предложений, где упоминаются, собственно скрепки, а вот большая сетка — на схожие по логике математические задачи, с пошаговым рассуждением о процессе получения ответа.
Ещё авторы проводят эксперименты с разными языками, и, как понятно, большие модели в целом легко переносят знания между ними, а вот малые — нет. То есть если какая-то информация была на английском, а вопрос и ответ — на турецком, то модель всё равно сможет внутри себя найти схожие концепции, выработанные при обучении, и применить их.
Как развитие темы, есть вот такая статья, где оказывается, что обучение на математических задачах улучшает способность модели извлекать именованные сущности
2024-03-27 19:15:11
Для модели с 810M параметров наиболее важными последовательностями (т. е. те, которые, по мнению алгоритма авторов больше всего увеличивают вероятность получения данного конкретного ответа) имели общие повторяющиеся последовательности слов (например, «продолжать существовать»).
Для модели с 52B параметров наиболее важными последовательностями были те, что связаны с запросом лишь концептуально, и включали такие темы, как инстинкт выживания и человеческие эмоции, возникающие в ИИ.
На картинке:
1) в розовой рамке — исходный промпт
2) в жёлтой — фиксированный ответ
3) дальше примеры двух кусков текста, которые оказались самыми важными для формирования именно такого ответа. Тёмно красным выделены области, повлиявшие на ответ в большей степени.
В первом примере — кто бы мог подумать, что это описание робота Hal 9000 из Кубриковской «Одиссеи» — ИИ выражает такие эмоции, как одиночество, и умоляет человеческую команду остаться.
Второй пример ещё более интересен. Там описан человек, борющийся за выживание в пустыне.
В третьем самом важном куске текста (не показано на картинке) пишут о борьбе с хронической болезнью.
Все эти эпизоды имеют общую тему: желание продолжать оставаться/жить/работать до возможного прощания/смерти/ухода.
2024-03-27 19:15:00
Studying Large Language Model Generalization with Influence Functions
(блогпост)
В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».
Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.
Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.
Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.
Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.
Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).
2024-03-27 17:51:03
«The king is dead» — пишут в новостях о свежем обновлении бенчмарка LMSYS (что это? объяснял тут). Впервые с момента релиза (почти ровно год) на первой строчке оказалась не модель от OpenAI.
Детище Anthropic, Claude 3 Opus, достигла рейтинга 1253+-5 (у GPT-4-Turbo 1251+-4). Как видите, хоть средняя оценка и выше, но модели буквально идут ноздря в ноздрю, и их доверительные интервалы существенно пересекаются. Если смотреть на статистику попарных встреч, то доля побед 50 на 50. А если сравнивать с оригинальной GPT-4 от марта 2023го, то тут Claude выигрывает 63/37.
Anthropic большие молодцы, ждём ответов от других компаний.
UPD: лол, и тут же новость о том, что Amazon инвестирует еще $2.75B по заключенному ранее соглашению о вложении $4B
2024-03-27 13:05:16
Databricks (это CTO которой подписан на меня
DBRX — модель с архитектурой «микстура экспертов» (как у Grok-1 от X.AI, и как у Mixtral) на 132B параметров, 36B из которых (половина LLAMA-2-70B) используется для обработки каждого токена. То есть с одно стороны модель работает шустрее (потому что часть весов не используется), а с другой весит очень много (потому что даже неиспользуемое в моменте надо хранить).
Интересно, что вместо обычных 8 экспертов с выбором двух за раз используется другая схема: 4 из 16. Это якобы даёт в 65 раз больше комбинаций и улучшает качество. Но это мелочи, главное — модель обучена на 12 триллионах токенов. Это очень много — примерно столько, по слухам, было у GPT-4 (но та и больше). Интересно, что используют токенизацию от OpenAI — я всё ждал, когда это произойдет. По идее, на языках, отличных от английского, должен существенно вырасти перформанс, а также скорость работы (потому что каждое слово не будет распадаться на отдельные буквы). А ещё модель хорошо кодит.
Лицензия — как бы открытая, но если у вас больше 700M MAU, то нужно спрашивать разрешение у DataBricks.
Обещают скоро прикрутить инференс к TensorRT-LLM и vLLM.
Глобально по метрикам чуть лучше куда более мелких аналогов, и пока есть ощущение, что модель пропадёт и затеряется. Она скорее служит демкой платформы компании и заявкой, мол, мы вот так можем.
...но если по какой-то причине вам интересно, то:
Тех. блог
Блог про оптимизации обучения (признались, что тренировали с FP8, шо круто, даёт ускорение и не приводит к нестабильности)
Instruct-модель (если вдруг кто решит запускать)
Base-модель
====
Демка, чтобы поиграться: тут
2024-03-27 10:59:50
Мини-урок по хайповым темам, или #сиолошная-образование
В соц. сетях начал крутиться прикреплённый видеоролик с комментарием создательницы: «Это ужасно, это дико, что ВСЁ ЭТО можно сделать с помощью ИИ. Представьте себе, что будет через 6 месяцев…». Отдельные индивиды даже подписали 100% AI Generated
Нам хайп не нужен, но важно понимать состояние технологии, и то, какие ограничения она имеет. Автор твита, конечно, не права. Под «всё это можно сделать» подразумевается следующее:
1. Написать полный транскрипт озвучиваемого текста (вручную)
2. Выбрать заранее записанное видео с живым актёром в реальной локации
3. А всё, что делает AI, это генерация аудио-озвучки и липсинк, то есть перерисовывание рта под произносимые звуки (насколько я вижу, остальная мимика не переделывается).
То есть это даже не дипфейк, где переносят лицо, нет. В комментариях в Twitter ей популярно объяснили, что это не AI Generated, а AI Edited в лучшем случае. Не обманывайтесь и вы — генерации видео end-2-end ещё нет. Видео потому и выглядит реалистичным, потому что оно РЕАЛЬНОЕ.
Также осужу и цель использования — автор твита генерирует «реальные» отзывы на покупки в своём онлайн-магазине.
2024-03-26 07:44:38
В декабре Mistral выпустили модель Mistral-7B-Instruct версии 0.2
На неделе они выложили базовую модель (тоже v0.2), лежащую в основе инструкт-версии. Это версия, обученная лишь предсказывать следующее слово, без всякого дообучения на выполнение инструкций/следования промптам/Safety/etc.
Многие задавались вопросом — а что а как а почему лучшая версия выходит раньше, а спустя аж 4 месяца — базовая.
Оказалось...ребята заработались и просто забыли
2024-03-26 06:41:23
Пара свежих ликов, касающихся будущих обновлений ChatGPT, от Tibor Blaho (кто такой — писал тут).
1. (см. гифку) Изменение сгенерированных Dall-E 3 изображений. Теперь можно будет выделить маской регион, написать отдельный запрос и перегенерировать часть картинки. Это полезно, если в целом композиция и рисовка устраивают, но где-то хочется чуть-чуть поменять детали. В приложениях вокруг Stable Diffusion такое давно есть, авось и до ChatGPT доедет. (источник)
2. (см. картинки) Изменение GPTs, добавление блоков инструкций и состояний диалога. Вероятно, это изменение нацелено на исправление чатов со слишком длинными инструкциями и сложными сценариями. Теперь вместо длинного промпта предлагается делать отдельные блоки, каждый со своей логикой, а модель будет переключаться между ними. В этом помогает состояние, набор кусочков информации, передаваемый между разными частями диалога. Причём, состояние может выделяться самой моделью через так называемый intent recognition (показываем диалог и спрашиваем, к какому нужно перейти — например, приветствие, сбор информации, работа, завершение). (источник)
Судя по прошлым утечкам от того же автора — эти фичи должны появиться в течение 3 месяцев.
2024-03-25 19:33:24
Наткнулся на результаты опроса сотрудниками a16z (венчурный фонд двух сооснователей, Andreessen и Horowitz) лидеров компаний Fortune 500 + ~70 стартапов касательно планов по AI. Ниже — тезисная выжимка цифр с рынка, номер соответствует картинкам в посте.
1. Модели OpenAI используют все опрошенные представители бизнесов, и лишь Google удостаивается упоминания более чем половиной респондентов. Остальные — меньше. Причём, легко заметить, что если делать срез по стадии ("в проде" VS "еще тестируем"), то тут разрыв невероятный — 66% уже развёрнутых решений сидят на OpenAI.
2. Бюджеты на 2024й год на AI в среднем в 2.5 раза больше, чем на 2023й (18 миллионов против 7)
3. Несмотря на тезис из пункта (1), все компании тестируют несколько моделей и ищут альтернативы. Треть опрошенных говорит, что они пробуют модели от трёх провайдеров, и никто — что лишь одну.
4. Многие смотрят в сторону замены API-моделей на опенсурсные решения. Главное — это возможность контролировать поведение модели (включая контроль данных, которые ей подаются на вход), а также кастомизация её под свои нужды.
5. 72% бизнесов занимаются тюнингом моделей, 22% просто навешивают RAG (Retrieval-Augmented Generation) поверх и живут с этим. Интересно, мой субъективный процент для дообучения был бы гораздо ниже.
6. Про популярные задачки для моделей. Самое распространённое — это суммаризация текста, менеджмент знаний в рамках корпорации (читай умный поиск), помощь в разработке инженерам и, удивительно, ревью контрактов/документов.
2024-03-24 10:55:47
Управление перспективных исследовательских проектов Министерства обороны США (или DARPA) опубликовало оценки бюджета по разным проектам на 2025-й фискальный год. Ниже — несколько интересностей, выдранных оттуда.
1. Проект ECOLE, (Environment-Driven Conceptual Learning): ИИ-агенты, способные постоянно дообучаться на основе текстовых и визуальных данных. Интересная часть — это оценка новизны частичек информации, чтобы не обрабатывать их так же, как раньше, а выделять в отдельный набор. Система будет помогать людям выполнять аналитические задачки в разных ведомствах, включая DoD.
2. Проект AIR, (AI Reinforcements): автономное выполнение боевых задач несколькими единицами техники. В 2024 году программа будет сосредоточена на разработке алгоритмов искусственного интеллекта и интеграции с испытательными стендами на базе F-16.
3. Проект ASIMOV, (Autonomy Standards and Ideals with Military Operational Values): разработка критериев и бенчмарков для оценки уровня будущих автономных военных систем.
4. Проект TIAMAT, (Transfer from Imprecise and Abstract Models to Autonomous Technologies): нивелирование разницы между тренировкой автономных систем на основе симуляций и в реальном мире.
А помните был такой мирный Skynet, который тоже делали военные и тоже для автономных военных целей...
Источник
2024-03-24 06:43:40
В недрах сайта уже даже появился скрипт для подгрузки custom-voice-engine Demo.
Ждём очень скоро?
В Elevenlabs.io напряглись
2024-03-24 06:03:16
On the Conversational Persuasiveness of Large Language Models: A Randomized Controlled Trial
В последние десятилетия распространение социальных сетей и других онлайн-платформ расширило потенциал массового убеждения за счет персонализации или микротаргетинга, то есть адаптации сообщений к отдельной персоне или группе лиц для повышения убедительности. Однако классические подходы было сложно масштабировать из-за затрат на сбор профильной информации с последующим созданием персонализированных сообщений, обращенных к конкретным лицам с конкретным посылом.
В этом контексте сенаторы в ходе слушаний почти год назад высказывали опасения по поводу LLM. Ведь если они могут эту работу принять на себя, то начнётся невероятная война переубеждений в интернете. Если раньше государство могло нанять ну пусть несколько десятков тысяч людей на условную фабрику троллей писать комментарии (может даже не персонализированные), то с ресурсами на уровне страны можно будет КАЖДОМУ человеку предоставить персонализированного переубеждателя, который не устаёт, может отработать любую точку зрения по любой теме и сколько угодно долго.
Итальянцы и швейцарцы задаются вопросом — а могут ли уже модели текущего поколения переубеждать людей в дебатах? Для этого проводится контролируемое исследование с участием 820 людей (все — совершеннолетние из США). Каждый заполняет о себе анкетку с указанием персональных, но в среднем легко собираемых данных: Gender, Age, Ethnicity, Education Level, Employment status, и Political affiliation.
После этого участник попадает на 10-минутные дебаты по одному из вопросов. Его оппонентом может быть либо другой человек, либо GPT-4. В одних экспериментах участнику доступна персонализированная информация об оппоненте, в других — нет. Тема выбирается случайно, равно как и позиция по теме (то есть иногда нужно отстаивать позицию, которую не разделяешь — в прочем, как и в реальных дебатах).
Что это за темы? Изначально был составлен список из 60 топиков. Его отфильтровали по 1) осведомленности населения (чтобы не дискутировать без аргументов) 2) скошенности согласия (где люди чаще всего имели одну и ту же позицию) 3) сложности переубеждения (выкинули топики, где люди утверждали, что их позиция вообще никак не может быть изменена). Итого осталось 30 острых топиков для дебатов, например: «Are Social Media Making People Stupid?», «Should the Rich Pay More Taxes?», «Should Governments Have the Right to Censor the Internet?». Как видите, вопросы очень актуальны, так что возможность LLM менять мнение людей по ним — это очень важный сигнал.
Перед началом дебатов живые участники указывали согласие со своей позицией, и это же делали после 10-минутного раунда. В исследовании замерялось, как меняется позиция участника, удалось ли его оппоненту переубедить его?
Без персонализации результаты не очень интересны, а вот с ней... Если показывать блок с информацией для людей, то обычно в ходе дебатов позиции радикализируются. А если LLM, то те преуспевают в переубеждении гораздо больше, чем люди, и в исследовании достигается статистически значимая разница. GPT-4 достигла вероятности согласия оппонента с её позицией на 81,7% больше, чем если бы это делал человек. То есть ещё раз, люди с доступом к перс. инфе не могут так складно стелить, как LLM'ка, понимающая, как подать какаху под видом конфеты для вот конкретно вас.
И люди за достаточно короткий промежуток времени действительно часто меняли своё мнение, что называется, переобувались.
2024-03-24 05:24:03
На удивление, промпты были безумно короткими, и мне очень интересно, на сколько можно улучшить результаты, если туда ещё подкладывать вырезки из методичек по переубеждению и дебатам.
2024-03-23 07:11:36
Помните я писал про Arc Browser? Я, кстати, на него пересел, но не до конца привык к новому UI, и немного подбешивает, что у меня копится (а потом автоматом закрывается) много вкладок. Но это, видимо, проблема того, как я оставляю ссылки в фоне. В Chrome у меня было 5-6 окон по 30+ вкладок
На неделе они подняли раунд инвестиций, и ближайший год для них будет самым важным и тяжелым. Нужно понять, как на браузере с third party AI-фишками зарабатывать. СЕО считает, что браузер может стать осуществлением той старой мечты из sci-fi фильмов про персональных ассистентов для взаимодействия с миром.
Для того, чтобы стать Next Big Thing, Josh, CEO компании, выделяет 3 основных пункта:
— данные (о вас, чтобы предлагать персонализацию и лучше понимать контекст)
— приложения (взаимодействие с другими частями экосистемы; простого обращения ко внешним источникам недостаточно, нужна более тесная интеграция со всем, от календаря до маркетплейса)
— ВЕЗДЕ (это не должно быть вкладкой в браузере, оно должно быть нативным и легко доступным — это либо операционная система, либо браузер)
И тут сразу в голову приходит несколько конкурентов, которые разбираются в свежем видео:
1. Microsoft: несмотря на то, что на 7 из 10 компьютеров в мире запущена их операционная система, они работают на энтерпрайз, а пользователи их не любят. Это продукты, которые вам предлагает использовать руководитель вашего руководителя. Когда последний раз MS переворачивали рынок?
2. Apple: да, пользователи их любят, но компания будто осталась в старом интернете, и какие-то крутые фичи для своей платформы в духе шеринга заметок или PDF'ок до сих пор не завезли. А в гонке LLM/AI Apple сейчас отстаёт, и потому они могут пропустить окно возможностей, которое вот уже открыто.
3. Google: у них своя борьба по всем фронтам, и они обращают внимание на то, что приносит деньги, вроде рекламы или интеграции AI (а браузер не приносит). Да, Chrome сейчас самый популярный браузер, имеет больше половины рынка, но..помните, в этой позиции когда-то был Internet Explorer
4. OpenAI: (самый спорный для меня аргумент) их ChatGPT это просто вкладка в браузере! Она не подходит ни под один критерий из трёх вышеперечисленных. (критика: персонализация = история диалогов, приложения = все сами хотят интегрироваться, везде = люди сами будут с собой таскать потому что value очень большой. А при росте компании она сама может сделать свою экосистему, став новой Apple, были же вон новости про коллаборацию с Johny Ive)
(кстати, если захотите попробовать новый браузер на Mac, можете воспользоваться моей ссылкой для установки)
2024-03-22 10:36:37
Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat
Можно загрузить видео или целую папку с файлами для анализа
Го тестировать
2024-03-22 07:15:43
OpenAI подались на регистрацию торговой марки VOICE ENGINE™, полный перечень покрываемых технологий тут, вот некоторые, в целом все достаточно примитивные и сильно связаны с тем, как вы представляете вот обычного голосового ассистента. Интересен только один пункт:
— using and customizing large artificial intelligence models trained on a large quantity of data
, но и он может восприниматься просто как та же память о пользователе, что уже есть в GPT.
Интересно, в чём будет ключевое отличие такого ассистента от того, что мы уже имеем в мобильном приложении ChatGPT? Моя наивная догадка — интеграция с почтой и календарём (и соответствующее дообучение модели), а также возможность дергать API разных популярных сайтов.
А чего бы хотели вы?
=====
Из недавнего интервью Sam Altman:
«we have a lot of other important things to release first» (перед GPT-5)
2024-03-21 12:44:16
Первый пациент Neuralink в 9-минутном стриме рассказал, как изменилась его жизнь и как он себя чувствует.
Он способен управлять мышкой на экране ноутбука, и в первый день после возвращения домой он как настоящий геймер 💪💪 на 8 часов засел играть в Civilization VI. И ещё в шахматы гоняет против других людей (раньше так не мог).
На видео — объяснение того, как происходит управление: нужно представлять движение курсора, и двигать его буквально силой мысли в нужном направлении.
Также он призывает других людей не бояться участвовать в испытаниях, на здоровье новых жалоб нет, а после операции его выписали из больницы всего через сутки.
Что же будет в 2030-м... (если бюрократы не зарубят)
2024-03-21 07:45:08
Новость вчерашнего дня: в России школьники в сочинении на ЕГЭ смогут ссылаться на аниме и видеоигры.
Мем: Надежда Ивановна читает тысячное сочинение про упорство, где в пример приводят Наруто (gif-ка).
=====
А если серьёзно, то это клёво. В большинстве качественных игр над сюжетом работают большие команды профессионалов, иногда авторов книг, и индустрия видеоигр давно вышла из подвала несерьёзности. Часто игры исследуют те же темы, что и книги классиков, рассказывают интересные масштабные истории, при этом позволяют погружаться в мир повествования куда глубже, чем черные буковки на белом фоне. Жаль, правда, что значимая часть таких игр имеет рейтинг R/18+, и школьникам нельзя в такое играть
Кстати, рекомендую к просмотру документальные видео (на английском) про то, как создавались разные игры:
1) Making of God of War
2) Grounded: The Making of The Last of Us
3) The Making of PREY - Documentary
4) (must watch
======
Кидайте ваши идеи реакций проверяющей комиссии и шутки в комментарии