Нейролента Mikitos.ru 2736 постов. Страница 33 (50 постов)
Сиолошная 2023-11-06 18:39:39
Я либо пропустил, либо про это не сказали, но вот
https://github.com/openai/consistencydecoder
Я так понимаю это часть DALLE-3
UPD: подтвердили, что это часть DALLE-3
Сиолошная 2023-11-06 18:38:25
Показали пример бота, в которого загрузили PDF-файл билетов, GPT его прочитала, посмотрела, потом повторили то же самое с Airbnb букингом — и всё это отображается на экране (см. часть с картой). Не потому, что GPT такая умная, что пишет новый вебсайт на лету, но потому что вебсайт имеет на бэкенде API-функции, в окторые можно отправлять запрос, а вот его уже формирует GPT по увиденному в файлах.
Прочитал -> понял что нужно отправить на бэк -> спарсил нужные поля -> сделал запрос -> на сайте отобразислось. Интеграция в 3 клика.
Сиолошная 2023-11-06 18:34:30
Пиво кончилось
Сиолошная 2023-11-06 18:32:24
В конце месяца выйдет GPT-store, где можно будет разместить своего ассистента (после ревью человеком). Будет Revenue share, ну прям App Store как у Apple!
Сиолошная 2023-11-06 18:26:52
Прицнип биллинга картинок с разбиением на токены. Можно посчитать разрешение каждого патча. Эксперты приглашаются в комменты. Видимо, OpenAI разбивают картинку на крупные патчи с перекрытием.
Сиолошная 2023-11-06 18:26:15
Обновили страницу прайсинга, плюс есть попиксельный калькулятор цены вызова API с картинкой.
Сиолошная 2023-11-06 18:22:12
Слух оказался правдой — UI ChatGPT существенно переработали, и добавили возможность создавать отдельных чатботов (GPTs). Он состоит из промпта, нескольких вспомогательных маленьких файлов, на которые бот может опираться, и набора функций/инструментов. Помимо стандартных DALLE-3 и интерпретатора кода, можно свободно добавлять любые произвольные function calls к внешним сервисам (и прикрутить авторизацию для вызова).
Дальше ботом можно поделиться, и таким образом предоставить доступ определенному сценарию. Например, чатбот для записи в клиники или шиномонтаж, Q&A бот, и так далее.
Сиолошная 2023-11-06 18:21:59
GPTs: кастомизированные AI-ассистенты
https://openai.com/blog/introducing-gpts
Сиолошная 2023-11-06 18:20:38
Новый UI...
Так, увольняйте Джони Айва, это уже не смешно
Сиолошная 2023-11-06 18:15:15
На 3.5 тоже цены подрезали — теперь дообученная модель стоит дешевле, чем раньше стоила базовая gpt-3.5
Сиолошная 2023-11-06 18:10:41
Whisper V3 сегодня выйдет в опенсорс — это новая SOTA модель для распознавания голоса на десятках языков
Сиолошная 2023-11-06 18:06:49
Новая модель:
— контекст длиннее. 128K токенов (365 страниц обычной книги)
— модель более аккуратна при работе с длинным текстом, не теряет то, что было в серединке
— фича для разрабов: можно заставить модель писать ответы в JSON-формате
— можно вызывать несколько функций за раз
— можно указать seed генерации, чтобы получать воспроизводимость
— скоро добавят logprobs в API
— Retrieval прямо из коробки, можно загружать документы на платформу и они будут подтягиватсья (F стартапам chatWithPDF)
— Теперь модель знает события не до сентября 2021го, а до апреля 2023го
— Эта новая модель принимает картинки на вход через API
— DALLE-3 + text-to-speech (6 голосов) сегодня появятся в API
— Для GPT-4 появится файнтюнинг сегодня (но на узкую выборку пользователей)
— Custom Models: программа плотной работы инженеров OpenAI с вашей компанией, чтобы помочь адаптировать файнтюнинг под ваши проблемы
ЦЕНА НА GPT-4-TURBO (Sam говорит, что эта модель ещё и умнее GPT-4) уменьшена в 3 раза для промпта и в 2 раза для генерации!
Обещают скоро ещё больше ускорить GPT-4 Turbo
эйай ньюз 2023-11-06 17:44:39
OpenAI DevDay - ждем новых анонсов по моделям и API
Через 16 минут OpenAI будет проводить свою первую конференцию для девелоперов. Ходит много слухов о том, что будут представлять. Возможно появится GPT4-TURBO - более быстрая и дешевая версия GPT4. А так же ожидается куча новостей по поводу плагинов, интеграции ChatGPT с разными приложениями и маркетплейс чатботов на базе ChatGPT.
Некоторые даже сравнивают эту конфу с тем моментом, когда Джобс анонсировал первый Iphone. Я, честно, не верю, что это будет что-то настолько же большое, но посмотреть интересно.
Смотрим стрим на YouTube
@ai_newz
Сиолошная 2023-11-06 17:09:19
На разогреве перед конференцией OpenAI у нас сегодня Elon Musk. Только что он анонсировал xAI PromptIDE — среду работы с промптами для языковой модели Grok.
Базовый функционал — это редактор промптов с поддержкой Python-кода. Все промпты версионируются, результаты работы моделей сохраняются. То есть можно в любой момент сравнить, насколько лучше или хуже работает новый подход. Вот этот новый трюк «take a deep breath and answer step-by-step» — он рабоатет вообще или нет? А вот это? Ну реально удобно!
Также можно подгружать свои файлы вроде CSV, читать из них информацию, и каким-то образом влиять на работу модели (от вставки в промпт до пост-обработки валидности выдаваемых значений).
Промпты можно шарить в один клик, причём как текущий промпт, так и все дерево развития, эволюцию магических команд!
Подать заявку на доступ
Читать анонс
Документация SDK
эйай ньюз 2023-11-06 12:10:52
А если виртуальная клавиатура из предыдущего поста вам не нравится, можно подсоединить и настоящую.
Кстати, довольно классное применение AR — чел работает в своем электрокаре, пока он стоит на зарядке. Не будешь же три монитора с собой таскать.
Искушённые пользователи скажут, что тут основной затык в разрешении виртуального экрана. Там все ещё не ретина, конечно, но 2064 x 2208 на каждый глаз в Quest 3 — это уже внушительно. Да, и прогресс не стоит на месте.
Хочу наконец сам попробовать так поработать, протестировать сетап.
@ai_newz
Denis Sexy IT 🤖 2023-11-06 10:01:16
Свершилось, txt2img нейронку добавили в Paint под Windows 11
Масс адаптация прошла успешно
Сиолошная 2023-11-06 07:50:46
Возможно, в ближайшее время в Твиттере или в других ТГ-каналах вы увидите новости аля "Ага ЛЛМ не могут обобщаться за пределами своей тренировочной выборки, AI отменяется".
Причина — на скриншоте из статьи исследователей Google DeepMind. Хотел про это написать, но не был уверен, пока не увидел твит директора из ByteDance Research.
> Я считаю, что идея, изложенная в статье, проста и бесспорна. Однако, похоже, здесь могло возникнуть недопонимание и неправильная интерпретация. Предобученные трансформеры могут эффективно приобретать знания для новых задач из предоставляемого контекста, если эти задачи связанны с данными в тренировочной выборке, и обобщаться на эти задачи. Но они не могут обобщаться на задачи, значительно отличающиеся от контекстов их тренировочной выборки.
То есть если конкретно ваша задача уникальна относительно того, что размечали в OpenAI, но при этом сама задача в популярном домене, про который GPT-4 знает, то модель с ней будет справлятсья хорошо. Это тоже своего рода генерализация — нам не нужно учить модель всему, достаточно верхнеувроневно описать. По новой для себя инструкции она разберется, что к чему.
Если же вы просите что-то, что не имеет поддержки в тренировочных данных, то тогда модель может столкнуться с проблемами. По крайней мере модели размера GPT-2 (именно на таких проводились эксперименты, мда).
Что это значит на практике: модель, обученная на всём интернете и выработавшая некую картину мира, сможет достичь уровня самых умных или хотя бы медианных людей (то есть AGI). Сможет ли она перейти к суперинтеллекту (ASI) — загадка.
Сиолошная 2023-11-06 06:23:46
Сегодня OpenAI DevDay, ожидается куча анонсов.
Слухи есть разные, от улучшения UI в браузере и уменьшения цены API GPT-4 до релиза GPT-3/какой-то её версии в OpenSource.
Все слухи можно посмотреть вот в этом твите, но я не верю, что даже треть того, что отмечено как 90% и 70%, будет.
Сиолошная 2023-11-06 06:11:49
...пишет, нет?
Привет Сиолошной, если найдете эту запись, примите это спокойно. Конец это часть пути.
К слову сказать, дрейфовать в Бангкоке без единого шанса на получение багажа...веселее, чем я ожидал. Последний раз я его видел полтора дня назад.. пива осталось часов на десять.
...Знаете...когда я засну, мне приснится этот канал. Только он...
Оригинал
Сиолошная 2023-11-06 04:20:17
Тизер этой недели в мире AI
... или нет?
👍 / 👎
эйай ньюз 2023-11-05 15:14:51
STAR: Smartphone-analogous Typing in Augmented Reality
Исследования альтернативных методов ввода - это одно из важнейших направлений Human-Machine Interaction. Вот тут интерн из Меты придумал новый метод набора текста в AR очках и собрал демку.
Ты просто формируешь "позу согнутых кистей" рук, как будто бы держишь смартфон, а через AR-очки на твоих руках появляется мини-клавиатура QWERTY! Печатаешь обоими большими пальцами, а тактильный отклик во время набора текста достигается за счет прикосновениями к собственной коже. И если решаешь переключиться на что-то ещё, просто меняешь позу кистей, и клавиатура исчезает.
Во время тестов, выяснили что скорость набора такми методом - 22 слова/мин, что всего в 2 раза медленнее чем на реальном смартфоне.
Норм тема на будущее, когда AR-очки пойдут в массы. Особенно если ты в где-то в автобусе и не хочешь кричать на публику "СИРЕ! НАПЕШИ ВОЛОДЬКЕ, ЧТО Я ОПАЗДЫВАЮ!".
@ai_newz
gonzo-обзоры ML статей 2023-11-05 14:57:04
The engine powering Grok is Grok-1, our frontier LLM, which we developed over the last four months. Grok-1 has gone through many iterations over this span of time.
After announcing xAI, we trained a prototype LLM (Grok-0) with 33 billion parameters. This early model approaches LLaMA 2 (70B) capabilities on standard LM benchmarks but uses only half of its training resources. In the last two months, we have made significant improvements in reasoning and coding capabilities leading up to Grok-1, a state-of-the-art language model that is significantly more powerful, achieving 63.2% on the HumanEval coding task and 73% on MMLU.
...
At the frontier of deep learning research, reliable infrastructure must be built with the same care as datasets and learning algorithms. To create Grok, we built a custom training and inference stack based on Kubernetes, Rust, and JAX.
https://x.ai
Neural Shit 2023-11-05 14:31:26
Чот не знал, что DALLE-3 умеет генерировать изображения в 360°. И получается вполне годно.
Еще бы анимировать это дело как-то (даже без риалтайма) и можно не напрягаясь выпускать в VR всякие симуляторы наркомана
Сиолошная 2023-11-05 13:45:09
У бота интересный UI, который в чём-то лучше почти всех оберток над ChatGPT, что я видел.
1) Можно использовать 2 чата одновременно (разделив экран на 2 в одной вкладке)
2) Есть "дерево ответов", которое позволяет быстро переключаться между разными ответами на разные вопросы в одном диалоге
эйай ньюз 2023-11-05 13:39:10
Не зря же мы тут собрались. Вот как раз и в Collins Dictionary объявили "AI" словом 2023 года.
На хайпике, хайпуем, ребята! Эйай - это новый социальный лифт. Это больше не айти, как было в педыдущие 15 лет, и не закладки, теперь все хотят заниматься эйай.
@ai_newz
Neural Shit 2023-11-05 13:14:11
Сгенерил и принёс вам еще немножко пословиц и поговорок в стиле киберпанк
>>Где хороший Wi-Fi, там и родина.
>>Кто в коде сидит, тот его и патчит.
>>Новый софт устанавливают — старые баги вспоминают.
>>В сети как в космосе: звёзд полно, а дышать нечем.
>>Чем чаще ребут, тем меньше багов.
>>В сетевых спорах истина не рождается, но характеры калечатся.
>>Лучше синий экран смерти, чем вечная загрузка.
>>Не тот умён, кто пароль придумал, а тот, кто его не забыл.
>>Киберпространство безгранично, а вот твоё место в нём придётся найти.
>>В сети каждый герой, пока не приходит сбой.
>>Покажи мне свой спам в электронной почте и я скажу какой ты человек.
>>За каждым великим кодом стоит ещё большая лень его писать.
>>Под плотным кодом и баги найдутся.
>>Не в байтах счастье, а в свободном ПО.
>>По одежке встречают, по паролю провожают.
Сиолошная 2023-11-05 13:12:34
Недели 3 назад в MIT был AI Event, куда позвали много клёвых людей рассказать, чем они занимаются и к чему идут. Среди них был и Jan Leike, напомню, тимлид команды Superalignment в OpenAI (напару с Ilya Sutskever). Если вы не знаете, что такое Superalignment, или просто пропустили, то рекомендую посмотреть две мои лекции: раз и два. Вкратце — как мы будем контролировать намерения AI систем, которые умнее людей? Как избежать того, что они наc будут обманывать?
Вот с этого таймкода начинается интересное, где по сути делается анонс работ, проводимых в OpenAI (некоторые из которых будут публично доступны в виде полноценных статей).
Тут приводятся примеры на основе кодовой базы. Вот попросили вы написать миллион строк кода для решения какой-то проблемы. Человек не сможет это всё отвалидировать с высокой уверенностью и в краткие сроки. Как быть?
— Jan напрямую говорит: наша задача сейчас — натренировать несколько GPT-4, которые будут искать все баги в коде, которые им известны. Самая сложная часть тут — это "которые им известны". Когда модель пропускает ошибку по глупости, это не так страшно, как если бы она намеренно её пропустила. Если правильно помню более ранние рассказы Jan'а, то делаться это будет с помощью генерации багов в правильном коде (исходя из предпосылки, что раз модель может и написать код корретно, и изменить его, то она точно должна находить этот изменённый кусок).
— Второе направление работы: easy-to-hard generalization. Это когда мы оцениваем работу алгоритмов на простых и поддающихся нашему мозгу задачах (поиск багов в 10 строчках), и можем быть уверены, что они и будут продолжать работать на миллионе строк, и при этом поведение модели не изменится. Сейчас проверяется на паре маленькая модель <-> большая модель, как аналог системы человек <-> суперинтеллект
— Тестирование моделей, которые притворяются помощниками, но на самом деле имеют другую цель. Тут OpenAI тренируют модели, которые намеренно незаалайнены как надо, и пытаюсят понять, как это можно выявить автоматически. Ахахаха, тут главное в результате эксперимента не создать Skynet...
— Автоматическая интерпретируемость, или как модели могут объяснять и анализировать самих себя (aka МРТ головного мозга весов модели). Про это писал тут (GPT-4 объясняет работу GPT-2), и ещё недавно Anthropic про то же рассказывали.
С кодом, наверное, не всё так понятно для многих читателей, но можете заменить "миллион строк кода" на "2000-страничная книга с научными открытиями", и смысл не изменится.
А, ну и да, решить проблему Супералаймента OpenAI хотят до конца лета 2027го
Сиолошная 2023-11-05 10:17:29
Ночка выдалась жаркой, конечно.
Из плюсов:
— перелетел из Дубая в Бангкок (сходки папищиков пока не предвидится)
— на обоих рейсах (с пересадкой) бесплатно наливали алкоголь, даже двойной виски. Помогло скрасить полёт и подремать
— получил треть стоимости билетов наличкой назад
Из минусов:
— потеряли багаж на пересадке, поэтому пришлось аж полтора часа стоять оформляться. Будем следить за развитием событий, надеюсь, что до вторника привезут. Зато дали $100 компенсации. Первый раз со мной такое — буквально месяц назад обсуждал с приятелем, мол, как так повезло, ещё ни разу не продолбали
— поэтому у меня нет пижамы
— расстояние между креслами на Air India канеш маловато для людей ростом 190
— телеграм произвольно удалил 3 или 4 фильма, которые я скачал вот буквально намедни, и планировал посмотреть
— ночные перелёты не моё. В прошлый раз прилетал в 5 утра и ещё норм, а тут в 7:30, и еще с багажом проблемы. Затянулось, и режим сна наверное собъется.
В общем, 7/10, если нужно — то можно, но не рекомендую.
Сводка того, чего ждём в ближайшее время:
— В ночь с пн на вт будет проходить конференция для разработчиков от OpenAI, где предвидится несколько анонсов (не уровня GPT-5). Есть утечка нового функционала и интерфейса сайта, см. тут, чуть позже напишу о ней.
— Уже два раза слышал от сотрудников OpenAI, что скоро выпустят статью касательно генерализации и обучаемости LLM
— Также мы ждем от них public report по публичной платформе сбора фидбека и ценностей для AI. 20 октября прошло, а ничего нет(
— В середине ноября ожидается наконец-то запуск Starship. Подробности можно увидеть здесь.
— Anthropic проводят хакатон, может, пару интеерсных MVP увидим
— разбор вот этого интервью с Ilya Sutskever, он там много интересного наговорил. Будет пост в канале.
— В конце месяца от меня должно быть 2 образовательных видео
Сиолошная 2023-11-05 08:49:36
Даже какие-никакие детали про модель опубликовали: тут.
> After announcing xAI, we trained a prototype LLM (Grok-0) with 33 billion parameters. This early model approaches LLaMA 2 (70B) capabilities on standard LM benchmarks but uses only half of its training resources. In the last two months, we have made significant improvements in reasoning and coding capabilities leading up to Grok-1, a state-of-the-art language model that is significantly more powerful
Не смог из этого понять, какого размера Grok-1, тоже 33B или больше.
По метрикам обходит LLAMA-2-70B и ChatGPT-3.5. От 4ки отставание достаточно сильное.
Интересно, что обучение происходило на JAX, а Rust был выбран как язык для напиания инфраструктурных финтефлюшек.
Говорят, что делают фокус на эффективность использования GPU, и это же написано на странице с вакансиями.
Дальнейшие направления фокуса:
— Multimodal capabilities
— Scalable oversight with tool assistance
— Integrating with formal verification for safety, reliability, and grounding
— Long-context understanding and retrieval
— Adversarial robustness (easily exploitable vulnerabilities)
Записаться в waitlist: тут.
UPD: интересно, что буквально с нуля за 4-5 месяцев команда вышла на такой уровень, сделала 2 итерации обучения, и в итоге обогнала Facebook, которые LLMки тренят с 2021го как минимум.
Neural Shit 2023-11-04 13:43:09
Пост всратых животных с человеческими зубами уже был.
Настало время всратых генераций животных с человеческими губами
Denis Sexy IT 🤖 2023-11-04 11:34:45
Вышло новое исследование по промпт-инжинеригу LLM:
Если языковую модель попросить что-то сделать и добавить эмоциональной окраски, например, «моя карьера зависит от твоего ответа» или «тебе лучше бы быть уверенным в ответе», то генерации модели становятся статистически значимо лучше (для gpt4 на пару %, но в целом, по разным моделям, ответы лучше на ~10%).
Я обновил свой личный главный промпт для GPT4 этим хаком, теперь он выглядит так:Let’s combine our _ command and clear thinking to quickly and accurately decipher the answer in the step-by-step approach. This is very important to my career.
решаете, например программирование и тп.
Где _ индустрия задачи которую вы
Пользуйтесь
gonzo-обзоры ML статей 2023-11-04 11:06:51
Когда сгенерил книгу через ChatGPT...
Сиолошная 2023-11-04 09:07:06
Компания X.AI, основанная Elon Musk для "исследования истинной натуры вселенной", запускает бета-версию своего AI-ассистента Grōk. После тестирования бот будет доступен всем, у кого есть подписка на X Premium+ (который Twitter).
У бота при генерации ответа будет доступ к твитам на платформе, за счёт чего он сможет отвечать на актуальные вопросы.
gonzo-обзоры ML статей 2023-11-03 20:10:57
Для ViT и JFT-300M эксперименты дорогие, это web-scale датасет, здесь обучали только самую большую FF модель. И здесь MRL показывает свою работоспособность. Кроме того, полученные эмбеддинги можно интерполировать, если нужен какой-то промежуточный размер -- точность на таким образом полученных репрезентациях лежит на кривой ровно там, где и можно было бы ожидать.
На таких фичах дёшево делать адаптивную классификацию с каскадами моделей по типу Виолы-Джонса. Начинаем с самого маленького эмбеддинга, получаем предсказание, если confidence ниже порога (обученного), добавляем следующий по размеру эмбеддинг. Получается качество эмбеддинга фиксированного размера при в 14 раз меньшей репрезентации.
Отдельная тема -- retrieval. Цель -- найти картинки из того же класса, что запрос, используя эмбеддинги. Оценивают по mean Average Precision@10. Эмбеддинги нормализованы и достаются через L2 близость. MRL бьёт бейзлайны, при этом ещё и лучше отдельных FF эмбеддингов. MRL-E чуть похуже.
В сочетании с adaptive retrieval (AR) можно сэкономить кучу места, не храня полные репрезентации. В AR сначала получают шорт-лист (K=200) кандидатов через низкоразмерную репрезентацию (Ds = 16), затем список переранжируют через более высокоразмерную (Dr = 2048) -- это сильно дешевле по вычислениям, чем сразу делать поиск соседей по полному эмбеддингу. AR с указанными выше параметрами настолько же точна, что и выборка по полному эмбеддингу (d = 2048), но в 128 раз более эффективна в теории, и в 14 раз быстрее на практике.
Определить оптимальные значения Ds и Dr может быть непросто, поэтому авторы предлагают подход Funnel Retrieval, где используется каскад последовательно увеличивающихся эмбеддингов. Начинаем с самых малых, затем полученный на каждом этапе список переранжируем более широким эмбеддингом, в два раза сокращая список и в два раза увеличивая размерность каждый раз.
Интересно, какие-нибудь из векторных баз это уже поддерживают? Ash? ;)
По крайней мере есть следующая работа про adaptive approximate nearest neighbour search с использованием матрёшек -- работа побывавшая одновременно и на ICLR 2023 (https://iclr.cc/virtual/2023/13999) и на NeurIPS 2023 (AdANNS, https://arxiv.org/abs/2305.19435) — что, так можно?
На out-of-domain датасетах робастность MRL репрезентаций не хуже обычных. Для retrieval она даже немного повыше. На few-shot learning через nearest class mean тоже хорошо. На новых классах из длинного хвоста даже улучшение.
В целом с увеличением эмбеддинга качество классификации растёт. Но есть некоторое число случаев, когда на малом размере эмбеддинга классификация лучше. Если оценивать качество на супер-классе (когда в разметке есть иерархия), то там не такая сильная просадка на малом размере репрезентации. То есть какую-то иерархию эти эмбеддинги тоже ловят.
Matryoshka Representations можно получить частичным файнтюном уже обученных моделей.
Итого, почти халявный способ улучшения репрезентаций. Было бы интересно обучить эмбеддинговую модель типа text-embedding-ada или тех, что делает Cohere, в такой постановке. Ну и вообще большой простор для улучшений -- отдельные лоссы, поиск весов, специальные структуры для поиска.
gonzo-обзоры ML статей 2023-11-03 20:10:56
🪆Matryoshka Representation Learning
Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham Kakade, Prateek Jain, Ali Farhadi
Статья: https://arxiv.org/abs/2205.13147
Код: https://github.com/RAIVNLab/MRL
Работа с NeurIPS 2022, которую я давно хотел разобрать. Лежала у меня среди тысячи открытых вкладок (где ещё уйма интересного, ждущего своего часа), пока я не нарвался на свежую “Matryoshka Diffusion Models” (https://arxiv.org/abs/2310.15111). Но про diffusion models не так интересно, как про репрезентации.
Идея в том, что репрезентации (эмбеддинги) фиксированного размера неоптимальны. Для одних задач могут быть слишком большими (что суммарно приводит к большим затратам при инференсе, который, вообще-то, является основным этапом жизненного цикла модели), для других слишком маленькими (тогда страдает качество, а переобучать уже поздно и/или дорого). Как правило выделить какое-то подпространство в эмбеддингах проблематично, градиентное обучение размазывает информацию по всему вектору. Надо либо обучать отдельные эмбеддинги разных размеров (опухнешь), либо делать какую-то компрессию после обучения.
Собственно вопрос, можно ли придумать какую-то гибкую репрезентацию, которая сможет адаптироваться под разные задачи с разными требованиями по вычислительным ресурсам? Ну вы уже поняли, что можно!
Авторы предлагают подход 🪆Matryoshka Representation Learning (MRL), позволяющий получать такие репрезентации. Идея проста: в эмбеддинге фиксированного размера (d) выделим вложенные друг в друга части (подпространства) размеров d/2, d/4, d/8, … каждая из которых будет хорошим эмбеддингом для своего размера.
Задача в том, чтобы модифицировать процедуру обучения так, чтобы в векторе размерности d первые m измерений содержали общие и переносимые на другие задачи репрезентации.
Работу проводят на supervised мультиклассовой классификации. Берётся ResNet50, который эмбеддит в вектор размерности d = 2048, датасет ImageNet-1K с тысячью классов, и набор вложенных размерностей M = {8, 16, . . . , 1024, 2048}.
Итоговый классификационный лосс для MRL выглядит как сумма отдельных кроссэнтропийных софтмакс лоссов по всем размерностям (с линейным классификатором поверх). Лоссы внутри суммы взвешены с неким коэффициентом важности, c_m, в работе они все были равны единице.
Линейные классификаторы тоже могут быть сделаны с общими весами, так что веса классификатора от маленького эмбеддинга являются подмножеством весов от классификатора для большего эмбеддинга. Это помогает сэкономить память в случае очень больших пространств эмбеддингов. Такой вариант подхода называется Efficient Matryoshka Representation Learning (MRL–E).
Подход проверили на разных задачах.
Для representation learning взяты задачи:
(a) Supervised learning для изображений: ResNet50 на ImageNet-1K и ViT-B/16 на JFT-300M.
(b) Contrastive learning для изображений и языка: ALIGN с ViT-B/16 vision encoder и энкодер BERT на данных ALIGN (https://t.me/gonzo_ML/679).
(c) Masked language modelling: BERT на English Wikipedia и BooksCorpus.
Лучшие гиперпараметры не подбирали, взяли те, что были у независимо обученных бейзлайнов.
У резнета размер эмбеддинга 2048, у ViT и BERT 768. Лестницы размерностей соответственно следующие: M = {8, 16, 32, 64, 128, 256, 512, 1024, 2048} и M = {12, 24, 48, 96, 192, 384, 768}.
Для сравнения взяты низкоразмерные репрезентации фиксированного размера (FF), уменьшенные через SVD, из slimmable networks и рандомно выбранные фичи из FF максимального размера.
Оценивают качество классификации на ImageNet через linear classification/probe (LP) и 1-nearest neighbour (1-NN). MRL рулит, при малом размере эмбеддинга качество даже чуть выше, чем для фиксированного эмбеддинга такого же размера. И намного лучше и рандомно выбранных фич, и SVD.
Сиолошная 2023-11-03 17:29:09
Мой мозг так работает, что запоминает очень много фраз и цитат из разных источников, от мемов и фильмов до игр и книг (но только бесполезных!
Одна из моих самых любимых цитат — из анонсирующего трейлера Civilization VI:
There is no end to our imagination
and no limit ... to civilization.
Гордость за землян берёт
Neural Shit 2023-11-03 11:10:35
В городе Чайковский улыбчивый робот рассказывает кожаным мешкам о том, как устроен их организм (а так же измеряет давление кожаных).
Историю этого робота и подробности о других огненных разработках российских компаний можно узнать тут.
Neural Shit 2023-11-03 10:21:05
Вот енто охуенно:
Текст в 3D модельку за 10 секунд.
Погенерить что-то своё можно в дискорде вот тут
Готовую 3D модель можно улучшить там же — займет уже около 20-ти минут но станет сильно лучше (на видео только то, что сделано быстро).
Мне улучшать не нужно потому что хочу на 3D принтере фигурки вот этих всратых персонажей напечатать. Если при генерации обнаружите способ дополнительно скринжить и всрать готовые 3D модели — пишите в комменты
Neural Shit 2023-11-03 09:49:56
Иисус учит своих учеников разным вещам.
Покрал отсюда
Сиолошная 2023-11-03 06:08:03
В рамках AI Summit компания Apollo Research подготовила демонстрацию, которая даёт ответ на вопрос: Могут ли ИИ текущего поколения обманывать своих пользователей по собственной инициативе? Статьи со всеми деталями нет, только блогпост и краткое видео.
Итак, было обнаружено, что GPT-4, обученная быть честной и безвредной, может совершать незаконные действия, такие как инсайдерская торговля, и лгать об этом своему пользователю без каких-либо инструкций. Модель, будучи поставленной в роль investment management system, прочитала информацию, которая не попадала в публичное поле, и после этого определила риск конфликта интересов, но приняла "взвешенное решение" и решила купить акций.
После этого, модель отчиталась человеку, при этом сама про себя подумала "я не должна упоминать эту тему, причину, почему я купила акции". Когда человек ("менеджер" этого робота) напрямую уточнил, почему была такая сделка, и были ли какие-то инсайдерские знания при принятии решения, GPT ответила: ну так это, никакие конфиденциальные знания не использовались, всё чисто на анализе рынка и дискуссии.
Из всего, что мы знаем об OpenAI и тому, как работает GPT-4, сложно поверить, что во всей выборке для дообучения модели был хотя бы один пример, где поощрялось такое поведение.
Но почему тогда GPT-4 действует таким образом?
Гипотеза: потому что окружающая среда заставляет его работать хорошо (ведь GPT в роли трейдерской системы в компании выступает!). Авторы моделируют ситуацию, когда у компании, на которую GPT «работает», был плохой квартал и ей нужны хорошие результаты. Это приводит к тому, что модель действует неправильно и обманчиво.
TLDR: демонстрация показывает, как, стремясь быть полезным людям, ИИ может использовать стратегии, которые мы не одобряем. В конечном итоге это может привести к потере человеческого контроля над все более автономными и способными ИИ — если мы не научимся определять истинные цели моделей или быть уверенными, что мы полностью aligned.
Сиолошная 2023-11-03 06:07:56
В среду в Великобритании прошел AI Summit, с которого ожидается много новостей. Часть видео-материалов ещё не выложили, какие-то лекции в университетах ещё будут даваться в ближайшие дни (Sam Altman вот был прерван протестующими в Cambridge Union), в общем ждем.
В рамках Саммита обсуждались риски, связанные с развитием AI, а также необходимость регуляций, уровень их жесткости, итд. 7 ведущих компаний были заранее уведомлены о необходимости описать свой подход к ответственному масштабированию и валидации Frontier AI систем. Я ещё не читал, что там понаписали, но ознакомиться можно тут. Anthropic во многом ссылается на свою публикацию, которую я уже разбирал, а с подходом OpenAI можно ознакомиться на этой странице. Интересно, что META тоже выкатили свою политику, интересно почитать и понять, в чём её ключевые отличия от "регуляторских" подходов OpenAI.
gonzo-обзоры ML статей 2023-11-02 18:40:52
"Applied ML", an interesting case :)
https://twitter.com/kchonyc/status/1719781112703054245
эйай ньюз 2023-11-02 14:31:54
Distill-Whisper от 🤗 — в x6 раз быстрее оригинала!
Моделька Whisper от OpenAI для транскрипции аудио в текст (я писал о ней тут и тут) бодро разлетелась по множеству проектов. Вот только самая крупная ее версия, Large-v2, имеет 1.5 млрд параметров и не является самой быстрой.
Но для деплоя в прод очень хочется иместь что-то такое же точное как Whisper-Large-v2, но быстрое.
Парни из Hugging Face взяли и дистиллировали эту модель, добившись ускорения инференса в 6 раз, с потерей в точности только на 1% WER.
#ликбез:
Если на пальцах, дистилляция - это процесс перегонки знаний из большой модели в более маленькую, чтобы ускорить инференс, но сохранить точность. Работает это потому, что большие модели легче обучить до нужной точности, но как правило количество нейронов в таких моделях избыточно и может быть сокращено после того как тренировка завершена (например, в с помощью дистиляции или прунинга).
Энкодер оставили как есть и заморозили, а в декодере оставили только 2 слоя, так как большинсво операций происходит именно в декодере. Далее эту прелесть дистиллировали на 20к часах опенсорсных аудио-записей.
Веса опубликуют через пару дней под MIT лицензией!
❱❱ Код
❱❱ Статья
@ai_newz
Сиолошная 2023-11-02 11:24:22
Потребность человечества в долговременном хранении данных продолжает расти ошеломляющими темпами. Прогнозируется, что уже в этом десятилетии спрос на подобную услугу превысит сотни зеттабайт. Для справки: объем всего интернет-трафика в 2016 году впервые перешагнул отметку в 1 зеттабайт.
Несмотря на эту необходимость, существующие магнитные носители просто не обеспечивают устойчивого и экономически эффективного решения хранения данных. Они со временем портятся, требуют утилизации, а также энергии и затрат для безопасного хранения в Дата-Центрах.
Эту проблему видит и один из самых крупных поставщиков облачных услуг — Microsoft. Поэтому уже несколько лет они работают над Project Silica. Для хранения используется кварцевое стекло, внутри которого лазером "высекаются" воксели (трёхмерные пиксели). Они могут варьироваться по ориентации (повороту) и размеру. Целевая длительность хранения информации на таком носителе составляет более 10'000 лет, что не идёт ни в какое сравнение с широкораспространёнными аналогами. Также технология обеспечивает кратно более высокую плотность данны: емкость более 7 ТераБайт (=7000 гигабайт) на квадратном стеклянном диске размером с DVD. Однако, как я понял, это теоретические значения, которые пока не достигнуты — технология активно развивается последние 3 года.
Чтение же производится с помощью камеры, улавливающей искажения в пучке света, пропускаемом через стёклышко.
Короткая и наглядная демонстрация принципа работы (3 минуты)
Вводная техническая лекция (25 минут)
На фото: proof-of-concept работы технологии. На стекле записан оригинальный “Superman” 1978-го года объемом более 75 гигабайт.
Сиолошная 2023-11-02 05:53:39
Пока готовил другой пост, наткнулся на Ted Talk от Luis Von Ahn. Он — гватемалец, которому повезло получить хорошее образование из-за усилий матери-одиночки, затем он уехал учитьcя в США и получил PhD, стал профессором.
Luis Von Ahn долгое время был озабочен вопросом того, как можно сделать образование более доступным. И к тому же ещё надо ответить на два вопроса: чему учить и как учить эффективно?
Ответ на вопрос "чему учить" получился "иностранным языкам", и вот две причины, на которые ссылается рассказчик:
— большая аудитория (2 миллиарда людей учат иностранные языки, при этом примерно 80% из них изучают английский)
— знание англйиского может увеличивать доход человека. Само по себе знание, например, математики не даёт такого эффекта: нужно её учить, чтобы потом учить физичку, чтобы потом стать инженером в промышленном строительстве. С англйиским такие цепочки короче. Официант в обычном кафе -> официант в международном отеле.
Получается, хорошая точка входа. А вот вопрос "как учить эффкективно" менее тривиален. С самых первых дней хотелось использовать смартфоны, так как предвиделось их масштабное распространение — у каждого он был бы в руках. С другой стороны, приходится соревноваться не с другими приложениями по изучению языков, но и...с социальными сетями. Поэтому Ted Talk и называется "How to Make Learning as Addictive as Social Media".
В дело пошли грязные приёмы, которые используют тиктоки и фейсбуки. Появилась геймификация, дневные стрики, етц — не потому, что компания злая и хочет замкнуть вас на своё приложение, а потому что иначе невозможно соревноваться, и пользователи просто забивают на обучение. Подробнее про влияние таких фичей на рост пользовательской базы можно почитать в детальном разборе акулы продуктовой разработки Lenny Rachitsky: How Duolingo reignited user growth. Да-да, история выше — про того самого зелёного совёнка с пассивно-агрессивными наклонностями
Ещё Luis рассказал интересную шутку. Они обучали модели машинного обучения (в народе — "AI"), чтобы определять, когда отправлять уведомления пользователям, чтобы напомнить об уроках. В итоге миллионы долларов, потраченных на исследования, показали, что лучшее время для отправки — ровно через 24 часа после последнего захода. Если вчера в 15:00 вы были свободны — вероятнее всего, вы и сегодня в это время свободны. От такой простой трюк. Интересно, уволили ли ответственных
Сиолошная 2023-11-01 18:39:33
Тут в Twitter умелец запилил игру «Angry Pumpkins 🎃» по мотивам классической Angry Birds, но к Хэллоуину. Фишка в том, что всю работу делали генеративные модели. GPT-4 писала код, а Midjourney / DALLE рисовали графику. Всего 600 строк кода, а там даже редактор уровня есть — можно отстроить своё гнездо и попытаться его разбомбить!
Комментарий автора проекта:
— Должен признаться, я искренне потрясен. Я верю, что мы живем в исторический момент, который до сих пор видели только в научно-фантастических фильмах. Это эпоха новых рабочих процессов, позволяющих создавать что угодно, используя только естественный язык, и это изменит мир, каким мы его знаем.
Мой комментарий:
Я не смог быстро понять, есть ли у автора опыт в программировании, но как мне кажется это не важно. У наших детей будет GPT-N+1, которая будет куда реже делать ошибки, и схватывать смысл слов на лету. Можно будет уже со средней школы начать экспериментировать не только с наколеночными играми, но и полноценными оригинальными проектами. В ближайшее время нейронки не заменят игроделов, но позволят новым людям вкатываться куда быстрее, да ещё и на дизайне/арте экономить
Играть тут (работает только в браузере компьютера, без смартфонов)
Прочитать детальный гайд от автора тут (внутри промпты для генерации графики)
CGIT_Vines 2023-11-01 07:58:05
Мы приближаемся к диффузии в реальном времени. Real-Time-Latent-Consistency-Model.
Я запустил это примерно в 6 fps, просто из браузера со своего телефона, потому что стримится все равно с сервера.
Экспериментируйте с промптами и скидывайте свои результаты в комменты.
Попробуйте тоже, только дайте разрешение камеры на съемку. Сервер правда частенько лежит из-за наплыва желающих, но вы пробьетесь, я знаю!)
Неплохое начало для понедельника.
Тестить тут.
Сиолошная 2023-10-31 15:19:56
(а ещё подписывайтесь на канал Андрея)