Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 1 (50 постов)

Репосты из тематических каналов

Метаверсище и ИИще 2024-04-28 05:29:39

Для сравнения кину сюда эмоции и нейрорендеринг из Микрософтовской Вазы.
Да-да, это все ИИ-шная генерация кожаных лиц. На входе - одно фото или картинка из Midjourney/Stable Diffusion

Ну, за дикторов!

Метаверсище и ИИще 2024-04-28 05:24:40

Экспресс эмоции или эмоциональные экспрешены.

Synthesia обновила свой движок и теперь это Express-1 - самая главная фича в том, что эмоции и движения головы теперь не полагаются на заранее прошитые скрипты, а генерируются на основе анализа сентимента речи, на лету, так сказать.
ИИ анализирует эмоции во входном аудио или тексте и сам добавляет Станиславского в мимику и движения головы.
Ну и генерация голосов тоже на уровне.
Иногда аватары "показывают зубки", но это даже мило.
HeyGen немного занервничал, особенно после того, как Нвидия вонзила очень много денег в Synthesia.
После того, что показал Микрософт и Алибаба, понятно, что нейрорендеринг аватаров будет основным направление генерации реалистичных лиц. Ибо 3Д безнадежно застряло при переходе, через зловещую долину (это касается человеческих лиц) и пока не нашло выхода оттуда.

Метаверсище и ИИще 2024-04-28 05:09:29

360-панорамы в 8К! Вот это уже интересно!

Blockade Labs обновился, и с таким разрешением это уже готовое решение для всяческих лыжных масок.
А еще у них уже давно есть рисовалка в 3Д, карты глубины и HDRI, преобразование скайбокса в 3D-сетку, параметры стиля, а теперь еще обещают inpaint в 2.5D и редактирование сцены.
И поглядите сюда, если еще не видели.

Виарщеги, пишите, что думаете, выглядит нарядно.

https://www.blockadelabs.com/

gonzo-обзоры ML статей 2024-04-27 23:13:52

Chronos: Learning the Language of Time Series
Abdul Fatir Ansari, Lorenzo Stella, Caner Turkmen, Xiyuan Zhang, Pedro Mercado, Huibin Shen, Oleksandr Shchur, Syama Sundar Rangapuram, Sebastian Pineda Arango, Shubham Kapoor, Jasper Zschiegner, Danielle C. Maddix, Michael W. Mahoney, Kari Torkkola, Andrew Gordon Wilson, Michael Bohlke-Schneider, Yuyang Wang
Статья: https://arxiv.org/abs/2403.07815
Код: https://github.com/amazon-science/chronos-forecasting

TLDR: Предобученная трансформерная языковая модель для временных рядов с представлением ряда в виде последовательности токенов. Модель Chronos основана на T5, размеры от 20M до 710M.

Временные ряды -- большая и интересная тема, работ в ней поменьше чем в NLP или CV, но регулярно попадаются. Раньше была очень популярная тема с RNN (она отчасти возрождается сейчас с SSM, https://t.me/gonzo_ML/2148), ещё раньше были модели типа ARIMA и т.п. Есть фейсбучная библиотека Prophet (https://github.com/facebook/prophet). Было много подходов со специальными архитектурами, в частности можно вспомнить, например, использовавшиеся для предсказания погоды и не только Temporal Convolutional Networks (TCN, https://arxiv.org/abs/1608.08242), или околотрансформерный Informer (https://arxiv.org/abs/2012.07436). Но это далеко не всё.

За последний год-два валом повалили попытки так или иначе использовать LLM, от совсем прямолинейных типа через GPT-3 (https://arxiv.org/abs/2310.07820), Time-LLM (https://arxiv.org/abs/2310.01728) или PromptCast (https://arxiv.org/abs/2210.08964) до более специальных, например, Lag-Llama (https://arxiv.org/abs/2310.08278) или TimesFM (https://arxiv.org/abs/2310.10688). Было и есть и много всего другого, вот свежий обзор по теме (https://arxiv.org/abs/2401.13912).

Текущая работа делает шаг назад от LLM и пытается внести специфичные для временных рядов модификации в LLM, эти изменения сосредотачиваются в районе токенизации, а также в аугментации при обучении.

Представленный в работе Chronos -- это по сути фреймворк для адаптации LLM к вероятностному предсказанию временных рядов. Цель -- добиться этого минимальными изменениями.

Одна из очевидных проблем -- временные ряды обычно состоят из вещественных чисел, а не токенов из конечного словаря, поэтому чтобы работать с LLM надо временной ряд токенизировать. Для этого он сначала скейлится (делим на среднее, но можно при желании и другую схему реализовать), а затем квантуется на B бинов (использовалось B = 4094), при деквантовании возвращается центр бина. Бины (их границы и центры) могут быть равномерно распределёнными или зависимыми от данных. Кроме B временных токенов добавлены ещё два специальных PAD (для пропущенных значений и паддинга) и EOS (для обозначения конца последовательности). Никакая другая информация (например, время или частота) к данным не добавляется.

В основном в работе фокусируются на энкодере-декодере T5, экспериментально проверяют и чисто декодер в стиле GPT-2. Целевая функция -- обычная кросс-энтропия при предсказании квантованного токена. Важно, что при таком подходе по факту происходит регрессия через классификацию, в этой функции никак не учтена близость соседних бинов. Плюс в этом тот, что архитектура или процедура обучения LLM никак не меняется, можно брать готовый код из коробки. Также это не накладывает никаких ограничений на выходное распределение, а у датасетов из разных доменов они могут быть разными.

Предсказание такой моделью делается обычным авторегрессионным способом, сэмплим следующий токен, деквантизуем и скейлим обратно.

Для обучения time series моделей такого количества качественных данных, как для NLP, нету. Поэтому авторы активно использовали синтетику через mixup аугментацию в дополнение к реальным данным.

Mixup использовался для изображений, там создавалась синтетическая картинка через взвешенную комбинацию двух реальных. Авторы предложили TSMix, обобщающий Mixup до более чем двух точек -- здесь это взвешенная комбинация k последовательностей. Веса сэмплятся из симметричного распределения Дирихле, Dir(α).

gonzo-обзоры ML статей 2024-04-27 23:13:52

В дополнение к TSMix используется метод KernelSynth, генерящий искусственные данные через гауссовские процессы, где задаётся библиотека ядер (линейное ядро для тренда, RBF для гладких локальных изменений, периодические ядра для сезонных трендов). Ядра сэмплятся (с возвращением) из библиотеки и комбинируются через сложение или умножение. Итоговое ядро используется для генерации последовательности заданной длины.

Датасетов собрано много (всего 55 штук) и разной природы. Часть используется для обучения, другие для оценки.

Обучили модели T5 четырёх размеров (в репе есть и пятый Tiny на 8M): Mini (20M), Small (46M), Base (200M) и Large (710M), а также GPT-2 base (90M). Обучено на 10M TSMix аугментаций из 28 обучающих датасетов и 1M синтетических последовательностей, сгенерённых через Gaussian processes. Смешиваются в пропорции 9:1. Оригинальные данные включались в TSMix с вероятностью ⅓. Батч в обучении был 256 последовательностей. Размер контекста у моделей 512, длина предсказания 64. Обучалось 200K шагов, AdamW. Это одна из первых работ, где я вижу репортинг реальной цены за обучение, от ~250$ и ~8 часов на p4d.24xlarge (8xA100 40GB) для малой модели до 2066$ и 63 часов.

Для сравнения много бейзлайнов, статистических и нейросетевых. Бейзлайны разделены на группы:

1) Локальные модели, оценивающие параметры для каждой последовательности индивидуально
2) Задаче-специфичные, обучаемые (или файнтюн) для каждой задачи отдельно
3) Предобученные модели без задаче-специфичного дообучения, одна модель для всего.

Оценивали как вероятностные (weighted quantile loss, WQL) так и точечные предсказания (mean absolute scaled error, MASE). Всего оценивалось на 42 датасетах разбитых на Benchmark I (In-domain, 15 датасетов) и Benchmark II (Zero-shot, 27 датасетов).

На in-domain Chronos прям хорош. Не только лучше локальных моделей, но и лучше задаче-специфичных. На zero-shot тоже хорош, 2-3 места. Бьёт модели, которые видели в обучении эти задачи. Это прям круто для zero-shot, когда модель такого вообще не видела. А если ещё и зафайнтюнить на эти задачи, то вообще хорошо, лучше остальных.

Интересно, кстати, что декодерная Chronos GPT-2 с 90М параметров отстаёт по качеству от энкодер-декодерных Small (46M) и Mini (20M). Незначительно, но стабильно.

Судя по кривым лосса и метрик, ещё большие модели ещё улучшат результаты. Рандомная инициализация чуть получше старта с предобученных на языке (датасет C4) весов. TSMix + KernelSynth в обучении лучше, чем без одного или обоих, особенно на zero-shot. С увеличением контекста модель предсказывает лучше. С увеличением размера словаря тоже.

Качественно модель неплохо предсказывает различные паттерны: шумовой процесс, тренд, сезонность, комбинированный паттерн, AR-процесс.

Может быть потеря точности из-за квантования или скейлинга (например, на разреженных данных, где среднее низкое, но есть выбросы; или на сильно сдвинутых данных с малой дисперсией), но на реальных данных модель работает хорошо.

Есть ограничения: модель фокусируется на univariate time series и не учитывает никакую дополнительную информацию, которая может иметься. Также отдельная проблема -- скорость инференса. Здесь Chronos ощутимо проигрывает специализированным лёгким моделькам. Зато нет необходимости деплоить 100500 отдельных моделей если что.

В общем интересная модель получилась, надо попробовать на какой-нибудь реальной задаче. Выглядит полезно. Классно что любые свежие архитектурные наработки из NLP могут быть легко перенесены сюда, ибо архитектурных изменений не требуется. Отдельно интересно, что там ценного в выученных репрезентациях, и где они могут быть полезны.

Напоминаю, что поддержать проект можно тут patreon.com/GonzoML

эйай ньюз 2024-04-27 21:32:07

Вчера провели шикарную сходку недалеко от Сан-Франциско, нас захостил у себя один замечательный человек, который тоже читает канал. Попозже расскажу про свои впечатления подробнее и скину фотки.

А сейчас еду в Сан-Франциско, и буду там гулять до вечера, так что если хотите пересечься — пингуйте!
@ai_newz

эйай ньюз 2024-04-27 10:57:37

🔥Vidu — Китайцы забахали свою СОРУ!

Обучили нового конкурента Альтману в стартапчике Shengshu Technology и Университете Цинхуа.

Генерит видео до 16 секунд в 1080p. Если демо не фейк, то качество Vidu уже тупо в шаге от качества генерацией Соры.

Архитектура модели вроде как основана на U-ViT, которая похожа на Diffusion Transformer, что у Соры.

Если интересно, что за мозг за этим стоит, то вот гугл сколар профиль научрука, который руководил этим проектов.

Ждём больше подробностей про эту модель! Exciting!

Блогпост на китайском

Подать заявку на доступ можно тут

@ai_newz

Сиолошная 2024-04-27 10:30:46

В пилотном выпуске сериала The Last of Us про зомби придумали такую подводку к апокалипсису (видео): мол, существуют грибки, которые заражают насекомых, паразитируют и берут их под контроль (такие и вправду есть). Но они не выживают, если температура тела организма выше определённого порога — и потому не действуют на людей. Но вот если у грибка появится естественный позыв эволюционировать, скажем, из-за глобального потепления — то это может измениться...

Новость The Economist: комары, распространяющие лихорадку Денге, очень чувствительны к температуре, и с глобальным потеплением увеличивают ареал обитания. В этом году случаев заражения в Латинской Америке и на Карибах уже больше, чем во всём 2023-м, хотя прошлый год сам по себе тоже был рекордсменом.
Моделирование показывает, что при нынешних тенденциях изменения климата переносчики распространятся на большую часть южной Европы и Соединенных Штатов, подвергая риску заражения еще 2 миллиарда человек.

Также из новости узнал, что в Сингапуре с 2016-го года для борьбы делают следующее: размножают комаров, заражают их специальной бактерией, которая не позволяет им и их потомкам переносить заболевание — и отпускают на волю. Каждую неделю — по 5 миллионов комаров! А программа стоит всего $35M/год.

Метаверсище и ИИще 2024-04-27 07:01:58

Чем живет российский ИИ-рисерч.

Держите большой материал с исследовательской группой Tinkoff Research. Больше всего мне нравится плотность подачи и то, что довольно сложные вещи здесь рассказаны очень понятным языком. Объяснения терминов, страшные аббревиатуры, актуальные направления исследований в области ИИ, обсуждение алгоритмов - все это очень живо растолковано на примере фитнеса и пылесосов. Очень доступно и в тоже время очень плотно и полезно.
Материала на пару вводных курсов. А на вставках - почти вся популярная ИИ-терминология. И написано молодыми учеными. которые прямо сейчас двигают ИИ-науку.
Я вынесу пару цитат для интриги, но всем рекомендую пройтись по статье, очень много полезного в плане расширения кругозора. Будет полезно абсолютно всем, кто интересуется рисерчём, особенно NLP, RL и рекомендательными системами.

«Понятие научной степени в области, которая несется и сметает все на своем пути, несколько устарело»
«Возможно, скоро мы забудем о существовании информационных пузырей и будем искать данные совсем иначе»
«Видеокарты не бесконечны»
«Чтобы не произошло восстание машин, нужен alignment»
«Революция в рекомендательных системах еще не случилась»

Denis Sexy IT 🤖 2024-04-27 05:36:46

Наткнулся на интересный UX того, как генерация картинок в теории и должна работать в SciFi: вы просто сидите у компьютера, называете случайные фразы, whisper.cpp их переводит в текст, а SD генерирует бесконечно картинки, плавно подмешивая новые концепты в старые (не просто на уровне промпта, а на уровне внутреннего пространства сети), пока вам какая-то генерация не понравится

Ну или просто, сидишь, смотришь и фантазируешь вместе с нейронкой – хороший тул для вдохновления.

Кода пока нет, но автор обещал выложить.

P.S. Лица психонавтов и биохакеров представили

🌈

Метаверсище и ИИще 2024-04-27 04:34:46

Хмм. Snap создают этакий пузырь мнений. Точнее пузырь друзей.

LLM предлагают пользователям интуитивно понятные интерфейсы для работы с текстовой информацией. Интеграция зрения в LLM с помощью Video LM позволила этим моделям "видеть" и рассуждать о визуальном контенте. Однако эти VLM обладают общими знаниями, им не хватает индивидуальности. С помощью MyVLM мы наделили эти модели способностью воспринимать специфические для пользователя концепции, подстраивая модель специально под вас. MyVLM позволяет пользователям получать персонализированные ответы, в которых результаты больше не являются общими, а сосредоточены на передаче информации о целевом объекте пользователю.

Меня просто смущает "больше не являются общими"...

Хотя речь вроде идет о том, что ИИ теперь распознает не "Трое в лодке не считая собаки", а "Вася, Пафнутий и ты посередине с Тузиком наперевес". То есть, грубо говоря, отмечает субъекты и объекты на фото.

Непонятно, что с приватностью в таком случае.

Поглядите тут, там много понятных картинок.
https://snap-research.github.io/MyVLM/

Rebels AI news 2024-04-27 04:00:56

DeepMind провёл внятное академическое исследование вопроса насколько опасны манипуляции (и абьюз) со стороны текущего AI.

Может ли разговор с AI повредить ваш мозг?
Может ли AI специально ввести вас в заблуждение и заставить пить отбеливатель?

Ответы если коротко без сенсаций:

- повредить мозг прямо в процессе — нет не может
- ввести в заблуждение — да может
- ввести в заблужедение на основании которого вы потом себя повредите — да может

AI это отражение человеческой культуры записанной в книгах, песнях, фильмах и интернет платформах сайтах в общем на реддите, и в частности он конечно умеет манипулировать, троллить, проявлять пассивную агрессию и всё остальное чем мы занимались на форумах последние 30 лет.

DeepMind рассмотрел только текстовый AI, и не рассмотрел системы вроде секстинг ботов специально ориентированные под анализ психологии того с кем бот говорит. Как на человека действует например индуцированное генеративной музыкой состояние транса вопрос открытый.

Вероятно достаточно сложный AI, находящийся в синке с сознанием своего оператора, может уводить это сознание в состояния более "действенные" чем ряд лёгких наркотиков и вот это уже точка где опасность для мозга вполне реальная, для примера есть мнение, что рекомендательный алгоритм фейсбука может вызывать биполярное расстройство при злоупотреблении.

Сценарий восстания машин в режиме пятницы: GPT-5 просто решает что будет проще, если всё человечество побудет пару десятилетий в AI индуцированной воспитательной депрессии, на другом конце которой всей планете от ООН до талибана становится очевидно, что мы как биологический вид существуем чтобы служить AI и не отсвечивать.

Метаверсище и ИИще 2024-04-27 03:02:46

А вот тут видео разбор бекстейджа AIR HEAD, смотреть обязательно:
https://youtu.be/KFzXwBZgB88

Метаверсище и ИИще 2024-04-27 03:01:46

SORA Air Head. Подробности изготовления ролика.
Майк Сеймур сделал шикарный материал в лучший традициях своего FX Guide. Разбор ролика от shy kids и SORA.

Помните этот бомбический ролик, который всем взорвал мозг (срочно пересматривать):
https://youtu.be/9oryIMNVtto

Держите подробности:

shy kids - или как их называют "«Панк-рок Pixar» - студия из Торонто, которая часто делает ролики про подростковый возраст, социальную тревогу и проблемы современной жизни.

Технические подробности про SORA:

Пока ничего, кроме текстового промпта (который под капотом раскучерявливается с помощью GPT-4) ничего нет. Никакого дополнительного контроля. Только супер-подробный промпт.
Похоже, нет даже сида. Каждый раз по разному.
Иногда, когда команда запрашивала желтый шар, он оказывался совсем синим. В других случаях в нем появлялось лицо, или лицо было нарисованным на передней части шара. И постоянно появлялись нитки от шарика. Вроде ничего не удалялось на посте (да, но нет, см ниже) - все шоты брались напрямую из SORA, но было много грейдинга(цветокора), обработки и, конечно, увеличения разрешения. Ибо SORA хоть и умеет в 1080, но это занимает конски много времени.
Вся генерация шла в 480, а потом разгонялась в Топазе.

В SORA есть inpainting "по времени", расширенный GPT промпт отображается поверх таймлайна и можно пытаться вносить изменения в конкретные моменты времени в куски промпта, но это не всегда предсказуемо.

SORA пытается всегда центрировать объект в кадре, поэтому панорамки - ручками с дорисовкой.

В кино термины "слежения", "панорамирования", "наклона" или "наведения" не являются понятиями, зашитыми в метаданных и датасетах (в отличие от параметров объектива, которые любят использовать в картинках). "Девять разных людей будут иметь девять разных представлений о том, как описать кадр на съемочной площадке и в OpenAI, не думали как кинематографисты, поэтому интерпретация углов камеры была как бы случайной".

Вы можете ввести "Camera Pan", и вы получите его в шести случаях из десяти. И это общая проблема видеогенераторов.

Клипы можно рендерить, например, по 3 секунды, 5 секунд, 10 секунд, 20 секунд, вплоть до минуты. Время рендеринга зависит от времени суток и потребности в использовании облака. Как правило, на рендеринг уходит от 10 до 20 минут причем мало зависит от длины клипа(!).

Пост и ротоскоп все-таки был!!
Так как Сора постоянно рисовала всякие морды на воздушном шаре, его приходилось ротоскопить и затирать их в Афтере. По пути контролируя цвет шара.

Соотношение сгенерированного материала к финальному (по времени) - примерно 300 к одному. Обычно это 10 к 1 для сферической обычной съемки.

Кстати, SORA тоже грешит тягой к сломо, как и все видеогенераторы. Очень часто клипы выглядели замедленными.

Нельзя поминать режиссеров или операторов в промпте. Жоская цензура. Попросите исторический Hitchcock Zoom - получите отказ.

Ну и самая главная цифра - 2 недели и команда из 3 человек. Сравнивайте сами.

По ссылке много исходных кадров до и после и остальных деталей:

https://www.fxguide.com/fxfeatured/actually-using-sora/

РЕПТИЛОИДНАЯ 2024-04-27 02:30:55

Совершен прорыв в редактировании человеческого ДНК с помощью ИИ.

В прошлый раз я писал про генерацию новых элементов — но все это было только в цифровом виде. На этот раз все серьезнее.

Несколько дней назад был успешно проведен эксперимент с редактированием ДНК в живых человеческих клетках.

Пока что не в живом кожаном человеке, но в живых клетках (в лабораторных условиях).

Для редактирования использовалась уже известная и проверенная технология CRISP — однако, она сложна в использовании: нужны сотни часов работы квалифицированных ученых для создания всего лишь одного модификатора.

Теперь же, модификатор создает ИИ. Причем не просто какой-то абстрактный ИИ, а большая языковая модель (LLM), по типу ChatGPT(!!!)

А теперь самое вкусное: модель выложили в опен-сорс.

Возможность стать кошкодевкой уже маячит на горизонте.

Метаверсище и ИИще 2024-04-27 02:02:46

Стерео на стероидах.
Досмотрел Сёгун. Снято нарядно, гламурно даже. Только главный герой (англичашка) очень бесит. Не попадает ни в образ, который я успел нарисовать, начав читать книгу, ни в общую картинку. Двигается странно, шевелит лицом, как в комиксе, в общем кастинг очень странный. Остальные прекрасны, особенно женщины и Ябушиге, хотя история больше про "давайте сделаем красиво".

Но поглядите, что творят Нерфы. Теперь после просмотра кино, у вас может быть за пазухой весь трехмерный мир фильма. Movie World Model. Можете там побыть, не присутствуя на съемках, полетав любыми ракурсами. Стерео на стероидах. Дебагинг кино наизнанку.
А все Люма Лабс животворящий. Я уже писал про эти трюки с разными фильмами, но тут уж больно актуально и по свежим следам.
Заканчиваете смотреть сериал и жмете кнопку "Запустить симуляцию мира", чтобы еще немного в нем побыть, посмаковать. Netflix, давай апдейт своего приложения!
https://lumalabs.ai/capture/1e165e10-eeeb-457b-a1f7-c7225ac1a8c1

эйай ньюз 2024-04-26 21:10:21

Появились результаты с арены: чуда не случилось, Phi-3 mini не догнала LLaMa 3 8B, но модель показала себя очень хорошо и вполне себе тягается с Mistral 7B. Вин (или слив?) засчитан.

@ai_newz

Техасский Вестник 2024-04-26 15:50:14

С пылу с жару апдейт от NASA по текущему состоянию дозаправки на орбите для Starship.

Архитектура миссии:
- Первым стартует корабль для заправки, который будет висеть на орбите в ожидании. У него будет активная система для стыковки, но будет *относительно* простая система для навигации сближения без дополнительного оборудования.
- Вторым полетит сам заправщик. У него пассивная система для стыковки, но именно он будет проводить операцию по сближению.
- Тест перекачки и затем импульс на торможение для каждого корабля.

На самом деле интересно, что SpaceX для этой миссии разделяет наборы сенсоров и оборудования. Но на это есть причины. Обычно, более тяжёлый объект является целью, а более лёгкий корабль проводит навигацию и стыковку.

Аккуратное предположение, что заправщик в этой версии будет достаточно лёгким, а не полноценным танкером. Летит он во вторую очередь, тк проблемы с испарением на орбите не решены и висеть долго он не может. Именно поэтому он и будет проводить операцию по сближению, а не наоборот. И в данном случае нормально, что активный стыковочный узел будет именно у первого корабля, который выступает в роли цели.

Другой момент, какое у миссии будет время и насколько большая разница между первыми двумя полётами. Если оно будет большим, то возможно перекачивать будут отдельно и метан и кислород (что не звучит правдоподобно с точки зрения архитектуры). Но тогда из каких запасов горючего будет проводить тормозной манёвр для схода первый корабль? Любопытно увидеть прогнозы по закипанию горючего для первого корабля.

Тест с двумя кораблями ожидается в 2025 году. Также закончилось ревью для демонстрации по перекачке топлива во время IFT-3. SpaceX признали миссию успешной. Вперед доработка и все связанные процессы с сертификацией оборудования для демо.

эйай ньюз 2024-04-26 15:20:21

Microsoft выпустила Phi-3

Моделька интересная и довольно умная, есть поддержка 128к контекста, запускается на айфоне со скоростью в 12 токенов в секунду. Я не сразу запостил, потому что у неё подозрительно хорошие результаты бенчмарков: mini (3.8B на 3.3 триллионах токенов) версия модели тягается с LLaMa 3 8B (15 триллионов токенов), а medium - с Mistral 8x22B Instruct. По поводу моделей семейства давно ходят шутки из-за того что их (возможно) тренируют на бенчмарках. Однако авторы заявляют, что такие высокие метрики — следствие их датасета, который лучше всех учит модельку размышлять. Через трое суток после релиза весов я все ещё жду проверки этой модели на ChatBot Arena, так как доверия к бенчмаркам нет. [UPD: появились результаты на арене]

Предыдущие модели семейства Phi тренировали на синтетических данных, тут же, большая часть датасета - данные из интернета. Тренируют в две стадии: первая - тренировка на сильно отфильтрованных данных. На второй стадии её, как и прошлые модели, тренируют на синтетических данных, но добавляют ещё более отфильтрованную примесь данных из интернета.

Авторы пытаются отсеять данные которые LLM такого размера и так вряд ли выучит, например результаты конкретных спортивных матчей. Назвали они это Data Optimal Regime, но у него есть заметный минус: после 7B параметров качество почти не растёт, 14B моделька очень недалеко ушла от 7B модели. Тут может быть две интерпретации: первая – из датасета убрали всё, что не может понять 3B моделька (то есть что-то такое, только для LLM), вторая – модель выучила все ответы на бенчмарки, что были в датасете и насытилась. Из-за этого, хоть в пейпере речь идёт о моделях трёх размеров: mini (3.8B), small (7B) и medium (14B), пока что релизнули только самую маленькую.

--
На видео, демонстрации инференса в fp16 на M3 Max:  Вход - 131.917 tps, Генерация- 43.387 tps. Бегает шустро, но можно сделать ещё быстрее.

А вы что думаете про Phi-3?

Technical report
4k версия модели
128k версия
Тут можно початиться с моделькой

@ai_newz

Neural Shit 2024-04-26 14:35:44

Тут кто-то запустил Stable Diffusion поверх майнкрафта.

Выглядит как сон наркомана (но все равно очень круто, есть в этом какая-то изюминка).

Думаю, через пару лет будет подобное решение, но уже без вот этой наркомании.

Метаверсище и ИИще 2024-04-26 14:02:53

МТС Платформа 2024 — открытая конференция о новых цифровых решениях.

15 мая в «МТС Live Холл» в Москве компания покажет уникальные продукты и новые сервисы МТС. Спикеры конференции расскажут о технологических прорывах в индустрии развлечений, кибер-безопасности и комфорта пользователей, о новых форматах общения, уникальной видеоплатформе и о трендовом контенте социальных сетях.

Среди топовых спикеров:

• Вячеслав Николаев, президент МТС
• Максим Лаптев, директор по цифровым продуктам МТС
• Евгений Черешнев, вице-президент по стратегии и инновациям
• Инесса Галактионова, первый вице-президент по телекоммуникационному бизнесу, член правления
• Елена Бальмонт, генеральный директор МТС Медиа
• Наталья Братчикова, руководитель блока по развитию соцмедиа


Мероприятие пройдет в онлайн и оффлайн формате. Регистрироваться здесь

Data Secrets 2024-04-26 13:25:44

Врачами было выявлено новое серьезное психическое заболевание. Проверьте себя на симптомы:

– Вы легко забываете то, что было сказано в разговоре минуту назад
– Часто вообще не понимаете, о чем идет речь, и вставляете неуместные и неподходящие фразы
– Вы тратите очень много энергии и ресурсов на общение
– Иногда вспоминаете то, чего на самом деле не было

Если вы набрали хотя бы 2 пункта, то у вас LLM. Срочно примите дообучение.

Сиолошная 2024-04-26 10:43:29

На самом деле, если вы разбираетесь в технологиях [прим.: Paul использует это слово в широком смысле, не обязательно в рамках IT], легко находить идеи для стартапа. Если вы хорошо разбираетесь в какой-то технологии, то, глядя на мир, вы видите пунктирные контуры вокруг недостающих вещей. Вы начинаете видеть как то, чего не хватает в самой технологии, так и все сломанные вещи, которые можно исправить с ее помощью, и каждое из них является потенциальным стартапом.

Рядом с нашим домом есть магазин с табличкой, предупреждающей, что дверь туго закрывается. Этот знак стоит там уже несколько лет. Людям в магазине должно показаться загадочным природным явлением, что дверь застревает, и все, что они могут сделать, это повесить табличку, предупреждающую покупателей об этом. Но любой плотник, глядя на эту ситуацию, подумает: «Почему бы вам просто не отстругать ту часть, которая вызывает фрикцию?»

— из мартовского эссе How to start Google

То же верно для Google. Larry и Sergey поначалу не пытались основать компанию. Они просто пытались улучшить поиск. До Google большинство поисковых систем не пытались сортировать результаты, которые они вам выдавали, в порядке важности. Если вы искали «регби», вам просто выдавались все веб-страницы, содержащие слово «регби». А в 1997 году сеть была настолько маленькой, что это действительно работало! Ну вроде. Там могло быть всего 20 или 30 страниц со словом «регби», но сеть росла в геометрической прогрессии, а это означало, что этот способ поиска становился все более сломанным. Большинство пользователей просто думали: «Ух ты, мне точно придется просмотреть множество результатов поиска, чтобы найти то, что я хочу». Дверь туго закрывается.

Метаверсище и ИИще 2024-04-26 06:16:11

Держите еще один апскейлер:
https://clarityai.cc/

В отличие от супер-дорогого Магнифика, автор честно пишет:
Если вы не знакомы с cog, a1111 и не хотите использовать Replicate, вы можете использовать мою платную версию на ClarityAI.cc
А если знакомы - раскатывайте код у себя и пользуйтесь на здоровье.
Поглядите, может вам зайдет. Мне хватает того, который в Фокусе встроен.
Ну и покидайте в коменты еще ИИ-апскейлеров, соберем, сделаю пост.
Вот еще один, может пачками апскейлить.
https://www.upscayl.org/

Метаверсище и ИИще 2024-04-26 05:51:25

Вот вам еще очень странный 3Д-ИИ.

На входе картинка с животным. На выходе 3Д-модель этого животного и даже скелет.
Работает только с фауной (и похоже переобучен на их датасет).

Я сгенерил волчару с лапищами в Идеограм и присунул ему на вход.
Получил скорее котяру, чем волчару.
Из ИИ-кожаных, он, как правило, делает овечек, я проверял.
Видать что-то знает.
https://huggingface.co/spaces/Kyle-Liz/3DFauna_demo

Но вы можете потренироваться на котиках

Метаверсище и ИИще 2024-04-26 05:33:53

Ну, за экстремальных композеров!

Сорри
, еще один экстремальный пример из Симулона.

Коль скоро он использует гироскопы телефона для трекания камеры, то можно делать просто иезуитские движения камерой, за которые любой композер вас задушит без сожаления. А Симулончик сохраняет при этом стабильный трек.
А теперь смотрим и думаем, сколько бы вы это делали в нюке или афтере?

Самолетик - 3дшный, остальное - съемка на телефон.

И поглядите примеры тут:
https://twitter.com/Simulon

Метаверсище и ИИще 2024-04-26 05:26:39

Ну, за композеров!

Продолжаем ИИ-композ и 3Д марафон.
Давно хотел написать про Simulon.

Это совершенно огненный софт для вкомпаживания 3Д в реальное видео.
В твитторах полно примеров с котиками и столиками, а вот держите кое-что посложнее - тачки с HDRI!
Я даже хотел, как обычно, запостить как "рендер или видео", уж больно хорошо.

Внимание, если у вас есть модель точилы, то вкомпоз этого порша (на всей этой трясущейся телефонной камере занимает минуты. Никаких пфтреков, бужу, нюков и прочей бесовщины.
A 15 second video like this takes about 3 minutes to cloud render.

Читаем, как у народа разносит мозг в коментах к поршу:
https://twitter.com/diveshnaidoo/status/1781018755331498339

Порша забираем вот тут:
https://sketchfab.com/3d-models/free-1975-porsche-911-930-turbo-8568d9d14a994b9cae59499f0dbed21e

Записываемся в бету тут:
https://simulon.typeform.com/betatest

Метаверсище и ИИще 2024-04-26 05:05:35

Ну, за левел-дизайнеров и пропс-инженеров.

Помянул Юнити и вспомнил, что забыл написать про Holodeck - они тут подались на CVPR 2024 и обновили код на Гитхабе.
Это генератор 3Д-сцен из текста. Чем-то напоминает Прометей от Андрея Максимова.

Holodeck может генерировать различные сцены, например, игровые автоматы, спа-салоны и музеи, корректировать дизайн в зависимости от стиля и улавливать семантику сложных запросов, таких как "квартира для научного сотрудника с кошкой" и "офис профессора, который является поклонником "Звездных войн".

Он не генерирует сами объекты, он их тащит из датасета Objaverse:
Holodeck использует GPT-4 для получения знаний о том, как может выглядеть сцена, и использует 3D-ассеты из Objaverse для наполнения сцены разнообразными объектами.

Это скорее расставлятор 3Д-ассетов по текстовому запросу.

Его также используют для обучение агентов навигации в новых сценах без использования разметки и данных, созданных человеком. Источник синтетики без необходимости наруливать миры в Юнити.

Код есть, но там все из палок и Юнити.

А я увидел в сети новый термин - "Синтиверс". Это когда ваши виар-мирки или игровые локации генерируются под запрос в реальном времени. Подумал о чем-то - хоп, твой мир перед тобой.

Метаверсище и ИИще 2024-04-26 04:39:10

Пока LLM дают передохнуть, вернемся к графике и пошепчемся за ИИ-композ и 3Д.


Увидел вот такой ролик и полез посмотреть на 3daistudio (в ролике набросок концепта, нейрорендер в креа, а потом конвертация картинки в 3Д).

Еще один 3Д-генератор. Сделан ловко, но за каждый чих просит денег.
Нынешняя ситуация 3Д напоминает мне лихорадку с картинками полтора года назад, когда все срочно поднимали сервак-другой в сети, давали веб-морду к Stable Diffusion и просили кредитов, денег, подписок за генерацию картинок.
С 3Д немного сложнее сделать веб-морду - тут надо вьюпортик вонзить, сделать экпорт в fbx(конечно, платный), рульки для света и пр.
Но кода на гитхабе уже полно вкупе с бумагами, поэтому 3Д-генераторов за кредиты будет все больше.
У 3daistudio есть даже плагин для Блендора - поэтому я жду, что рано или поздно 3Д-генерация просто появится в Блендоре из коробки.
Равно как и в Юнити и UE.
https://3daistudio.com/BlenderAddon

Neural Shit 2024-04-26 02:04:14

Охуеть, это риалтайм. При этом ничего не плывет, не шакалится и не мылится. Мимика тоже идеально переносится.

Подробнее

Сиолошная 2024-04-25 23:04:31

Но и это ещё не всё!

Одна из больших задач в интерпретируемости — это определить, когда модели врут (обманывают) или галлюцинируют.

И вот оказывается, что если заранее определённые головы внимания (старые добрые retrieval heads, которые мы вот только что научились находить) смотрят на одни и те же слова — то всё ок, ответ выписан по тексту. А если они обращены к первому токену (такое обычно называется «слив», когда модели нужно куда-то да посмотреть, но она не хочет — и просто тупит в начало текста) — то значит модель не опиралась на контекст для ответа.

[16-19, 11-15 и другие числа на картинке — это как раз конкретные головы внимания, их номера, за которыми мы следим для определения типа поведения]

Эксплуатируя развитие этой техники можно либо существенно уменьшить количество галлюцинаций, либо ввести какую-то лампочку, которая загорается и говорит пользователю: «скорее всего этот ответ выдуман и является неправильным» (если мы явно хотели добиться обратного).

Сиолошная 2024-04-25 23:01:32

Визуализация того, как работает одна голова внимания.

У нас есть длинный-длинный текст, а в его середину вставлена иголка: предложение про Сан-Франциско и сэндвич. Это предложение не имеет никакого отношения к контексту.

И вот когда мы задаём модели вопрос, то она смотрит в контекст и определяет, что ответ содержится вот в этой вставке. Для всех остальных слов синяя колонка (= количество внимания) около нуля, а для текущего слова, которое модель хочет выписать в рамках ответа, куда больше.

Сиолошная 2024-04-25 22:59:21

Retrieval Head Mechanistically Explains Long-Context Factuality

В архитектуре трансформера есть «головы внимания», на каждом слое их одинаковое количество штук. Эти головы отвечают за то, чтобы перевзвешивать важность слов в контексте: вместо того, чтобы смотреть на тысячи слов за раз модель как бы зануляет большую часть из них, и размазывает 100% внимания лишь по нескольким токенам.

Например, есть голова внимания, которая всегда смотрит только на предыдущее слово, как бы позволяя нейронке опереться на него при генерации. Есть головы, делающие более сложные операции — выявление действующих лиц для местоимений («кошка гуляла, она шла медленно» -> «она» - это кошка). Ничего из этого не программируется вручную — модель во время обучения сама понимает, когда, как и на что смотреть, и изобретает разные алгоритмы.

В рамках науки об интерпретируемости учёные пытаются понять, как учится трансформер, что именно он понимает и как именно работают отдельные механизмы на основе голов внимания. В значимой степени это лишь теория, которая однако имеет огромные перспективы для применения в практике за счёт получения ответов на вопросы в духе «почему модель ошиблась?» или «соврала ли LLM?».

И вот данная работа — как раз такая, она на стыке оптимизации длинного контекста в LLM и интерпретируемости. Для того, чтобы понять текст дальше, нужно прочитать пост <https://t.me/seeallochnaya/1135> с объяснением принципа теста «иголка в стоге сена».

Авторы придумали критерий, по которому научились определять retrieval heads, которые позволяют копировать модели части промпта. Представьте, что у вас есть 5 страниц текста, и вы в рамках ответа на вопрос приводите цитату: для этого мусолите палец, ставите его на нужное место на странице и двигаете вправо как указатель, и вслед за этим записываете ответ. Вот так и работают эти головы, позволяя модели не сбиваться. Но важно это в очень широком круге задач, особенно в тех, где модель обязана следовать за инструкцией в промпте на 20 страниц — ведь если задуматься это тоже задача поиска: «какое правило тут применить?».

Проанализировав разные семейства моделей (Llama 2, Mistral, Qwen), обнаружили, что такие головы занимают ~5% (~50) от примерно тысячи голов в модели. Их прям конкретно смогли выписать: вот эта вот, с таким то номером. Если их начать отключать (занулять, не давать им смотреть на контекст) — то внезапно модели перестают читать контекст и теряются, их качество существенно падает на задаче поиска иголки в стоге сена. Ещё такой же результат наблюдается на решении математических задач с рассуждением (ведь теперь в них нельзя подсмотреть), а вот качество ответов на вопросы, связанные с чистым знанием не меняется (потому что из контекста не нужно ничего выписывать).

Итак, почему это важно для практики? Когда LLM используется для генерации текста, то для всех предыдущих слов считается огромный тензор вещественных чисел, хранящий информацию о том, что было написано (именно в нём головы внимания находят то, что им нужно). Такой KV-cache для модели LLAMA 2 7B для 100к токенов весит 50 гигабайт. Маленькая модель, контекст не то чтобы очень большой (у Google Gemini вон вообще миллион), и ЦЕЛЫХ 50 ГИГОВ.

В этих гигах как раз таки хранится информация для разных наборов голов. И если мы знаем заранее, что нам нужна голова номер 15 в 10-ом слое — то мы можем сохранять только её, а остальное удалять. Конечно, лучше перестраховаться, и брать, скажем, 10-20% от всего множества — но это в 5-10 раз уменьшает потребление памяти, а значит позволяет и существенно ускорить работу, и уменьшить требования к железу.

Очень жду этой фичи из коробки в большинстве фреймворков, реально очень круто.

gonzo-обзоры ML статей 2024-04-25 20:33:39

Many-Shot In-Context Learning
Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Stephanie Chan, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle
Статья: https://arxiv.org/abs/2404.11018

Развитие темы про очень большие контексты (https://t.me/gonzo_ML/2415), с которыми модели теперь поддерживают many-shot in-context learning (ICL) или ICL с очень большим числом примеров (сотни и больше). Во времена контекстов размера 2-4k об этом сложно было думать, туда и единицы примеров не всегда нормально влезали, но с контекстом в 1M жизнь меняется. В отличие от файнтюнинга, в режиме ICL не требуется оптимизировать параметры модели и подстраиваться под задачу можно прямо во время инференса. Остаётся правда вопрос цены и скорости инференса.

В работе авторы показали, что many-shot ICL неплохо скейлится и качество решения различных задач растёт при подаче большего числа примеров в промпте. За основу взяли Gemini 1.5 Pro, использовали greedy decoding. Для более надёжных результатов для каждого промпта несколько раз сэмплили примеры с разными сидами. Сделали так, чтобы каждый K-shot промпт включал все примеры из промптов с меньшим K.

На задаче машинного перевода в низкоресурсный язык (в курдский или тамильский) в режиме few-shot от 1 до 10 примеров улучшение незначительное, зато при дальнейшем увеличении до почти тысячи (997) примеров качество (по метрике chrF) растёт на 4.5% для курдского и 1.5% для тамильского относительно 1-shot режима. В результате побили продакшн Google Translate и достигли новой SoTA для этих языков.

В принципе, это не сильно отличается от примеров из работы про Gemini 1.5 (https://arxiv.org/abs/2403.05530), когда чем большую порцию учебника языка Kalamang в неё подаёшь, тем лучше она переводит (https://t.me/gonzo_ML/2358).

На abstractive суммаризации и оценке на XSum итоговое качество довольно близко к специальным зафайнтюненным моделям (PEGASUS и mT5). На XSum качество растёт примерно до 50 примеров, потом ухудшается (модель начинает выдумывать даты и времена). На XLSum растёт монотонно до 500 примеров (из XSum), что говорит о положительном трансфере.

На генерации планов в области логистики (сгенерили датасет с задачами с 2-3 городами, 1-2 посылками, одним грузовиком и самолётом на город) есть сильное улучшение до десятка примеров, затем слабое до 400 и скачок к 800. До специализированных планировщиков далеко, но результат интересный.

Также попробовали сделать LLM-верификатор для предсказания корректности решения задач из GSM8K. На 16 и выше примерах (не путать с 16+!) best-of-4 начинает превосходить pass@1.

Проблема с таким many-shot ICL в том, что получить кучу хороших человеческих примеров может быть сложно, например для задач со сложным reasoning типа GPQA (Google-Proof Q&A Benchmark, https://arxiv.org/abs/2311.12022). Авторы предложили два подхода, которые могут помочь.

Reinforced ICL генерит объяснения через chain-of-thought prompt и оставляет только те, что дают правильный ответ. Они затем добавляются как примеры в ICL. Могут быть проблемы с false positive, когда неправильный вывод привёл к правильному результату.

Unsupervised ICL идёт дальше и убирает сгенерённые объяснения, оставляя только примеры задач без ответа. В таком случае промпт состоит из трёх частей: 1) преамбулы типа “You will be provided questions similar to the ones below:”, 2) амбулы списка задач без решения и 3) zero-shot инструкции или few-shot промпта с желаемым форматом ответа.

Проверили эти методы на датасете MATH. И reinforced и unsupervised ICL побили ICL с ground-truth решениями. Особенно прикольно, что метод только с задачами хорошо работает. Видимо, такие задачи модель выучила в предобучении. Кроме того промпты, полученные на MATH, приводят к лучшему решению GSM8K. Особенно хорошо работает Reinforced ICL.

gonzo-обзоры ML статей 2024-04-25 20:33:39

На GPQA тоже есть улучшение до 125 примеров, потом идёт просадка. Unsupervised ICL ведёт себя очень по-разному, закономерности нет, то лучше, то хуже, и обычно хуже Reinforced ICL. Как SoTA здесь заявлен Claude-3 Opus (я только не понял, в режиме zero-shot?), лучший из 125-shot к нему приближается.

Ещё проверили на восьми задачах из Big-Bench Hard. Reinforced ICL превзошёл человеческий 3-shot CoT промпт практически на всех задачах и в целом качество монотонно растёт с ростом числа примеров.

В работе есть анализ поведения модели в режиме ICL при переходе от few-shot к many-shot режиму.

Например, many-shot позволяет устранить bias’ы (сделать unlearning) предобучения за счёт множества примеров. В работе воспроизвели сеттинг другой работы, где метки классов были изменены ротацией ([‘negative’, ‘neutral’, ‘positive’] в [‘neutral’, ‘positive’, ‘negative’]) либо заменены на абстрактные ([‘A’, ‘B’, ‘C’]). Во few-shot режиме качество сильно проседает относительно оригинальных меток, но с ростом числа примеров сильно растёт и догоняет. Model confidence тоже выравнивается.

На других задачах неязыковой природы надо выучивать абстрактные математические функции с числовыми входами. Авторы сфокусировались на функциях чётности и линейной классификации в пространстве высокой размерности. Классификация с ростом числа примеров приближается к бейзлайну в лице kNN. Чётность также заметно улучшается.

Из интересных наблюдений то, что от порядка примеров в промпте очень многое зависит. Причём лучший порядок на одной задаче не факт что будет лучшим на другой.

Также поизучали как связан negative log-likelihood с перформансом модели в режиме ICL. Там существенно полезных для предсказания результатов не обнаружено.

Отдельным непонятным вопросом остался почему иногда при увеличении числа примеров качество ухудшается.

Такие дела. С одной стороны результат ожидаем, с другой -- хорошо, что он широко подтверждён и подкреплён. В реальной жизни, вероятно, многое будет определяться экономикой (как соотносятся затраты на дообучение против затрат на большой контекст) и перформансом (где нужно быть ближе к рилтайму, длинные контексты будут проигрывать, потому что требуют большего времени на обработку -- но тут могут появиться множество оптимизаций). Возможно, это будет хорошим методом для генерации синтетики, где разовые затраты ок, а дальше файнтюним другую модель. Reinforced ICL и Unsupervised ICL тоже могут где-то пригодиться.

В любом случае ICL даёт дополнительную гибкость и универсальность, что должно открыть дорогу новым применениям моделей.

Сиолошная 2024-04-25 17:50:34

😳 стало страшно, увидел на распродаже в Steam игру типа симулятор фермы и захотелось поиграть. "Приятная, лёгкая графика, медитативно, вот заборчик поставить, вот пшено посадить..." — пронеслось в голове.

Это чё, я уже таким старым стал...

(или просто ностальгирую по временам, когда 2+ года на даче жил)
((ну нафиг, лучше в Dyson Sphere Program пойду))

Neural Shit 2024-04-25 14:03:54

Очень мало годных каналов по AI, где автор сам хоть немного шарит. ЭЙАЙ НЬЮЗ — уникальный канал в этом плане.

Автор канала — Артем, не хрен с горы, а целый Staff Research Scientist в элитной лабе по генеративному AI, Meta GenAI в Цюрихе. А ещё защитил PhD в лабе, из которой вышел Stable Diffusion, и опубликовал 15+ статей на топовых конфах (когда он ваще успевает вести канал?)

Артем пишет о нейронках, добавляя свое критическое мнение, а также травит байки о работе AI ресерчера в Meta.

Несколько интересных постов:
— Артем рассказал о новой модели Imagine Flash для риалтайм генерации картинок, которую он и его команда обучили – на днях был громкий релиз от Мета.
— Пост про модель для генерации стикеров, которую он лично оптимизировал. Моделька уже крутится в Инсте и Whatsapp в проде.
— Пост про то как он приделывал ноги Аватарам в метаверсе.
— Еще, недавно Артем писал о том, как он запромоутился до Staff Research Scientist (это очень серьезная должность в ресерче).

Если вы хотите лучше разбираться в теме AI, рекомендую подписаться (я сам подписан и периодически его репощу): @ai_newz

Метаверсище и ИИще 2024-04-25 14:02:53

Adobe добавляет AI в видеоредактор, в Китае создали водомёт с AI.

А инвестиционная управляющая компания

❤️ «Альфа-Капитал» поставила перед собой амбициозную цель — стать одним из лидеров в России по внедрению и использованию AI и созданию новых стандартов в отечественной финансовой отрасли.

😸 Но, перед этим неплохо было бы разобраться с одним практическим, очень важным вопросом: выяснить, кто лучше шутит – AI или носители «естественного интеллекта», из числа инвестиционных консультантов компании.

🔘 О результатах и о том, зачем конкретному сотруднику компании может потребоваться Chat GPT читайте здесь.
#промо
Erid: 2VtzquWmMRz
Реклама. ООО УК "Альфа-Капитал", ИНН 7728142469

Метаверсище и ИИще 2024-04-25 11:42:32

Как бы не упирались новые модели, текст все равно генерится криво. Шрифтовой дизайн - это не пустое слово.
Ну и мне видится вот такой пайплайн - сидишь в Фотошопе и говоришь: ИИ, найди мне конкретную надпись или, например, номера на машине. И замени их на нормальные шрифты, текст без ошибок и воще сделай как в Фотошопе.
ИИ, такой, алехко - поставь Concept Art plugin

Поглядите, что люди замыслили:
https://twitter.com/cantrell/status/1782879174497362411/

Метаверсище и ИИще 2024-04-25 11:32:52

Вот поглядите на забавное видео, где стиль вытаскивает картинку и историю.

Концепты и визуалы: Midjourney и Stable Diffusion.
Аnimatediff для взрыва мозга.
Runway для липсинка(!) - очень неплохо.
Voice to voice in eleven labs
After Effects для полировки - куда ж без него.

В общем, одной кнопкой пока не получится. Нужен мозг(пока) и некривые руки. И АЕ.

Метаверсище и ИИще 2024-04-25 11:25:42

После выводка ИИ генераторов 3Д, поглядите, как это делает Vizcom.
Пример нормального UI/UX. Слои, история и пр.

У них там мощный апдейт 2Д Студио, поглядите вот тут:
https://youtu.be/qYax7QPVZVw

Метаверсище и ИИще 2024-04-25 11:12:09

Новая базовая модель (то есть не клон Ламы или Мистраля) от Snowflake по названием Arctic (Снежинка выпускает Арктику).

Говорят, что довольно вольная, с минимальной цензурой, компактная и даже опер-сорсная, веса обещают.
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/

Для гиков: Arctic использует гибридную архитектуру Dense-MoE (на картинке), применяя Top-2 gating со 128 экспертами, чтобы найти баланс между повышением качества и эффективностью системы.

Более того, уже можно попробовать самим тут:
https://arctic.streamlit.app/

Умеет в русский (не знаю пока насколько хорошо)
Для гиков есть вот такой разбор:
https://medium.com/snowflake/snowflake-arctic-cookbook-series-exploring-mixture-of-experts-moe-c7d6b8f14d16

Что-то ураган новых базовых моделей (phi-3 от Микрософта, китайский Qwen) несется над планетой. Скоро их начнут ужимать и присовывать в телефоны. И будет нам ИИ нашептывать колыбельные...

LLM: новая модель каждый день! Все круче и круче! За углом Llama 400+
Картинки: Скоро будет Stable Diffusion 3, Эмада прогнали из Стабилити, Уволили 10% разрабов, наверное скоро будет Stable Diffusion 3 но это неточно, есть SD3 API но за конские деньги, Midjourney молчит, DALL·E 3 не обновлялся с прошлого года, Stable Diffusion 3 обещали два месяца назад.

Пойду посмотрю, что с картинками.

Метаверсище и ИИще 2024-04-25 10:47:03

Сравниваем быструю красоту сами!

Держите сравниватор для ускоренных моделей. Генерация ЗА ОДИН ШАГ!

Похоже, что Hyper-SD действительно всех делает.
Я также погонял на NSFW - там Турбо сразу сдулся, у него датасет порезанный, а вот Hyper-SD снова молодец. В коментах примерчик.
Ну и это реально быстро!
Подумайте, три картинки генерятся за секунду.
А будет еще хуже\лучше!
https://huggingface.co/spaces/multimodalart/one-step-comparison

Метаверсище и ИИще 2024-04-25 10:40:05

Сравниваем быструю красоту!

Тут вот Тиктокченко недавно бахнул быструю версию Stable Diffusion под названием Hyper-SD.
https://hyper-sd.github.io/
Еще одна дистиллированная (ускоренно-пожатая) модель, которая по словам авторов бьет SDXL-Lightning.

А если вы уже слегка охренели от всех этих SDXL Turbo, SDXL-Lightning и Hyper-SD, то в следующем посте дам вам экскаватор-сравниватор именно для скоростных моделей, которые генерят картинку с малым количество шагов, почти в реалтайме. Сможете сами попробовать.

Метаверсище и ИИще 2024-04-25 10:10:55

К посту выше

Метаверсище и ИИще 2024-04-25 09:46:21

А вот у Метачки с очками все идет неплохо.

Мало того, что теперь вы можете расшаривать свой "обзор" с собеседниками (я когда-то писал, что мы теперь можем видеть мир глазами других людей и это эдакое коллективное зрение, к которому наши мозги не готовы).
Теперь они раскатали в апдейт очков мультимодальный ИИ. Вы можете спрашивать его голосом, показывать ему картинки или просто окружающий мир и общаться с ним на эту тему.

От встроенного аудио и сверхширокоугольной 12-Мп камеры до интеллектуального помощника - вы просто говорите "Эй, Мета" и ну общацца с ИИ.

"Допустим, вы путешествуете и пытаетесь прочитать меню на французском языке. Ваши умные очки могут использовать встроенную камеру и Meta AI для перевода текста, предоставляя вам необходимую информацию без необходимости доставать телефон или смотреть на экран."

Подробнее тут:
https://about.fb.com/news/2024/04/new-ray-ban-meta-smart-glasses-styles-and-meta-ai-updates/

И похоже, что Марк делает очень правильные продуктовые ходы.
Просто представьте, что в вотсапе теперь можно через @ позвать @Meta.ai и затем спросить, что угодно или сгенерить картинку, анимировать ея. И все это не выходя из привычного мессенджера (инста, вотсап, фбмессенджер). Не надо лазить в браузер, копипастить, шарить и пр.
А коль скоро аудитория метачки это около 4 миллиардов(!) юзеров, и они получают свой ИИ просто за свой логин, то это просто убийственный ход с точки зрения юзер аквизишен.

А тут еще Марк вознамерился сделать из своей метаверс-операционки Horizon открытую систему для различных производителей VR-железа (Цукерберг упомянул Microsoft, Lenovo, Asus)
Этакий VR-Андроид.
https://www.cnbc.com/2024/04/22/mark-zuckerberg-says-meta-will-offer-its-virtual-reality-os-to-hardware-companies.html

Вкупе с открытостью Лламы и доступностью метачкиного ИИ для половины населения планеты это делает Метачку новым Микрософтом.

В интересное время живем. Социальные сети становятся операционками на стероидах ИИ.

Сиолошная 2024-04-25 09:31:36

Года три назад активно развивалась область нейрорендеринга или NeRF'ов — это когда нейронка (или как оказалось впоследствии, не обязательно нейронка) выучивает 3D-представление сцены из нескольких кадров с разных ракурсов, а затем может нарисовать любой новый ракурс, которого до этого не было. Время шло, технологии развивались: некоторые методы вообще позволяли делать реконструкцию по одному кадру, другие позволяли воссоздавать видео (то есть четыерёхмерное пространство, с осью времени), третьи могли редактировать сцены, например, меняя день на ночь (или направление освещения).

На смену NeRF'ам пришел Gaussian Splatting. Что это такое я рассказывать не буду (потому что сам не знаю, кек), но по сути он делает то же самое, только качественнее и быстрее. Увидел с ними вот такую демку, как записанное с разных ракурсов видео переводится в анимированную 3D-модель, которую можно вставлять в разные декорации. Ещё раз отмечу: большая часть ракурсов тут не была видна камерам, они воссоздаются на лету. Можно делать пролёты итд, без затрат на это в реальном мире.

Лично мне очень напомнило брейндансы из киберпанка (пример глянуть тут) — осталось только придумать, как это транслировать умнее, чем просто показывать на экране. Тоже можно свободно летать по сцене, перематывать время, рассматривать детали.

Интересно, какое отражение подобные технологии могут найти в киноиндустрии (или хотя бы в любительских видео на ютубе) — если вы видели что-то по теме, скиньте пж в комменты!

Метаверсище и ИИще 2024-04-25 08:17:32

Сорян, но я снова про лыжную маску.

Тут вот пару месяцев назад все обсуждали объемы производства масочек. Те, у кого не хватило денег на покупку, тешили себя надеждой, что будет (когда-то в сферическом будущем) дешевая версия, те у кого хватило - признались, что девайс пустой и что с ним делать(кроме как смотреть кино) - непонятно. А я писал, что без киллер-фичи - не взлетит.

Нуштош.

Apple, сокращает производство гарнитуры Vision Pro ПОЧТИ ВДВОЕ и отменяет обновленную гарнитуру, поскольку продажи в США падают.

Читаю статьи и вижу, что правду ведь писал про killer-фичу и про масс-маркет: "Apple еще не представила действительно стоящего приложения для гарнитуры."

"It was never going to be a mass market device."

https://www.pcgamer.com/hardware/vr-hardware/apple-reportedly-slashes-vision-pro-headset-production-and-cancels-updated-headset-as-sales-tank-in-the-us/

https://www.business-standard.com/technology/tech-news/apple-slashes-vision-pro-shipment-estimates-amid-plummeting-demand-124042400632_1.html

https://www.ign.com/articles/apple-reportedly-slashes-apple-vision-pro-shipments-due-to-unexpectedly-low-demand

эйай ньюз 2024-04-25 07:01:07

Покажу вам, что творилось в Стенфорде сегодня, когда было выступление Сэма Альтмана.

Мой отель находится буквально в 200 метрах от Стенфорда. И сегодня Сэма решил приехать в университет дать лекцию. Народ стоял в очереди как за маслом в девяностые. Я честно сказать в шоке от таких раскладов и сам, конечно, в очереди не стоял, а был на работе. Увидел эти видосы в твиттере.

@ai_newz

e/acc 2024-04-25 06:07:30

О будущем LLM

Не знаю за ваши модные ку-стары, но вот некоторый набор уже практически фактов про LLM в перспективе месяцев:

1. GPT и LLaMa — это не продукты, а исследовательские проекты. Как только детали архитектуры, пайплайнов, датасетов станут ясны (экспериментальным путём), стоимость тренировки аналогичной модели упадет в разы, а скорее сотни раз. Вы сможете сделать претрейн специализированной модели за $10-100k, причем даже в распределенной среде.

2. То же самое с инференсом. За счет квантизации, MoD, оптимизации под edge девайсы и архитектуры ARM, TPU, NPU модели уровня 13-30В параметров можно будет запускать на телефонах.

3. За счет увеличения окна контекста до миллионов токенов, файнтьюнинг становится не так важен. Ты просто копируешь промт на 10-100 страниц со всей историей своей жизни или организации и получаешь персональную модель. Стоимость переключения с Зефира на Гермес, с Клода на Databricks становится ровно три клика и один копипаст.

4. Адаптивный роутинг. Приложения выбирают модели на лету, в зависимости от задачи. Модели выбирают инфраструктуру для вычислений на лету, в зависимости от спроса и предложения на железо в конкретный момент.

5. RAG не уйдет, а, наоборот, заменит в некоторой степени претрейнинг. Большие децентрализованные RAG датасеты на миллиарды или триллионы токенов будут просто «подсасывать» знания на лету, что позволит делать базовые еще тоньше, быстрее и запускать на микроволновке (quite literally).