Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 11 (50 постов)

Репосты из тематических каналов

gonzo-обзоры ML статей 2024-03-17 20:35:46

Между прочим первая модель со ста пиллиардами параметров!

gonzo-обзоры ML статей 2024-03-17 20:11:32

А вот и Grok подоспел!

314B parameter MoE model. Apache 2.0 license.

https://x.ai/blog/grok-os
https://github.com/xai-org/grok

эйай ньюз 2024-03-17 19:48:19

Илонка, как и обещал дропнул веса Grok.

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%http://2Facademictorrents.com%2Fannounce.php%3Fpasskey%3Decac4c57591b64a7911741df94f18b4b&t

Я правда пока не понял, где код. Нужно поискать...

@ai_newz

gonzo-обзоры ML статей 2024-03-17 19:09:09

[DeepMind SIMA] Scaling Instructable Agents Across Many Simulated Worlds
Авторы: много, The SIMA Team
Статья: тут
Пост: https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments

DeepMind собрал нового агента SIMA (Scalable, Instructable, Multiworld Agent), который учится следовать произвольным языковым инструкциям и действовать в любой виртуальной 3D среде через команды клавиатурой и мышью.

В работе постарались подойти к задаче максимально широко и общо. Среды богаты, могут содержать сотни объектов и допускать множество интеракций. Они асинхронны, то есть среда не дожидается действия агента, жизнь в ней идёт самостоятельно. Никакого доступа ко внутренностям среды нет, агент воспринимает пиксели с экрана и реализует действия через клавиатуру и мышь, как человек, никаких API. Агент не пытается максимизировать скор, он должен следовать произвольным языковым инструкциям, а не заданному набору команд. Каждая игра требует GPU, поэтому запускать сотни или тысячи агентов на эксперимент нет возможности.

С такими предпосылками обучаться сложнее, но зато легче расширять агента на новые среды.

В отличие от некоторых ранних работ типа Atari или Starcraft 2, здесь сфокусированы именно на 3D physical embodiment. Это либо first-person, либо third-person с видом из-за плеча. Важно, чтобы была возможность богатых и глубоких языковых взаимодействий.

Используются коммерческие игры (Goat Simulator 3, Hydroneer, No Man’s Sky, Satisfactory, Teardown, Valheim, Wobbly Life) и искусственные исследовательские среды на Unity (Construction Lab, Playhouse, ProcTHOR, WorldLab).

В качестве подхода к обучению выбран behavioral cloning, то есть supervised learning на человеческих действиях (клавиатура и мышь) по входным наблюдениям (пиксели экрана). Также в датасет включены языковые инструкции, диалоги и различные аннотации и маркеры успеха или неудачи. В статье есть красивая картинка с иерархической кластеризацией инструкций по эмбеддингам.

Собирали датасет разными способами. Например, записывали игру человека, а потом аннотировали её текстовыми инструкциями. Или в игре с двумя игроками, один играл и всё записывалось, а другой давал ему инструкции. Во время эксперимента ни один человек не пострадал. “The full details of our data collection protocols, including compensation rates, were reviewed and approved by an independent Human Behavioral Research Committee for ethics and privacy. All participants provided informed consent prior to completing tasks and were reimbursed for their time.“

Была какая-то предобработка с фильтрацией низкокачественных данных, ресайзу всего к размеру входа агента, взвешивание и перемешивание наблюдений чтобы приоритизировать наиболее эффективные. Фокусировались на инструкциях, которые могут быть выполнены не более чем за 10 секунд.

Агент использует предобученные модели. Это текстово-картиночная SPARC (SPARse Fine-grained Contrastive Alignment, https://arxiv.org/abs/2401.09865), и предсказательная видео модель Phenaki (https://arxiv.org/abs/2210.02399). Обе дальше файнтюнятся, первая через behavioural cloning, вторая через video prediction. Не понял, что собой представляет текстовый энкодер, кажется, обучается с нуля, хотя это странно -- у Гугла много хороших языковых моделей, которые грех не задействовать.

Внутри есть мультимодальный трансформер и старый добрый Transformer-XL, который смотрит на предыдущие состояния памяти и строит state representation. Эта самая репрезентация состояния дальше отправляется в policy network, производящую действия клавиатурой и мышью для последовательности из 8 действий.

Агент обучается на behavioral cloning, но есть и дополнительная (auxiliary) objective в виде предсказания достижения цели. Используется также Classifier-Free Guidance (CFG, https://arxiv.org/abs/2207.12598) для улучшения text-conditioning. Полиси считается "с" и "без" обусловливания языком, а затем логиты полиси сдвигаются в сторону полученной разности (“с” и “без”):

𝜋𝐶𝐹𝐺 = 𝜋 (image, language) + 𝜆 (𝜋 (image, language) − 𝜋 (image, ·)) .

gonzo-обзоры ML статей 2024-03-17 19:09:09

Детали обучения: архитектуры, размеры датасета, гиперпараметры, время обучения -- ничего неизвестно. Вероятно какое-то развитие мультимодального трансформера из работы Imitating Interactive Intelligence (https://arxiv.org/abs/2012.05672) с заменой LSTM на Transformer-XL?.

Оценивать полученного агента непросто. Критерий успеха зачастую недоступен, особенно в коммерческих играх, и вообще они не созданы для воспроизводимых бенчмарков. Или агент может выполнить действие не благодаря текстовой инструкции, а потому что среда так устроена -- в идеале задача должна позволять множество действий. Где-то надо использовать OCR для считывания сообщений игры. И так далее, сложностей много.

Ещё есть важная тема с latency. Поскольку агент и мир асинхронные, надо это учитывать и при обучении (предсказывать действия со смещением во времени), и не создавать дополнительных тормозов при оценке.

В итоге оценивали 1) относительно ground truth (для исследовательских сред, где это можно получить), 2) через детектирование успеха средствами OCR, или 3) человеком (медленно и дорого).

Результаты интересны.

Во-первых, у SIMA получается достигать целей в различных средах. Не со 100% результатом, но вполне сносно. Какие-то среды легче других. Также кластеризовали по типам действий, здесь тоже перформанс довольно сильно разнится.

Провели абляции. В дополнение к стандартной SIMA, был также режим zero-shot с обучением на одну меньше среду и оценке на ней. Был вариант без предобученных энкодеров (ResNet вместо SPARC/Phenaki), вариант без языковых входов, и вариант с обучением только на эту конкретную среду (агент-специалист). Почти все агенты обучались 1.2М шагов.

Специалист побит везде, это круто. Другие бейзлайны тоже заметно побиты. Zero-shot отстаёт сильно, но тем не менее у него тоже достойный результат, недалеко от специалиста. Без CFG хуже, но без языка ещё сильно хуже.

Было ещё отдельное сравнение на других задачах из No Man’s Sky. У людей на этих задачах успешность примерно 60%, у SIMA 34%, что заметно выше бейзлайнов.

В общем есть ещё над чем работать, но результат интересный и многообещающий. Явно есть и перенос знаний между средами, и zero-shot вполне достойный.

SIMA -- это всё ещё work in progress, результаты пока предварительные. В будущем обещают отскейлить на большее число сред и задач, улучшить стабильность и контролируемость агентов, заюзать свежие крутые предобученные модели, и ещё поработать над evaluations. SIMA должна быть интересной моделью для исследования grounding абстрактных способностей языковых моделей в embodied environments. Ждём развития.

P.S. Поддержать проект можно тут patreon.com/GonzoML

Метаверсище и ИИще 2024-03-17 14:37:10

Про Мешкапад писал очень давно. Они тогда пытались делать из фотки фуллбоди аватара.
Вчера твиттор принес вот такое - они прокачались до создания персонажей по фоткам, сканам и даже видео.
А также накопили библиотеку мокапов (и да, ноги не скользят).
И даже анонсировали анимацию из текста.
Поглядите на meshcapade.me
Прям комбайн.
Кто-то уже поюзал?

Neural Shit 2024-03-17 12:43:59

Мы живём в будущем, где вы можете создать персонажа из текста и через несколько минут он появится на вашей клавиатуре.

Процесс: TripoSR -> MeshLab -> Mixamo -> Reality Converter

покрал отсюда

gonzo-обзоры ML статей 2024-03-17 09:06:37

Последние две ссылки в опрос не влезли

SIMA: https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments

Fruit fly: https://www.janelia.org/news/artificial-intelligence-brings-a-virtual-fly-to-life

Neural Shit 2024-03-17 08:17:04

Это я пытаюсь экономитьденьги на GPU серверах для нейронок

Сиолошная 2024-03-17 05:34:36

Ко мне в личку регулярно приходят люди и просят дать совета по выбору курсов/вкатыванию в DS/ML/AI/программирование. Обычно я копирую свои предыдущие ответы из других чатов про то, какими должны быть реальные ожидания.

К сожалению, маркетинг образовательных компаний строится на обещании золотых гор всего лишь за окончание их великолепных курсов. Это, конечно, не является правдой. На текущем рынке, особенно как начались сокращения, вам почти никогда не хватит материалов программы для попадания на работу (если курс не учит хаку собесов, а пытается дать __знания__).

Но что я ещё пытаюсь объяснить — это то, что многие материалы уже есть в открытом доступе, а курс это 1) структура 2) минимальная помощь по прохождению программы 3) фидбек по домашкам (если применимо). Для бесплатных курсов и открытых материалов второе и третье может закрываться либо хорошим сообществом (как ODS), где другие помогут, либо своим креативом и находчивостью.

Нашёл вот такую крутую визуализацию, объясняющую этот принцип.

А глубоко копать, часами гуглить и разбираться в деталях придется в любом случае, этого не избежать (но этого и не надо избегать! Вы учитесь ровно в те моменты, когда преодолеваете трудности, а не ищете, как бы их обойти).

Сиолошная 2024-03-16 14:22:09

В этой связи у меня вчера родился вопрос — а с какого тестового запуска SpaceX начнёт закладывать в корабли свои новые спутники Starlink для усиления сети?

Ведь сейчас по сути каждый запуск — это возможность просто как приятный бонус вывести что-то на орбиту. 100 тонн — это немало. Для сравнения, в 2023м году на орбиту отправилось ~1100 тонн полезной нагрузки, из них 800 - с помощью SpaceX (SIC!).

А теперь можно брать, и месячную норму выводить...просто вот так!

Сиолошная 2024-03-16 14:18:07

Но самое грустное в этом — почти никто не готов к столь существенному изменению. Я об этом писал в канале ранее (https://t.me/seeallochnaya/137). Пара цитат оттуда:
— Всё дело в полезной нагрузке: спроектировать новый спутник или модуль это вам не пальцами щелкнуть. У современной промышленной компании это займет лет 5, у крупной бюрократичесной машины NASA+Boeing 10 лет, у России - 15-17. Так как раньше запуски были безумно дорогими (программа Falcon снизила цену за килограмм примерно в 5-10 раз), то никто и не думал такими категориями, как вывод на орбиту целых махин.
— Доллар, потраченный на оптимизацию массы, больше не экономит доллар, сэкономленный на стоимости запуска. Он ничего не экономит. Пришло время поднять масштаб наших амбиций и мыслить гораздо шире.
— Сейчас производство одного марсохода Perseverance обходится в $2.2 миллиарда. Почему? Потому что это сделанный на заказ, оттестированный до малейших деталей высокоустойивый к отказам штучный экземпляр. Но все мы знаем, как сильно дешевеет производство при переходе на конвеер - Генри Форд всем показал. Уже не будет важно, что из партии в 100 штук 15 сломались в первый месяц работы - хрен с ними, остальные 85 продолжают изучение.

В этих условиях государственным программам нужно будет пытаться перестроиться в кратчайшие сроки (чего они обычно не умеют). Последние годы мы наблюдали, как в космическую индустрию пришло много представителей частного сектора — помимо SpaceX ещё компаний 15 уже научились достигать орбиты (в основном, с малой нагрузкой).

Теперь же, как мне видится, будут появляться стартапы, делающие спутники быстро и под заказ, и это направление станет очень перспективным. Будет интересно наблюдать, как вчерашние студенты Бауманки, которые должны были в следующие 10 лет дай бог приложить руку к 3-4 пускам, смогут закрывать такой же объем опыта за месяц или хотя бы полгода.

Также высокий темп и большое количество участников должны привести к развитию технологий. Как в прошлом веке космическая гонка привнесла в жизнь обычного гражданина куда больше, чем просто пару часов зрелищных пусков, так и в ближайшее время должен случиться технологический скачок. Если нас, конечно, не захватит ИИ 🙂

Сиолошная 2024-03-16 14:18:00

Так, ну что, от запуска Starship отошли, теперь можно его обсудить. Это может быть неочевидно, но в четверг началась новая эпоха космонавтики. Почему? Давайте рассуждать.

На данный момент действует лишь одна сверхтяжёлая ракета — американская SLS, которая должна помочь США вернуться на Луну. Несмотря на то, что её делали с целью минимизации цены пуска, переиспользовали то что можно переиспользовать, увы, программу можно назвать мертворождённой. Согласно Википедии, цена пуска составляет чудовищные $2B — это за 105 тонн на низкую околоземную орбиту (НОО) или 42 тонны до Луны. Цена за кило груза сумасшедшая.

А Starship показал, что корабль, сделанный 1) из дешёвой нержавейки 2) без специальных чистых комнат, на пустыре около океана 3) с дешёвыми легко заменяемыми компактными двигателями 4) специально с прицелом на конвейерное производство и масштабирование
... тоже может выводить на орбиту полезную нагрузку. В текущей конфигурации на НОО может быть закинуто 100-150т, а в невозвратном варианте и вовсе 200т. Только пуск стоит не два миллиарда.

Если верить прикидкам отсюда, то запуск будет обходиться в $90 МИЛЛИОНОВ — это если без возврата (то есть как сейчас: специально делаем расчёт для самых больших скептиков, которые не верят, что и корабль, и ускоритель смогут вернуться). Если начнёт садиться хотя бы ускоритель, то цена резко упадёт до ~$35M, а если замысел Маска осуществится — и вовсе $10M.

Даже если через 30 пусков не получится отработать возврат и посадку (во что адекватному человеку сложно поверить) — это всё равно открывает дверь в новый виток космического развития человечества. Если сравнивать с текущим рынком, то запуски станут просто бесплатными, так ещё и запускать можно будет кратно больше.

Если сейчас профиль расходов выглядит как «ну лямов 300 на спутник, и еще 50 на пуск», то станет «так, на 10 лямов я могу пустить...5 спутников? Ого, так мне тогда имеет смысл тоже оптимизировать производство!». Поскольку стоимость вывода кило на орбиту станет мизерной, можно будет существенно упрощать и сами спутники. Их не нужно проектировать с супермегазамудрёнными стандартами в голове и прицелом на работу в 25 лет. Их тоже можно начать клепать из говна и палок, как сломается — запустим новый, не вопрос, стоит копейки.

эйай ньюз 2024-03-16 11:34:44

🎥Video Editing via Factorized Diffusion Distillation

Коллеги из Meta AI выпустили новый метод для редактирования видео. Все это поверх нашей модели Emu. Если вкратце, то архитектура представляет собой комбинацию Emu Edit и Emu Video (Temporal слои) поверх базовой модели Emu.

Тренируют модель с помощью двойной дистилляции с дискриминаторами. Студент состоит из комбинайии Emu Edit + Emu Video , то есть умеет и генерировать видео и менять изображения покадрово. А учителя два: 1) Это предобученный Emu Edit, который меняет каждый кадр по инструкции, 2) предобученный Emu Video, который тупо генерит видео по заданному промпту.

Таким образом, студент выучивает консистентно менять кадры на видео.

ArXiv
Сайт проекта с примерами

@ai_newz

Neural Shit 2024-03-15 16:17:39

Киберпанк, который мы заслужили

эйай ньюз 2024-03-15 13:26:57

Кажется, кто-то нащупал золотую жилу 🥹.

Мужикам с зоны есть чему поучиться у африканских гуру.

@ai_newz

Метаверсище и ИИще 2024-03-15 12:51:52

Ну как так?
Я ерзаю на стуле и с нетерпением жду выхода(точнее выхода в цифре, в прокате уже пошел) Кунг Фу Панда 4 (это мой любимый мультфильм всех времен и народов, писал про хит-парад тут).
А Дримворкс берет и выгоняет половину народа на улицу.
В принципе я насмотрелся на подобное в прошлой жизни - студия заканчивает крупный проект, следующий еще недостаточно внахлест, поэтому все, кто заканчивал проект не нужны, их просто выгоняют дo следующего проекта, точнее той фазы, когда они понадобятся. Но это больше относилось к кино, с его непредсказуемыми сроками и загруженностью. Но Дримворкс-то мог себе позволить запускать проекты параллельно. Фу такими быть.
Или это происки ИИ?
https://twitter.com/americanwombat/status/1768079631025090878

Метаверсище и ИИще 2024-03-15 12:36:05

Ну и для симметрии запощу релиз продукта от Rask.ai.
У них, в отличие от Адобченко, все уже работает, включая липсинк, перевод, генерацию субтитров, автонарезки, в общем полный фарш для перевода видосов.

Метаверсище и ИИще 2024-03-15 12:33:43

Ого, ого.
Адобченко тоже вламывается на поляну нейро-дублирования и липсинка видосов с одного языка на другой.
Тот случай, когда большие мальчики смотрят в песочницу, где стартапы играют в свои проекты, наблюдают за удачными кейсами и либо покупают счастливчиков, либо просто копируют функционал, заливая его деньгами.
Стартапы колются, плачут, но продолжают играть в песочнице со слонами. Смотрите мой вчерашний пост про VLOGGER от Гугл.
Eleven Labs задумчиво чешет в затылке (у них нет липсинка, только дубляж). А ребята из Rask.ai просто троллят адобченко в их же Твитторе - Finally guys @adobe, welcome to the race (which we've been in for a year), и шутят про сроки выхода Адобовских продуктов. Узнаю стиль Маши))

Метаверсище и ИИще 2024-03-15 12:30:36

Тут Поликам выкатил новый апдейт.
Для тех кто танке - это такое приложение, которое использует лидар из ваших телефончиков и сканирует объекты вокруг, чтобы выдать вам как бы трехмерную модель. Если нет лидарчика, можно просто нафоткать и Поликам сделает фотограмметрию.

За пределами новостей остался тот факт, что они сделали поддержку Гауссианов. Причем с возможностью их редактирования. И открыли для всех.

Поглядите и сами попробуйте тут:
https://poly.cam/tools/gaussian-splatting

Но не ждите чуда. Из всех этих 3Д-сканеров выходят сетки, похожие на кашу, которая получается у всех картинка-to-3D генераторов.

Ее надо будет чистить, ретопить и т.д.

Ну и надо поразмышлять, когда Гауссианы и Нерфы вытеснят олдскульные полигоны из традиционных пайплайнов.

Думаю никогда, но появятся новые ниши для их использования.

Метаверсище и ИИще 2024-03-15 12:03:44

(Naked girl:1.8) - мне понравилась шутка с Реддита.
Кто много работал в Stable Diffusion и знает про управление весами отдельных частей промпта, тот поймет.

эйай ньюз 2024-03-15 11:48:07

В придачу вот NeRF (в 4K) с облетом по внутреннему дворику Швейцарского Национального Музея в Цюрихе (у нас как-то был корпоратив внутри этого двора 🙂).

Если откроете видео на ютубе, то сможете мышкой контролировать направление камеры.

Про нерфы подробнее я писал тут и тут.

@ai_newz

эйай ньюз 2024-03-15 11:41:07

Mapillary - уличные карты на стеройдах

Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.

Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.

Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!

Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app

@ai_newz

Метаверсище и ИИще 2024-03-15 09:58:32

Эппле очень медленно запрягает в области ИИ.
Но, надеюсь, выстрелят мощно в июне.

Apple приобрела DarwinAI, который создает системы искусственного интеллекта, которые визуально проверяют компоненты любого производства, но, как отмечает Bloomberg, стартап также работает над тем, чтобы "сделать модели нейронных сетей меньше и быстрее".
Эта явно полезно дляApple, которая работает над оптимизацией больших языковых моделей для телефонов.

Все сотрудники переходят в Apple AI Division

https://www.reuters.com/markets/deals/apple-buys-startup-darwinai-adds-staff-its-ai-division-bloomberg-reports-2024-03-14/

Denis Sexy IT 🤖 2024-03-15 07:18:19

Все уже наверное слышали про генератор песен suno.ai — но я тут обнаружил, что если скармливать туда стишки-пирожки (привет 2011) и выбирать разные стили металла, то получаются дико легендарные баллады, сделал вам подборку

🍊

Теперь моим планом «Б» будет выступление глэм рок группой на свадьбах

Neural Shit 2024-03-15 06:03:35

После появления нейронок нас ждет ещё много подобных "исторических" фотографий.

gonzo-обзоры ML статей 2024-03-14 16:48:30

А ещё выехал Claude 3 Haiku, самый маленький, шустрый и дешёвый из семейства

https://www.anthropic.com/news/claude-3-haiku

gonzo-обзоры ML статей 2024-03-14 16:40:53

In case you missed it.

GPT-2 in Excel

https://spreadsheets-are-all-you-need.ai/

Сиолошная 2024-03-14 16:04:18

Результаты:
Корабль был потерян при входе в атмосферу, последний раз его видели на высоте 65 километров. Но мы получили невероятные кадры столкновения машины с атмосферой, заставляющую последнюю раскалять корабль и превращаться в плазму. Из-за неё теряется связь, и корабль не может передавать сигнал. И вот из такого «сна» он и не смог выйти.

Но это не страшно! Давайте вспомним основные цели:
Горячая расстыковка ступеней
Первое включение двигателей ускорителя
(второстепенная цель) Второе включение двигателей ускорителя (заработал 1 из 3 двигателей)
Выход корабля на орбиту
Открытие и закрытие дверцы грузового отсека
Демонстрация перекачки криогенного топлива на орбите
Перезапуск двигателя Raptor
Вход корабля в атмосферу
(второстепенная цель) Приводнение корабля

Так что пуск можно признавать почти успешным.

Поздравляем SpaceX с 22-летием (да, у них сегодня день рождения!) и с запуском, ждём наискорейшего перехода к следующему тестовому полёту, ITF-4.

Предлагаю посмотреть невероятные кадры с корабля

UPD: стало известно, что двигатель не включился автоматикой из-за вращения аппарата, который должно был к тому моменту выровняться. Вероятно, это вращение также помешало успешно пережить вход в атмосферу, так как на определенных участках снижения корабль летел боком, и воздействию подвергалась незащищенная тепловыми плитками часть.

Сиолошная 2024-03-14 13:34:26

Корабль вышел на расчётную орбиту, ускоритель разбился о воду после неудачного второго включения движков (первое и самое длинное прошло штатно).

Ждём открытия люка (11:56) и перекачки топлива (24:31).

Поражает, что мы смотрим Live FullHD трансляцию с корабля, летящего на скорости 26'000 км/ч на высоте 150 км.

Только что мы посмотрели запуск самого крупного объекта из когда либо отправленных на орбиту за один заход. В теории, могла бы быть выведена полезная нагрузка в ~100 тонн. Для сравнения, вся МКС весит 420 тонн.

UPD: дверка для полезной нагрузки открылась, корабль цел.
UPD2: дверка закрылась, демонстрация топлива окончена. Все цели миссии, кроме повторного запуска двигателей для схода, выполнены.

Сиолошная 2024-03-14 13:25:53

Все движки работают, вид с корабля есть

эйай ньюз 2024-03-14 13:18:02

Когда стараешься не наговорить на пару многомиллионных исков.

П.С. Это Мира Мурати, CTO OpenAI.

Она недавно давала итервью WS о Sora.

Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):

- Sora выйдет в течение 2024 года

- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.

- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.

- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.

Полное интервью.

@ai_newz

эйай ньюз 2024-03-14 13:05:31

Есть сомнения по поводу того, на каких данных тренировалась SORA.

Public data из инстаграма - это user data, на которой не очень-то легально тренироваться, без консента владельцев фотографий (особенно если там есть лица). Думаю, Мира потом могла пожалеть, что ляпнула это.

@ai_newz

Метаверсище и ИИще 2024-03-14 12:14:29

Реально, это уже не просто говорящие головы. И это не любимый трюк цифровых инфлюенсеров - пришпандорить цифровое личико к реальной фоточке или видосику, выдавая за общий план.
Это генерация с нуля вот этого вот всего.
Если мысленно навалить сюда качество СОРА, то можно точно гнать с работы всех этих дикторов, ведущих, умных онолитегов, вещающих по суфлеру за курс биткойна. И за вот этих вот ... новостников.

Качество-то мы допилим.. Но кто ж нам даст в руки такой инструмент. Точно не гугл.

https://enriccorona.github.io/vlogger/

Метаверсище и ИИще 2024-03-14 12:06:32

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

А вот это уже интересно.
И тут как раз тот случай, когда большие мальчики типа Гугла, насмотревшись на игры стартапчиков типа HeyGen или D-ID, решают выйти поиграть в песочницу. Со своим совочком для денег.

Да, выглядим по качеству очень драфтово и размыто, но представьте, что по этому можно пройтись апскелерами и хайрезфиксами.

Здесь есть несколько моментов.

Все это по одной фотке.

Не требуется дообучение для каждого персонажа в отдельности.

Это не поиск лица по лендмаркам, обрезка и дипфейк, это целиковая генерация с нуля.

Это не только лицо, но и тело(!).

Это УПРАВЛЯЕМЫЕ жесты.

Пальцы! Как?

В общем, тут точно надо наливать, и не раз, в полной тишине за Влогеров и всех этих ацких ютюберов. Теперь все это безобразие может рассказывать ИИ в любых обличиях.

Обязательно поглядите примеры вот тут:
https://enriccorona.github.io/vlogger/

Я правда очень боюсь, что Гугл это, как обычно, оставит в закрытых проектах. Выглядит хоть и мутно, но круто.

Сиолошная 2024-03-14 11:59:01

Запуск перенесли на 16:25 МСК (перенос был на 30 минут почему-то, и ещё на 40 из-за лодок, заплывших в закрытую зону), официальный стрим начнётся за 31 минуту до старта.

Где смотреть:
— Официальный стрим SpaceX в 720p: https://twitter.com/SpaceX
— Стрим NASASpaceflight в нормальном качестве на YT - https://www.youtube.com/watch?v=RrxCYzixV3s
— Стрим Everyday Astronaut на YT (свои камеры + своё оборудование) - https://www.youtube.com/watch?v=ixZpBOxMopc

Подытожим цели миссии:
— вывести корабль на орбиту (в прошлый раз не хватило несколько секунд)
— продемонстрировать перекачку криогенного топлива на орбите (в рамках корабля, из одного внутреннего бака в другой)
— продемонстрировать открытие люка грузового отсека для потенциального развёртывания полезной нагрузки в будущем
— повторно запустить двигатель на орбите для схода с неё в атмосферу
— для ускорителя: осуществить тормозной манёвр после разделения с целью замедления перед потенциальной посадкой. Сам ускоритель будет падать в воду, но в идеале должен сделать это максимально мягко.

Всё остальное — бонус к тестовой программе.
На корабль поставили аж 4 тарелки Starlink, так что ожидаем прямой трансляции прямо с корабля и надеемся на отсутствие помех. В прошлый раз мы картинку не видели совсем

😪

Метаверсище и ИИще 2024-03-14 11:51:18

Я уже поклялся завязать писать про новые видеогенераторы, но они ползут из всех щелей, несмотря на то, что СОРА им явно указала направление, куда надо ползти, укрывшись белой простыней.

Haiper - детище бывших инженеров Google DeepMind и TikTok - блин, эта фраза уже становится мемом типа "инфа сотка".

Но тем не менее, еще один генератор. Всего две секунды, но бесплатно (пока). Можете попробовать. Знаете какой у них маркетинг мессадж? Наш ИИ лучше знает, как будет происходить движение в кадре, чем кожаный.

Короче, вот вам примеры, думайте сами, стоит ли пробовать.

https://haiper.ai/

Ну и еще раз: шевелить небо или воллпейперы дело нехитрое, а вот с дельфинами и ребятами неловко вышло, да.

Метаверсище и ИИще 2024-03-14 10:25:01

Для пользователей Midjourney.
Если хотите почувствовать, что такое ControlNet и вообще управление картинкой НЕ с помощью промпта, поглядите сюда.
Главное зафиксировать Seed, нажав галку справа.
А потом можете порезвиться в окошке слева.
Без цензуры и смс.
Это SDXL Lightning x Controlnet - и да, может работать криво, но для общего понимания самое то. С утра работало очень быстро. Но если status=connecting надо подождать.
https://www.avatech.ai/community/streaming

Starship News Live 2024-03-14 10:16:49

Запуск Starship: *сегодня*
Моя нога:

BOGDANISSSIMO 2024-03-14 04:41:54

Extropic: Добро пожаловать в Термодинамическое Будущее!

Вчера решил размять пальцы, набросать переводец на Хабр про один стартап, который занимается квантовыми компуктерами, успел поднять $14.1М в декабре и позавчера поделился первыми новостями касательно того, что они строят.

Целятся на много-много порядков сократить себестоимость и время вычислений для AI алгоритмов ближайшего будущего. Кто знает, быть может Сэму в итоге понадобятся циферки сильно меньше $7T на железо для AGI.

https://habr.com/ru/articles/800033/

You're welcome. Буду рад репостам! 🔥

Сиолошная 2024-03-14 03:40:22

И отдельно про космические новости. По плану сегодня состоится третий испытательный полёт самой крупной ракеты в мире. В честь этого SpaceX подготовили маленький трейлер: https://youtu.be/97GOcZ08tc4

FAA выдали лицензию (just in time), и в ней есть парочка интересных моментов.
Во-первых, лицензия расширяет максимально возможное количество запусков в год с 5 до 10! Elon в твиттере прокомментировал, что хочет замахнуться ещё на 6 пусков до конца 2024-го. Будем надеяться, что хотя бы 5 (включая сегодняшний) состоятся — вот это будет номер!
Во-вторых, теперь Starship официально может садиться (падать) в Индийский океан, так как экологическая проверка показала отсутствие значимых проблем. А в самом документе сказано, что посадок там планируется как минимум 5. Более того, есть планы сажать Ship на плавучие платформы.

Собираемся в 15:00 по МСК (12:00 по GMT), чтобы посмотреть. Окно запуска будет открыто 110 минут, возможны задержки из-за погоды. Однако жители вокруг получили уведомление о том, что им нужно будет покинуть дома.

🙏 погода пожалуйста веди себя нормально, без переносов запуска да? 🙏

Сиолошная 2024-03-14 03:24:34

Саммари ночных новостей:
— Палата представителей США приняла законопроект о принудительной продаже TikTok или его запрете в стране. Дальше — Сенат и на подпись президенту. Интересное завершение достаточно длинной истории, но весьма предсказуемое по меркам Америки. Интересно, что покупкой заинтересовался бывший глава Activision Blizzard Bobby Kotick, и он якобы даже связывался с Sam Altman в рамках поиска инвесторов и партнёров. Дяде на пенсии на яхте не сидится, хочется в большой бизнес вернуться

👀

— Европейский парламент одобрил закон о регулировании ИИ. Дальше — одобрение в Совете ЕС. Закон вводит запрет на использование систем распознавания лиц и «биометрической идентификации» в общественных местах, а также систем распознавания эмоций в учебных заведениях и на работе. А разработчики генеративных моделей должны будут проходить проверку на соответствие требованиям «прозрачности» и авторского права. В общем, ЕС как обычно первый в гонке запретов, жаль, что последний в гонке AI. Интересно, как это скажется на Mistral, французском стартапе, делающем одни из лучших открытых моделей.

— LMSYS опубликовали новый рейтинг моделей, основанный на попарном сравнении живыми людьми. Свежая Claude 3 Opus немного подросла в рейтинге до 1247+-6 и стала первой моделью, чей доверительный интервал пересекается с OpenAI'шным. Теперь на троне два чемпиона. А модель поменьше, Sonnet, сравнялась с Bard, ассистентом от Google (у которого, правда, есть преимущество — ему открыт доступ в интернет).

— Стартап induced.ai, фокусирующихся на агентах для замены удаленщиков (и в который вложился Sama) открыл демо по ссылке: browse.new . Сейчас они немного ускорили работу, но пока впечатления так себе — у меня даже для простых запросов еееееле-еле работает. Потыкайте, поделитесь, решило ли что-то интересное (нужен имейл, только и всего).

— OpenAI наняли юриста, который выиграл Musk'а в суде по делу о покупке Twitter. Хочешь мира — готовься к войне суду. Напомню, что недавно Elon подал иск на компанию OpenAI.

Метаверсище и ИИще 2024-03-13 22:05:25

Ну и раз мы тут всплакнули над симуляцией жидкостей в 3Д, вот вам реальная реальность. Точнее ламинарная.
СОРА в такоe не исполнит. У нее насмотренность не та.
А реальные пацаны просто моделируют воду один раз полигонами. И рендерят с рефракшеном 1.6. Чего динамику и симуляцию переводить...

Метаверсище и ИИще 2024-03-13 21:37:36

А я, глядя на видео из Соры, повторю, чуть, поправив, свой прошлогодний пост. Ибо мы стремительно отдаем себя на волю ИИ-симуляции. А что там у него в башке - неважно. Красиво же.

Я понял, что мне напоминают все эти генераторы контента (и даже текста).
Симуляцию физики в 3Д-пакетах. Где ты такой настраиваешь сначала цифры в клеточках, а потом нажимаешь кнопку "Давай". И оно симулит.
Те, кто провел пару тыщ часов с частицами, волосами, флюидами и прочей бесовщиной в 3Д - поймут.
Ну то есть ты не управляешь процессом, ты направляешь процесс. Ты можешь выбирать только начальные условия и прикручивать условный ControlNet - вдоль чего лететь, откуда испускать, текстурка для плотностей и пр.
А дальше оно само.
И вот ты нарулил гениальную симуляцию волны, убил небольшую часть жизни и большую часть здоровья, получилось просто бомба. Идешь такой гордый, показываешь режиссеру.
А он такой - ништяк, только в конце можно, чтобы заворачивалось покрасивее и пошустрее, и чтобы поровнее все было в начале, а то очень уж колбасится.
И ты понимаешь, что нельзя. Нельзя только в конце, или нельзя только поровнее, или только в начале. Можно только все заново переделать. Не с нуля, конечно, но чтобы попасть в видение режиссера ты должен снова написать кандидатскую диссертацию по уравнениям в частных производных. Ну и идешь, пишешь. А он такой - отлично, только можно, чтобы это было похоже на рой пчел?! Ты мямлишь - шо? А он - ну да, волна должна двигаться как рой пчел. Ну дальше вы поняли.
Когда сроки выходят, режиссер говорит, ладно, опять эти компьютерщики налажали, берем, что есть.
В общем, с генераторами контента вы будете заложниками симуляции, воли черного ящика с непонятками в мозгах.

Но факт в том, что чем дальше, тем больше вам будет нравиться то, что он делает. И режиссеру. И сценаристу. И продюсеру. ИИ сделает хорошо каждому.
И пойдете вы в зрители. А что еще делать.

Метаверсище и ИИще 2024-03-13 21:28:04

Помните первые майские флюиды? И рендеринг оных ментал реем?
Понятно, что не помните, такое старичье повымерло уже.
В общем это когда ты задаешь параметры примерно в 60-ти клеточках, а потом нажимаешь кнопку "Засимулить". И видишь, что ничего не происходит. Потому что оно симулит. Один кадр. Один час. Потом второй кадр. Один час.
А утром ты такой - ну давай посчитаем эти восемь кадров в Mental Ray с реймаршингом. И жмакаешь сдуру на кнопку Render. И оно считает один кадр. Один час. И к вечеру у тебя готово полное говно из 8 кадров в виде какого-то белого шума в низком разрешении.

Про попытки налить в цилиндр флюидов я даже вспоминать не хочу.

Работа с водой и жидкостями всегда была адом в 3Д.
Все эти RealFlow или Фениксы или Тайфлоу... Танцы с бубнами, когда ты никогда не можешь попасть в результат (щас худиньщеги набегут бить себя в грудь)

А оказывается надо просто сказать:
“A teapot pours a magical liquid full of swirling multicolored nebulae into an elegant teacup that sits atop a saucer”

И СОРА все сделает.

А теперь представьте глаза (и мозг) эфыксера эпохи этак 2012-2014, когда ему говорят: "ты просто напиши “A teapot pours a magical liquid full of swirling multicolored nebulae into an elegant teacup that sits atop a saucer” и оно все само сделает.

Он такой: и коллизии с чашкой? -Да.
И заполнение чашки? -Да.
И наследование движения чайника струей? -Да.

Он в ответ: ты норкоман штоле?

А сейчас мы просто смотрим на видео из СОРЫ.
И да, это симуляция. Это симуляция во всех, мать его, смыслах.
Как, Карл?

Neural Shit 2024-03-13 20:07:58

Немножко проклятых генераций на ночь вам

Метаверсище и ИИще 2024-03-13 19:32:27

СОРА СКОРО!

Благую весть принес я в ваши дома.
SORA появится ДО КОНЦА ГОДА, а может быть даже IN A FEW MONTHS.
Я послушал свежее интервью Миры Мурати, CTO of OpenAI.
Вот вам кожаная суммаризация:

Сора - скоро! Мира говорит, что может даже через несколько месяцев.

Сейчас стадия Red Teaming - иначе говоря цензура.

По цензуре будут те же гайдлайны, что и для DALL·E 3. Никаких публичных персон и уход от возможности подменять чьи-то лица. Прям так и сказала, как в DALL·E 3

Интересно, что на вопрос про обнаженку, ответила - мы разговариваем с художниками.

Данные для обучения: ведущая и так и эдак пыталась выудить информацию из Миры.
From Youtube? - I am not sure about that
From Instagram? - I am not sure about that
From Facebook? - I am not sure about that
From Shatterstock? - I am not sure about that

В конце каждого ответа "They are publicly available and licensed". С каменным лицом.

Сноска - Мира подтвердила, что данные Шаттерстока использовались в обучении Соры.

На вопрос про то, что пора выпить за видео-индустрию, Мира ответила, что Сора - это расширение креативности и живите теперь с этим.

И да, будут невидимые вотермарки.

По цене - ничего, и о том, как это будет реализовано - тоже.

Когда она говорит про стоимость, то имеет в виду, что chatGPT и DALL·E 3 сильно оптимизированы для инференса, а Sora еще нет. И они на итоге постараются сделать стоимость инференса Соры на уровне DALL·E 3. Чисто по внутренним затратам.

Еще говорит, что сейчас на простых промптах Сора генерит видосы "за несколько минут".

В общем ждем этих нескольких минут через несколько месяцев. Ура.


Хотите послушать, шуруйте сюда:
https://www.wsj.com/tech/personal-tech/openai-cto-sora-generative-video-interview-b66320bb

gonzo-обзоры ML статей 2024-03-13 19:02:06

Cerebras выпустил новую версию своей системы с гигантским чипом-вафлей, WSE-3.

Можно обучать модели до 24T параметров :)

https://www.cerebras.net/press-release/cerebras-announces-third-generation-wafer-scale-engine/

Key Specs:
* 4 trillion transistors
* 900,000 AI cores
* 125 petaflops of peak AI performance
* 44GB on-chip SRAM
* 5nm TSMC process
* External memory: 1.5TB, 12TB, or 1.2PB
* Trains AI models up to 24 trillion parameters
* Cluster size of up to 2048 CS-3 systems

AI Для Всех 2024-03-13 18:30:55

OpenAI показали свое первое демо совместно с Figure

🎧 Смотреть со звуком!

Недавно, OpenAI анонсировали свое партнерство с Figure - компанией производящей роботов. И вот появилась первая демонстрация.

В настоящий момент, GPT взяла на себя функции восприятия и интерфейса - то есть OpenAI воспринимает сенсорную информацию и передает ее роботу, внутренний (спинной?) мозг которого превращает эту информацию в движения (контроль). Так же, OpenAI берет на себя функцию общения с человеком.

Судя по видео - GPT-4V крутится на сервере, а не на самом роботе, но с развитием маленьких языковых и мультимодальных моделей несложно увидеть будущее (пару месяцев), в котором все происходит на самом роботе.

Ждем ответочку от Илона и Оптимуса с Гроком!

X.com

Сиолошная 2024-03-13 16:33:47

Но не NVIDIA единой. На рынке есть другие компании, которые ставят на AI чипы, и одна из них — Cerebras. Им уже 8 лет, успели выпустить несколько поколений чипов.

Их ключевая фишка прямо бросается в глаза — это ОГРОМНЫЕ чипы. В привычных нам видеокарточках площадь чипа прям малюсенькая, большую часть занимает радиатор/система отвода тепла, и немного — плата. А у Cerebras ставка на огромные чипы, с большой плотностью укладки транзисторов.

Это позволяет:
— делать обмен между чипами на порядок быстрее
— припаивать куда больше быстрой памяти (внутричиповых кэшей)

Для сравнения, на представленном WSE-3 4 триллиона транзисторов, 900'000 ядер (против 80B транзисторов и ~17000 ядер в H100, правда, они не 1:1 сравниваются, насколько я понимаю).

Две интересные цитаты из анонса:
— с использованием 2048 серверных стоек с нашими чипами, можно натренировать LLAMA 70B за 1 сутки (sic!)
— на такой кластер влезет даже модель на 24 ТРИЛЛИОНА параметров, «designed to train next generation frontier models 10x larger than GPT-4 and Gemini».

Даже если сам чип чуть хуже и неудобнее, возможность обучать модель большего размера в рамках одного здания (датацентра) без затрат на пересылку куда-то ещё — это клёво, и может оправдать неэффективности.

Анонс