эйай ньюз - страница 5

2023-09-29 10:01:06

Некоторым пользователям уже дали доступ к Vision функциям ChatGPT-4V, которую только недавно анонсировали.

Вы только гляньте как глубоко заходит понимание изображения у новой модели. Один твиторский решил скормить ChatGPT дичайшие слайды Пентагона про Афганистан. И модель улавливает детали и основной смысл слайдов, где требуется очень детальное распознание мелкого текста и связей между сущностям.

Конечно, тут самый маленький текст модель не увидела, но надписи покрупнее (которые все равно небольшие) и связи между ними в виде стрелочек модель уловила. Для меня и это удивительно!

При большем вычислительном бюджете, можно было бы позволить модели зумировать участки изображения, так же как делает человек, при рассмотрении картины, где очень много мелких деталей. Но это многократно увеличило бы стоимость таких запросов.

@ai_newz

2023-09-28 17:32:56

Продолжая тему Meta Connect, вчера еще анонсировали новое поколение умных очков Meta Ray Ban.

Спеки:
- 12 MP ultra-wide камера
- Cнимает видео в 1440x1920, 30 fps
- Система из 5-ти микрофонов
- 32 GB памяти.
- Можно звонить, отправлять голосом сообщения и слушать музыку (в дужки встроены спикеры).
- Батареи будет хватать на 4 часа, либо на 36 часов, если пользоватсья умным футляром, который служит как power bank.
- Куча стилей оправы и линз.
- Цена: $299

Кроме того, Марк обещал, что у очков будет доступ к SOTA языковой модели, у которой можно будет например спросить как долго жарить стейк, или уточнить правила тенниса прямо во время игры. Блин, это действительно новый уровень интеграции AI в повседневную жизнь.

А в следующем году очки получат бесплатное обновление софта и на лету смогут распознавать объекты перед вами и, например, переводить меню и надписи с иностранных языков.

А киллер фича — это лайв стриминг прямо от первого лица! Представляю, как lifestyle блоги обогатятся контентом.

@ai_newz

2023-09-27 19:43:06

AI-персонажи

Еще анонсировали 28 уникальных AI-персонажей, которые тренировались на известных личностях. Например, мой любимый там - это Snoop Dogg.

С ними можно поболтать по фану, попросить что-то посоветовать или рассказать, и каждый будет отвечать в своем стиле. Например, можно спросить как приготовить вкусное блюдо у известного в США шеф-повара Roy Choi.

Конечно, тут и про Safety и Alignment не забыли, и модели будут постоянно улучшаться.

Что дальше?
"Сегодня мы представили AI Studio, платформу, которая поддерживает создание наших AI, и мы планируем сделать ее доступной для людей вне Meta - как для программистов, так и для непрограммистов - чтобы они могли создавать AI. Разработчики смогут создавать сторонние AI для наших мессенджеров с помощью наших API в ближайшие недели, начиная с Messenger и затем расширяясь на WhatsApp.

Также компании смогут создавать AI, отражающие ценности их бренда и улучшающие опыт обслуживания клиентов. Начиная с малых бизнесов, стремящихся масштабироваться, и заканчивая крупными брендами, желающими улучшить коммуникацию, AI могут помочь компаниям взаимодействовать с клиентами через наши приложения. Мы запускаем это в альфа-версии и планируем дальнейшее масштабирование в следующем году."

Подробности и полный список персонажей - в блоге.

@ai_newz

2023-09-27 18:39:45

Вот так выглядит Meta AI бот, с которым можно поболтать как 1:1, так и в групповых чатах.

А также по команде /imagine можно попросить его сгенерировать изображения.

@ai_newz

2023-09-27 18:34:42

Вот такие AI штуки еще анонсировали. Все, что связано с генерацией и редактирвоанием изображений прошло через мои руки и руки моих коллег из GenAI в Цюрихе.

Больше инфы: https://ai.meta.com/genai

@ai_newz

2023-09-27 18:22:30

❤️AI Stickers

А вот еще одна модель, которую мы ускоряли и оптимизировали!

Теперь вместо того, чтобы искать подходящий стикер или эмоджи, можно просто ввести описание и быстро сгенерировать несколько вариантов специально по вашему запросу! Бесплатно и без СМС.

Фича доступна в Instagram, Messenger и WhatsApp.

@ai_newz

2023-09-27 18:04:26

А теперь работа нашей команды!

Emu - генерация high-res изображений, которая теперь доступна для пользователей по команде /imagine внутри нашего AI чат бота и через web.

Ускорение этой модели — это то, чем занимался я и наша команда. Работает за ~5 сек на картинку.

Вообще, эффективность и скорость генеративных моделей — это как раз основной фокус нашей тимы.

Попробовать модель можете сами на https://imagine.meta.com

@ai_newz

2023-09-27 17:49:59

🔥Meta Connect 3: Понеслась

Марк рассказывает про Quest 3: "Без кабеля и без батарей". (Привет, аппле).

- Новый, более мощный процессор.
- Более компактный дизайн и др.

- Xbox cloud gaming станет доступен на Quest 3 в декабре. Можно будет играть в сотни Xbox игр в хедсете.
- Mixed Reality (passthrough) фича. Это когда виртуальный мир проецируется на реальный, когда вы смотрите через Quest.
- Assasin's Creed NEXUS нативно поддерживается в Quest 3 и куча других игр.
- Цена $499

Стрим
Рестрим на Ютубе

@ai_newz

2023-09-27 16:31:47

Mistral.ai, стартап, основанный автором LLaMa, разразился новой открытой моделью Mistral 7B

Про новый парижский стартап я писал длиннопост несколько месяцев назад (часть 1, часть 2)

О модели Mistral 7B:
- Обходит Llama-2 13B и Llama-1 34B на всех бенчмарках
- Подбирается к CodeLlama 7B на генерации кода, не забывая как выполнять задачи на Английском языке
- Apache 2.0 лицензия

Скорость достигается за счёт:
- Grouped-query attention (GQA) for faster inference
- Sliding Window Attention (SWA) для более дешёвого инференса на длинных последовательностях токенов

Больше деталей
Модель на Hugging Face

@ai_newz

2023-09-27 12:02:02

Го сегодня смотреть ежегодную презентацию Meta Connect

Ивент начнется в 19:30 по Цюриху с доклада Цука (1 час), где он расскажет про новые AI штучки и VR/AR/MR, Meta Quest 3 в том числе.

Я буду постить тут про самые интересные моменты. Тем более там будет показана и моя работа.

- Стрим будет в fb на странице Мета.
- Расписание докладов тут.

- И в дополнение вот ссылки на мои посты с предыдущих Connect 2021 (тык) и 2022 (тык).

@ai_newz

2023-09-27 11:41:37

Победы в челенджах и научные призы хорошо выделяют ваше резюме из толпы при поиске работы. Я, будучи PhD студентом, пытался помаксимуму насобирать всяких лычек и призов. Например, Яндекс прямо сейчас набирает заявки на премию для учёных и преподавателей в области Machine Learning - Yandex ML Prize.

Если вы (или ваши студенты) публиковали статьи на топовых AI/ML конфах (A или A), то можете подавать заявку. Оцениваются достижения в генеративных моделях, информационном поиске, распознавании и синтезе речи, обработке языка и машинном переводе, а также в компьютерном зрении. Я думаю, что со статьей с CVPR, ICCV или NeurIPS можно изи подаваться.

Приз обещают от 500к до 1 млн рублей, в зависимости от номинации, и еще 500к кредитов на облачные вычисления. Бонусом — лычка в резюме.

Есть пять номинаций: за первую публикацию, исследователям со статьями, молодым и опытным научным руководителям, а также преподавателям ML. Участвовать можно, если вы из Азербайджана, Армении, Беларуси, Казахстана, Кыргызстана, Молдовы, России, Сербии, Таджикистана, Туркменистана или Узбекистана.

@ai_newz

2023-09-26 19:33:31

👀 ChatGPT теперь умеет видеть, говорить и слушать

Вчера OpenAI показали новую модель ChatGPT-4V(ision). Это мультимодальная модель, которая может понимать и синтезировать голос, а также понимает изображения. Мы получаем более интуитивный интерфейс, который позволяет разговоривать с ChatGPT голосом (Привет, Siri!).

А теперь, лайфхак из блога OpenAI, который СУЩЕСТВЕННО упростит вашу жизнь:
"Когда вы дома, сфотографируйте свой холодильник и кладовую, чтобы определить, что приготовить на ужин (и задать уточняющие вопросы для пошагового рецепта). После ужина помогите своему ребенку с математической задачей, сделав фотографию, выделив задачу и получив подсказки от ChatGPT для вас обоих."

Обещают в течение следующих двух недель дать доступ к voice и vision функциям ChatGPT-4V премуим пользователям Plus и Enterprise. Голос будет только на iOS и Android.

В стиле ClosedAI парни выложили что-то типа тех репорта, без технических деталей, где рассказывают про Safety новой модели и показывают примеры работы.

@ai_newz

2023-09-25 10:16:01

Anthropic получит до $4 млрд новых инвестиций от Amazon

Anthropic – это один из основных конкурентов OpenAI ChatGPT, который также строит conversational AI. Об их моделе Claud AI я писал в начале года.

— Недавно Anthropic впервые публично выкатили премиум подписку на свою модель Claude 2 с размером контекста в 100к токенов. Стоит $20/мес, но доступ есть только из US и UK.

— Anthropic хотят тренировать следующую версию "Claude-NEXT", которая планируется быть "в 10 раз более способной", чем существующие LLM (серьезная заявочка). Соответственно нужно очень много денег на тренировку и ресерч, поэтому и рейзят у Амазона.

— Для Амазона это возможность застолбить за собой потенциально лидирующую технологию, которую разрабатывает Anthropic и поплотнее подсадить их на AWS. Похожим образом Microsoft вкинул ≈$13 млрд в OpenAI.

— До текущего момента Anthropic уже подняли $2.7 млрд. А последняя оценка компании в мае этого года была $5 млрд.

— Amazon изначально купит в Anthropic миноритарную долю за $1.25 млрд, и договорились, что Amazon может увеличить размер инвестиции до $4 млрд.

— Учитывая размер новых инвестиций от Amazon, сейчас Anthropic должен оцениваться в разы дороже. В компании видят огромный потенциал.

Ну что ж, звучит многообещающе! Хочу купить подписку на Claude Pro (через VPN) и попробовать попользоваться.

@ai_newz

2023-09-24 19:30:04

Никто: мы опасно близки к AGI. Пора бомбить датацентры!!1!1

Tesla Optimus: ловко и спокойно сортирует кубики лего по цвету.

--

Кроме шуток, не часто увидишь full-body робота, который так плавно манипулирует мелкими объектами, основываясь чисто на зрении. Причем, заявляют что робот управляется одной нейронкой end2end: на вход видеопоток, на выход сигналы для контроля актуаторов. И это тоже довольно круто.

Подозреваю, что гоняют огромный мультимодальный трансформер. Возможно, архитектура отдаленно похожа на Google RT-2 (мой пост про RT-1) или PaLM-E.

@ai_newz

2023-09-24 18:33:14

Обещаю, на этом посте пока закончим про image restoration :)

Для сравнения, вот такие результаты выдает на тех же картинках популярные энхансеры
1) cвязка real-ESRGAN + GFPGAN (для face-enhancement).
2) CodeFormer

CodeFormer в целом получше работает на лицах чем real-ESRGAN, что и ожидаемо, ведь CodeFormer тренировался специально для лиц.

Если повреждения изображения можно описать как downscale + jpeg артефакты, то и ESRGAN и СodeFormer работают хорошо (как, например, в предпоследней строке), но если же картинка испорчена посильнее и применены другие деструктивные операции, то результат будет более плачевный чем у DiffBIR.

Но, да, real-ESRGAN и CodeFormer молниеносно быстры по сравнению с диффузией.

- Я запускал real-ESRGAN из этого колаба и апскейлил c 256 до 1024 (при апскейле 512-> 2048 получалось не лучше).
- CodeFormer брал отсюда, запускал в режиме предполагающем, что картинки содержат только лица.

@ai_newz

2023-09-24 17:19:51

Я тут пересобрал для вас новый колаб для DiffBIR на базе последних коммитов из оф. репы: можете попробовать тут.
Нужен Colab Pro, т.к. в 12 GB оперативки не вместится.

Метод действительно работает, но не на всех видах деформаций. Опять начерепикали в статье...🌚 Но все же лучше чем real-ESRGAN.

Попугая нормально восстановило. А вот мем "смекалочка" не хотел восстанавливаться в нормальное лицо, пока я вручную не добавил промпт и CFG.

Пикселизованное 8-битное лицо, например, вообще отказалось превращаться в нормальное - видимо, метод не считает это за corruption, и думает что это часть композиции.

Боюсь, что многие универсальные восстановители изображений (а BirDIFF заявлялся одним из таких) будут страдать от того, что некоторые поврежедния будут считать частью оригинальной картинки.

Специализированные же методы, конечно, будут давать лучшие результаты если применять их в том же домене, на котором они и были обучены.

@ai_newz

2023-09-24 05:15:04

DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior

Тут китайцы (тоже они, да) подвезли СОТУ по ресторации изображений и апскейлу.

Stable Diffusion знает как создавать реалистичные изображения. Осталось только как-то дообучить ее принимать low-qulity изображение как условие. В этом и суть работы.

Авторы берут и тренируют модуль, похожий на ControlNet, который принимаетна вход latent code испорченного изображения. Кроме того на вход этому контролнету еще дополнительно конкатенируют код z_t (z_T - это шум), я думаю это для того, чтобы условный сигнал адаптировался под текущий уровень шума, а не всегда был одинаковым.

Еще до диффузии испорченную картинку прогоняют через более простой метод ресторации SwinIR (Stage 1), который убирает шум и артифакты, но не умеет генерить high-freq детали. Это позволяет диффузи концентрироваться в основном на мелких деталях, которые и придают реализм.

Работает, конечно медленнее чем ESRGAN, но лучше.

Сайт проекта
Колаб
Код демки

@ai_newz

2023-09-23 21:00:01

В комментах, подписчик (спасибо @p0lygon) провел тест FreeU, и его наблюдения подтвердили мою гипотезу, о том что метод "режет" детали, когда смягчает артефакты.

«Смягчает детализацию, иногда артефакты убирает.

Первая - без freeu

Вторая - коэффициенты b=1,1 и s=0,95, меньше чем в у них в репе. Этот вариант мне нравится.

Третья - как у них, 1,2 и 0,9. Слишком разглаживается.

Ну хз, может и пригодится. надо глубже поиграться."

@ai_newz

2023-09-23 13:39:30

Вот так перевзвешивают backbone фичи и skip фичи в декодере UNet. Если посмотрите на картинку, то увидите, что skip фичи взвешивают в спектральном домене после FFT преобразования. Причем выставляют вес s < 1 только для низкочастотных сигналов, чтобы не перебивать более качественные низкочастотные сигналы приходящие из backbone фичей, которые были усилены.

Короче, это капут какая эмпирическая работа. Без теоретических обоснований, почему это вообще должно что-то улучшать. Но вроде работает для Stable Diffusion.

Однако, я заметил что:
- метод хоть и решает структурные артефакты, за которые отвечают high-frequence сигналы (например, тело медведя становится правильным, или у кота отрастает недостающая лапа)
- но на генерациях становится гораздо меньше мелких деталей. Все же There is No Free Lunch, несмотря на то что статья называется FreeU: Free Lunch in Diffusion U-Net. Маркетинг 💁

@ai_newz

2023-09-23 13:17:51

Китайцы нашли эмпиричесикй способ улучшить качество генерации SD - простая модификация FreeU позволяет избавиться от артефактов без ретрейна модели.

Как?
Итак, SD использует архитектуру UNet под капотом, где проброшены skip-соединения между блоками энкодера и декодера. Фичи, получаемые на выходе блоков декодера ("backbone" фичи) и фичи приходящие из skip-соединения конкатенируются и посылаюстя в следующий блок декодера. Авторы заметили, что backbone фичи вносят больший вклад именно в денойзинг и в низкочастотные детали (это грубая структура объекта), а skip фичи дополняют генерацию высокочастотной информацией, помогая восстанавливать мелкие детали картинки.

Авторы взвесили вклад backbone фичей и skip фичей во время инференса, умножением их на два скаляра b > 1 и s < 1 соответственно. То есть увеличили вес backbone фичей, чтобы сделать упор на глобальную структуру и уменьшили вклад skip фичей, чтобы уменьшить high-freq артифакты. И это сработало как для картинок, так и для видео!

Сайт проекта
Код

@ai_newz

2023-09-20 19:11:25

Еще картиночек от DALLE-3. По сути это почти все, что нам показали на текущий момент.

Ни кода, ни блога, ни визуального сравнения с SOTA, ни бенчмарков.

OpenAI, что еще сказать 🌝

@ai_newz

2023-09-20 18:54:37

3-ий промпт: A photo of an ancient shipwreck nestled on the ocean floor. Marine plants have claimed the wooden structure, and fish swim in and out of its hollow spaces. Sunken treasures and old cannons are scattered around, providing a glimpse into the past.

Ради справделивости, эта генерация выглядит наиболее как фотография. Хотя в реальности под водой фото выглядело бы совсем иначе.

2023-09-20 18:53:19

Модель максимально кастрировали алайнментом и фильтрами нежелательного контента. Dalle-3 откажется генерить известных людей, любые картины в стиле существующих художников и любой небезопасный контент по мнению OpenAI. Так компания обезопасила себя от судебных исков.

Кажется, что фотореалистичный контент модель тоже слабо умеет генерировать. Везде видна стилизация, картинки выглядят отрендеренными и слегка пластмассовыми, а не как реальные фотографии, даже если в промпте явно написать "photograph".

Промпты:

1. Close-up photograph of a hermit crab nestled in wet sand, with sea foam nearby and the details of its shell and texture of the sand accentuated.

2. A vibrant yellow banana-shaped couch sits in a cozy living room, its curve cradling a pile of colorful cushions. on the wooden floor, a patterned rug adds a touch of eclectic charm, and a potted plant sits in the corner, reaching towards the sunlight filtering through the window.

3. A photo of an ancient shipwreck nestled on the ocean floor...

@ai_newz

2023-09-20 18:36:44

🔥 OpenAI анонсировали DALL-E 3

DALL-E 3 обещает быть интегрированной с ChatGPT, то есть не нужно будет думать над промптами (привет промпт-инженерам). Достаточно будет в пару слов описать, что вы хотите нарисовать, и ChatGPT придумает детальные промпты для вас.

Особое внимание уделили деталям и научили модель лучше прнимать контекст изображения, описанный в длинных промптах (DALLE-3 любит многословность описаний).

Пока никому не дают потрогать модель, показали только с дюжину генераций. Поэтому трудно судить насколько это будет SOTA, и как медленно это будет работать.

Я полагаю, это будет огромная диффузия в несколько этапов с GPT-4 в качестве текстового энкодера и всяческими свистелками-перделками, о которых мы не узнаем.

В октябре обещают дать доступ юзерам ChatGPT Plus and ChatGPT Enterprise. А после этого может быть ресерчерам.

https://openai.com/dall-e-3

@ai_newz

2023-09-20 13:00:14

Потыкал я в обновленного Bard-а.

Я бы никогда не дал доступ ChatGPT к своим письмам, но т.к. письма и так уже на серверах гугла, то перешагнуть этот порог с Бардом было нетрудно. Интересно было посмотреть как он хорошо ищет в моих мейлах. Оказалось, что не очень.

Пытался узнать, что мне впервые написал мой PhD научник из Хайдельберга - Prof. Björn Ommer. В итоге я очень долго мучал Барда, чтобы тот смог найти емейлы по имени отправителя. Паршивец наотрез отказывался, пока я явно не выписал e-mail адрес. Затем он не хотел искать письма раньше чем 2021 год (а у меня их там тысячи), пока я несколько раз не сказал явно, мол "I had emails from Björn before 2021". Только после этого он осилил задачку.

Письмо от Авг. 2015 реально существует, где я спрашивал у Бьёрна что мне делать по прибытию в Германию в первую неделю. Но это было не первое письмо все равно!

Короче, продукт работает, но еще довольно сырой.

Попробовать можно тут. Не забудьте включить "Extensions" для доступа к gdrive и gmail.

@ai_newz

2023-09-20 09:51:58

Большое обновление Google Bard

Вчера Google выкатил свою продвинутую версию Bard, которая интегрирована с другими продуктами Google - эдакий универсальный помощник по вашим делам. Еще добавили факт-чекинг.

— Теперь Bard может брать информаци из других приложений Google (типа аналог плагинов у ChatGPT)
— Можно работать с данными из Maps, YouTube, Hotels и Flights. Модель сама запросит инфу у нужного сервиса.
— Возможность взаимодействовать с вашей приватнйо информацией из Gmail, Docs и Drive, чтобы находить, сжимать и отвечать на вопросы.
— Ответы Барда теперь можно дполнительно факт-чекнуть с помощью Google It v2 для большей уверенности в информации. Система дополнительно погуглит и попытается найти подтверждения фактам со ссылками в интернете. Текст подсветится разными цветами.
— Возможность по ссылке продолжить диалог, начатый другими, и использовать его для вдохновения. Например, так будет удобно шарить промптики.
— Можно загружать изображения и включать их в ваш промпт, задавать по ним вопросы.

Это серьезная заявоча на конкуренцию с другими LLM-сервисами. Учитывая огромную базу пользователей GDrive и GMail, может взлететь если сам продукт не будет сильно лажать.

Блогпост (3 мин)
Потыкать в Bard Chat самому

@ai_newz

2023-09-19 20:54:38

Кажется, война против машин уже началась. Сначала конусы, а теперь в ход идут молотки.

10 сентября, Сан-Франциско.

@ai_newz

2023-09-18 17:57:04

Würstchen V2 — быстрее чем SDXL

Наконец-то после прогрева зарелизили "Колбаску V2". Модель генерит картинки в 1024x1024 быстрее чем SDXL и состоит из двух этапов диффузии.

Stage A: это text-conditioned диффузия на 1 млрд параметров. Ускорение тут достигается из-за ультра высокой компрессии вместо размера скрытого кода 128x128x4 как у SDXL, тут сначала работают в разрешении 24x24x16 — в 5 раз меньше пикселей, но больше каналов.

Далее идёт Stage B: это диффузионная модель на 600M параметров, которая разжимает из 24x24 в разрешение 128x128.

Ну а в конце по традиции декодер, (20M параметров) который рендерит картинку из скрытого кода.

По скорости выходит в 2-2.5 раза быстрее чем SDXL.

По качеству, думаю небольшой проигрыш есть - хочу ещё провести честное сравнение.

В автоматик1111, конечно же ещё не завезли.

Блог + демо
Код
Веса
Google Colab

@ai_newz

2023-09-17 14:29:12

Чисто кайфовые генерации в виде спиралей и других фоновых структур.

Трюк в том чтобы взять черно белое изображение и использовать его как контрольный сигнал в Controlnet: QR Monster (тот, что ещё использовали для генерации QR кодов в виде картинок: инструкция).

На последних двух генерациях горы в виде Гигачада сделали по такому же принципу. Преобразовали Гигачада в ч/б и использовали его как контрол.

@ai_newz

2023-09-16 12:13:37

Наткнулся на библиотечку Compel, которая позволяет работать с текстовыми эмбеддингами для Stable Diffusion на продвинутом уровне.

Например, можно увеличивать вес отдельных слов, добавляя + или - после слова или фразы, либо явно указать вес от 0 до 2. Принцип работы основан на линейной интерполяции между эмбеддингом оригинального промпта и и промпта, где замаскировано взвешиваемое слово.

Ещё можно блендить несколько промптов между собой (последний скрин).

Вот тут больше примеров операций с промптами.

Самое главное - либа хорошо интегрируется с diffusers и работает как с SD 1.x, 2.x так и с SDXL.

@ai_newz

2023-09-15 18:40:31

Вот еще картинки с результатами метода из поста выше.

В том числе на последнем скрине показаны результаты редактиврования depth представления, после которого меняется финальная генерация - объект двигается. Правда внешний вид не совсем сохраняется - но там и нет явных лоссов, которые бы это предотвратили.

Интересно посмотреть на развитие этой идеи, например, для генерации видео, или для вращения объекта.

2023-09-15 18:29:01

Beyond Surface Statistics:
Scene Representations in a Latent Diffusion Model

Вышла интересная статья, где показали, что Latent Diffusion (LDM) выучивает информацию о глубине сцены в своих latent фичах.

Проверили очень просто - взяли фичи из промежуточных self-attenion слоев у Stable Diffusion v1 и натренили линейную регрессию восстанавливать глубину и saliency (это по сути бинарная сегментация). По одному лин-регу на каждый слой и на каждый шаг солвера t.

Итак, мы видим, что уже после пяти шагов солвера, фичи содержат довольно много инфы о глубине объектов, в то время как сам объект еще не разобрать.

А самая точная глубина содержится в первом self-attention слое декодера Unet.

Еще авторы показали, что можно отредактировать фичи, которые соответствуют инфе о глубине так, что передвинется объект на итоговой генерации.

Cтатья подтвердила интуицию о том, что LDM учит неявное 3D представление об объектах, иначе она бы не смогла генерить такие качественные изображения и эффекты вроде блюра.

@ai_newz

2023-09-15 13:40:52

OpenAI открыли первый офис в Европе - в Дублине!

Вот мои мысли, почему именно Дублин:
1. Это единственная англо-говорящая страна в EU (с поправкой на акцент).

2. Возможность расширять хайринг в Европе, т.к. многие специалисты не хотят эмигрировать в Северную Америку.

Я замечаю небольшой сдвиг в этом плане, многие AI стартапы с которыми я общался, открывают главный офис в Европе именно по причине кадров. Не всем нравится работать в удаленном офисе, когда все решения принимаются в США.

3. Налоговый рай - корпоратиный налог в Ирландии один из самых низких в мире, 12.5%. В Европе ниже он только в Венгрии - 9%.

4. Активная тех-индустрия и различные государсвтенные программы по развитию IT сектора.

5. Возможность более плотно работать с Европейскими AI и privacy регуляторами.

Я спарсил страницу с вакансиями и среди них почти все нетехнические: Accounting, Finance, Privacy, Legal, Media Relations, Global Affairs, Support. Что может быть интересно тем читателям, кто не пишет код каждый день.

@ai_newz

2023-09-12 12:03:19

А вот и обложка свежего выпуска журнала Wired.

Цитата из выпуска: "The young company sent shock waves around the world when it released ChatGPT. But that was just the start. The ultimate goal: Change everything. Yes. Everything."

Вот они рокзвезды ИИ по мнению журналистов. Начинает немного подбешивать хайпожорство вокруг OpenAI.

Еще об интересной обложке Times я писал пару дней назад.

@ai_newz

2023-09-10 07:58:12

🦜Оказывается, попугаи достаточно умные, чтобы освоить UI ютуба. Больше всего им нравится смотреть видео с другими попугаями. Посмотрите, как он целенаправленно листает ленту и выбирает видео с себе подобными. Пернатый интеллект, не иначе.

Вообще, очень круто осознавать аналогии в обучении животных и машин.

@ai_newz

2023-09-09 10:29:24

Привет, друзья! А есть кто из нашего узкого комьюнити любителей AI на Мальте? Можно было бы мини-митап в бич-клубе организовать, пока я тут.

Погода все равно ветренная, и не покупаешься.

@ai_newz

2023-09-08 07:30:52

Ничего необычного. Прошло 2 дня с выхода Falcon 180B и Герганов уже как ни в чем не бывало гоняет её у себя на маке M2 Ultra через LLaMa.cpp со скоростью 6.30 токенов в секунду

Это 4-битная моделька falcon-180b-chat.Q4_0.gguf отсюда.

@ai_newz

2023-09-07 18:46:05

Обложка свеженького выпуска TIME. Сколько лиц вы знаете?

Ответ: по ссылке.

Честно сказать - включили кучу ноунеймов, большая часть которых в AI сбоку припёка.

@ai_newz

2023-09-07 16:37:17

Сегодня на Practical ML Conf Яндекс анонсировал обновленную версию своей языковой модели - YandexGPT2. Новая модель дает более качественный ответ, чем первая версия, в 67% случаев. YandexGPT2 лучше справляется со сложными инструкциями пользователей, лучше анализирует тексты и адаптирует текст под разные стили и аудитории.

Увеличили размер модели и расширили датасет (собрали больше реальных + синтетических данных). В общем, кажется, что модель хорошо дообучили. Правда, на лидерборде HF мы эту модель не увидим, потому что бенчмарки в основном англоязычные, а YandexGPT2 все же заточена на русский язык.

YandexGPT2 уже пошла в прод - ее задеплоили в Алису в фичу "Давай придумаем" (можно запустить прямо в поиске), где можно попросить LLM сгененерить что-то креативное, будь то стих или сценарий.

@ai_newz

2023-09-06 15:00:17

🔥Сегодня вышла просто гигантская модель Falcon 180B!

Иновационный Институт Технологий Абу-Даби удивляет. Их новая модель Falcon 180B теперь заняла первое место на открытом лидерборде HF. По качеству ответов она где-то между GPT-3.5 и GPT.4, примерно на уровне PaLM-2.

Параметры модели Falcon-180B:
- 180 млрд параметров! Напомню, что предыдущая самая мощная открытая модель была LLaMa-2 70B.
- Контекст 2048 токенов (но можно расширить с попощью RoPE scaling)
- Тренили 2.5 месяца на 4096 GPU на Amazon SageMaker.
- Модель видела 3.5 триллионов токенов (против 2 триллиона у LLaMa 2). То есть Falcon прочитала почти в 2 раза больше текстов.
- Multi-query attention (MQA) для скорости инференса и чтобы не раздувать количество параметров.
- Есть базовая и чатовая версии.

Забавно, что для инференса этой модели в int4 вам потребуется 8x A100 видеокарт (удачи!).

Лицензия позволяет очень ограниченное коммерческое использование.

❱❱ Веса и код доступны на HuggingFace HUB.
❱❱ Демо (жестко педалит).

@ai_newz

2023-09-05 08:34:37

Я, кажется, уже упоминал, что супервайжу несколько PhD студентов, которые пишут с нами научные работы. Так вот сейчас я ищу студента-магистранта из ETH, который бы писал свою магистерскую работу под моим надзором в коллаборации с одним профессором из ETH. Сегодня получил резюме от одного перспективного студента.

Вы только посмотрите какие клёвые курсы дают в магистратуре по Computer Science в ETH Zürich! На скрине – часть транскрипта студента. Те вещи, которые мне приходилось учить самому методом проб и ошибок, например Digital Humans или Shape Modelling, студентам в хороших ВУЗах уже преподают в структурированном виде.

Я уверен, что и в других вузах появляется куча новых актуальных курсов. Но даже если вы уже не студент, то в интернете можно найти такие же крутые онлайн курсы от ведущих университетов, которые можно изучать бесплатно!

@ai_newz

2023-09-03 21:45:07

Классный эксперимент с Гауссовскими Сплаттингом (я писал об этом методе на днях). Челик взял три картины, задал для них вручную разные позиции камер внутри ондной сцены и обучил сплаттинг.

В итоге при повороте камеры достигается такой интересный эффект перехода одной картины в другую. Сплатики научились отображать разные картины с различных углов.

Кстати, вот тут еще повилась имплементация рендеринга Gaussian Splatting внутри божественной библиотеки nerfstudio (подробнее про нее в этом посте).

@ai_newz

2023-08-31 13:40:26

Эндрю Ын вчера выкатил новый мини-курс: How Business Thinkers Can Start Building AI Plugins With Semantic Kernel

Курс длиной всего в 1 час и рассчитан на новичков - технического мяса там не ожидается. Нужно только знать Python.

Но обещают научить строить пайплайны с LLM, пользоваться памятью и писать плагины для решения бизнес-задач. Работа будет идти на базе Semantic Kernel — это SDK для языковых моделей от Microsoft, что-то похожее на уже известный нам LangChain.

Курс ведёт не хер с горы, а VP of Design and Artificial Intelligence из Microsoft.

Ссылка на курс (временно бесплатно)

@ai_newz

2023-08-29 13:34:54

Толкаем весь AGI прогресс только ради этого!

@ai_newz

2023-08-29 11:14:26

Я уже упоминал, что пользоваться ChatGPT в крупных компаниях - это моветон. Ведь нет никаких гарантий о приватности данных (и минимум до 1 марта они тренировали модели на диалогах пользователей).

Пишут, что за 9 месяцев со дня первого релиза 80% крупнейших американских компаний из Fortune 500 использовали ChatGPT. Поразительно, но статистику эту смогли подбить, проанализировав е-мейлы, с которыми регались люди - они использовали рабочие домены. Ух, как многим прилетело бы (как было, например, в Samsung), если бы начальству в руки попал список е-мейлов. На самом деле пользоваться ChatGPT и не слить никакой корпоративной информации в чат - очень сложно. Нужно тщательно анонимизировать свои запросы, но большинство людей забивают.

OpenAI, осознав проблему, выкатили специальную версию для корпоративных клиентов - ChatGPT Enterprise.

Обещают повышенную безопасность переписок и вот такие бонусы:
- GPT-4 без ограничений по кол-ву запросов
- Работает в 2 раза быстрее
- Более длинный контекст (32k токенов), для работы с файлами и большими запросами
- Доступ к Code Interpreter
- Возможность кастомизации (возможно дадут дообучить на своих данных)

И самое главное:
1. "Мы не тренируемся на ваших бизнес-данных и диалогах".
2. "Все диалоги зашифрованы во время передачи и во время хранения."

Для многих такого успокоения будет достаточно.

@ai_newz

2023-08-28 10:41:58

🔥3D Gaussian Splatting for Real-Time Radiance Field Rendering

На видео - результат работы алгоритма, использующего снимки с дрона для реконструкции 3D сцены. Можно летать в ней риал-тайм.

Это стало возможным благодаря тому, что недавно переизобрели новый "старый" метод нейронного рендеринга.

Что такое Гаусовские Сплаты, простыми словами:
Используя видео с помощью Structure from Motion (COLMAP) извлекается облако точек, затем по облаку инициализируется набор маленьких полупрозрачных гауссиан. Эти гауссианы затем оптимизируются чтобы после рендеринга максимально точно восстанавливать оригинальные кадры. Все, ваша 3д-сцена готова.

То есть это никакой не Nerual Radiance Field. Тут все гораздо проще. За счет простоты эта штука и обучается, и рендерится довольно быстро. А назвал я этот метод новым "старым", потому что это до боли напоминает работу 2019 года Neural Point-Based Graphics (я писал о нем тут), где похожим образом для каждой точки обучался небольшой плоский элипсоид.

Сайт проекта
Код (можно запустить на своих cценах)

#ликбез
@ai_newz

2023-08-23 19:13:17

Типичное кафе в стране восточной Европы. На приватность данных плевать — владелец установил тотальный контроль за работниками и за клиентами.

Работает детекция, трекинг и ре-идентификация. Так для каждого работника есть фотки в базе - то можно трекать их поимённо, ещё и считать сколько чашек кофе каждый сделал. Клиентов же трекают для того, чтобы собрать статистику о том, сколько времени люди проводят в заведении.

Такую системы в наши дни очень просто собрать на недорогом игровом ПК. Это уже почти решенная проблема (особенно если пространство и пул лиц ограничен).

Видео просто ещё раз даёт нам понять, как легко можно трекать всех-всех граждан (привет поднебесной !).
Хорошо, что хоть в Европе за такое пока бьют по рукам.

@ai_newz

2023-08-23 11:01:02

Как и ожидалось - у некоторых твитторских уже порвало пуканы от этого манускрипта. Как например у Гэри Маркуса, автора бестселлеров об опасности AI и сторонника моратория на разработку AI.

Кажется, Гэри даже цитирует несуществующие в препринте фразы, чтобы придать драматизма.

@ai_newz

2023-08-23 11:00:13

Consciousness in Artificial Intelligence: Insights from the Science of Consciousness

На днях появился философский трактат на 80 страниц, в котором Ëшуа Бенжио, один из отцов Deep Learning, вместе с соавторами размышляет о том, есть ли сознание у текущих AI систем.

Авторы из сферы философии сознания, когнитивной науки и AI попытались вместе создать список более-меннее формальных необходимых критериев (но не достаточных), которым должен удовлетворять AI с сознанием. Сами критерии - в комментах.

Провели case-study и проанализировали, например, такие модели:
- GPT / Transformers
- Perciever
- PaLM-E
- Adaptive Agent (DeepMind)

В общем, оказалось, что ни одна из ныне существующих нейросетей не обладает сознанием. Хотя обучить систему под каждый отдельный пункт вроде бы возможно, трудно сделать так, чтобы AI удовлетворял всем критериям одновременно - но и тогда, не факт еще что он обретет сознание.

Авторы верят, что мы в течение нескольких ближайших десятилетий сможем построить AI c сознанием.

@ai_newz

2023-08-22 23:17:14

Пум-пум-пум. Там Opena AI выкатили значительную фичу - тепeрь можно файнтюнить GPT 3.5 Turbo.

По сути это LoRa-as-a-service. Готовите json файл со своими диалогами, загружаете на сервер OpenAI (если хотите без этого - то вам к LLaMa и сородичам, кек) через API и через апишку же и запускаете трейнинг.

Цена вопроса:
- Во время тренировки: $0.008 / 1K токенов
- Стоимость ввода во время инференса вашей кастомной модели: $0.012 / 1K токенов
- Стоимость генерации: $0.016 / 1K Tokens.

В общем, для babbage-002 кастомная модель обойдется в 4 раза дороже,
а для davinci-002 в 6 раз дороже чем базовая. Оно, конечно, понятно - нужно же отдельную ноду поднять и зарезервировать GPU под вашу индивидуальную модель.

Гайд по файн-тюнингу GPT 3.5

@ai_newz

эйай ньюз страница 5. Показано 50 статей из 595