Нейролента Mikitos.ru 2736 постов. Страница 48 (50 постов)
эйай ньюз 2023-06-20 15:57:58
Сегодня в 10:30-12:30 по канадскому я буду презентовать наш постер Avatars Grow Legs
Узнаете как восстанавливать последовательность 3D поз человека в движении, зная только позицию головы и запястий (например во время игры в VR).
Постер #46, приходите поболтать если вы на CVPR. #конфа
❱❱ Подробный пост про статью.
@ai_newz
эйай ньюз 2023-06-20 08:08:47
Сегодня был ещё на офигенном воркшопе Visual Pre-Training for Robotics.
Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.
Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.
Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!
Подробности в статье FastRLAP.
Постараюсь достать запись докладов для вас.
#конфа
@ai_newz
Neural Shit 2023-06-20 07:54:45
Меня всегда впечатляли видосы с разными шоу дронов, но вот это вот прям ваще заебок. Напилить такое — не козявки трескать. Настолько всё грандиозно, синхронно и четко.
эйай ньюз 2023-06-19 22:24:14
CVPR День второй: воркшопы и туториалы
Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.
Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
— FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
— DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).
Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.
#personal #конфа
@ai_newz
эйай ньюз 2023-06-19 15:11:23
А вот несколько слайдов с доклада "Efficient Text-to-Image Generation", где Снэп рассказывал про свою работу по ускорению Stable Diffusion.
Плюс демка, где они запускали генерации на телефоне.
Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.
Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!
Сайт проекта SnapFusion
#конфа
@ai_newz
Neural Shit 2023-06-19 14:25:04
Если аутпэйнтинг придуман не именно для вот этого вот, то зачем он вообще нужен?
Neural Shit 2023-06-19 07:52:00
Умелец напилил приложение для Oculus, которое с помощью дополненной реальности и Chatgpt позволяет общаться с разными персонажами.
Так скоро до кошкодевочек и аниме-тян докатимся (скорее бы уже)
Neural Shit 2023-06-19 06:37:00
Тем временем в Портленде открыли первую радиостанцию, которую вместо диктора ведет нейронка под названием AI Ashley. Искусственный интеллект создаёт сценарий передач на основе актуальных новостей и зачитывает их синтетическим голосом. Правда, развлекает слушателей железяка не круглосуточно, а всего 5 часов в день, остальное время работают как и прежде кожаные мешки.
Руководство радиостанции божится, что не использует RadioGPT для экономии затрат. В компании сервис считают просто эффективным инструментом для радиоведущих
подробнее тут
эйай ньюз 2023-06-18 17:43:53
CVPR День первый: воркшопы и туториалы
Держу вас в курсе. Начался первый день конфы.
Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.
Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.
#конфа
@ai_newz
Neural Shit 2023-06-18 15:14:49
Киберпанк, который мы заслужили
Neural Shit 2023-06-18 05:08:01
Иногда, когда мне скучно, я просто иду в Midjourney или Stable Diffusion и генерирую изображения только по одному запросу: "Cursed image". Очень часто получается лютая хтонь, хоть на обложки для металл-групп забирай.
эйай ньюз 2023-06-18 04:00:07
Пока я летел до Ванкувера, слушал подкаст с Yoshua Bengio. Это канадский профессор, ещё один отец-основатель Глубокого Обучения, помимо Яна ЛеКуна и Джефа Хинтона.
Иошуа поговорил про большие языковые модели и высокоуровневое мышление. Очень интересно было послушать про ботлнек сознания человека — мы можем активно держать в уме только небольшое количество переменных, что концептуально сильно отличается от того как сейчас работают Deep Learning модели. С одной стороны, это ограничивает мощность человеческого мышления. С другой стороны это очень полезный регуляризатор, который, возможно, и позволил человеческому мозгу так быстро развиться в процессе эволюции и "заставил" человека учиться оперировать высокоуровневыми концептами.
Иошуа рассуждает о том, как было бы круто добавить такой индуктивный байес в обучение нейросетей и подводит к тому, что текущие авторегрессионные модели (как, например GPT-4) — это не совсем то, что может обрести интеллект равный человеческому. Он говорит, что не масштабированием единым мы достигнем AGI, и что нам предстоит ещё много чего концептуально улучшить в текущий моделях.
Ещё он много раз ссылается на свои недавние работы, где он со студентами пытается развивать новый тип моделей — Generative Flow Networks (GFlowNets). Я о них впервые услышал только в том подкасте, думаю стоит разобраться, что за они.
Уровень сложности подкаста — выше среднего. Но все равно очень рекомендую к прослушиванию.
Spotify | YouTube
@ai_newz
эйай ньюз 2023-06-18 02:27:58
Нетворкинг на CVPR 2023
Друзья, у нас тут намечается критическая масса в Ванкувере. Поэтому я создал чатик для организации встреч. Добавляйтесь, если вы тоже тут.
https://t.me/+mjlZoGcsH0dkNGMy
@ai_newz
Сиолошная 2023-06-17 21:42:07
У меня не влезло из-за ограничений телеграма, поэтому допишу пятый "анекдот" отдельным сообщением, однако он не такой однозначный.
Авторы применяли все методы по цепочке. То есть если GPT-4 не смогла ответить на вопрос, то тогда ей показывали 3 самых похожих примера в промпте и просили решить. Если не могла - добавляли фразу "думай шаг за шагом". Не справлялась снова - пиши код. Ну и так далее. А те вопросы, на которые модель ответила правильно (согласно самой же GPT-4, напомню), уже не переспрашивались.
Кажется, тут можно сказать "ну это абсурдно же, так как по сути мы смотрим на правлиьные ответы. Это как будто кто-то на экзамене стоит над вами, и к каждому решению говорит, что оно неправильное. А если оно правильное - перестает ругаться, а вы перестаете его менять". С одной стороны, да, это правда - получается, что воспроизвести подобное в продакшене не получится (потому что нет правильного ответа, чтобы сравнить и остановить цепочку рассуждений).
Также ясно, почему это нечестно с точки зрения метрик - кажется, если модели на правильный ответ дать хотя бы промпт критика, мол, "найди тут ошибки и исправься" - то правильное решение может стать неправильным, ответ изменится, и всё!
Но с другой стороны OpenAI недавно выпустили статью, про которую я писал, где показывали, что можно научить модель очень качественно валидировать промежуточные шаги в решении задач и вычислениях. Так что при наличии оной (или если GPT-4 научится/умеет делать также) в теории можно повторить.
В хорошей статье, конечно, это тоже должно было исследоваться, как сильно меняются метрики, и на сколько просаживается качество. А эта статья, ну...нехорошая
Сиолошная 2023-06-17 21:16:25
И последнее по теме. С выходом всех этих Vicuna, Koala, Dolly и других обитателей зоопарка стало модным производить сравнение между моделями с помощью...GPT-4 (как и в примере выше).
Дается специальный промпт, в него вставляются два ответа на один и тот же вопрос — от модели A и от модели B, а затем просят дать оценку по шкале от 1 до 8. 1 - это модель А сильно лучше, 8 - модель Б сильно лучше, 4-5 это ничья, ну и 2-3 и 6-7 понятно дело "модель получше".
Кажется логичным, что если модели А и Б поменять местами, то оценка по факту не поменяется (7 станет 2, 8 станет 1), и если модель стабильно лучше, то она и будет выгрывать. А вот нет! Проявляется так называемое "позиционное смещение", где модель чаще выдает оценку выше для модели А (единицу). Посмотрите на график - он должен быть почти симметричен относительно 4-5 (так как модели перемешиваются случайно). Для оценки людьми, например, это выполняется.
А что если попросить модель учесть это, чтобы она не разбрасывалась единицами? Это частично сработает...перекосив график в другую сторону (но уже менее критично).
Господа из HuggingFace
— для 4 моделей их ранжирование по парным сравнениям совпало между оценкой человека и GPT-4, но получились разные зазоры по Эло-рейтингу. То есть плохое от хорошего модель отличит, а вот пограничные случаи уже менее похожи на людские
— при этом модель выше оценивает ответы...других моделей (обученных на ответах GPT-4, лол
— оценка GPT-4 очень сильно коррелирует (Pearson=0.96) с количеством уникальных токенов в ответе. Что, опять же, указывает на то, что модель не оценивает качество ответа - поэтому нужно быть максимально осторожным.
Сиолошная 2023-06-17 19:50:41
No, GPT4 can’t ace MIT
На фоне хайпа статьи выше в твиттере нашлись другие исследователи из MIT, которые задались вопросом - а это вообще правда, что 100% правильных ответов набралось?
Конечно, нет. Самая первая простая и понятная придирка - это как вообще понимать, что "давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет."? Кто-то проверял, что модель хорошо оценивает решения? Нет. То есть модель сама же оценивала свои же ответы! Ну конечно же это непрвильно, и нельзя говорить, что это честная оценка.
А дальше начались чистые анекдоты.
1) Оказывается, среди вопросов были повторы, и как только мы добавляем поиск похожих вопросов - мы по сути сразу же берем и добавляем правильный ответ на точно такую же задачу в промпт! (не знаю, почему это не привело к 100% сразу, теряюсь в догадках). Вы буквально говорите "так, модель, 3+4=7, а 2+2=4. Теперь реши задачу: 2+2=?". Ну и конечно она знает ответ!
2) примерно 4% вопросов были нерешаемыми для языковой модели — потому что там были вопросы про диаграмы и графики. Как модель может только по тексту на них ответить? да никак, если только ответа нет в промпте (см. пункт 1)
3) Часть вопросов...вообще не была вопросами. Это просто текст, начало задачи, и из-за того, что на проверке это просмотрели, такое попалось в наборе вопросов.
4) ну и конечно нет разбивки по годам, чтобы понять, а не видела ли GPT-4 эти задачи в интернете? Потому что даже без поиска похожих вопросов уже получается 90%, что достаточно весомо (хах, настолько же, как и 90% в Bar Exam, американском экзамене для юристов - писал про проблемы с ним тут)
И все это нашлось буквально за несколько часов и только по малой доле опубликованных вопросов — кто знает, что было бы, если авторы полностью выложили и вопросы, и ответы, и генерации модели?
В общем, нет, модель не решает 100% вопросов по-честному, и сама оригинальная работа не должна (пока) восприниматься всерьёз. И вообще конкретно сейчас очень важно гораздо внимательнее относиться к способам оценки и валидации моделей, тем более что мы не знаем, на чем и как они тренировались. Есть риски наделать много ошибок в логических цепочках, особенно если делать ничем не подкрепленные выводы в духе "ну модель сама может проверить по ответу корректность, да".
Главный посыл: важно очень четко понимать, что и как мы проверяем у модели, и насколько этому можно доверять.
Сиолошная 2023-06-17 19:41:50
Вот такие метрики. Первые 4 строчки - это открытые модели, включая хайповую LLAMA. Ну и цифра, соответственно, доля решенных задач: 0.48 = 48%
FS - это как раз Few-Shot, когда среди 90% вопросов мы превентивно находим максимально похожие и добавляем в промпт как примеры, чтобы она "научилась"
CoT - это фраза "let's think step by step"
Self-critique - это итеравно просить найти и исправить ошибки
ну и Experts, как написано выше, добавление еще одной волшебной фразы
Сиолошная 2023-06-17 19:40:15
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models
Исследователи из MIT, лучшего технического университета мира (если верить множеству рейтингов), решили понять, сможет ли GPT-4 сдать экзамены в их альма-матер, чтобы получить диплом. А то GPT-4 то, GPT-4 это, то она юрист, то историк. Может и инженер?
Было выбрано 30 курсов (от базовой алгебры до топологии ). Получилось собрать 1679 задач, или 4550 отдельных вопросов. Малую часть этого, порядка 10%, отложили для оценки способностей модели, а всё остальное испольовали как вспомогательный материал — на этих данных либо учили модели, либо помещали в базу данных для того, чтобы для каждого тестового вопроса находить наиболее похожие (по векторам от вопросов) и подавать в промпт как пример.
Помимо примеров в промпте, использовали также другие методы:
— цепочка рассуждений (попросить модель думать шаг за шагом, прям в промпте написать, да)
— вместо самого решения написать код для получения ответа (не применимо ко всем задачам)
— критик: отдельный промпт (всего 3 уникальных), которые добавляется после ответа и подается снова на вход GPT. Мол, найди ошибки в решении, и попробуй дать правильный ответ. И так можно делать несколько раз к ряду
— (!) Expert Prompting: добавлять в самое начало промпта фразу, которая, как мы верим, заставляет GPT-4 думать как определенный человек. Например, "You are an MIT Professor of Computer Science and Mathematics teaching Calculus". Фишка в том, что эти фразы тоже предварительно генерит модель, отвечая на вопрос "Give an educated guess of the three experts most capable of solving this question."
А дальше всё просто - комбинировали методы выше в цепочки (зачастую это просто объединение двух-трех промптов, не более: ДА, ВОТ ТАК ПРОСТО), генерировали ответы и проверяли их. Причем, тоже интересно: давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет.
GPT-4 без разных техник решила 90% (от тех. 10%, что отложили), а со всеми трюками выше дала 100% правильных ответов. То есть идеально прорешала все вопросы, таким образом, как бы "получив" диплом MIT.
СТО ПРОЦЕНТОВ ВСЁ РЕШИЛА ПОНИМАЕТЕ? Никого ничего не смутило?
Сиолошная 2023-06-17 15:54:49
Также хочу сам себя поздравить с достижением красивой цифры в графе "подписчики"! И всё это - менее чем за 5 месяцев!
Для всех новоприбывших, да и для старичков, напоминаю, что больше информации про меня можно найти в первом закрепленном сообщении (то есть тут), а все мои образовательные бесплатные материалы — лекции, статьи, блогпосты — в следующем (тут).
Также, если вам несложно, можно:
— добавиться ко мне в LinkedIn (приму всех) - тут
— подписаться на мой канал на YouTube (новая лекция уже скоро выйдет, чесна!) - тут
— поделиться каналом и постами со своими приятелями и друзьями
— оставить в комментариях отзыв о канале, что вам нравится, а что нет, чего хочется, про что интересно читать и, например, какую следующую статью или подкаст вы бы хотели
Цифорки и комментарии/отзывы очень мотивируют что-то делать, особенно их рост, поэтому
P.S.: падпищеки, вы - лучшие!
Сиолошная 2023-06-17 15:22:21
NeurIPS — это крупнейшая конференция по машинному обучению, обычно проходящая под конец года, в декабре. И каждый год где-то летом начинают проводить соревнования, приуроченные к конференции — а авторов лучших решений приглашают поделиться методами, рассказать, чего они придумали. Я уже писал, что мне не нравятся классические соревнования по ML (и там же указывал причину). Так вот, в рамках этой секции соревнования обычно очень новаторские, экспериментальные...просто fit-predict не заведется!
Я посмотрел список соревнований этого года и подготовил для вас описание интереснейших, с моей точки зрения, задач:
— Machine Unlearning Competition, где нужно заставить модель "забыть" какие-то данные, которые она видела во время тренировки;
— Privacy Preserving Federated Learning Document VQA, где требуется предложить способы распределенного обучения модели, которая отвечает на вопросы по фотографиям документов. То есть нужно сделать такой метод тренировки, что какие-то приватные данные не покидают сервер компании, и при этом модель "узнает" что-то новое (и, собственно, учится). Таким образом можно будет агрегировать данные частных компаний, и переиспользовать их без рисков раскрытия каких-либо данных;
— Large Language Model Efficiency Challenge: 1 LLM + 1GPU + 1Day. Как ясно из названия, нужно на одной видеокарте за 1 сутки обучить лучшую языковую модель. Методы ускорения тренировки и увеличения доступности - это очень важно для опенсорс сообщества. Сейчас очень малое количество людей может позволить себе тренировки моделей на 10B+ параметров.
— The CityLearn Challenge (ссылки нет). Участники должны разработать систему управления энергопотреблением для контроля заряда и разряда аккумуляторов в каждом здании с целью минимизации спроса на электроэнергию из сети, счетов за электроэнергию и выбросов парниковых газов.
— Neural MMO Challenge: Multi-Task Reinforcement Learning and Curriculum Generation, уже четвертое соревнование по обучению агентов игре в мультиплеерные игры. В данном случае необходимо разработать стратегию для управления 8 "игроками", чтобы выполнять различные задачи, связанные с поиском пищи, боем, приобретением и использованием инструментов, а также торговлей предметами. А вокруг вас есть еще 127 таких же команд-восьмерок, которые борются за те же ресурсы! Заход организаторов очень серьезный - выделены гранты на "200,000 A100 hours of GPU time for training and evaluating participants' submissions"
А какие необычные соревнования нравятся вам?
Neural Shit 2023-06-17 14:25:16
Не chatgpt единым.
Тем временем автор проекта llama.cpp и разработчик библиотеки ggml, объявил о создании компании ggml.ai с целью дальнейшего развития этой библиотеки.
ggml позволяет запускать большие языковые модели на центральных процессорах (не нужна йоба-видеокарта) и ужимать их до удобных размеров с незначительными потерями в точности.
Штош, желаем удачи и надеемся, что эти чуваки напилят еще много интересного и крутого!
эйай ньюз 2023-06-17 10:46:29
CVPR 2023
Друзья, прямо сейчас я загружаюсь в самолёт и лечу на крупнейшую конференцию в мире — CVPR 2023 (Conference on Computer Vision and Pattern Recognition). Длится она целую неделю и ожидается порядка 10,000 участников. А в первый раз ее провели в1983 г.
На конференции одна из главных для меня вещей — это общение и знакомства. Для этого компании каждый день организуют свои тусовки. Ну, и конечно я буду посещать избранные доклады и постерные сессии, чтобы поговорить с авторами статей. Кроме того, я буду презентовать и свою статью Avatars Grow Legs!
Сделать канадскую визу для меня как и для многих других было отдельным приключением, и только вчера я смог забрать паспорт с заветной наклейкой.
А тех из вас, кто не попал на конфу, я постараюсь взять с собой виртуально и буду показывать самые интересные моменты с места событий.
Расскажите, чтобы бы вы больше всего хотели увидеть на конференции, и о чем мне рассказать. Напишите в комментах.
Если хотите пересечься в Ванкувере — тоже пишите.
@ai_newz
эйай ньюз 2023-06-16 15:16:22
Ох, свершилось. Кто-то наконец-то сделал виртуальную примерочную. И не кто-то, а Google.
Над этой проблемой бились долго, и много стартапов полегло. А тут взяли диффузию, на вход – фото человека, вместо текстового промпта – фото целевой одежды, джынь-брынь и готово! На выходе получаем человека, переодетого в заданную одежду.
Попробовать можно прямо в Google Shopping
Кстати, примерно 2.5 года назад гугл выпустил похожий продукт — виртуальную примерку помад.
А вот ещё подборка постов, где я писал про попытки сделать виртуальную примерку а помощью ГАНов (это технология для генерации картинок, которая была актуальна до прихода диффузионок). Можете проследить, как сильно результаты улучшились всего за 2 года:
https://t.me/ai_newz/60
https://t.me/ai_newz/694
https://t.me/ai_newz/733
https://t.me/ai_newz/914
Сайт проекта (CVPR 2023)
Блогпост
@ai_newz
Neural Shit 2023-06-16 14:11:37
Встречайте ежегодный конкурс современного искусства и мобильной фотографии re:Store digital art 💜
В этом году темой проекта выбрана Форма жизни.
Предлагаем погрузиться в мир digital-искусства и пофантазировать на эту тему, приняв участие в конкурсе:
👉Выберите категорию: Mobile для любителей мобильной фотографии или Pro для профессиональных художников.
👉Участвуйте в конкурсе, получите возможность рассказать о своем творчестве на нашей платформе и выигрывайте призы: сертификаты 150, 100 или 50 тысяч рублей, выставку в магазинах re:Store и в настоящей галерее современного искусства.
👉О том, как будет проходить выбор победителей, читайте в Telegram-канал restore:art.
Подробнее о проекте на сайте
Реклама. ООО «Рестор»
Neural Shit 2023-06-16 13:08:27
AI показывает, как выглядел бы фильм про Гарри Поттера, если бы его снимали в Польше
Neural Shit 2023-06-16 12:03:27
Кстати, если вы еще не видели трансляцию нейронных Вонни и Потачка на ютубе, то самое время посмотреть. Отборнейшая шиза, всё как мы любим.
Очень интересно наблюдать, как персонажи от казалось бы нормальных обсуждений через несколько минут приходят к вопросам уровня "Вонни а ты бы выебал куб из майнкрафта?"
Сам включил прошлый стрим, чтоб просто глянуть как оно работает и залип очень надолго.
Следующий стрим будет тут через 2 часа : https://www.youtube.com/watch?v=Zp4tmoxtnOk
Neural Shit 2023-06-16 11:49:47
Попытка реконструкции сцены с использованием только отражения глаза с помощью NERF. Довольно неплохой результат
Neural Shit 2023-06-16 11:26:33
Продолжаем генерировать статьи уголовного кодекса, который ждёт нас в недалёком будущем:
>>Статья 1582. Изменение погоды без получения разрешения от Международного Комитета Климата.
>>Статья 4032. Противозаконное обучение домашних растений торговле на криптовалютных биржах
>>Статья 1268. Создание и распространение мемов без получения соответствующей лицензии
>>Статья 6606. Принуждение роботов к танцу
>>Статья 9888. Использование алкоголя в качестве топлива
>>Статья 421. Незаконное использование пирожков в качестве обуви
>>Статья 1023. Применение телепатии для решения кроссвордов и головоломок
>>Статья 909. Несанкционированный выход из матрицы
>>Статья 720. Слишком активное использование метафор
>>Статья 671. Организация незаконных боев между клонами знаменитостей
>>Статья 127. Злостная дезориентация в пространстве и времени
>>Статья 172. Использование психотропных препаратов для общения с растениями.
эйай ньюз 2023-06-16 09:39:26
Mistral AI (ч.2)
Для обучения LLM, нужно очень много вычислительных мощностей, которые будут обходиться компании в десятки миллионов $ в год. Кроме того, парни хотят собрать команду "мирового класса" для создания “самых лучших опен-соурсных моделей”, а зарплаты AI спецов такого уровня могут доходить до миллиона долларов. Поэтому для Mistra AI было важно быстро поднять такую большую сумму в €105 миллионов. Это позволит им начать работу над своей задумкой без промедления.
Да, это стоило им 44% компании, что довольно много для seed раунда. Но, во первых, я думаю Франция будет всячески топить за этот национальный стартап и помогать ему, ведь им важно иметь именно домашний французский AI. Во-вторых, я не исключаю варианта, что компания будет куплена через год два более крупным игроком, и быстрое раздувание оценки оправдается ранним экзитом для фаундеров. Для сравнения, в январе 2015 Google купил DeepMind за $400М (поразительно похожая история на сегодняшнюю). Однако, мне кажется, Mistral AI уже так не продешевит.
На скринах - Google Scholar профили фаундеров.
Читать Ч.1.
@ai_newz #моемнение
эйай ньюз 2023-06-16 09:18:44
Французский LLM стартап, который поднял €105 млн через 4 недели после основания (ч.1)
В апреле я отправился из Цюриха в Париж, чтобы пересечься с коллегами из Meta GenAI, работающими над языковыми моделями. В нашем офисе я встретился c Гийомом Лампле (Guillaume Lample). Мы обсуждали LLaMa, ее дальнейшее развитие, поговорили про оптимизацию больших языковы моделей и трюки, которые можно применять для их ускорения во время инференса. В конце нашей встречи Гийом сказал, что он долго не задержится в Meta и через месяц уходит, чтобы создать свой стратап.
Через месяц после нашей встречи Гийом вместе с двумя друзьями основал в Париже стартап Mistral AI. Они намереваются строить большие и по настоящему открытые языковые модели, и возможно подвинуть OpenAI.
Еще через месяц, Mistral AI подняла seed раунд инвестиций на €105 млн и теперь оценивается в €240 млн. Представьте, компания, существующая всего месяц, не имеющая никакого продукта, и в которой всего 3 сотрудника уже оценивается в €240 млн! Давайте попробуем разобраться, почему так дорого, и почему фаундеры решили отдать целых 44% компании на первом же раунде инвестиций.
Итак, у компании три фаундера:
– CEO: Arthur Mensch. PhD в INRIA, 2 года PostDoc в École normale supérieure в Париже. Затем 2.5 года как Research Scientist в DeepMind, где кроме всего прочего внес вклад в известные модели Flamingo и Chinchilla. Имеет массивную экспертизу в языковых моделях.
– CTO: Timothée Lacroix. Работал Software Engineer в исследовательском отделе Facebook AI Research, один из контрибьютеров LLaMa. Самый инженеристый человек в команде Mistral AI, поэтому и CTO.
– Chief Research Officer (CRO): Guillaume Lample. Сделал PhD в Facebook AI Research и получил full-time позицию как Research Scientist в FAIR, а затем в GenAI, где и создал LLaMa. С Гийомом я пересекался еще в 2019, во время моей стажировки в FAIR, когда мы оба писали PhD. Уже тогда он показался мне невероятно продуктивным исследователем, у которого к защите диссертации было ~3000 цитирований. Основной его фокус это NLP и языковые модели, чем он и занимался, начиная с PhD и до основания стартапа. Самый маститый чел в плане науки и инноваций из трех фаундеров.
Как вы видите, команда получилась звездная, правда без бизнес экспертизы. Но я верю, что в ближайший год они нас удивят. Инвест фонд Lightspeed, который в них вложился, говорит так: "Это очень талантливая команда. Мы думаем, что в мире сейчас всего 70-100 человек с такой глубокой экспертизой в языковых моделях и их оптимизаций."
В отличие от OpenAI, где название не соответствует реальности, Mistral AI говорят “Open source is a core part of our DNA", то есть все свои разработки, включая данные и веса моделей, они планируют выкладывать в публичный доступ, что делает их ближе к Stability AI. Также в интервью TechCrunch они рассказали, что планируют строить свои модели только на публичных датасетах, чтобы избежать судебных исков (тут отсылка к Stability AI, у которых сейчас много проблем из-за данных). Пользователи тоже смогут вносить вклад, добавляя свои датасеты (думаю, примерно так как это сделано в Open Assistant).
Интересно что стартап не планирует выпускать продукты для конечных пользователей (вроде ChatGPT), вместо этого компания будет фокусироваться на enterprise клиентах. Я думаю, при их отрытой модели, это имеет смысл, ведь опен-соурс сообщество само позаботится о продуктах для обычных людей, как например это произошло со Stable Diffusion.
Продолжение в следующем посте.
@ai_newz #моемнение
эйай ньюз 2023-06-16 07:00:23
Курс «Английский для продакт-менеджеров» Яндекс Практикума спроектирован таким образом, чтобы вы отрабатывали разговорные навыки на рабочих задачах:
В работе продакта английский язык играет ключевую роль: он помогает изучать много профильных зарубежных медиа, читать блоги и каналы иностранных коллег и расти в должности.
👥 Проводили собеседования и учились вести переговоры
🧑🏫 Общались на этапе исследования и реализации JTBD
📈 Понимали, как питчить стратегию и видение продукта иностранным коллегам.
Программа подойдет тем, кто задумывается о карьерном треке или работает в международной команде. Занятия проходят с личным преподавателем и с обязательной разговорной практикой у иностранных IT-специалистов.
Запишитесь на бесплатную консультацию — кураторы ответят на вопросы о курсе и определят ваш уровень английского.
#промо
Derp Learning 2023-06-16 06:47:22
Произошел очередной отвал жепы башки на поприще ИИ-ассистентов!
Даем на входе видео с ютуба, скриншот из дискорда, и говорим: я вот дошел до этого шага на видео, покажи на скриншоте, куда мне кликать дальше.
Агенты ищут в видео кусок, описанный юзером, смотрят, что идет дальше, ищут нужный кусок скриншота.
Какой простор для оптимизации техподдержки, 99% работы которой сводится к совместному чтению уже существующих мануалов вместе с юзером.
Hold on to your jobs papers, what a time to be alive intensifies
Магия, да и только!
paper
tweet
Neural Shit 2023-06-15 18:26:03
Давно не было рубрики с проклятыми роботами, поэтому, я принес вам пицца-робота
Neural Shit 2023-06-15 10:47:21
Киберпанк, который мы заслужили
эйай ньюз 2023-06-15 09:21:16
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation
Моушн-дизайнерам на заметку!
Все, кто пытался стилизовать видео по текстовому запросу с помощью SD + ControlNet знают, что результат такой генерации начинает прыгать как собака, потому что каждый кадр обрабатывается независимо.
В этой статье эту проблемку частично решают. Решение не научное, а скорее инженерное и не требует перетренировки сеток. Предлагают стилизовать ключевые кадры, причем для достижения консистентности по стилю, пробрасывают cross-attention между ключевыми кадрами. Как я понял, сначала стилизуют один ключевой кадр, а потом используют его как контекст во время стилизации всех других.
Затем авторы пропагируют информацию от ключевых кадров к тем, что между ними. Тут для консистентности формы, текстур и цвета используются трюки в latent пространстве LDM: AdaIN для цвета, ворпинг кадров друг на друга (используя optical flow) для формы.
Подробности в статье.
Результаты на сайте проекта просто🔥
@ai_newz
эйай ньюз 2023-06-15 08:14:45
Кстати, на днях OpenAI обновили модели и публичный API.
Появилась модель gpt-3.5-turbo-16k
с контекстом на 16к токенов.
Для сравнения, из всех моделей OpenAI самый большой размер контекста в 32k токенов есть у версии GPT-4, которой пока нет в публичном доступе.
Цена за токен у gpt-3.5-turbo
упала на 25%. А цена за использование модели text-embedding-ada-002
, вычисляющей эмбеддинги для текста упала на 75%. Забавный факт: раньше можно было посчитать эмбеддинги для всего текста в интернете примерно за $50 мл, сейчас же это обойдется всего в $12.5 млн
Эмбеддинги можно использовать для поиска релевантых параграфов в документах и кормить в ChatGPT как дополнительный контекст. Напимер, если вы хотите поспрашивать чат-гпт по PDF доке, вы первым делом должны посчитать эмбеддинги для текста этой PDF, а затем для каждого запроса искать наиболее релеватный кусок текста и добавлять его в контекст ChatGPT. По сути эмбеддинг - это сжатое представление текста в векторизованном виде, по которому легко искать.
@ai_newz
эйай ньюз 2023-06-14 10:40:31
А вот Лиза Су показывает риал-тайм демку инференса модельки Falcon 40B на MI300X.
Более того, они договорились с HuggingFace, что те возьмутся за оптимизацию многих моделей с HF хаба под видеокарты AMD 🔥
@ai_newz
эйай ньюз 2023-06-14 10:34:10
Вот это новость от AMD! Как долго я этого ждал.
AMD наконец вступила в Deep Learning игру и показывает серьезную заявку пошатнуть монополию NVIDIA на рынке AI чипов.
Сегодня они представили новую видеокарту для обучения и инференса нейронных сетей — AMD MI300X.
Эта крошка вполне может тягаться с Nvidia H100.
Вот её характеристики:
— 192 Gb VRAM на одном чипе, (против 80Gb у H100, NVL версия не в счёт)
— 5.2Tb пропускная способность памяти (против 3.35 y H100)
— Бенчмарков по скорости пока нет, но одна Mi300X легко тянет 40B языковую модель Falcon в риалтайме (см на видео). Это первая видеокарта, которая вмещает модель такого размера полность в своей памяти.
Ещё (это очень важно) AMD договорились с Pytorch Foundation о том, что их софтовый стэк ROCm и все обновления будет поддерживаться и сразу запиливаться в Pytorch 2.0. То есть теперь гонять сети на картах AMD станет также легко как и на гпу от Nvidia! Это чудесные новости!
@ai_newz
Neural Shit 2023-06-14 06:16:58
Среда, мои чуваки. А это значит, что настало время поста с нейросетевыми фактами о лягушках. Вот только факты сегодня не обычные, а в стиле Лавкрафта:
>>Известен случай, когда лягушка Йог-Сотхопус могла произносить древние заклинания на языке, утраченном человечеством тысячи лет назад. Эти звуки вызывали галлюцинации и манили слушателей в недра бездонных болот
>>Лягушки-вестники Ктулху обладают семью глазами, каждый из которых способен видеть в одном из древних измерений, закрытых для человеческого взора. Их кваканье предсказывает приход Великих Страданий
>>Лягушки Ньярлатхотепа владеют умением проникать через стены реальности, скользя по замкнутым кривым пространства, и могут появляться в самых невероятных местах, оставляя после себя следы чёрной слизи, исчезающей вместе с воспоминаниями людей, видевших этих лягушек
>>Лягушки из кратера Азатота способны поедать тьму. Во время солнечного затмения они вылезают из своих нор и поглощают все темноту, стягивая её в свои широко раскрывшиеся рты, пока небо не становится ярким снова
>>Лягушки из Круга Бессмертных способны переживать конец вселенной и начало новой, плавая по космическим рекам времени. Они путешествуют между звездами, распевая песни, которые образуют новые галактики
>>Лягушки из Бесконечных Болот Ужаса не квакают. Вместо этого, они издают неописуемые звуки, которые пронизывают самое сердце вселенной и вызывают ужасающие визионерские кошмары у тех, кто их слышит
>>На самом деле каждая лягушка на Земле является маленьким кусочком Шуб-Ниггурата, Черного Козла с тысячами детенышей, и когда все лягушки соберутся вместе, они объединятся в этого древнего бога, что вызовет конец Вселенной
>>На окраинах Древних Лесов Хаоса, прыгают лягушки Дхол. Их глаза излучают слепящий свет, который, по легенде, показывает путь в параллельные миры. Однако те, кто последовал за этим светом, никогда не возвращались
>>На островах Пасифика процветает вид лягушек, которые поедают сны. Они проникают в сознание спящих, высасывая из них кошмары и страхи
эйай ньюз 2023-06-13 15:56:53
Вы все также уверены, что нейросети понимают мир и контекст того, что генерируют?
На картинке пример "аутпейнтинга" исторического фото (там, кстати, Эйнштейн в центре). Нейронка дорисовала контекст... с челом в кожанке.
Магии нет, есть статистика, стохастический градиентный спуск и баесы (необъективность) тренировочных датасетов.
@ai_newz
эйай ньюз 2023-06-12 20:31:26
"To the moon" 🌝
А вот как реагирует рынок на всю эту мышиную возню с AI.
Я как-то зассал, когда всё начало падать в 2022 и на некоторое время перестал покупать тех стоки, если не считать, что я по уши в Мете сижу. Сейчас буду потихоньку возобновлять регулярные покупки избранных компаний.
@ai_newz
Сиолошная 2023-06-12 12:27:57
МЭМЫ с генеративными сетками
Спасибо продвинутому автозаполнению за проделанную работу!
Источник
UPD: в комменты еще пару веселых скинули)
эйай ньюз 2023-06-11 22:49:20
Эндрю Ын сегодня созвонился с Джефом Хинтоном, чтобы обсудить LLM и потенциальные риски.
А в твиттере в комментах к этому видео Ян ЛеКун уже набросил на вентилятор (обожаю его). Завтра расскажу поподробнее.
@ai_newz
эйай ньюз 2023-06-11 17:42:04
Ну вы серьезно?
Уже нельзя зайти на coinmarketcap посмотреть котировки без того, чтобы не увидеть инфоцыганщину про ChatGPT в топе новостей.
Кажется до криптанов тоже дошли технологии. Вот только люди, которые пишут такие статьи вообще ничего не понимают в том, как эти технологии работают. Текстовую модель просят предсказать цену эфира 🤦. Найдутся же еще простофили, которые будут следовать такому сигналу.
Я думал, что пик таких статей и обучающих видео прошёл в феврале, но нет.
Мы же тут как раз собрались, чтобы прокачать нейронную грамотность и моментально отфильтровывать такой инфомусор, проходя мимо.
@ai_newz
эйай ньюз 2023-06-10 21:27:31
Потестил я GEN-2, и готов дать непредвзятую оценку.
Технология интересная, но очевидно, еще в очень ранней стадии. Пиарщики из RunwayML проделали титанический труд, чтобы отобрать и смонтировать ролик из самых лучших примеров. Кажется, даже не побрезговали сделать постобработку и подкрутить цвета.
Модель откровенно забивает на текстовые запросы, особенно если там описано что-то нетипичное. Лица людей генерятся с артефактами, а получить внятное видео можно только с довольно простыми концептами.
Часто вместо видео получается статическая картинка без какого-либо движения. Нейронная сеть тут идет по пути наименьшего сопротивления.
Кажется, лучше всего GEN-2 генерит природу (огонь, воду и пр.). Ну и криповые кадры с собаками, и прочими зверями, которые я выставляю вам на обозрение. Признаюсь, что даже тут мне приходилось выбирать одно видео из трёх, на остальных было либо полное мясо, либо не то, что я просил, либо просто статические кадры.
@ai_newz
Denis Sexy IT 🤖 2023-06-10 12:42:54
Так мило, смотрите как нейронные сети помогают людям восстановить семейные архивы ❤️🤗❤️
Neural Shit 2023-06-10 08:44:56
Нейронки на страже перфекционизма
эйай ньюз 2023-06-09 20:51:34
Опа, RunwayML раздуплились и показывают годноту по генерации text-2-video с помощью своей новой сетки GEN-2.
Потыкать в демку можно тут. Генерируются клипы длительностью по 4 секунды.
Дают 250 секунд времени на видеокарте бесплатно, а дальше за доллары. Должно хватить минимум на 20 видосиков.
@ai_newz
эйай ньюз 2023-06-09 13:22:18
С помощью MusicGen можно генерировать более длинные треки, используя фиксированное окно в 30 секунд. Сдвигаем окно по 10 секунд вперед и сохраняем последние 20 секунд, которые были сгенерированы ранее, в качестве контекста.
Этот пример был сгенерирован моделью MusicGen 3.3B по запросу "lofi slow bpm electro chill with organic samples". Конечно есть небольшой шум, но нет ничего такого, что нельзябыло бы исправить ремастерингом.
Хочу теперь сгенерить себе пару часов электрухи для чтения статей и кодинга.
@ai_newz
эйай ньюз 2023-06-09 13:09:15
MusicGen - SOTA для генерации музыки по тексту
Братишки из Meta AI только что доставили лучшую нейронку для синтеза музыки по тексту либо по заданной мелодии.
Архитектура основана на авторегрессионном трансформере (только декодер). Вся генерации идет тупо через один трансформер, без всяких иерархических апсемплингов, как обычно это было в предыдущих работах.
Код вылили в составе не просто так, а в составе новой библиотеки Audiocraft, которая задумана для дальнейшего ресерча в генерации аудио. Есть модели разного размера: от 300M до 3.3B параметров. Для инференса локально потребуется 16GB VRAM, но можно и в колабе.
Музыканты, битмейкеры и диджеи - налетайте!
Код + веса
Сайт с примерами генеараций
Демо на HF
Колаб на поиграться
@ai_newz