эйай ньюз - страница 6

2023-08-21 10:48:53

Беспилотник Cruise, в котором ехал пассажир, столкнулся с пожарной машиной в Сан-Франциско

Это одна из самых серьезных аварий с участием беспилотников за последнеей время. Пожарные ехали на вызов со всключенными сиренами и пересекали перекресток на красный свет по встречной полосе. В то время Cruise с пассажиром на заднем сидении выехал на перекресток на зеленый свет и в него въехала пожарная машина. Вроде как беспилотник неверно просчитал траекторию пожарной, ведь та двигалась по встречке и на красный свет. Когда Cruise заметил приближающуюся пожарную машину, он затормозил, но избежать столкновения уже не смог.

В беспилотниках Cruise есть микрофоны, которые по идее должны распознавать звуки сирены и брать это во внимание, чтобы уступать дорогу. Но, видимо, что-то пошло не так.

Пассажир не получил никаких серьёзных повреждений и его доставили в больницу (интересно, будет ли он подавать в суд на Cruise).

Иронично, что эта авария произошла через неделю после того как власти Сан-Франциско разрешили Cruise и Waymo безграничные поездки беспилотных такси по городу 24/7 (ранее у них были ограничения по времени и по районам). Теперь же на время расследования Cruise обязали сократить парк своих машин на 50%. И, кажется, есть небольшая вероятность, что у них вообще заберут право возить пассажиров, если подтвердится однозначная вина автопилота.

Надеюсь, что баги быстро поправят, и развитие автопилотников на этом не загнется. Чем больше времени проходит, тем меньше должно становиться таких аварий.

Кстати, я недавно писал о своем опыте встречи с беспилотниками Cruise, когда я ездил по Сан-Франциско (благо обошлось без аварии).

@ai_newz

2023-08-15 14:37:32

То есть чем больше слоев у трансформера - тем более точно он будет "фититься" под заданную промптом задачку. Как бы "stack more layers" - это не новость, но явная аналогия с Gradient Descent - это интересно.

Анализ хоть и проведен на простой задаче линейной регрессии, но дает инсайты о том, как оно работает и в случае текста (только там задача гораздо сложнее и нелинейная).

@ai_newz

2023-08-15 14:36:54

Прочитал интереcный теоретический результат про аналогию между промптингом трансформеров и meta-learning с помощью градиентного спуска

Все мы знаем, как классно работают промптики в языковых моделях. Задаешь контекст или пару примеров, и модель тебе отвечает без всякого явного обучения на новой задаче. Ну не чудо ли?

В статье "Transformers learn in-context by gradient descent" авторы решили поизучать это феномен. По научному промптинг или few-show learnign в языковых моделя еще часто называеют "In-context learning", то есть обучение по контексту.

Для простоты авторы взяли задачу линейной регрессии, и обучили трансформер, которому на вход подается вместо текста последовательность точек context = (x1, y1), (x2,y2),..., (xn_yn), x_q. А в ответ модель выдаёт координату yq для запроса xq.

Удивительно, авторы выясниили, что в этой задаче forward pass трансформера из N self-attention слоев по сути эквивалентен N-шагам обучения регресии с помощью градиентного спуска на примере, заданном context-ом.

@ai_newz

2023-08-13 21:04:28

Друзья, нас уже стало довольно много. Поэтому я хочу лучше понять аудиторию канала, чтобы больше писать про то, что вам интересно.

Помогите улучшить канал - пройдите коротенький опрос (займет у вас 1 минуту):
https://forms.gle/WerMi5pKiEheui6g6

Спасибо! ♥️

@ai_newz

2023-08-13 11:24:58

Аннотированный код

Наткнулся на классный сайт, где собран код некоторых популярных моделей (или их частей), например Stable Diffusion, GPT, Switch Tranformer, MPL-Mixer и др. Весь цимес в том, что каждая строка кода задокументирована, и показаны соответствующие математические формулы.

Будет полезно тем, кто любит начининать изучать модели сразу с кода. Как раз занятие на воскресенье.

На скринах - код DDIM и Adam.

https://nn.labml.ai/

@ai_newz

2023-08-11 14:28:22

Qwen-7B: Alibaba зарелизили свою опен-соурсную LLM на 7B параметров

Qwen-7B натренили на 2.2 трлн токенов, размер контекста во вреия тренировки был 2048, а на тесте можно впихнуть до 8192 (у Llama-2 - 4096). Это первая открытая LLM от Alibaba.

Что по бенчмаркам?
В репе есть куча таблиц, и китайцы заявляют, что они бьют LLama-2. Особенно большая разница на бенчмарке по написанию кода Human-Eval: 24.4 vs 12.8. Но я бы осторожно смотрел на эти числа. Если по некоторым бенчмаркам Qwen-7B обходит ванильную LLama-2-7B, и даже LLaMA-2-13B, то вот с зафайнтюнеными версиями Llama-2 разрыв уже не такой большой. И, честно сказать, никто точно не знает, как они трениновали свою базовую модель.

По аналогии с LLaMa2-chat, у Qwen тоже есть чатовая версия Qwen-7B-Chat, которая затюнена отвечать на запросы пользователя и, кроме того, пользоваться разными тулами и API.

Для любителей деталей, архитектура похожа на LLaMA. Со следующими различиями:

> The following are the main differences from the standard transformer: 1) using untied embedding, 2) using rotary positional embedding, 3) no biases except for QKV in attention, 4) RMSNorm instead of LayerNorm, 5) SwiGLU instead of ReLU, and 6) adopting flash attention to accelerate training. The model has 32 layers, the embedding dimension is 4096, and the number of attention heads is 32.

Лицензия тоже как у Llama-2: Можно использовать в коммерчески целях, но только пока у вас нет 100 млн активных пользователей в месяц (у Llama-2 можно до 700 млн).

Больше деталей в этом репорте (да, это тупо .md файл в репозитории).

Демо (на китайском)

@ai_newz

2023-08-10 14:30:57

Если кто-то не готов ждать GH200 и хочет брать H100 сегодня, то вот ссылочка.

Цена прям кековая 🙈.

@ai_newz

2023-08-10 14:06:33

"Pretty much you can take any LLM you like and put into this [HG200] and it will inference like CRAZY" - Д. Хуанг.

А вот и короткая выжимка с презентации CEO NVIDIA, Дженсена Хуанга, где он рассказывает про GH200 и про то, как эти суперчипы хорошо стакаются вместе в очень компактные, но очень мощные супер-компьютеры.

Сервачок с 210 x GH200 можно купить за 8$ млн (выходит ~40k$ за штуку). Думаю для небольшого стартапа в GenAI пойдет 🌚.

@ai_newz

2023-08-10 13:54:02

🔥NVIDIA GH200 Grace Hopper 282 GB VRAM!

На SIGGRAPH 2023 NVIDIA анонсировала нового монстра для задач Generative AI - GH200 Grace Hopper с памятью HBM3e:

🔹 На борту чипа не только GPU, но и встроенный ARM процессор.

🔹 Базовая версия оснащена 141 GB VRAM и 72 ядрами ARM Neoverse c 480 GB LPDDR5X RAM.

🔹 С помощью NVIDIA NVLink можно объединять в сдвоенные "суперчипы", достигая 480x2 GB быстрой памяти (RAM)

🔹 Сдвоенный чип предлагает 282 GB VRAM, 144 ядра ARM Neoverse и 7.9 PFLOPS int8 производителтьности (так же как и у сдвоенной H100 NVL).

🔹 Новая память HBM3e на 50% быстрее предыдущего поколения HBM3, обеспечивая 10 ТБ/с комбинированной пропускной способности.

🔹 Ожидается коммерческий выпуск во втором квартале 2024 года.

🔹 Цена GH200 пока не раскрыта, но предыдущая модель H100 продается по цене от $40,000.

GH200 - это по сути ответочка недавно вышедшей AMD MI300X. Правда, у AMD аж 192 Gb VRAM на одном неспаренном чипе.

@ai_newz

2023-08-08 10:04:20

Я как-то пропустил момент, когда BMW в прошлом месяце стала продавать AR-очки.

Юзкейс — это езда на мотоцикле. На очках выводится информация о навигации, скорости и т.д. Довольно удобно. Подключаются к телефону (или к мотоциклу?) По блютузу. Батареи хватает на 10 часов езды. Стоит эта прелесть 690 эвро.

Думаю что продвинутые AR очки, когда они появятся, — это то, что может прижиться у человеков как повседневный девайс, так как это было со смартфонами.

@ai_newz

2023-08-07 22:11:44

В комментах скинули сравнения text2video моделей Gen-2 и Pika.

Gen-2 беспощадно уничтожает Пику. Качество видео у Gen-2 стало просто на голову выше (когда я раньше ее тестил, у меня получался полный мрак).

Хотя, кажется, что не совсем корректное сравнение провели, ведь под каждую модель нужно подбирать свои промпты, чтобы выжать из модели максимальный результат. Если промпты оттачивали на Gen-2, а затем вслепую перенесли на Пику, то такой результат ожидаем. Тут у бедной Пики вообще ничего не двигается.

@ai_newz

2023-08-07 19:49:16

Не знаю, видели ли вы уже новую text2video генерацию от Pika labs?

В общем, это еще один сервис, типа миджорни, но для генерации видео по тексту. И тоже в дискорде, где с помощью команды /create PROMPT можно сгенерить трехсекундное видео.

🔹На вход также можно подать картинку и попросить оживить ее на основе заданного промпта.

🔹Я так подозреваю, там опять же все основано на Latent Diffusion, но просто предсказывают сразу пачку кадров вместо одного.

🔹Как мы видим, такого рода модели все ещё не могу генерить очень диинамнческие сцены. А вот для статических сцен с небольшим движением они очень даже неплохи.

Прикрепленное видео полность сгенерировано (состоит из нескольких склеенных кусочков).

Инвайт в дискорд: discord.gg/pika

@ai_newz

2023-08-06 13:16:28

Encodec - High Fidelity Neural Audio Compression

Рассмотрим подробнее, как работает один из SOTA методов по сжатию звука. Принцип похож на VQGAN для картинок.

Архитектура быстра и легка. Это автоэнкодер: в энкодере - 1D конволюции и двухслойный LSTM (для агрегации глобального контекста), декодер - зеркальное отражение. В ботлнеке происходит квантизация векторов с помощью Residual Vector Quantization - это хитрый трюк, который позволяет одному вектору ставить в соответствие серию из N токенов из разных словарей, каждый из которых кодирует невязку, получаемую после предыдущего токена.

Для ускорения обучают еще небольшой трансформер в ботлнеке, кодирующий каждый вектор в N токенов параллельно, а не последовательно.

Все тренируется end-to-end с лоссами:
- Reconstruction loss во временном домене (исходный аудио сигнал) и в частотном (FT спектрограма).
- Adversarial loss от дискриминаторов на разном разрешении.
- Лосс для квантизации.

Работает real-time на 1 ядре CPU (MB Pro 2019)

Примеры

@ai_newz

2023-08-06 10:54:59

Чёрт, а представьте такой киберпанк — ты просишь Лламу5 переписать и оптимизировать инференс самой себя под определенное железо. И она этот код пишет, он компилируется и скорость инференса на твоем пне увеличивается в X раз 🤯.

@ai_newz

2023-08-06 00:27:03

Llama2.rs

Вы хотели запустить LLaMa2 70B на своем стареньком лэптопе? Ну, вот теперь можете.

Чел переписал Карпатовскую llama2.c на Rust, оптимизировал загрузку весов в память (memmap), реализовал Grouped Query Attention и добавил квантизацию.

70B LLaMa2, которая в обычной жизни влазит только в A100, теперь бегает на лаптопе! Кхм, ну как, бегает... скорее ходит. 5 токенов в минуту.

GitHub

@ai_newz

2023-08-04 18:04:03

👀Breaking!

В твитторе автор статьи под названием "Würstchen" (нем. "Колбаска") делится результатами генерации новой модели Würstchen v2.

Генерация 4-х картинок 1024x2048 занимает 7 сек — неплохо так! Для сравнения, ванильной SDXL потребовалось бы 40 сек.

Würstchen v1 - это тоже Latent Diffusion (как и SDXL), но c более быстрой архитектурой Unet.
Автор пообещал, что в ближайшее время поделится деталями архитектуры v2.

@ai_newz

2023-08-04 17:31:50

В Time вышла статья о том, что AI превзошел человека во многих задачах (ну, мы это и так знаем), а в которых еше не превзошел - скорость прогресса просто сумасшедашая.

Судя по графику, да и на моем опыте использования больших языковых моделей - код они пока не умеют писать также хорошо как опытные дяди (пока не лучше джуна), и в различных экзаменах, еще не везде бьют человека. Но приближаются, и улучшения идут очень бодренько.

Главная мысль статьи - судя по текущей ситуации, маловероятно, что прогресс в сфере AI замедлится в течение следующих нескольких лет.

@ai_newz

2023-08-03 16:05:07

А вот так выглядит пайплан CT2Hair, если не вдаваться в детали.

1. Вычисление 3D ориентационного поля: Начальный этап начинается с вычисления 3D ориентаций из входной плотности 3D скана.
2. Генерация направляющих прядей (guide strands): Затем создают направляющие пряди, используя рассчитанные ориентации.
3. Интерполяция направляющих прядей: Далее направляющие пряди интерполируют, чтобы они равномерно распределялись по коже головы.
4. Оптимизация: Оцененный пряди волос оптимизируются, чтобы они совпадали с исходной 3D плотностью.

Вуа-ля, у вас есть отличный виртуальный парик! Напяливаем и можно хоть в Фортнайт бегать (если стилизовать его еще).

@ai_newz

2023-08-03 16:00:16

Аватары без волос не останутся!

Вышла работа CT2Hair: High-Fidelity 3D Hair Modeling using Computed Tomography для построения реалистичных 3д моделей волос.

На вход: CT (Computer Romography) скан парика.
На выходе: реконструкция высоко-детализированной 3D модель волос, где можно разглядеть отдельны волосинки.

Далее это дело можно пихать в любые пайплаынй 3д графики и симулировать движение волос на персонажах. Такие дела.

Очень клевая работа, под стать SIGGRAPH, где она и опубликована.

Код и данные для обучения - все в репозитории.
Сайт проекта.

@ai_newz

2023-08-03 13:56:33

Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0

Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.

Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:

- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.

- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).

- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.

- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.

(Ждите серию постов про каждую из этих моделей)

Еще добавлены веса AudioGen и MultiBandDiffusion.

🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.

Блог
Код и веса
Демо в колабе
MusicGen ноутбук

@ai_newz

2023-08-02 23:32:38

Друзья, в нашей команде в Meta Generative AI открылась вакансия Research Scientist. Я уверен, что среди моих читателей есть те, кто глубоко шарит в Gen AI, и на раз-два тренит всякие модели диффузии и LLM.

Так что если кто-то из вас хочет поработать в Цюрихе и заниматься крутыми вещами с влиянием на миллиарды пользователей, то стучите в личку.

Нам нужен сильный исследователь, который будет
- Участвовать в рисерче и публиковать статьи на топовых конференциях
- Разрабатывать SOTA генеративные модели, которые реально работают (и работают быстро) и выкатывать их в прод на масштабах Meta.

Требования:
- Опыт с Diffusion Models, GANs, and LLMs
- Публикации первым автором на топовых конфах типа CVPR, NeurIPS, ICCV, ICML... Вообще отлично - если по теме Gen AI.
- А, ну и да, нужен PhD.

Бонусом засчитывается:
- Медальки на Kaggle, стажировки, классные пет-проекты.
- Опыт оптимизации моделей для CPU/GPU/мобилок.
- Опыт выкатывания моделей в прод.

Вот ссылка. Если есть какие-то вопросы - пишите в комменты.

@ai_newz

2023-07-31 11:20:19

Странно, не все картинки прикрепились. Вот еще с ЛеКуном, Шмидхубуером, Маском и Цукербергом.

Верх: SDXL v0.9
Низ: SDXL v1.0

@ai_newz

2023-07-31 11:16:08

Недавно StabilityAI выпустили обновление - Stable Diffusion XL v1.0

Я наконец добрался до него и протестировал SDXL v0.9 (верхняя строка) vs SDXL v1.0 (нижняя срока). Я зафиксировал промпт, сид и количество шагов, и прогнал разные модели.

- Важно понимать, что архитектура модели не менялась. Они просто натренировали версию v1.0 на другом датасете, возможно более чистом.

- Модель стала более фотореалистичная, это заметно.

- Вроде бы стало меньше генерить уродцев с тремя руками.

- Понимание и рисование текста осталось таким же не очень.

- Есть проблемки с генерацией известных личностей. Они вроде бы и выглядт ок, но всегда какие-то детали лица не точно отражены. Ян ЛеКун не очень на себя похож, а Маска и Цукерберга так вообще смешало в одну личность - получился бой близнецов.

- Работает, мягко говоря, все еще не быстро. Скоро напишу о некоторых трюках для ускорения таких моделей.

Мой предыдущий пост про тест SDXL v0.9: тут.

❱❱ Код + веса
❱❱ Папира
❱❱ DreamStudio
❱❱ ClipDrop

@ai_newz

2023-07-28 14:50:03

Новое интервью с Ильёй Суцкевером, ко-фаундером и главным сайнтистом в OpenAI.

Го смотреть!

Главные тейки от Ильи:
— Если вы верите, что биологический нейрон при должном упрощении похож на искусственный нейрон в нейронной сети, то у нас есть пример того, что очень большая нейронная сеть может достичь AGI. То есть "scale is all we need" (почти).

— AGI - это компьютерная система, которая может автоматизировать большую часть интеллектуального труда.

— "Are Transformers all we need?" - вопрос не корректно поставлен. С Трансформерами (такими, как они сейчас) мы сможем зайти очень далеко, но это не значит, что нет более эффективной архитектуры.

— Про LSTM vs Transformers. Если докрутить архитектуру LSTM, увеличить размер внутреннего состояния и сделать так, чтобы они стабильно тренировались на large scale, то с LSTM мы сможем зайти довольно далеко. В тоже время Илья считает что Трансформеры все равно будут слегка лучше.

— Мы не очень хорошо понимаем scaling laws.

(Продолжение ниже)

@ai_newz

2023-07-28 14:50:03

Главные тейки от Ильи Суцкевера (ч.2):

— Илья пишет код в паре с GPT, и ему по кайфу, когда большую часть кода для него пишет нейросеть.

— Если мы сможем обуздать силу "супер-интеллекта" (то, что сейчас называют AI Alignment), то мы сможем существенно улучшить качество жизни людей. Тут мы говорим не о текущей GPT-4, а о чем-то гораздо более мощном и умном.

— Когда мы достигнем "супер-интеллекта", нам нужны будут регуляции и правила в сфере AI на уровне государств. Поэтому CEO OpenAI Сэм Альтман и ходит в Конгресс США на поклон.

@ai_newz

2023-07-28 13:30:02

Мой товарищ, который делает PhD у нас в GenAI в Лондоне, выпустил классную работу по трекингу пикселей на видео. Результаты говорят сами за себя.

Наконец-то можно забыть, что такое optical flow (он тупой как барабан, т.к. смотрит только на интенсивность цвета и не понимает семантику изображений).

Код и модели доступны на GitHub.

@ai_newz

2023-07-26 13:14:00

🤯Там Андрей Карпатый уже вовсю запускает LLaMa-2 на рисоварке

Андрей вдохновился известным репозиторием llama.cpp для инференса LLM моделей на С++ и написал 500 строк кода на чистом C, которые прогоняют инференес модели LLaMa2.

llama2.c — тупо 500 строк... и без всяких внешних зависимостей. Шикарный код! Запускается хоть на чайнике, хоть на калькуляторе, если там есть CPU.

Из-за минималистичности, в коде реализована только точность fp32 и инференс на CPU с паралелизацией через OpenMP. Однако, можно гонять даже LLaMa-2 7B c адекватной скоростью.

Код llama2.c и модели

@ai_newz

2023-07-26 11:03:11

Apple GPT: На прошлой неделе прошел слух, что Apple строит свою языковую модель уровня ChatGPT

Apple увеличила свою рыночную стоимость на $71 млрд (!) после этой новости о тайной разработке конкурента ChatGPT. Это только подтверждает величину хайпа вокруг AI в этом году.

Что нам известно?
- Внутри Apple уже есть некий прототип чата на базе "Apple GPT", которым уже могут пользоваться разработчики. А в мае сотрудникам Apple запретили пользоваться ChatGPT.
- Для обучения больших языковых моделей они построили свой фреймворк Ajax на базе гуглового JAX.
- Выход технологии в продукт планируется не ранее 2024 года.

Эппл, как всегда, аккуратничает. Даже во время релиза AR шлема на WWDC, все упоминания слова AI были заменены на ML.

Вот как Тим Кук прокомментировал AI на созвоне инвесторов в мае:
"Мы продолжим внедрять это в нашу продукцию очень осознанно," - сказал он. "Я думаю, что очень важно быть рассудительными и обдуманными... Есть ряд вопросов, которые нужно разрешить." - Я думаю тут он говорит про приватность данных и галлюцинации моделей.

Пока не понятно в какие именно продукты они хотят встроить Apple GPT, но мне кажется наиболее вероятным, что первым делом они интегрируют AppleGPT в Siri, где как будто бы уже несколько лет не было сильного развития.

Apple славится сильным железом и Edge девайсами, но не очень умеет в масштабные облачные вычисления. Интересно, будут ли они пытаться делать инференс LLM прямо на мобильниках?

@ai_newz

2023-07-24 08:30:43

В поддержку открытому подходу Меты к разработке AI (Statement of Support for Meta’s Open Approach to Today’s AI) подписалась куча влиятельного народа в сфере, включая топов крупных компаний и исследователей:

“We support an open innovation approach to AI. Responsible and open innovation gives us all a stake in the AI development process, bringing visibility, scrutiny and trust to these technologies. Opening today’s Llama models will let everyone benefit from this technology.”

Я кекнул, что в списке подписантов есть, например, AMD и NVIDIA (потому что на произведенном ими железе будут крутиться модели в датацентрах), но нет OpenAI.

@ai_newz

2023-07-23 20:40:52

Еще немного про LLaMa-2

LLaMa-2 - это самая мощная языковая модель, которая есть в открытом доступе на сегодняшний день. Это дает огромны толчок дальнейшему развитию LLM и их использованию в разных продуктах. Открытй релиз LLaMA-1 породил просто тучу крутых проектов породил, я в предвкушении того, что в ближайшее время сделают на базе LLaMa-2, коротая еще позволяет и свободное коммерческое использование.

В интервью BBC, один из топов Meta, Nick Clegg, сказал, выпуск LLM в open-source делает их «более безопасными», так как привлекает тщательные исследования и анализ извне.
Вот еще несколько интересных мыслей от Ника:

- LLaMa-2 более безопасна, чем любая друга open-source модель на сегодняшний день (и это подтверждается бенчмарками в статье).

- По поводу экзистенциальной угрозы: «Я считаю, что шумиха несколько опережает технологии. Я думаю, что многие экзистенциальные угрозы относятся к моделям, которые в настоящее время не существуют, к так называемым сверхинтеллектуальным, сверхмощным моделям ИИ — вариант, в котором ИИ самостоятельно развивает автономию и свободу действий, где он может думать сам и воспроизводить себя.»

«Модели, исходный код которых мы открываем, далеки от этого. На самом деле, во многом они довольно глупы».

- Ник убежден, что AI должен регулироваться, и добавил, что это «не означает, что все AI модели должны быть открытыми».

За последние 10 лет Мета зарелизила в открытый доступ более 1000 моделей, библиотек и датасетов. Чего стоит только React, PyTorch и, например, недавняя модель Segment Anything. Мне кажется, некоторые другие компании незаслуженно зовутся "Open".

@ai_newz

2023-07-22 12:46:20

Закрыл корпоративный гештальт. Пообщался 1 на 1 со всей цепочкой начальства, начиная с моего менеджера (с ним я и так каждый день вижусь), и до VP. В пятницу было последнее звено – наш Senior Director в GenAI. Осталось только выбить 1:1 слот с Марком 😅

В карьеризме важно, чтобы боссы знали тебя лично и были в курсе того, какие крутые штуки ты делаешь. Иначе можно делать много всякого, но если никто из лидеров об этом не знает, то признания за импакт ты не получишь.

У нашей команды довольно видное место в организации и в разговоре легко показать, что мы делаем для Generative AI. Конкретики пока не могу дать, так как еще не было релиза (мы работаем не только над ресерчем, но и делаем модели для продуктов).

@ai_newz

2023-07-18 16:40:33

🔥Meta зарелизила набор моделей LLaMa-2-Chat разного размера!

Это огромное событие в мире опенсоурса и науки. Коллеги из LLM отдела GenAI выпустили бомбу! LLaMa-2 на 70B параметров сравнима по качетству с GPT-3.5 и даже лучше ее на некоторых бенчмарках.

Это, кстати, первая модель такого размера, затюненая c помощью RLHF, и которую выложили для коммерческого использования БЕСПЛАТНО. Запросить ссылку на скачивание можно тут.

Наконец-то, на базе LLaMa-2-Chat можно строить свои локальные аналоги ChatGPT и не отсылать никаких данных в OpenAI.

LLaMa 2-Chat сравнима по качеству с ChatGPT-3.5 по метрикам human eval, а, например, на математических задачах - даже лучше.

Размер контекста: 4к.
Тренировались модели на 2 триллионах токенов, что в два раза больше чем LLaMa 1.

Больше подробностей в статье

@ai_newz

2023-07-16 08:47:31

Именно. PhD - это просто подтверждение того, что ты можешь долго и упорно бить в одну точку и, несмотря на неопределенность и долгие неудачи, идти к решению роблемы, создавать новое.

Это одна из причин почему в ресерч-команды в большинстве случаев нанимают именно людей с PhD (у нас в команде тоже так).

И на самом деле не очень важно иметь 100% совпадение темы PhD и того, над чем команда работает. Если видно, что человек способный и затащил PhD с сильными публикациями, то он разберется в любой новой теме.

@ai_newz

2023-07-15 01:07:24

🔥CM3leon - Новая универсальная генеративная модель для Картинок и текста

Ребята из Meta AI (FAIR) представили новую генеративную модель. Это по сути мультимодальная decoder-only LLM на базе архитектуры OPT, которая умеет работать как с изображениями, так и с текстом.

Для картинок используется предобученный токенизатор VQ-VAE, который разбивает 256x256 изображеие на 1024 токена из словаря размером в 8192.

Натренили модельку на 7 млрд параметров — CM3Leon-7B, которая хорошо генерит в 256x256 и выдает state-of-the-art FID = 4.8 на MS-COCO.

Модель умеет:
1. text-to-image
2. image-to-text, то есть можно спрашивать любые вопросы по картинке
3. image-to-image с текстовой инструкцией

Одна генерация 256x256 занимает 9 сек в int8 (для сравнения авторегрессионная модель Parti-3В требует 6.4 сек, но дает хуже результаты).

Блог
Статья

@ai_newz

2023-07-13 23:17:16

🎙Клонирование и синтез голоса

GenAI стартап-бум продолжается. Стартап из Торонто resemble.ai занимается клонированием и синтезом голоса и вчера поднял $8M в Series A.

Это точно не единственная компания, которая занимается синтезом голоса. Но вот что интересно - тут можно загрузить записи своего голоса (нужно 12 минут) и они создадут генератор под ваш голос. Пока процесс создания модели под вас в бесплатной версии занимает 2 дня, а синтез из нее стоит $0.006 за секунду.

Из крутых юзкейсов, которые я вижу у них на сайте:
- Редактирование аудиозаписи по тексту. Например, я записал часовой подкаст и хочу подкорректировать некоторые фразы или предложения. Вместо записи новых кусочков аудио, я могу использовать выход speech2text на моей длинной аудиозаписи и редактировать подкаст, редактирую текстовый транскрипт. А моделька, обученная на моем голосе, будет синтезировать отрезки аудио, которые соответствуют измененному куску текста.
- Speech-to-speech: Это перевод аудиозаписи на разные языки, сохраняя голос, и изменения стиля повествования, добавляя разные эмоции.

К сожалению на сайте проекта еще не все описанные возможности доступны, но клонировать свой голос уже можно.

Борьба с дипфейками и нелегальным клонированием:
Интересно, что для борьбы с дипфейками и клонированием голосов, которые вам не принадлежать, от юзера требуют загрузить видео, где "клонируемый" человек говорит текст вроде "Я разрешаю загрузку моих аудио данных в resemble и даю согласие на использование его для генерации контента для юзера [email address]". То есть украсть золотой голос Баскова без его согласия не выйдет (на самом деле выйдет, если вы сами сможете собрать похожий пайплайн из кода на гитхабе).

@ai_newz

2023-07-12 19:07:28

Roblox Open Beta выходит на Meta Quest 2 & Pro

Roblox давно строит свою метавселенную. Но до этого в нее играли только на 2D девайсах (PC, консоли, мобильники). Сейчас же в партнёрстве с Meta, Roblox получит полноценное 3D воплощение в VR.

Многим читателям канала 20+ лет, и вам наверное не совсем понятен феномен Roblox. Поэтому стоит отметить, что эта платформа имеет 66 млн DAU (daily active users) и большая часть из них это дети и подростки до 17 лет.

Roblox — это своего рода конструктор игр, где любой желающий может создать свой собственный мир. Либо можно подключиться и поиграть со своими друзьями в существующую игру. При этом большой упор делается на кастомизацию внешности своего аватара (я писал про это раньше).

Во время пандемии произошел огромный рост пользователей Roblox. Три из четырех ребенка 9-12 лет из США играют в Roblox.

Ну вот, а теперь все это переносится и в VR, что будет очень круто как для развития экосистемы Quest так и для самого Roblox.

@ai_newz

2023-07-12 17:12:52

50 минут назад Маск анонсировал свою новую компанию https://x.ai/ под бодрым лозунгом "Understand the Universe".

По сути это конкурент OpenAI ~~с блекджеком и шлюхами~~, о котором Маск ранее упоминал.

В ядре команды инженеры и сайнтисты из DeepMind, OpenAI, Google Research, Microsoft Research и Tesla. Некоторые из них тренили GPT-4. Так что инсайдерской инфы у команды достаточно, чтобы воссоздать ChatGPT как минимум. Маск заранее закупился тысячами видеокарт под это дело.

Но, честно сказать, пока не понятно, чем именно эта новая компания будет заниматься. Наверное тоже будут строить AGI.

@ai_newz

2023-07-12 14:42:23

Bitsandbytes: Быстрый инференс в точности 4-bit

Есть такая библиотечка bitsandbytes, в которой реализованы очень быстрые CUDA-кернелы для 8-битных операций в PyTorch. Выглядит либа как обертки над обычными объектами Pytorch, что огромный плюс, ведь не нужно возиться с C++ кодом как в случае llama.cpp.

В том числе в bitsandbytes есть и оптимизаторы для обучения на 8-битах.

Снижение разрядности операций с fp32 до, например, int8 позволяет в разы сократить время обучения и инференса сетей.

А вчера, автор выложил версию 0.40.0, в которой реализовал эффективный инференс в int4. И на современных GPU мы видим x4 ускорение для операций матричного перемножения и скалярного произведения векторов по сравнению с fp16! А современные трансформеры почти полностью состоят из этого типа операций. То есть при инференсе LLM, мы и экономим драгоценную память, и увеличиваем скорость инференса моделей типа LLaMa до x4.2 раза (см. картинку)!

@ai_newz

2023-07-11 21:21:23

После CVPR и командировки в Menlo Park я наконец возвращаюсь домой в Цюрих.

Удалась довольно продуктивная поездка: Неделя нетворкинга и научных обсуждений на CVPR в Ванкувере, а затем 2 недели бизнес встреч, новых знакомств и планирования проектов в главном офисе Меты в Менло Парк.

За это время я успел встретиться и пообщаться с руководством (нет, не с Марком, к сожалению). Встретился с менеджером менеджера и с нашим директором. Я был поражен насколько открыто и дружелюбно они со мной общались. Наверное, Мета все ещё остаётся одной из самых открытых компаний из Big Tech.

Ещё раз убедился во мнении, что в Силиконовой Долине находится своего рода IT метрополия — почти все самые важные решения в компании делают именно тут, а уж затем доносятся до Европы.

Ну, а теперь, как я вернусь домой, ждите больше сочного мясного контента про генеративный AI.

@ai_newz

2023-07-10 07:19:04

Только я написал пост про self-driving в Калифорнии, как тут такое приключилось.

Едем мы с коллегами с ужина в Сан-Франциско. Я остановился на перекресте, чтобы пропустить другие машины. Справа я заметил два беспилотных Cruise без водителя за рулем.

Один беспилотник быстро проскочил перекресток по прямой, а второму нужно было повернуть налево. Малютка выбрала какую-то очень странную траекторию поворота, которая проходила почти вплотную к нашей машине. Когда Cruise понял, что проходит всего в нескольких сантиметрах от нас, он затормозил и замер в нерешительности. Видимо, сработал протокол "в любой непонятной ситуации тормози и не двигайся". Водители со всех сторон начали сигналить, ведь они не знали что за рулем никого нет.

Я откатился назад и смог объехать застывший Cruise справа, а тот все ещё стоял посередине перекрестка.

Кажется, инженерам Cruise стоит добавить реакуию на сигналы гудка: Услышав гудение, беспилотник должен понять, что все ждут от него немедленных действий, и зашевелиться 😁

@ai_newz

2023-07-08 18:52:37

Я не инсайдер из индустрии self-driving (меня только на днях пригласили на собеседование в Tesla AI). Но вот, чуть-чуть статистики о беспилотниках в Калифорнии:

🔻 Штат выдал лицензии на поздки без водителя 7-ми компаниям: Apollo, Autox, Cruise, Nuro, Waymo, Werideи Zoox. Количество беспилотников на дорогах Калифорнии значительно возросло в посленднее время, и за 2022 год они проехали в 25 раз больше км чем за 2021.

🔻Теперь посмотрим на аварии - все данные в открытом доступе!
— За 2023 год Cruise зарепортила 28 аварий с участием их беспилотников, Waymo — 25, Zoox — 12.
— Кол-во машин без водителей на дорогах Калифорнии на конец 2022 можно оптимистично оценить так:
Cruise — 388 машин, Waymo — 688, Zoox — 142.
— То есть за 2023 год у Cruise аж целых 7% машин попали в аварию! У Waymo - 4%, у Zoox - 8%. Это очень много, и тут еще не учтены случаи блокировки дорог, которые компании не обязаны репортить! Для сравнения вероятность аварии для машин с водителем < 2%.

@ai_newz

2023-07-08 18:45:00

В Калифорнии растет недовольство беспилотниками, которые бывает блокируют улицы и перекрестки, паркуются на пожарных шлангах и не могут адекватно действовать в некоторых ситуациях, понятных человеку.

Активисты же предлагают протест - ставить дорожные конусы 💩 беспилотникам на капот, что по сути обездвиживает машину. Пока инженеры еще не добавили такой кейс в тренировочную выборку, а в любой непонятной ситуации беспилотник как правило включает аварийку и просто замирает.

Машинам без наездника, конечно, еще есть куда развиваться, и у них есть много нерешенных проблем. Но я считаю, что это движение - легкий луддизм, ведь без теста на дорогах в реальных условиях, они никогда не станут водить лучше чем человек.

В следующем посте дам немного статистики, почему в Калифорнии так много недовольных.

@ai_newz

2023-07-07 05:50:38

Я снял видео во время парада в честь Дня Независимости США, где ученики показывают своих роботов, которых они разработали для школьного чемпионата. Цель чемпионата - на скорость собрать и принести на базу как можно больше предметов. Круто, когда еще в школе дети погружаются в науку и инжиниринг. Забавно вспоминать, что класса до пятого у нас в школе из доступного оборудования были только старые Корветы 😅.

В последние несколько дней в канале было меньше постов, потому что после CVPR я полетел в Кремниевую Долину, чтобы поработать из нашего головного офиса. А это видео я снял во время праздничного парада в небольшой деревне к югу от Сан-Франциско.

@ai_newz

2023-07-03 07:16:22

Мы уже почти во вселенной Марвел. Тут челы из Университета Токио изобрели Доктора Октавиуса — к человеку приделали ещё две пары рук!

Выглядит жутко, но представьте как много всякого можно будет делать, если мозг овладеет всеми четырьмя дополнительными руками так же хорошо как и двумя дефолтными. И это недалеко от правды, ведь мозг человека очень адаптивен, и есть исследования, показывающие, как он может адаптироваться к управлению всякими новыми штуками. Самый простой пример — это управление автомобилем. После периода привыкания к машине, она начинает казаться вам продолжением вашего тела. Вы идеально чувствуете его габариты и совершенно точно можете им маневрировать. Похожий эффект достигается если дать определенным нейронам управлять новым девайсом напрямую, например дополнительным пальцем либо дополнительными руками, как тут.

Всякие бионические протезы и симбиоз роботических девайсов с кожаными телами — очень занимательная область. Интересно, когда такие прибамбасы пойдут в массы?

@ai_newz

2023-06-29 17:00:14

🔥Новый курс: Generative AI with Large Language Models

Сегодня Эндрю Ын аннонсировал на Coursera новый трёхнедельный курс по большим языковым моделям (LLM).

Курс подойдет для все кто хочет в структурированной форме разобраться как работают LLM-ки такие как LLaMa и GPT-4, и как с ними работать. Все лекции в сумме - примерно 15 часов. Преподавать будут 3 эксперта из AWS, которые занимаются LLM на работе и имеют широкий практический опыт.

Вот примеры некоторых тем, которые покрываются курсом:

— RLHF: Reinforcement Learning from Human Feedback (RLHF) - это подход, который помогает согласовать большие языковые модели с предпочтениями людей, что значительно улучшает качество взаимодействия между людьми и этими моделями. ChatGPT тоже была обучена с помощью этого подхода.

— Zero-shot, one-shot, и few-shot обучение с LLM: Это обучение моделей на ограниченном количестве примеров. Эта функция появляется примерно начиная с 100M+ параметров. Эффективность модели в zero-shot, one-shot или few-shot режиме кажется масштабируется с размером модели, то есть крупные модели (с большим количеством обучаемых параметров или слоев) обычно более эффективны.

— Продвинутый промптинг ReAct: ReAct - это фреймворк, в котором большие языковые модели используются для генерации как логических шагов, так и задачно-ориентированных действий попеременно. Генерация логических шагов позволяет модели формировать, отслеживать и обновлять планы действий, а также обрабатывать исключения.

— Fine-tuning LLMs: Fine-tuning ("дообучение") - это процесс адаптации большой языковой модели к конкретной задаче путем ее обучения на меньшем, соответствующем наборе данных.

Короче, это топ курс, бесплатно и без СМС! Думаю сам тоже посмотреть.

👁 Записаться на курс на Coursera

@ai_newz

2023-06-29 10:31:44

Тайная ве́черя из наших любимых мэмов, господа 🥂

Запилено с помощью Adobe Generative Fill. Поистине чудовищно клёвый инструмент. А все благодаря диффузии.

@ai_newz

2023-06-28 15:01:05

The Little Book of Deep Learning

Карманная книга по DL от профессора из Женевского Университета François Fleuret. Всего 160 страниц размером с экран телефона, где очень ёмко описываются основные принципы Глубокого Обучения с отличными иллюстрациями.

Классно подойдёт для того чтобы освежить знания перед собеседованиями либо для быстрого входа в DL (желательно, конечно, пользоваться и другими источниками параллельно).

• По ссылке можно бесплатно скачать PDF, отформатированную специально для удобного чтения на мобильных телефонах.

• Либо можно заказать бумажный вариант. #книги

@ai_newz

2023-06-28 07:36:04

Пока летел в самолете я послушал разговор с CEO Майкрософта, Сатьей Наделлой в подкасте Freakonomics.

Я впервые послушал интервью с Сатьей, он оказался прикольным весельчаком, который любит переводить поэзию на разные языки с помощью ChatGPT. Ещё он работает в Майкрософте аж с 1992 — это 31 год!

В подкасте они поверхностно поговорили про ChatGPT и про то, почему Майкрософт проинвестировал 13 млрд $ в OpenAI.

Среди достижений Наделлы как CEO — увеличение фокуса компании на облачных вычислениях и конечно AI. За его время на посту CEO, Майкрософт, можно сказать, встал с колен.

Был ещё такой прикол. Мы знаем, что Сатья был одним из тех, кто подписывал различные письма призывающие к созданию ограничений для AI и ответственному подходу к его разработке (на прошлой неделе появилось ещё одно письмо размером в одно предложение). Так вот ведущий спросил Сатью, почему во время массовых увольнений из Майкрософта они под ноль вырезали команду, которая занималась этикой, ведь это очень важно для создания "ответственного ИИ". На это CEO очень ловко ответил, мол им уже не нужна отдельная команда, которая бы этим занималась, потому что теперь он просит каждого инженера и каждого сайнтиста думать об "безопасном ИИ", и что теперь такой "ответственный" подход также неразрывен с созданием AI моделей, как неразрывна разработка ПО с его тестированием.

Выпуск короткий, можно послушать на сайте подкаста.

@ai_newz

2023-06-27 21:28:48

Drag your GAN: Зарелизили код и демо

Прикольная штука, конечно. Вот бы прикрутить похожий тип контроля к диффузионным моделям: тянешь точки и редактируешь реалистичные изображения. Ганы всё-таки создают картинки похуже чем диффузионки, но зато работают быстрее.

Демо на 🤗
Код

@ai_newz

2023-06-26 15:12:31

Вот ещё пример. Интересно как аватар симулирует раскачивание на стуле, стараясь следовать входным сигналам с головы и рук.

Ноги не падают под текстуры, как оно иногда бывает в других подходах, где явно нет физических ограничений. Здесь же в явном виде в физической симуляции используются законы гравитации, масса и материалы объектов. Policy network (нейронка, которая учится контролировать аватар) моделирует момент силы на костях скелета человека, что приводит аватар в действие. Поэтому аватару и приходится следовать законам физики в данном виртуальном пространстве и учиться балансировать и не падать.

@ai_newz

эйай ньюз страница 6. Показано 50 статей из 595