Нейролента - подборка новостей о нейронных сетях, ChatGPT

эйай ньюз страница 3. Показано 50 статей из 595

All about эйай ньюз

2024-02-02 21:52:12

Ну, хватит саспенса.

Сегодня я был в гостях во Фрайбурге у своих кентов из Stability AI, основных авторов Stable Diffusion.

Кто не знает, мы учились в одной лабе в Heidelberg University, впоследствии переехавшей в LMU в Мюнхен.

На фото Фредди печатает для меня их последнюю статью про новую text-to-image модель, которую они засабмитили сегодня на ICML.

@ai_newz

2024-02-02 17:03:56

Просто оставлю это фото здесь. Ждите инсайтов.

@ai_newz

2024-01-31 23:41:48

Иногда стоит освежать базу. Я сегодня вечером читаю Линейную Алгебру.

Наверное одна из лучших книг по Линалу - это учебник "Introduction To Linear Algebra" Гилберта Стрэнга, профессора из MIT.

Американские учебники в целом лучше объясняют интуицию за математическими объектами по сравнению с советскими. Тут и мотивация и примеры использования в других областях науки. Очень рекомендую для поднятия или повторения базы по линейной алгебре именно учебник Стрэнга, у него как раз в прошлом году вышло 6-ое издание. #книги

@ai_newz

2024-01-30 18:48:07

@ai_newz

2024-01-30 18:46:29

Тем временем подъехали полевые тесты шлема Apple Vision Pro за $3500.

@ai_newz

2024-01-29 18:36:34

Зарелизили Code Llama-70B топовая модель для геренации кода!

Есть базовая версия, Instruct, и отдельная версия для Python — CodeLlama-70B-Python.

CodeLlama-70B-Instruct показывает 67.8 на бенчмарке HumanEval. В общем CodeLlama-70B - это самая мощная базовая модель для генерации кода в Open Source.

Запросить веса можно тут.

@ai_newz

2024-01-29 15:00:25

Вот и новое поколение wearable AR девайсов на подходе - челики из стартапа Blinkenergy разрабатывают AR-линзу!

Пока это ранний прототип, но выглядит очень круто! На веко лепится тоненький контроллер, который питает линзу энергией и соединяется с телефоном для передачи информации, которую нужно отрендереть на линзе.

Убеждают, что дизайн удобный и глаз от линзы не болит. Думаю, что со временем контроллер станет еще меньше и линзы еще тоньше.

Пока это первый стартап, работающий над AR-линзами. Мне кажется довольно естественным такой подход к AR, где дополненная реальность напрямую накладывается на видимую реальность через глазные линзы.

Это же прям то, что нужно каждому обывателю эпохи киберпанка - листать тиктоки со стеклянным взлядом, сидя в метро, вместо того, чтобы пялиться в телефоны!

Посмотрим, появятся ли конкуренты со своими линзами в ближайшее время.

@ai_newz

2024-01-28 18:01:41

😳 Вы только гляньте, как робопёс учится ходить за один час с нуля! Кстати, видео обрывается, потому что робот разозлился и дал ученому отменных трындюлей.


Обучение в симуляции несет за собой ряд проблем связанных с обощением выученного на реальный мир со всеми его несовершенствами. Поэтому, было бы круто если бы робот мог эффективно учиться от взаимодействия с реальным миром.

На эту тему сейчас активно ведутся исследования, и на видосе показан результат работы метода "DayDreamer: World Models for Physical Robot Learning", который позволяет роботам учиться с RL не в симуляции, а сразу в физическом мире и причем довольно быстро. Работа уже не новая (2022), но тем не менее интересная.

@ai_newz

2024-01-26 11:59:17

Кстати, если вы не заметили, новая text-embeding-3-large модель от OpenAI далеко не SOTA (увы).

Немного про бенчмарки и что сейчас SOTA:

1️⃣ MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) - бенчмарк с текстами на 18 разных языках, включая русский. Используется для измерения качества поиска по многоязычному корпусу.

Тут мы видим заметное улучшение у text-embeding-3-large - 54.9 (против 31.4 у `ada v2`). Что тут сейчас актульная SOTA я хз - подскажте в комментах, если знаете.

2️⃣ MTEB (Massive Text Embedding Benchmark) - крупнейший бенчмарк дял текстовых эмбеддингов. Есть публичнй лидерборд (см. скрин).
a. SOTA сейчас считается модель voyage-lite-02-instruct от Voyage AI (доступна через API) со скором 67.13.
b. на втором месте - E5-mistral-7b-instruct (в опен соурсе), выбивает скор 66.63.
с. text-embeding-3-large от OpenAI же выдает скромные 64.6, что соответствует 4-му месту на лидерборде.

Кажется, OpenAI потихоньку теряет свои лидерские позиции как SOTA API всего, что связано с текстом.

@ai_newz

2024-01-26 00:21:43

OpenAI проапдейтили API и выкатили новые text-embedding модели

1️⃣ Добавили 2 новые text-embeding модели, которые переводят текст в вектора.

2️⃣ Обновили GPT-3.5 Turbo. Теперь она будет более точно отвечать в формате, который вы запоосили в промпте.

Цену за входные токены уменьшили на 50%, до $0.0005 /1 KTok. А цену за генерируемые токены снизили на 25%, теперь она $0.0015 /1 KTok.

3️⃣ Обновили GPT-4 Turbo preview. Улучшили генерацию кода и уменьшили "ленивость" модели, когда ей приходилось подкидывать на чай, чтобы она выполняла задачу без халтуры.

Еще в ближайшие месяцы пообещали выкатить GPT-4 Turbo со зрением в общий доступ.

@ai_newz

2024-01-25 14:37:37

Нейросети пишут подкаст про нейросети (на русском)

Мне в личку постучался подписчик и рассказал про свой проект. Он сделал подкаст про AI на русском языке, который создается автоматически с помощью нейросетей! Это безумие, которое стало реальным благодаря мощному прогрессу в АI за последние пару лет, за которым мы тут и следим 👀.

Причем, нейросетевой подкаст D00M4ACE содержит полноценный пайплан с нейсколькими этапами поиска и обработки актуальной информации по теме подкаста, то есть это не просто озвучка блогпостов из интернета. Со слов автора, весь пайплайн заскриптован, и между шагами нет ручных действий. На вход тема подкаста - на выходе набор wav файлов.

Как это работает вкратце:
1. По заданной теме подкаста парсится реддит и собирается база текстов.
2. Далее эта база пропускается через ряд LLM-ок, которые разбивают ее на отдельные суммаризированные блоки, которые потом еще раз пропускаются через LLM-ки для ранжирования и отбора наиболее высоких по рейтингу кусков информации.
3. Затем это добро пропускается через API gpt-4-turbo, где системный промпт содержит инструкцию написать сценарий подкаста, задает описание ведущих и прочие требования.
4. И, наконец, Text-to-Speach нейронки преобразуют сценарий в аудиозапись и с помощью RVC (real-time voice cloning) голосам придается идентичность. Причем один из виртуальных подкастье имеет голос самого автора, а для со-ведущей автор натренировал нейронку, которая повторяет голос его супруги.

Пайплайн все ещё в процессе улучшения и автор планирует переделать его на базе опенсоурс решений без использоывания OpenAI апишек.

Внизу прикрепляю один из эпизодов.

Канал c подкастом
Ютуб
Сайт автора

@ai_newz

2024-01-23 19:31:51

Я тут наткнулся на профиль одного паренька. Честно сказать, я в шоке. В 14 лет он закончил бакалавриат, в 19 лет он закончил PhD, а в 20 лет стал Research Director в Stability AI.

Он взломал жизнь?

@ai_newz

2024-01-22 10:29:45

А вот теперь, мы начнем играть в VR по-взрослому! Disney представила свою новую крышесносную разработку HoloTile Floor. Это имено то, что я себе представлял в детстве, когда мы с парнями мечтали о будущих играх виратуальной реальности.

Да, я четко помню, что в году 2005 у нас уже были обсуждения и фантазии насчет "виртуальной реалтности", которая вот-вот появится на новых компах, и мы будем играть лесными эльфами, охраной дворца и злодеем. Можно будет грабить корованы...

А с таким полом, кажется, можно действительно испытать полное погружение в виртуальную реальность. HoloTile Floor первым делом будут устанавливать в парках развлечения Disney, но в какой-то момент они могут дойти и до домашних пользователей. Кроме обычных игр, фитнес приложения смогут выйти на совсем иной уровень.

Omni-directional беговые дорожки существовали и ранее (например virtuix), но они как правило выглядели громоздко и на игрока нужно было вешать кучу дополнительных приблуд. Кроме того, в HoloTile Floor, можно еще и перемещать предметы, и двигаться, сидя на предметах.

В общем, what a time to be alive! И ждем новых серий черного зеркала.

🤯

@ai_newz

2024-01-20 17:00:25

Stable LM 2 1.6B от Stability AI

Кажется, Stability AI решили немного улучшить состояние дел в маленьких LLM. Вот выпустили Stable LM 2 со скромными 1.6B. По бенчмаркам она показывает себя более чем достойно и является самой сильной моделью в весовой категории до 2 млрд параметров.

Тренили ее две эпохи на двух триллионах токенов. Датасет использовали мультиязычный - Английский, Испансикй, Немецкий, Итальянский, Французский, Португальский и Голландский. Русского, увы нет.

В целом, мне нравится тренд на создание уменьшенных моделей, не сильно теряя в качестве генерации. Проще и шустрее будет такие модельки запускать у себя на лаптопе либо на мобильниках.

Демка на HF
Базовая модель
Instruction-tuned версия

@ai_newz

2024-01-19 11:18:47

LLaMa 3 уже тренируется

Марк анонсировал сегодня у себя в IG, что уже тренирутся LLaMa 3, и на подходе другие клёвые AI модели.

Чтобы все это добро эффективно тренировать, по ходу строится огромный кластер, в котором будет 350,000 H100 до конца года. Общий размер компьюта будет примерно равен 600,000 H100, если перевести всё в H100 эквивалент.

@ai_newz

2024-01-18 11:18:28

Вот так.

Credits: D. Vorotyntsev

@ai_newz

2024-01-18 10:57:29

🚬 Треним веса, тренимся с весами (с) Гигачад Шмидхубер

Всем бы в 60 быть в такой форме! Талантливый человек — талантлив во всем.

@ai_newz

2024-01-17 19:17:18

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

Кайфовая работа вышла. Позволяет генерить людей в разных стилях и амплуа по заданным фотографиям. Вон смотрите как кайфово ЛеКуна нагенерили.

Но, в отличие от DreamBoth и всяких LORA, в этой работе избавились от надобности файнтюнить модель под каждую новую личность.

Во время тренировки мы выдираем из входных фоток эмбеддинги, кодирующую личность, и учим диффузионную модель использовать их в качестве кондишенинга для генерации желаемых личностей.

А во время инференса, мы можем подать набор фотографий нового юзера и сгенерить для него аватарки без дополнительных тренировок. Это быстро и более эффективно, чем файнтюн под каждого юзера.

Идея простая и изящная, строящаяся на том, что давно существуют сетки, способные выдирать фичи, кодирующие внешность человека. Например, для ре-идентификации.

Сайт проекта
Код

Можно попробовать демки на HF:
1. Демо в реализмем
2. Демо со стилизацией

@ai_newz

2024-01-13 09:02:22

О важности отдыха "с отключением"

Порой мне сложно разгрузить голову и оставить работу в офисе после того, как я пришел вечером домой. Постоянно крутятся мысли, идеи и хочется доделать задачу либо запустить эксперименты на ночь, чтобы ГПУшки не простаивали. Кроме того, тесная работа с коллегами из Калифорнии тоже поддаёт угля в огонь.

Работать в таком режиме продолжительное время, конечно, утомительно, хоть я и очень люблю то, чем занимаюсь. Поэтому заставляю себя на выходных и во время отпуска отключаться полностью, не проверять рабочую переписку и не читать научные статьи. Ну, либо читать, но только ради удовольствия — каюсь, не могу от них полностью отказаться

🤪.

Вот и сейчас у меня было 2 недели без рабочих вопросов, даже не писал в канал и почти не читал другие каналы, чтобы мозг отдохнул от беспрерывного потока информации.

По себе замечаю, что эффективность такого отдыха гораздо выше, чем когда в отпуске даже по часу в день занимаешься чем-то, связаным с работой. После отдыха "с отключением", приступая к работе, всегда чувствую много энергии и искрюсь новыми идеями. Также это хорошая пилюля против выгорания.

Так что, теперь я опять с вами!
Расскажите в комментариях, как вы отдыхаете от интенсивного умственного труда?


@ai_newz

2023-12-31 19:44:53

Поздравляю всех с Новым Годом!

Это был продуктивный 2023 год, а в 2024 году желаю вам всем хороших градиентов, быстрой сходимости и достижения абсолютно всех поставленных целей!

🎆 🥳🍾

@ai_newz

2023-12-28 16:38:01

🌡Геймификация - наше все! Как же все-таки странно устроен человеческий мозг. Есть куча уловок, заставить его что-то делать с охотой, но не все их знают или не умеют ими пользоваться.

Видос украден отсюда.

@ai_newz

2023-12-28 14:25:30

Самая мощная LLM в опесорсе, Mixtral 8x7B MoE от Mistral AI, теперь доступна во фреймворке Сandle* - с поддержкой квантизации. За счет квантизации модели могут работать локально на ноутбуке с 32 GB RAM.

Например, 4-битная Mixtral 8x7B MoE занимает всего 26.44GB памяти. Тогда как в bf16 на GPU модель бы заняла 112+ GB VRAM (то есть влезла бы только на H100).

*Candle - это минималистский ML-фреймворк для Rust, сфокусированный на производительности (включая поддержку GPU) и простоте использования.

- Поддерживает 2-bit, 3-bit, 4-bit, 5-bit, 6-bit and 8-bit int квантизованные модели в gguf and ggml форматах.
- SIMD оптимизации для Apple Silicon и x86.

Вот тут можете попробовать демки разных моделей на Candle:
- Whisper, [пост в канале]
- LLaMa-2, [пост в канале]
- T5,
- YOLOv8,
- Segment Anything [пост в канале]

@ai_newz

2023-12-25 15:34:53

Принес вам 14 книг по Machine Learning для прочтения в 2024 году

Вкатывающимся в ML вархиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!

🧠 Фундамент
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. The Little Book of Deep Learning (Fleuret, 2023). [тык]
4. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
5. Probabilistic Machine Learning (Murphy, 2012-2023)
6. Linear Algebra and Learning from Data (Strang, 2019)

💻 Более практические
7. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
9. Designing Machine Learning Systems (Huyen, 2022)
10. Fundamentals of Data Engineering (Reis & Housley, 2022)

🤗 LLM-ки
11. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
12. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)

🎉
Генеративный AI
13. Generative Deep Learning, 2nd Edition (Foster, 2023)
14. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)

Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.

Список подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил. #книги #books

@ai_newz

2023-12-24 14:15:28

Галя, отмена! В 2024 AGI ещё не будет. 👍

@ai_newz

2023-12-24 12:51:40

Ура! Нас 40 тысяч!

😗 За год канал вырос на 15 тысяч читателей: c 25k до 40k.

Приятно видеть столько умных и заинтересованных в эйай людей вместе. Я, правда, не думал, что на русском языке можно набрать такую большую аудиторию, ведь контент в канале зачастую не самый легкий.

Поделюсь с вами, про мои самые любимые плюшки, которые я как автор обрел благодаря каналу.

1. Теперь, я получаю удовольствие вдвойне при прочтении новой статьи. Во-первых от получения новых знаний, а во-вторых мне радостно делиться информацией с вами и объяснять сложные вещи.

2. Огромное количество новых знакомств, которые принесло ведение канала. Мой нетворк значительно вырос и распространился по всему миру. Иногда поступают очень интересные предложения о коллаборациях и партнерствах либо просто встретиться на кофе в новом городе.

3. Во время нескольких последних поездок на конференции (CVPR, ICCV в этом году) у меня прям здорово получалось наводить движ благодаря комьюнити, которое образовалось вокруг канала. Было приятно знакомиться и общаться с вами! И я, кажется, понял, что мне очень нравится организовывать такие тусы.

В августе я проводил большой опрос читателей. Cкоро поделюсь его результатами и тем, как на базе этого я планирую развивать контент.

Надеюсь, что наше комьюнити будет и дальше активно развиваться! Merry Christmas! 🎄

@ai_newz

2023-12-22 10:29:11

Решил разобрать детальнее статейку парней из Tinkoff Research — ReBRAC: Revisiting the Minimalist Approach to Offline Reinforcement Learning, которая была опубликована на NeurIPS в этом году.

Речь пойдет об Offline Reinforcement Learning. Это когда у агента нет доступа к энвайроменту, и он должен тренироваться на предписанном датасете. Это как если бы вы учились играть в Доту, только смотря реплеи и VOD-ы других игроков, но сами бы никогда не пробовали играть. Вот это и есть Offline RL.

Один из популярных методов для Offline RL — это Behavior-Regularized Actor-Critic (BRAC). Если в двух словах, то актор - это сеть, которая принимает решения о действиях агента в разных ситуациях. А критик оценивает действия, выполненные актером, и дает обратную связь о том, насколько хороши или плохи были эти действия. Важным дополнением здесь является, что актор в BRAC, в отличии от online-RL, старается выбирать действия близкие к датасету — это еще называют консервативностью.

Суть статьи в том, что авторы взяли этот минималистичный бейзлайн, Actor-Critic алгоритм, и накачали его стероидами в виде разных трюков, да так что он превратился из слабенького бейзлайна в очень сильный подход, который выдает результат на уровне гораздо более сложных специализированных подходов.

А теперь более детально. Дело в том что, часто в статьях ученые используют всевозможные мелкие трюки, на которых не акцентируют внимание, но которые по сути очень много добавляют к перформансу на практике. Авторы ReBRAC взяли основные трюки и провели детальный анализ влияния каждого из них, и затюнили их для алгоритма Actor-Critic:
- Большая глубина сети: почему-то в литературе до этого в основном использовали MLP c 2-мя скрытыми слоями. Очень странно, ведь это крошечная сетка.
- LayerNorm — полезно вставлять между слоями. Помогает критику преодолеть оверконсервативность.
- Батчи по-больше — всегда хорошо для повышения стабильности тренировки.
- Разная константа в MSE-регуляризации актера и критика.
- Увеличенный дискаунт-фактор для реворда — помогает когда реворд-сигнал довольно жидкий.

После этого оказалось, что даже такой простой алгоритм достиг уровня SOTA, и теперь его можно использовать как очень сильную отправную точку для всех дальнейших исследований в Offline RL.

Мораль такова, что маленькие детали имеют большое значение! Побольше бы таких статей с трюками в других областях, жаль что такое редко публикуется — все держат свои трюки при себе.

@ai_newz

2023-12-19 22:39:50

🤯Локальные LLM-ки на подъеме — некий Кулибин запуcтил Карпатовскую llama2.c на Galaxy Watch 4!

Моделька не самая жирная, но это пока. Через год-два 1B параметров будет на часах бегать. Персональный ассистент у вас на руке!

Скорость:
Модель с 15M параметров: 22 токенов/сек*
Модель с 43M параметров: 8 токенов/сек

Вот вам еще небольшая подборка моих постов, про локальнные LLM:
- LLaMa с text-retrieval плагином: тык-1, тык-2
- LLama-7B на на макбуке: тык
- LLaMa-30B на макбуке (4-bit + mmap): тык
- llama2.c или Карпатый запускает LLaMa-2-7B на рисоварке: тык
- Falcon 180B дома на маке M2 Ultra: тык


*один токен - это чуть меньше одного слова.

@ai_newz

2023-12-19 16:03:04

Вы только посмотрите на этого обаятельного 30-летнего молодого человека. Это Джеф Безос, основатель Амазона, показывает первый офис компании в 1994 году. Амазончику тогда было всего несколько месяцев от основания, и только через 3 года он сделает IPO.

Съемку ведет отец Безоса, все действия проходят в гараже. Любопытно, что видео как бы нарочно записывалось, уже зная про безусловный будущий успех компании 📈, чтобы похвастаться через 30 лет, мол, посмотрите с чего я начинал — кабели кругом и бардак на столе.

Все равно видео атмосферное и вдохновляющее, да и Безос там ещё совсем скромный.

@ai_newz

2023-12-16 13:21:39

Слежу за прогрессом в работах по теме виртуальной примерки. В канале уже целая серия постов об этом — от ганов до диффузии (гляньте для наглядного сравнения). Ещё я даже сам пробовал демо с виртуальным зеркалом на ICCV 2023.

Если раньше проблема виртуальной примерки казалось почти нерешаемой в адекватном качестве, то сейчас я замечаю, что каждые полгода результаты становятся всё лучше и лучше. Вот на днях Alibaba опубликовали новый метод на основе диффузии.

Загружаешь фото и примеры шмоток, а на выходе получаешь не просто фото в одежде, а целую анимацию!

Демо на HF
Сайт проекта

@ai_newz

2023-12-16 11:06:01

Сейчас часто слышу мнение, что конкуренция в AI очень высокая, и опубликоваться на лучших конференциях почти нереально. В качестве мотивации для начинающих ресерчеров скажу, что сейчас не труднее чем 5 лет назад, просто нужно уметь креативно подходить к ресерчу, если нет кластера из 1000 GPU.

Вот хороший пример того, как молодые ребята могут и пишут статьи на топовые конфы. Парни написали 4 статьи [1, 2, 3, 4] на NeurIPS в этом году, и получили Yandex ML Prize. Один как научный руководитель, в второй как PhD студент с первой топовой публикацией. Заходить в PhD со статьи на Нипсе — это нагло! Я, кстати, тоже начал свою научную карьеру именно со статьи на Нипсе.

@ai_newz

2023-12-15 20:28:19

Там сейчас идёт NeurIPS 2023 в новом Орлеане — топовое событие в мире AI. Год назад я писал о своей поездке на NeurIPS 2022, где я презентовал статью. Забавно, что в этом году конфа опять в Новом Орлеане (видать, очень удачный город для проведения таких тусовок), но у меня не получилось поехать из-за визы.

Кстати, это фото сделано на NIPS 2002 (не мной), когда конфа была маленькой и ламповой, а не как сейчас на более чем 10к человек.

Узнаете кого-нибудь на фото?

@ai_newz

2023-12-15 17:32:28

Сегодня Яндекс подвел итоги своей премии за вклад в науку в области машинного обучения — Yandex ML Prize. Я просмотрел список лауреатов, их в этом году было 11, и многие из них получили премию за генеративные сети, вокруг которых был особый ажиотаж в этом году, а также за исследования в области распознавания и синтеза речи, компьютерного зрения, информационного поиска, обработки естественного языка.

Это классная инициатива — студентов и учёных-новичков мотивируют заниматься наукой и еще дополнительно поощряют за публикации статей и выступления на топовых международных конференциях. Размер премий — от 500k до 1kk рублей плюс грант на использование платформы Yandex Cloud, которые можно пустить на эксперименты и большие вычисления.

@ai_newz

2023-12-15 03:58:05

Короче, мы выкатили диффузию в инстаграм для редактирования изображений, а именно - генерацию фона по тексту. Эта модель была анонсирована еще на Connect, но только сейчас ее выкатили в прод в США.

Загружаешь фото, вводишь любой пропмт, например, "преследуемый динозаврами" или "я в Париже", и получаешь несколько новых версий своей фотки.

Моделька основана на нашей text2image диффузии Emu и технологии по типу SAM, которая позволяет автоматически находить нужную маску.

Тут я говорю "мы выкатили", потому что мы с нашей командой крутили и искоряли эту модель, чтобы она работала за пару секунд.

Диффузия Go Brrrrr! - это лозунг нашей команды.

Приятно, когда результатами твоей работы могут пользоваться миллионы людей. Даже работая в ресерче в фаанге, не всегда есть такая возможность. Мне в этом смысле повезло, т.к. наша GenAI орга, кроме написания статей, ещё и катит ресерч в продукты и имеет реальный импакт.

#personal #мойпуть
@ai_newz

2023-12-13 21:33:05

⚡️У Гугла вышла новая text-2-image модель Imagen 2.

Есть блогпост да и только. Конечно, улучшение по сравнению с Imagen 1 налицо, но пока трудно сказать, в чем тут новшество. Статьи нет.

Обещают сильно улучшенный реализм и text faithfulness, то есть модель более чутко реагирует на текстовый запрос.

Обратите внимание, что на руке сгенерило 5 пальцев!

Доступна модель пока только через Imagen API in Google Cloud Vertex AI. Напишите, если кто разберется как пользоваться.

@ai_newz

2023-12-13 00:16:56

Цук запости в инсте, что уже начал тестировать мультимодальную AI в очках Meta Ray Ban. Сеточка умеет распознавать то, что видит и отвечать на голосовые команды. Ждем, когда эта фича будет официально в проде!

Это реально круто же, если оно в риалтайме будет помогать жить вашу жизнь. А когда модель начнет локально бегать на телефоне - вот это будет пушка.

@ai_newz

2023-12-11 19:40:17

Мой кент Yann LeCun зашерил пост про нашу недавнюю статью к себе на страницу.

Мелочь, а приятно.

🚬

#personal
@ai_newz

2023-12-09 23:02:22

БОЛЬШИЕ НОВОСТИ - Согласован Европейский The AI Act!

TL;DR: На большие AI модели наложено очень много ограничений. Кончилась лафа для компаний, строящих LLM в EU.

Основные последствия The AI Act:

1️⃣Система рисков по уровням: Для систем AI, классифицированных как высокорисковые, были согласованы четкие обязательства и требования прозрачности. Теперь потребуется обязательная оценка потенциально негативных воздействий на здравоохранение, безопасность, базовые права человека, и общество в целом.

2️⃣ Foundation модели будут регулироваться, если на их обучение ушло как минимум 10^25 flops вычислительной мощности - в эту категорию попадут модели как минимум уровня GPT-3.5.

3️⃣Благодаря немцам, французам и итальянцам удалось добиться значительных поблажек для Open-Source моделей. Это слегка снимает стресс с некоторых компаний которые публикуют опенсорсные модели, включая французскую компанию Mistral и немецкую Aleph Alpha, а также Meta с ее моделями LLaMA. Ян Лекун поспособствовал.

4️⃣ Следующие системы будут запрещены, и у компаний будет всего шесть месяцев, чтобы обеспечить соблюдение:
▪️системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
▪️ненаправленное скрейпинг изображений лиц из интернета или с камер видеонаблюдения для создания баз данных распознавания лиц;
▪️распознавание эмоций на рабочем месте и в образовательных учреждениях;
▪️социальное скоринг на основе социального поведения или личных характеристик;
▪️ AI, которые манипулируют человеческим поведением, чтобы обойти их свободную волю;
▪️AI, используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).

5️⃣Системы AI высокого риска будут особенно тщательно проверяться на наличие байесов, предвзятости, обеспечивая их недискриминационность и уважение основных прав человека.

6️⃣Поставщики систем AI высокого риска должны вести тщательную документацию, чтобы продемонстрировать свое соответствие регуляциям. Это включает запись методов обучения и используемых наборов данных.

7️⃣ Санкции: Несоблюдение может привести к значительным штрафам, варьирующимся от 35 миллионов евро или 7% от глобального оборота до 7,5 миллиона евро или 1,5% от оборота, в зависимости от нарушения и размера компании.

Усиленные требования к прозрачности могут вызвать проблемы с защитой интеллектуальной собственности, требуя баланса между раскрытием информации и сохранением коммерческой тайны.

Все это потенциально увеличит операционные затраты и наложет значительную административную нагрузку, что потенциально может повлиять на время выхода на рынок новых AI продуктов в Европе.

А скоро, думаю, и другие страны подтянутся со своими законами. В долгосрок выиграют те, кто не так сильно закинет удавку на разработчиков AI. Как же сейчас британские компании радуются, что они не в EU.

@ai_newz

2023-12-09 01:04:19

Не хотел писать про Gemini, который на днях анонсировали как мультимодальную модель уровня GPT-4, пока сам не пощупаю. Но Google обделался в пиаре своего Gemini, что тут грех не написать.

Демо-видео Gemini оказалось смонтированным, а не отражающим реальные возможности модели в реал-тайм. Видео нарезали, ускорили и смонтировали, выбросив то, какие именно промпты и какие кадры подавались модели, чтобы получить красивые ответы для демки.

Google признал монтаж, но утверждает, что целью было вдохновить разработчиков. ПРОСТО ГЕНИИ 🤣.

Кстати, у Гугла был похожий PR-провал во время анонса Bard 👍.

@ai_newz

2023-12-08 17:30:16

Хочу еще заметить, что всякие Latent Consistency Models (LCM) и SDXL-Turbo, работающие за ≤ 4 шага - это ортогональные к кешингу работы. При таком сильном снижении числа шагов, как правило значительно страдает чувствительность к промпту (так называемый text faithfulness). То есть ты просишь сгенерить "кота в сапогах и собаку", а модель теряет собаку.

На видео видно как лажает SDXL-Turbo на промптах с несколькими объектами. Да и сама картинка сильно хуже выглядит чем при 20 шагах, например.

@ai_newz

2023-12-08 17:07:33

Вы уже заметили, что есть две конкурентные статьи со схожей идеей: Наша Cache Me if You Can и работа DeepCache, которая появилась на архиве пару дней назад.

Основная разница в том, что в DeepCache алгоритм кеширования примитивный, мы же предлагаем более общий и адаптивный подход:

1️⃣ В DeepCache авторы вручную выбирают, какие блоки кешируются, и алгоритм пересчета кеша для всех блоков фиксированный. У нас же все адаптивно - автоматически подбираем какие блоки кешировать и как часто пересчитывать кеш. На картинке как раз показан алгоритм пересчета кеша, котрый мы получили для LDM c 20 шагами DPM++.

2️⃣ За счет этого наш алгоритм из коробки работает на разных text2image архитектурах, мы протестили на LDM c 900 млн параметров (аналог SD 1.5) и на Emu с 2.7 млрд параметров.

3️⃣ Мы предложили трюк с обучением shift & scale для кешируемых блоков, что сильно добрасывает качества, убирая мелкие артифакты.

4️⃣ У нас метрики от кеширования не падают как в DeepCache. И картинки получаются лучшего качества.

5️⃣ Мы показали, что при фиксированном бюджете на вычисления, Cache Me if You Can улучшает результаты генерации по сравнению с бейзлайном без кеширования, так как с нашим кешированием можно успеть прогнать большее число шагов солвера за фиксированное время. Например, вместо 14 шагов DPM++ для бейзлайна можно успеть прогнать 20 шагов DPM++ с нашим кешированием.

6️⃣ У нас можно варьировать trade-off между скоростью и качеством, меняя один гиперпараметр, который адаптивно определяет время жизни кеша для разных блоков. Чем больше врмя жизни кеша - тем быстрее инференс. После определенного порога скорость идет в урон качеству.

@ai_newz

2023-12-08 00:57:06

А вот и наша статья подоспела - Cache Me if You Can: Accelerating Diffusion Models through Block Caching

Как я уже упоминал, наша команда в Meta GenAI занимается ускорением диффузии. В этой статье мы ускоряем генерацию изображений до x1.8 раза без потери качества с помощью умного кеширования во время инференса.

Как?
Для генерации одной картинки обычно требуется сделать много прогонов через модель Unet, например 50 DDIM шагов. Мы тут подметили, что активации Spatial-Attention блоков довольно гладко меняются от шага к шагу, и паттерн их изменения не зависит от промпта. Естественно, мы подумали, почему бы не кешировать фичи тех блоков, которые меняются наиболее медленно и пересчитывать их только раз в несколько шагов. Понт в том, что львиная доля всех вычислений происходит именно в attention блоках, поэтому пропуская их вычисления хотя бы на некоторых шагах, мы сильно ускоряем генерацию.

Все блоки разные, и их активации меняются с разной скоростью. Поэтому мы построили графики изменений активаций для каждого блока (усреднили по 64 запросам) и использовали их чтобы автоматически найти когда и какие блоки можно кешировать, и как долго должен жить кеш для каждого из блоков.

Чтобы убрать мелкие артифакты после кеширования, мы дополнительно обучаем time-dependent scale и shift параметры для каждого выходнрго канала кешируемых блоков. Это помогает сгладить разницу распределений между "честно посчитанными" фичами и закеширвоанными.

В итоге, получили x1.5-1.8 ускорение, причем FID скор даже улучшился после применения кеширования. А результаты Human Eval показали, что при фиксированном времени генерации модель с кешированием выдает более качественные картинки чем бейзлайн.

На каких архитектурах тестировали:
- LDM 512x512 (та же архитектура как у SD 1.5, но натренированная нами внутри GenAI)
- Наша Emu 768x768 с 2.7B параметров.

То есть метод гибок и может подстраиваться под модели разных размеров, причем расписание кеширования разных блоков строится автоматически. Взлетит и на SDXL тоже.

Статья на Arxiv

@ai_newz

2023-12-05 21:52:42

А вот так выглядит схема того, какие блоки кешируются, а какие пересчитываются во время DeepCache.

Песесчитываются только крайние ко входу и к выходу блоки энкодера (D) и декодера (U).

@ai_newz

2023-12-05 21:50:22

DeepCache: Accelerating Diffusion Models for Free

Во время инференса диффузионной модели мы делаем десятки шагов солвера, чтобы сгенерить одну картинку. Понятно, что это не очень эффективно. Отсюда растут ноги у многих работ по ускорению диффузии и уменьшению количества шагов на инференсе. Хочется как-то уменьшить количество компьюта требуемых для генерации одной картинки.

Тут как раз вышла работа про кеширование промежуточных активаций в Latent Diffusion. Хай-левел суть в том, что можно закешировать часть выходов блоков с предыдущих шагов и переиспользовать их на следующих шагах солвера. Активации более шлубоких блоков, те что работают на более низком разрешении, сильно коррелированы между двумя последовательными шагами. А вот активации первых и последних блоков как правило меняются довольно сильно от шагу. Вот авторы и предложили не пересчитывать активации глубоких блоков, а кешировать их.

Это позволяет ускорить инференс SD v1.5 до 2-3 раз без существенной потери качества.

Прикол в том, что мы написали статью на очень схожую тему (тоже про кешинг) - она скоро появится на архиве. Китайцы нас слегка опередили с загрузкой на Arxiv.

На гифке результаты SD v1.5. Слева: 50 PLMS шагов.
Справа: 2.3x ускорение 50 PLMS шагов с кешем.

Статья
Код

@ai_newz

2023-12-02 13:11:36

Солверы для диффузии почти не параллелятся, поэтому так трудно ускорить семплинг той же Stable Diffusion, даже если есть много видеокарт. Выигрыша от восьми видеокарт против одной не будет, разве что батч побольше сможете взять.

Но есть хитрые методы для решения ODE, вроде итеративного метода Пикарда, который позволяет распараллелить семплинг, ценой больших вычислений. То есть вместо условных 100 шагов DDIM придется сделать 229, но с возможностью делать часть из них параллельно. Однако даже в этом случае скейлинг получается очень сублинейный. С 4-x видеокарт ускорение будет максимум в 2 раза по сравнению с одной, а 8 видеокарт ускорят семлинг SD только примерно в 3 раза (см. график).

Сейчас активно ресерчим эту тему по параллелизации и ускорению диффузии.

@ai_newz

2023-11-29 01:08:57

🔥Adversarial Diffusion Distillation или SDXL-Turbo

Мои кореша из Stability AI зарелизили новый метод дистилляции для SDXL.

Показывают, что из дистиллированной SD-XL (ADD-XL) теперь можно семплить за 4 шага без существенной потери в качестве.

Судя по метрикам - это новая сота. Может работать и за один шаг семплера, но тогда генерирует меньше деталей и картинка выходит чуть более замыленная.

Как это работает?
Это гибрид GAN-а и диффузии.
Тренировка основана на классическом методе дистилляции, но с дискриминатором! Когда число шагов снижается до одного, дискриминатор сильно добрасывает, ведь он не позволяет генерить полную кашу (это было уже показано в нескольких статьях в этом году).

1. Студент и учитель инициализируется весами SD-XL. Далее между предиктами студента и учителя накладывается L2 лосс. Любопытно, что учитель делает только 1 шаг, но начинает с зашумленного предикта студента, а не из случайного шума.

2. В качестве дискриминатора берутся фичи из ViT-S, натренированного в self-supervised режиме с помощью DINOv2. Затем эти фичи подают в тренируемую голову, которая выдает "Real" или "Fake". Тут важно именно брать сильный претренированный энкодер фичей, типа DINOv2.

Картиночки выглядят хорошо, но ниже 4х шагов - уже не то пальто.

Тренировочный код не выложили, и, кажется, его ждать не стоит.

Статья
Код и веса
Демо на ClipDrop (1 шаг)

@ai_newz

2023-11-26 17:22:01

Шестипалого человека на камерах наблюдения могут часто принимать за Дипфейк, сгенерированный диффузионкой. Вот вам съемный шестой палец. Надел его и стал галлюцинацией для камер 😂

Представьте теперь, на суде сторона обвинения показывает видео с места преступления. Адвокат в этом случае легко может сказать, что это фальшыука и быть таков.

Конечно, первым делом будут распознавать по лицу, если оно видно.

По крайней мере криминальный мир идёт в ногу со временем.

@ai_newz

2023-11-26 16:27:53

Я интересуюсь стартапами, особенно в сфере AI, и люблю читать блоги людей, которые знают, как эти стратапы строить. Поэтому, в рамках дружеского пиара, хочу порекомендовать вам канал Кирилла Куликова @kyrillic. Он пишет на темы связанные с предпринимательством, особенно о том, как делать международные стартапы русскоязычным фаундерам.

Кирилл - стартапер и кофаундер Beau, который занимается автоматизацией бизнес-процессов. Его стартап прошел через Y Combinator, который по сути является самым маститым акселератором в Долине, через который прошли такие проекты как Airbnb, Coinbase, Dropbox, GitLab, Reddit. Вот тут статья про их драматическое прохождение в летний батч YC 2021.

Кирилл активно делится своими мыслями на разные темы:

‣ Что там интересного у стартапов. Например, на канале периодически выходят глубокие разборы демо-дней Y Combinator. Что сейчас питчат топовым инвесторам, кто забирает инвестиции, какие бизнес-модели и концепции сейчас в тренде, а какие уже не особо.

‣ Кирилл периодически подкидывает идеи для стартапов, например, тут и тут про идеи на базе LLM/GPT и тут про идеи AI-стартапов в целом.

‣ Мета-навыки цифровых кочевников: как выбрать город, что с собой взять, как получить стартап-визу, как настроить быт и так далее. Кирилл объездил полмира и более 12 лет живет в разных городах и странах, работая удаленно.

Мне особенно понравились посты про закрытые сообщества, славянский хмур (особенности софт скиллов у выходцев из эксСССР) и инсайты про ведение тг-канала.

Короче, подписывайтесь. Такого годного контента на тему стартапов в телеге мало: @kyrillic.

@ai_newz

2023-11-25 00:04:00

🔥Intel зарелизил самую мощную 7B LLM

Модели на сотни миллиардов параметров - это, конечно, хорошо. Но прикольно и на ноутбуке погонять небольшие модели.

Intel в последнее время сдал позиции, и многие их считают андердогом. Так вот теперь Intel включился в большую игру! Они затюнили Mistral 7B (писал о ней тут) и получили СОТУ среди моделей на 7 млрд параметров. И выложили все это добро под лицензией Apache 2.

Для дообучения использовали:
- Supervised Finetuning на SlimOrca, эо примерно 500k ответов, сгенеренных GPT-4;
- DPO (Direct Preference Optimization) тюн на датасете пар, сгенерированных LLaMA-13B vs ChatGPT Gens. Обучали модель препочитать ответы ChatGPT ответам Лламы.

Модель
Код
SlimOrca Dataset
DPO Dataset

@ai_newz

2023-11-23 17:25:37

Там Карпатый опять отжигает. Он выпустил часовую лекцию «Интро в большие языковые модели».

Образовательный контент от Карпатого всегда топовый. Нужно смотреть! #ликбез

Часть 1: LLMs
00:00:00 Intro: Large Language Model (LLM) talk
00:00:20 LLM Inference
00:04:17 LLM Training
00:08:58 LLM dreams
00:11:22 How do they work?
00:14:14 Finetuning into an Assistant
00:17:52 Summary so far
00:21:05 Appendix: Comparisons, Labeling docs, RLHF, Synthetic data, Leaderboard

Часть 2: Future of LLMs
00:25:43 LLM Scaling Laws
00:27:43 Tool Use (Browser, Calculator, Interpreter, DALL-E)
00:33:32 Multimodality (Vision, Audio)
00:35:00 Thinking, System 1/2
00:38:02 Self-improvement, LLM AlphaGo
00:40:45 LLM Customization, GPTs store
00:42:15 LLM OS

Часть 3: LLM Security
00:45:43 LLM Security Intro
00:46:14 Jailbreaks
00:51:30 Prompt Injection
00:56:23 Data poisoning
00:58:37 LLM Security conclusions

Слайды

@ai_newz

2023-11-22 13:12:18

Что бы вы думали? Сэма вернули.

Но все ещё не известна конкретная причина всей этой заварушки. Есть только щепотка новой информации из New York Times о том, что посрались из-за какой-то статьи (что опять же выглядит притянуты за уши).

Так же все ещё много неопределенности о дальнейшей судьбе OpenAI и траектории развития. Такими темпами, через пару дней Сэма опять могут снять.

@ai_newz