эйай ньюз страница 3. Показано 50 статей из 595
2024-02-02 21:52:12
Ну, хватит саспенса.
Сегодня я был в гостях во Фрайбурге у своих кентов из Stability AI, основных авторов Stable Diffusion.
Кто не знает, мы учились в одной лабе в Heidelberg University, впоследствии переехавшей в LMU в Мюнхен.
На фото Фредди печатает для меня их последнюю статью про новую text-to-image модель, которую они засабмитили сегодня на ICML.
@ai_newz
2024-02-02 17:03:56
Просто оставлю это фото здесь. Ждите инсайтов.
@ai_newz
2024-01-31 23:41:48
Иногда стоит освежать базу. Я сегодня вечером читаю Линейную Алгебру.
Наверное одна из лучших книг по Линалу - это учебник "Introduction To Linear Algebra" Гилберта Стрэнга, профессора из MIT.
Американские учебники в целом лучше объясняют интуицию за математическими объектами по сравнению с советскими. Тут и мотивация и примеры использования в других областях науки. Очень рекомендую для поднятия или повторения базы по линейной алгебре именно учебник Стрэнга, у него как раз в прошлом году вышло 6-ое издание. #книги
@ai_newz
2024-01-30 18:46:29
Тем временем подъехали полевые тесты шлема Apple Vision Pro за $3500.
@ai_newz
2024-01-29 18:36:34
Зарелизили Code Llama-70B топовая модель для геренации кода!
Есть базовая версия, Instruct, и отдельная версия для Python — CodeLlama-70B-Python.
CodeLlama-70B-Instruct показывает 67.8 на бенчмарке HumanEval. В общем CodeLlama-70B - это самая мощная базовая модель для генерации кода в Open Source.
Запросить веса можно тут.
@ai_newz
2024-01-29 15:00:25
Вот и новое поколение wearable AR девайсов на подходе - челики из стартапа Blinkenergy разрабатывают AR-линзу!
Пока это ранний прототип, но выглядит очень круто! На веко лепится тоненький контроллер, который питает линзу энергией и соединяется с телефоном для передачи информации, которую нужно отрендереть на линзе.
Убеждают, что дизайн удобный и глаз от линзы не болит. Думаю, что со временем контроллер станет еще меньше и линзы еще тоньше.
Пока это первый стартап, работающий над AR-линзами. Мне кажется довольно естественным такой подход к AR, где дополненная реальность напрямую накладывается на видимую реальность через глазные линзы.
Это же прям то, что нужно каждому обывателю эпохи киберпанка - листать тиктоки со стеклянным взлядом, сидя в метро, вместо того, чтобы пялиться в телефоны!
Посмотрим, появятся ли конкуренты со своими линзами в ближайшее время.
@ai_newz
2024-01-28 18:01:41
Обучение в симуляции несет за собой ряд проблем связанных с обощением выученного на реальный мир со всеми его несовершенствами. Поэтому, было бы круто если бы робот мог эффективно учиться от взаимодействия с реальным миром.
На эту тему сейчас активно ведутся исследования, и на видосе показан результат работы метода "DayDreamer: World Models for Physical Robot Learning", который позволяет роботам учиться с RL не в симуляции, а сразу в физическом мире и причем довольно быстро. Работа уже не новая (2022), но тем не менее интересная.
@ai_newz
2024-01-26 11:59:17
Кстати, если вы не заметили, новая text-embeding-3-large модель от OpenAI далеко не SOTA (увы).
Немного про бенчмарки и что сейчас SOTA:
Тут мы видим заметное улучшение у text-embeding-3-large
- 54.9 (против 31.4 у `ada v2`). Что тут сейчас актульная SOTA я хз - подскажте в комментах, если знаете.
a. SOTA сейчас считается модель voyage-lite-02-instruct от Voyage AI (доступна через API) со скором 67.13.
b. на втором месте - E5-mistral-7b-instruct (в опен соурсе), выбивает скор 66.63.
с. text-embeding-3-large от OpenAI же выдает скромные 64.6, что соответствует 4-му месту на лидерборде.
Кажется, OpenAI потихоньку теряет свои лидерские позиции как SOTA API всего, что связано с текстом.
@ai_newz
2024-01-26 00:21:43
OpenAI проапдейтили API и выкатили новые text-embedding модели
Цену за входные токены уменьшили на 50%, до $0.0005 /1 KTok. А цену за генерируемые токены снизили на 25%, теперь она $0.0015 /1 KTok.
Еще в ближайшие месяцы пообещали выкатить GPT-4 Turbo со зрением в общий доступ.
@ai_newz
2024-01-25 14:37:37
Нейросети пишут подкаст про нейросети (на русском)
Мне в личку постучался подписчик и рассказал про свой проект. Он сделал подкаст про AI на русском языке, который создается автоматически с помощью нейросетей! Это безумие, которое стало реальным благодаря мощному прогрессу в АI за последние пару лет, за которым мы тут и следим 👀.
Причем, нейросетевой подкаст D00M4ACE содержит полноценный пайплан с нейсколькими этапами поиска и обработки актуальной информации по теме подкаста, то есть это не просто озвучка блогпостов из интернета. Со слов автора, весь пайплайн заскриптован, и между шагами нет ручных действий. На вход тема подкаста - на выходе набор wav файлов.
Как это работает вкратце:
1. По заданной теме подкаста парсится реддит и собирается база текстов.
2. Далее эта база пропускается через ряд LLM-ок, которые разбивают ее на отдельные суммаризированные блоки, которые потом еще раз пропускаются через LLM-ки для ранжирования и отбора наиболее высоких по рейтингу кусков информации.
3. Затем это добро пропускается через API gpt-4-turbo, где системный промпт содержит инструкцию написать сценарий подкаста, задает описание ведущих и прочие требования.
4. И, наконец, Text-to-Speach нейронки преобразуют сценарий в аудиозапись и с помощью RVC (real-time voice cloning) голосам придается идентичность. Причем один из виртуальных подкастье имеет голос самого автора, а для со-ведущей автор натренировал нейронку, которая повторяет голос его супруги.
Пайплайн все ещё в процессе улучшения и автор планирует переделать его на базе опенсоурс решений без использоывания OpenAI апишек.
Внизу прикрепляю один из эпизодов.
Канал c подкастом
Ютуб
Сайт автора
@ai_newz
2024-01-23 19:31:51
Я тут наткнулся на профиль одного паренька. Честно сказать, я в
Он взломал жизнь?
@ai_newz
2024-01-22 10:29:45
А вот теперь, мы начнем играть в VR по-взрослому! Disney представила свою новую крышесносную разработку HoloTile Floor. Это имено то, что я себе представлял в детстве, когда мы с парнями мечтали о будущих играх виратуальной реальности.
Да, я четко помню, что в году 2005 у нас уже были обсуждения и фантазии насчет "виртуальной реалтности", которая вот-вот появится на новых компах, и мы будем играть лесными эльфами, охраной дворца и злодеем. Можно будет грабить корованы...
А с таким полом, кажется, можно действительно испытать полное погружение в виртуальную реальность. HoloTile Floor первым делом будут устанавливать в парках развлечения Disney, но в какой-то момент они могут дойти и до домашних пользователей. Кроме обычных игр, фитнес приложения смогут выйти на совсем иной уровень.
Omni-directional беговые дорожки существовали и ранее (например virtuix), но они как правило выглядели громоздко и на игрока нужно было вешать кучу дополнительных приблуд. Кроме того, в HoloTile Floor, можно еще и перемещать предметы, и двигаться, сидя на предметах.
В общем, what a time to be alive! И ждем новых серий черного зеркала.
@ai_newz
2024-01-20 17:00:25
Stable LM 2 1.6B от Stability AI
Кажется, Stability AI решили немного улучшить состояние дел в маленьких LLM. Вот выпустили Stable LM 2 со скромными 1.6B. По бенчмаркам она показывает себя более чем достойно и является самой сильной моделью в весовой категории до 2 млрд параметров.
Тренили ее две эпохи на двух триллионах токенов. Датасет использовали мультиязычный - Английский, Испансикй, Немецкий, Итальянский, Французский, Португальский и Голландский. Русского, увы нет.
В целом, мне нравится тренд на создание уменьшенных моделей, не сильно теряя в качестве генерации. Проще и шустрее будет такие модельки запускать у себя на лаптопе либо на мобильниках.
Демка на HF
Базовая модель
Instruction-tuned версия
@ai_newz
2024-01-19 11:18:47
LLaMa 3 уже тренируется
Марк анонсировал сегодня у себя в IG, что уже тренирутся LLaMa 3, и на подходе другие клёвые AI модели.
Чтобы все это добро эффективно тренировать, по ходу строится огромный кластер, в котором будет 350,000 H100 до конца года. Общий размер компьюта будет примерно равен 600,000 H100, если перевести всё в H100 эквивалент.
@ai_newz
2024-01-18 11:18:28
Вот так.
Credits: D. Vorotyntsev
@ai_newz
2024-01-18 10:57:29
Всем бы в 60 быть в такой форме! Талантливый человек — талантлив во всем.
@ai_newz
2024-01-17 19:17:18
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
Кайфовая работа вышла. Позволяет генерить людей в разных стилях и амплуа по заданным фотографиям. Вон смотрите как кайфово ЛеКуна нагенерили.
Но, в отличие от DreamBoth и всяких LORA, в этой работе избавились от надобности файнтюнить модель под каждую новую личность.
Во время тренировки мы выдираем из входных фоток эмбеддинги, кодирующую личность, и учим диффузионную модель использовать их в качестве кондишенинга для генерации желаемых личностей.
А во время инференса, мы можем подать набор фотографий нового юзера и сгенерить для него аватарки без дополнительных тренировок. Это быстро и более эффективно, чем файнтюн под каждого юзера.
Идея простая и изящная, строящаяся на том, что давно существуют сетки, способные выдирать фичи, кодирующие внешность человека. Например, для ре-идентификации.
Сайт проекта
Код
Можно попробовать демки на HF:
1. Демо в реализмем
2. Демо со стилизацией
@ai_newz
2024-01-13 09:02:22
О важности отдыха "с отключением"
Порой мне сложно разгрузить голову и оставить работу в офисе после того, как я пришел вечером домой. Постоянно крутятся мысли, идеи и хочется доделать задачу либо запустить эксперименты на ночь, чтобы ГПУшки не простаивали. Кроме того, тесная работа с коллегами из Калифорнии тоже поддаёт угля в огонь.
Работать в таком режиме продолжительное время, конечно, утомительно, хоть я и очень люблю то, чем занимаюсь. Поэтому заставляю себя на выходных и во время отпуска отключаться полностью, не проверять рабочую переписку и не читать научные статьи. Ну, либо читать, но только ради удовольствия — каюсь, не могу от них полностью отказаться
Вот и сейчас у меня было 2 недели без рабочих вопросов, даже не писал в канал и почти не читал другие каналы, чтобы мозг отдохнул от беспрерывного потока информации.
По себе замечаю, что эффективность такого отдыха гораздо выше, чем когда в отпуске даже по часу в день занимаешься чем-то, связаным с работой. После отдыха "с отключением", приступая к работе, всегда чувствую много энергии и искрюсь новыми идеями. Также это хорошая пилюля против выгорания.
Так что, теперь я опять с вами!
Расскажите в комментариях, как вы отдыхаете от интенсивного умственного труда?
@ai_newz
2023-12-31 19:44:53
Поздравляю всех с Новым Годом!
Это был продуктивный 2023 год, а в 2024 году желаю вам всем хороших градиентов, быстрой сходимости и достижения абсолютно всех поставленных целей!
@ai_newz
2023-12-28 16:38:01
Видос украден отсюда.
@ai_newz
2023-12-28 14:25:30
Самая мощная LLM в опесорсе, Mixtral 8x7B MoE от Mistral AI, теперь доступна во фреймворке Сandle* - с поддержкой квантизации. За счет квантизации модели могут работать локально на ноутбуке с 32 GB RAM.
Например, 4-битная Mixtral 8x7B MoE занимает всего 26.44GB памяти. Тогда как в bf16 на GPU модель бы заняла 112+ GB VRAM (то есть влезла бы только на H100).
*Candle - это минималистский ML-фреймворк для Rust, сфокусированный на производительности (включая поддержку GPU) и простоте использования.
- Поддерживает 2-bit, 3-bit, 4-bit, 5-bit, 6-bit and 8-bit int квантизованные модели в gguf and ggml форматах.
- SIMD оптимизации для Apple Silicon и x86.
Вот тут можете попробовать демки разных моделей на Candle:
- Whisper, [пост в канале]
- LLaMa-2, [пост в канале]
- T5,
- YOLOv8,
- Segment Anything [пост в канале]
@ai_newz
2023-12-25 15:34:53
Принес вам 14 книг по Machine Learning для прочтения в 2024 году
Вкатывающимся в ML вархиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. The Little Book of Deep Learning (Fleuret, 2023). [тык]
4. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
5. Probabilistic Machine Learning (Murphy, 2012-2023)
6. Linear Algebra and Learning from Data (Strang, 2019)
7. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
9. Designing Machine Learning Systems (Huyen, 2022)
10. Fundamentals of Data Engineering (Reis & Housley, 2022)
🤗 LLM-ки
11. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
12. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)
13. Generative Deep Learning, 2nd Edition (Foster, 2023)
14. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)
Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.
Список подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил. #книги #books
@ai_newz
2023-12-24 14:15:28
Галя, отмена! В 2024 AGI ещё не будет.
@ai_newz
2023-12-24 12:51:40
Ура! Нас 40 тысяч!
Приятно видеть столько умных и заинтересованных в эйай людей вместе. Я, правда, не думал, что на русском языке можно набрать такую большую аудиторию, ведь контент в канале зачастую не самый легкий.
Поделюсь с вами, про мои самые любимые плюшки, которые я как автор обрел благодаря каналу.
1. Теперь, я получаю удовольствие вдвойне при прочтении новой статьи. Во-первых от получения новых знаний, а во-вторых мне радостно делиться информацией с вами и объяснять сложные вещи.
2. Огромное количество новых знакомств, которые принесло ведение канала. Мой нетворк значительно вырос и распространился по всему миру. Иногда поступают очень интересные предложения о коллаборациях и партнерствах либо просто встретиться на кофе в новом городе.
3. Во время нескольких последних поездок на конференции (CVPR, ICCV в этом году) у меня прям здорово получалось наводить движ благодаря комьюнити, которое образовалось вокруг канала. Было приятно знакомиться и общаться с вами! И я, кажется, понял, что мне очень нравится организовывать такие тусы.
В августе я проводил большой опрос читателей. Cкоро поделюсь его результатами и тем, как на базе этого я планирую развивать контент.
Надеюсь, что наше комьюнити будет и дальше активно развиваться! Merry Christmas!
@ai_newz
2023-12-22 10:29:11
Решил разобрать детальнее статейку парней из Tinkoff Research — ReBRAC: Revisiting the Minimalist Approach to Offline Reinforcement Learning, которая была опубликована на NeurIPS в этом году.
Речь пойдет об Offline Reinforcement Learning. Это когда у агента нет доступа к энвайроменту, и он должен тренироваться на предписанном датасете. Это как если бы вы учились играть в Доту, только смотря реплеи и VOD-ы других игроков, но сами бы никогда не пробовали играть. Вот это и есть Offline RL.
Один из популярных методов для Offline RL — это Behavior-Regularized Actor-Critic (BRAC). Если в двух словах, то актор - это сеть, которая принимает решения о действиях агента в разных ситуациях. А критик оценивает действия, выполненные актером, и дает обратную связь о том, насколько хороши или плохи были эти действия. Важным дополнением здесь является, что актор в BRAC, в отличии от online-RL, старается выбирать действия близкие к датасету — это еще называют консервативностью.
Суть статьи в том, что авторы взяли этот минималистичный бейзлайн, Actor-Critic алгоритм, и накачали его стероидами в виде разных трюков, да так что он превратился из слабенького бейзлайна в очень сильный подход, который выдает результат на уровне гораздо более сложных специализированных подходов.
А теперь более детально. Дело в том что, часто в статьях ученые используют всевозможные мелкие трюки, на которых не акцентируют внимание, но которые по сути очень много добавляют к перформансу на практике. Авторы ReBRAC взяли основные трюки и провели детальный анализ влияния каждого из них, и затюнили их для алгоритма Actor-Critic:
- Большая глубина сети: почему-то в литературе до этого в основном использовали MLP c 2-мя скрытыми слоями. Очень странно, ведь это крошечная сетка.
- LayerNorm — полезно вставлять между слоями. Помогает критику преодолеть оверконсервативность.
- Батчи по-больше — всегда хорошо для повышения стабильности тренировки.
- Разная константа в MSE-регуляризации актера и критика.
- Увеличенный дискаунт-фактор для реворда — помогает когда реворд-сигнал довольно жидкий.
После этого оказалось, что даже такой простой алгоритм достиг уровня SOTA, и теперь его можно использовать как очень сильную отправную точку для всех дальнейших исследований в Offline RL.
Мораль такова, что маленькие детали имеют большое значение! Побольше бы таких статей с трюками в других областях, жаль что такое редко публикуется — все держат свои трюки при себе.
@ai_newz
2023-12-19 22:39:50
🤯Локальные LLM-ки на подъеме — некий Кулибин запуcтил Карпатовскую llama2.c на Galaxy Watch 4!
Моделька не самая жирная, но это пока. Через год-два 1B параметров будет на часах бегать. Персональный ассистент у вас на руке!
Скорость:
Модель с 15M параметров: 22 токенов/сек*
Модель с 43M параметров: 8 токенов/сек
Вот вам еще небольшая подборка моих постов, про локальнные LLM:
- LLaMa с text-retrieval плагином: тык-1, тык-2
- LLama-7B на на макбуке: тык
- LLaMa-30B на макбуке (4-bit + mmap): тык
- llama2.c или Карпатый запускает LLaMa-2-7B на рисоварке: тык
- Falcon 180B дома на маке M2 Ultra: тык
*один токен - это чуть меньше одного слова.
@ai_newz
2023-12-19 16:03:04
Вы только посмотрите на этого обаятельного 30-летнего молодого человека. Это Джеф Безос, основатель Амазона, показывает первый офис компании в 1994 году. Амазончику тогда было всего несколько месяцев от основания, и только через 3 года он сделает IPO.
Съемку ведет отец Безоса, все действия проходят в гараже. Любопытно, что видео как бы нарочно записывалось, уже зная про безусловный будущий успех компании 📈, чтобы похвастаться через 30 лет, мол, посмотрите с чего я начинал — кабели кругом и бардак на столе.
Все равно видео атмосферное и вдохновляющее, да и Безос там ещё совсем скромный.
@ai_newz
2023-12-16 13:21:39
Слежу за прогрессом в работах по теме виртуальной примерки. В канале уже целая серия постов об этом — от ганов до диффузии (гляньте для наглядного сравнения). Ещё я даже сам пробовал демо с виртуальным зеркалом на ICCV 2023.
Если раньше проблема виртуальной примерки казалось почти нерешаемой в адекватном качестве, то сейчас я замечаю, что каждые полгода результаты становятся всё лучше и лучше. Вот на днях Alibaba опубликовали новый метод на основе диффузии.
Загружаешь фото и примеры шмоток, а на выходе получаешь не просто фото в одежде, а целую анимацию!
Демо на HF
Сайт проекта
@ai_newz
2023-12-16 11:06:01
Сейчас часто слышу мнение, что конкуренция в AI очень высокая, и опубликоваться на лучших конференциях почти нереально. В качестве мотивации для начинающих ресерчеров скажу, что сейчас не труднее чем 5 лет назад, просто нужно уметь креативно подходить к ресерчу, если нет кластера из 1000 GPU.
Вот хороший пример того, как молодые ребята могут и пишут статьи на топовые конфы. Парни написали 4 статьи [1, 2, 3, 4] на NeurIPS в этом году, и получили Yandex ML Prize. Один как научный руководитель, в второй как PhD студент с первой топовой публикацией. Заходить в PhD со статьи на Нипсе — это нагло! Я, кстати, тоже начал свою научную карьеру именно со статьи на Нипсе.
@ai_newz
2023-12-15 20:28:19
Там сейчас идёт NeurIPS 2023 в новом Орлеане — топовое событие в мире AI. Год назад я писал о своей поездке на NeurIPS 2022, где я презентовал статью. Забавно, что в этом году конфа опять в Новом Орлеане (видать, очень удачный город для проведения таких тусовок), но у меня не получилось поехать из-за визы.
Кстати, это фото сделано на NIPS 2002 (не мной), когда конфа была маленькой и ламповой, а не как сейчас на более чем 10к человек.
Узнаете кого-нибудь на фото?
@ai_newz
2023-12-15 17:32:28
Сегодня Яндекс подвел итоги своей премии за вклад в науку в области машинного обучения — Yandex ML Prize. Я просмотрел список лауреатов, их в этом году было 11, и многие из них получили премию за генеративные сети, вокруг которых был особый ажиотаж в этом году, а также за исследования в области распознавания и синтеза речи, компьютерного зрения, информационного поиска, обработки естественного языка.
Это классная инициатива — студентов и учёных-новичков мотивируют заниматься наукой и еще дополнительно поощряют за публикации статей и выступления на топовых международных конференциях. Размер премий — от 500k до 1kk рублей плюс грант на использование платформы Yandex Cloud, которые можно пустить на эксперименты и большие вычисления.
@ai_newz
2023-12-15 03:58:05
Короче, мы выкатили диффузию в инстаграм для редактирования изображений, а именно - генерацию фона по тексту. Эта модель была анонсирована еще на Connect, но только сейчас ее выкатили в прод в США.
Загружаешь фото, вводишь любой пропмт, например, "преследуемый динозаврами" или "я в Париже", и получаешь несколько новых версий своей фотки.
Моделька основана на нашей text2image диффузии Emu и технологии по типу SAM, которая позволяет автоматически находить нужную маску.
Тут я говорю "мы выкатили", потому что мы с нашей командой крутили и искоряли эту модель, чтобы она работала за пару секунд.
Диффузия Go Brrrrr! - это лозунг нашей команды.
Приятно, когда результатами твоей работы могут пользоваться миллионы людей. Даже работая в ресерче в фаанге, не всегда есть такая возможность. Мне в этом смысле повезло, т.к. наша GenAI орга, кроме написания статей, ещё и катит ресерч в продукты и имеет реальный импакт.
#personal #мойпуть
@ai_newz
2023-12-13 21:33:05
⚡️У Гугла вышла новая text-2-image модель Imagen 2.
Есть блогпост да и только. Конечно, улучшение по сравнению с Imagen 1 налицо, но пока трудно сказать, в чем тут новшество. Статьи нет.
Обещают сильно улучшенный реализм и text faithfulness, то есть модель более чутко реагирует на текстовый запрос.
Обратите внимание, что на руке сгенерило 5 пальцев!
Доступна модель пока только через Imagen API in Google Cloud Vertex AI. Напишите, если кто разберется как пользоваться.
@ai_newz
2023-12-13 00:16:56
Цук запости в инсте, что уже начал тестировать мультимодальную AI в очках Meta Ray Ban. Сеточка умеет распознавать то, что видит и отвечать на голосовые команды. Ждем, когда эта фича будет официально в проде!
Это реально круто же, если оно в риалтайме будет помогать жить вашу жизнь. А когда модель начнет локально бегать на телефоне - вот это будет пушка.
@ai_newz
2023-12-11 19:40:17
Мой кент Yann LeCun зашерил пост про нашу недавнюю статью к себе на страницу.
Мелочь, а приятно.
#personal
@ai_newz
2023-12-09 23:02:22
БОЛЬШИЕ НОВОСТИ - Согласован Европейский The AI Act!
TL;DR: На большие AI модели наложено очень много ограничений. Кончилась лафа для компаний, строящих LLM в EU.
Основные последствия The AI Act:
▪️системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
▪️ненаправленное скрейпинг изображений лиц из интернета или с камер видеонаблюдения для создания баз данных распознавания лиц;
▪️распознавание эмоций на рабочем месте и в образовательных учреждениях;
▪️социальное скоринг на основе социального поведения или личных характеристик;
▪️ AI, которые манипулируют человеческим поведением, чтобы обойти их свободную волю;
▪️AI, используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).
Усиленные требования к прозрачности могут вызвать проблемы с защитой интеллектуальной собственности, требуя баланса между раскрытием информации и сохранением коммерческой тайны.
Все это потенциально увеличит операционные затраты и наложет значительную административную нагрузку, что потенциально может повлиять на время выхода на рынок новых AI продуктов в Европе.
А скоро, думаю, и другие страны подтянутся со своими законами. В долгосрок выиграют те, кто не так сильно закинет удавку на разработчиков AI. Как же сейчас британские компании радуются, что они не в EU.
@ai_newz
2023-12-09 01:04:19
Не хотел писать про Gemini, который на днях анонсировали как мультимодальную модель уровня GPT-4, пока сам не пощупаю. Но Google обделался в пиаре своего Gemini, что тут грех не написать.
Демо-видео Gemini оказалось смонтированным, а не отражающим реальные возможности модели в реал-тайм. Видео нарезали, ускорили и смонтировали, выбросив то, какие именно промпты и какие кадры подавались модели, чтобы получить красивые ответы для демки.
Google признал монтаж, но утверждает, что целью было вдохновить разработчиков. ПРОСТО ГЕНИИ
Кстати, у Гугла был похожий PR-провал во время анонса Bard
@ai_newz
2023-12-08 17:30:16
Хочу еще заметить, что всякие Latent Consistency Models (LCM) и SDXL-Turbo, работающие за ≤ 4 шага - это ортогональные к кешингу работы. При таком сильном снижении числа шагов, как правило значительно страдает чувствительность к промпту (так называемый text faithfulness). То есть ты просишь сгенерить "кота в сапогах и собаку", а модель теряет собаку.
На видео видно как лажает SDXL-Turbo на промптах с несколькими объектами. Да и сама картинка сильно хуже выглядит чем при 20 шагах, например.
@ai_newz
2023-12-08 17:07:33
Вы уже заметили, что есть две конкурентные статьи со схожей идеей: Наша Cache Me if You Can и работа DeepCache, которая появилась на архиве пару дней назад.
Основная разница в том, что в DeepCache алгоритм кеширования примитивный, мы же предлагаем более общий и адаптивный подход:
@ai_newz
2023-12-08 00:57:06
⚡А вот и наша статья подоспела - Cache Me if You Can: Accelerating Diffusion Models through Block Caching
Как я уже упоминал, наша команда в Meta GenAI занимается ускорением диффузии. В этой статье мы ускоряем генерацию изображений до x1.8 раза без потери качества с помощью умного кеширования во время инференса.
Как?
Для генерации одной картинки обычно требуется сделать много прогонов через модель Unet, например 50 DDIM шагов. Мы тут подметили, что активации Spatial-Attention блоков довольно гладко меняются от шага к шагу, и паттерн их изменения не зависит от промпта. Естественно, мы подумали, почему бы не кешировать фичи тех блоков, которые меняются наиболее медленно и пересчитывать их только раз в несколько шагов. Понт в том, что львиная доля всех вычислений происходит именно в attention блоках, поэтому пропуская их вычисления хотя бы на некоторых шагах, мы сильно ускоряем генерацию.
Все блоки разные, и их активации меняются с разной скоростью. Поэтому мы построили графики изменений активаций для каждого блока (усреднили по 64 запросам) и использовали их чтобы автоматически найти когда и какие блоки можно кешировать, и как долго должен жить кеш для каждого из блоков.
Чтобы убрать мелкие артифакты после кеширования, мы дополнительно обучаем time-dependent scale и shift параметры для каждого выходнрго канала кешируемых блоков. Это помогает сгладить разницу распределений между "честно посчитанными" фичами и закеширвоанными.
В итоге, получили x1.5-1.8 ускорение, причем FID скор даже улучшился после применения кеширования. А результаты Human Eval показали, что при фиксированном времени генерации модель с кешированием выдает более качественные картинки чем бейзлайн.
На каких архитектурах тестировали:
- LDM 512x512 (та же архитектура как у SD 1.5, но натренированная нами внутри GenAI)
- Наша Emu 768x768 с 2.7B параметров.
То есть метод гибок и может подстраиваться под модели разных размеров, причем расписание кеширования разных блоков строится автоматически. Взлетит и на SDXL тоже.
Статья на Arxiv
@ai_newz
2023-12-05 21:52:42
А вот так выглядит схема того, какие блоки кешируются, а какие пересчитываются во время DeepCache.
Песесчитываются только крайние ко входу и к выходу блоки энкодера (D) и декодера (U).
@ai_newz
2023-12-05 21:50:22
⚡DeepCache: Accelerating Diffusion Models for Free
Во время инференса диффузионной модели мы делаем десятки шагов солвера, чтобы сгенерить одну картинку. Понятно, что это не очень эффективно. Отсюда растут ноги у многих работ по ускорению диффузии и уменьшению количества шагов на инференсе. Хочется как-то уменьшить количество компьюта требуемых для генерации одной картинки.
Тут как раз вышла работа про кеширование промежуточных активаций в Latent Diffusion. Хай-левел суть в том, что можно закешировать часть выходов блоков с предыдущих шагов и переиспользовать их на следующих шагах солвера. Активации более шлубоких блоков, те что работают на более низком разрешении, сильно коррелированы между двумя последовательными шагами. А вот активации первых и последних блоков как правило меняются довольно сильно от шагу. Вот авторы и предложили не пересчитывать активации глубоких блоков, а кешировать их.
Это позволяет ускорить инференс SD v1.5 до 2-3 раз без существенной потери качества.
На гифке результаты SD v1.5. Слева: 50 PLMS шагов.
Справа: 2.3x ускорение 50 PLMS шагов с кешем.
Статья
Код
@ai_newz
2023-12-02 13:11:36
Солверы для диффузии почти не параллелятся, поэтому так трудно ускорить семплинг той же Stable Diffusion, даже если есть много видеокарт. Выигрыша от восьми видеокарт против одной не будет, разве что батч побольше сможете взять.
Но есть хитрые методы для решения ODE, вроде итеративного метода Пикарда, который позволяет распараллелить семплинг, ценой больших вычислений. То есть вместо условных 100 шагов DDIM придется сделать 229, но с возможностью делать часть из них параллельно. Однако даже в этом случае скейлинг получается очень сублинейный. С 4-x видеокарт ускорение будет максимум в 2 раза по сравнению с одной, а 8 видеокарт ускорят семлинг SD только примерно в 3 раза (см. график).
Сейчас активно ресерчим эту тему по параллелизации и ускорению диффузии.
@ai_newz
2023-11-29 01:08:57
Мои кореша из Stability AI зарелизили новый метод дистилляции для SDXL.
Показывают, что из дистиллированной SD-XL (ADD-XL) теперь можно семплить за 4 шага без существенной потери в качестве.
Судя по метрикам - это новая сота. Может работать и за один шаг семплера, но тогда генерирует меньше деталей и картинка выходит чуть более замыленная.
Это гибрид GAN-а и диффузии.
Тренировка основана на классическом методе дистилляции, но с дискриминатором! Когда число шагов снижается до одного, дискриминатор сильно добрасывает, ведь он не позволяет генерить полную кашу (это было уже показано в нескольких статьях в этом году).
1. Студент и учитель инициализируется весами SD-XL. Далее между предиктами студента и учителя накладывается L2 лосс. Любопытно, что учитель делает только 1 шаг, но начинает с зашумленного предикта студента, а не из случайного шума.
2. В качестве дискриминатора берутся фичи из ViT-S, натренированного в self-supervised режиме с помощью DINOv2. Затем эти фичи подают в тренируемую голову, которая выдает "Real" или "Fake". Тут важно именно брать сильный претренированный энкодер фичей, типа DINOv2.
Картиночки выглядят хорошо, но ниже 4х шагов - уже не то пальто.
Тренировочный код не выложили, и, кажется, его ждать не стоит.
Статья
Код и веса
Демо на ClipDrop (1 шаг)
@ai_newz
2023-11-26 17:22:01
Шестипалого человека на камерах наблюдения могут часто принимать за Дипфейк, сгенерированный диффузионкой. Вот вам съемный шестой палец. Надел его и стал галлюцинацией для камер 😂
Представьте теперь, на суде сторона обвинения показывает видео с места преступления. Адвокат в этом случае легко может сказать, что это фальшыука и быть таков.
По крайней мере криминальный мир идёт в ногу со временем.
@ai_newz
2023-11-26 16:27:53
Я интересуюсь стартапами, особенно в сфере AI, и люблю читать блоги людей, которые знают, как эти стратапы строить. Поэтому, в рамках дружеского пиара, хочу порекомендовать вам канал Кирилла Куликова @kyrillic. Он пишет на темы связанные с предпринимательством, особенно о том, как делать международные стартапы русскоязычным фаундерам.
Кирилл - стартапер и кофаундер Beau, который занимается автоматизацией бизнес-процессов. Его стартап прошел через Y Combinator, который по сути является самым маститым акселератором в Долине, через который прошли такие проекты как Airbnb, Coinbase, Dropbox, GitLab, Reddit. Вот тут статья про их драматическое прохождение в летний батч YC 2021.
Кирилл активно делится своими мыслями на разные темы:
‣ Что там интересного у стартапов. Например, на канале периодически выходят глубокие разборы демо-дней Y Combinator. Что сейчас питчат топовым инвесторам, кто забирает инвестиции, какие бизнес-модели и концепции сейчас в тренде, а какие уже не особо.
‣ Кирилл периодически подкидывает идеи для стартапов, например, тут и тут про идеи на базе LLM/GPT и тут про идеи AI-стартапов в целом.
‣ Мета-навыки цифровых кочевников: как выбрать город, что с собой взять, как получить стартап-визу, как настроить быт и так далее. Кирилл объездил полмира и более 12 лет живет в разных городах и странах, работая удаленно.
Мне особенно понравились посты про закрытые сообщества, славянский хмур (особенности софт скиллов у выходцев из эксСССР) и инсайты про ведение тг-канала.
Короче, подписывайтесь. Такого годного контента на тему стартапов в телеге мало: @kyrillic.
@ai_newz
2023-11-25 00:04:00
🔥Intel зарелизил самую мощную 7B LLM
Модели на сотни миллиардов параметров - это, конечно, хорошо. Но прикольно и на ноутбуке погонять небольшие модели.
Intel в последнее время сдал позиции, и многие их считают андердогом. Так вот теперь Intel включился в большую игру! Они затюнили Mistral 7B (писал о ней тут) и получили СОТУ среди моделей на 7 млрд параметров. И выложили все это добро под лицензией Apache 2.
Для дообучения использовали:
- Supervised Finetuning на SlimOrca, эо примерно 500k ответов, сгенеренных GPT-4;
- DPO (Direct Preference Optimization) тюн на датасете пар, сгенерированных LLaMA-13B vs ChatGPT Gens. Обучали модель препочитать ответы ChatGPT ответам Лламы.
Модель
Код
SlimOrca Dataset
DPO Dataset
@ai_newz
2023-11-23 17:25:37
Там Карпатый опять отжигает. Он выпустил часовую лекцию «Интро в большие языковые модели».
Образовательный контент от Карпатого всегда топовый. Нужно смотреть! #ликбез
Часть 1: LLMs
00:00:00 Intro: Large Language Model (LLM) talk
00:00:20 LLM Inference
00:04:17 LLM Training
00:08:58 LLM dreams
00:11:22 How do they work?
00:14:14 Finetuning into an Assistant
00:17:52 Summary so far
00:21:05 Appendix: Comparisons, Labeling docs, RLHF, Synthetic data, Leaderboard
Часть 2: Future of LLMs
00:25:43 LLM Scaling Laws
00:27:43 Tool Use (Browser, Calculator, Interpreter, DALL-E)
00:33:32 Multimodality (Vision, Audio)
00:35:00 Thinking, System 1/2
00:38:02 Self-improvement, LLM AlphaGo
00:40:45 LLM Customization, GPTs store
00:42:15 LLM OS
Часть 3: LLM Security
00:45:43 LLM Security Intro
00:46:14 Jailbreaks
00:51:30 Prompt Injection
00:56:23 Data poisoning
00:58:37 LLM Security conclusions
Слайды
@ai_newz
2023-11-22 13:12:18
Что бы вы думали? Сэма вернули.
Но все ещё не известна конкретная причина всей этой заварушки. Есть только щепотка новой информации из New York Times о том, что посрались из-за какой-то статьи (что опять же выглядит притянуты за уши).
Так же все ещё много неопределенности о дальнейшей судьбе OpenAI и траектории развития. Такими темпами, через пару дней Сэма опять могут снять.
@ai_newz