Нейролента Mikitos.ru 2736 постов. Страница 6 (50 постов)
Сиолошная 2024-04-09 09:24:49
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws
Работа сотрудников META про масштабирование моделей с точки зрения хранимых в них знаний. Первый автор пишет, что а) запустил 50'000 экспериментов б) месяц ждал одобрения компании на выделение ресурсов, потому что в) потребовалось 4,200,000 GPU-часов на всё про всё (~500 лет вычислений). Возможно, это работа — часть подготовки к публикации LLAMA 3 👀
В работе аж 12 выводов, по всем проходиться не буду, сначала дам вводную, а затем тезисы. Авторы фокусируются на запоминании данных из синтетической тренировочной выборки. Однако тут имеется в виду не запоминание слово-в-слово, а возможность извлечь знания модели в текстовом формате. «Знанием» тут называется триплет (Сущность, атрибут, значение). «Вася родился 12 декабря» -> (Вася, День рождения, 12 декабря), и такое можно пробовать извлекать вопросом «Когда у Васи День рождения?». Легко представить, как генерировать большое количество синтетики по шаблонам.
Выводы:
— авторам удаётся стабильно достигать вместимости модели 2 бита информации на параметр;
— это означает, что в 7B-модели могут уместиться все знания из английской Википедии и все книги на английском;
— причём, качество не меняется при квантизации модели до 8bit, однако при переходе к 4bit заметна просадка
— для того, чтобы добиться результата 2 бита на параметр, необходимо представить одну и ту же информацию модели 1000 раз (в том числе с разными формулировками и парафразами)
— если показывать информацию всего лишь 100 раз, то сжатие будет хуже в 2 раза: 1 бит на параметр
— если начать добавлять мусор в тренировочную выборку, то это портит модель: при соотношении 1:7 (мусора больше) модель запоминает в 20 раз меньше полезных знаний, если делать 100 показов. И проседает на 30%, если показывать 1000 раз.
— поэтому появляется вопрос - а может ли модель сама отфильтровать мусор? Для этого авторы экспериментируют с добавлением домена, откуда «взят» текст (пишут в начале wikipedia.org или 2ch.ru). Оказывается, что модели могут автоматически определять, какие домен богаты высококачественными знаниями, и определять приоритетность обучения на их основе. При этом модель не требует каких-либо предварительных знаний, она учится с нуля, этот процесс полностью автономен (за вычетом добавления источника данных в текст)
— это не позволяет восстановить полный перформанс, но существенно уменьшает деградацию из-за мусора
— теперь возникает вопрос, а где же хранятся знания? Считается, что большая часть информации зашита в FFN-слои трансформера, но даже если их удалить и оставить только аттеншен (уравняв количество параметров), то закон сохраняется
— но если вернуться к исходной архитектуре, то - особенно в моделях вблизи границы емкости (которые видели данные 1000 раз) - удаление последнего слоя после обучения показывает существенное ухудшение знаний. Просадка куда больше, чем 1/L (где L-количество слоёв. То есть мы думали, что удаление подрежет знания пропорционально, но нет). Значит, знания хранятся не в отдельных слоях, а более комплексно, подобно сейфу с кодовым замком, как комбинация. Тут я вспоминаю про суперпозицию.
В общем, ждём статью про LLAMA 3, посмотрим, как это использовалось там, насколько уменьшило галлюцинации и как изменило процесс тренировки. Ведь а) данные нужно жёстко фильтровать (это уже делалось) б) приоритизировать в) повторять много раз в разных формах (контролируемо, а не так, что одни факты попались 100 раз, а другие 10000).
Neural Shit 2024-04-09 09:00:56
Очевидно, что это обман, чтобы набрать классы и моделька эта работать нормально не будет.
А вот жопы в твитторе спалило так сильно, что огонь до самого неба.
Причаститься к срачу и поучаствовать можно тут.
Сиолошная 2024-04-08 23:15:30
По словам сотрудника Meta, компания планирует выпустить две младшие версии своей модели LLAMA 3 на следующей неделе. Они будут служить в качестве превью запуска самой большой версии Llama 3 (ожидается этим летом).
Согласно источникам The Information, старшая версия будет мультимодальной (тоже понимает картинки — для младших моделей этого не заявлено) и должна догнать по качеству GPT-4. Также утверждается, что она будет в 2 раза больше самой крупной LLAMA 2 — то есть иметь 140B параметров.
В компании Mistral
Почему это важно? Модель LLAMA 2 долгое время была основным инструментом опенсорса и служилой базой/основой для дообучения под свои задачи. Затем пальма первенства перешла моделям Mistral, компании, основанной выходцами из Meta, которые работали над LLAMA'ми. Вероятно, в Meta очень хотели сделать большой скачок, и потому ничего долго не выпускали — важно показать, что они впереди, а не делают ещё-одну-заурядную-модель. С выходом LLAMA 3 сообщество может переехать на новую тушку, открывающую свежие возможности.
Сиолошная 2024-04-08 23:01:37
Sama приехал в Лондон на какой-то AI Summit (в чьем-то инстаграм-аккаунте написано, что это мероприятие OpenAI, но мне не удалось найти) и показывает, чего дальше ждать от флагманских моделей компании.
✅ Мультимодальность (работа с видео-аудио, более тесная интеграция работы с картинками)
✅ Улучшение рассуждений и мыслительного процесса
✅ Персонализация (интересно, что накрутят поверх памяти в ChatGPT)
✅ Надёжность (вероятно, имеется в виду меньше галлюцинаций, рефлексия над ошибками и исправление)
✅ Агенты (
Интересная структура слайда — идут ли блоки последовательно? Или всё появится одномоментно в новой модели?
Записи презентации нет, и не известно, будет ли.
Сиолошная 2024-04-08 21:20:28
Сегодня в США наблюдается солнечное затмение. Уверен, вы увидите множество фотографий с Земли из разных штатов — тут мне вас удивить нечем.
Но зато SpaceX могут удивить видео с орбиты, записанное камерами на одном из спутников Starlink!
We live in a twilight world...
(Источник)
эйай ньюз 2024-04-08 20:57:26
JetMoE: так выглядит бюджетный претрейнинг в 2024
Модель - 8B MoE (2.2B - активные) на уровне прошлогодней LLaMA 2 7B. Из архитектурных особенностей - Mixture of Experts там не только MLP, но и Attention.
Авторы хвастаются, что потратили всего ~32k H100-часов (две недели трейна на 96×H100) с датасетом в 1.25 триллиона токенов. Тренили в две стадии: сначала триллион не самых качественных токенов, а за ним 250 миллиардов википедии, архива и т.д.. Потратили на все про все 80 тысяч долларов, это, считай, копейки по меркам современных LLM. Для сравнения, Лламу 2 тренировали ~180k A100 часов на 2 триллионах токенов.
Моделька не лучшая - в своей весовой категории по компьюту она уступает Qwen1.5-MoE-A2.7B (у которой в два раза больше параметров), но бьёт Gemma 2B и Stable LM 1.6B (не удивительно). Среди моделей с одинаковым количеством параметров она проигрывает Mistral-7B и Gemma 7B. Но зато она довольно дешёвая в тренировке и может быть хорошей отправной точкой для специализированных файнтюнов.
Вообще мне очень нравится тренд на удешевление тренировки, и на уменьшение моделей. За этим будущее, где LLM-ки или их потомки бегают на каждом электрочайнике.
Демка
Веса
Сайт модели
@ai_newz
gonzo-обзоры ML статей 2024-04-08 19:26:14
Выпущены обновлённые Gemma 1.1
Качество улучшено, баги убраны.
https://twitter.com/robdadashi/status/1777317210836312233?t=YYrTafwNqXJj3ioHNbu26Q&s=19
Трендоскоп 2024-04-08 15:53:53
Эпохальный сдвиг: от приложений к супераппам
Apple на днях ослабила ограничения в App Store, в связи с давлением регуляторов.
Теперь приложения официально могут не зашивать внутрь некоторый контент — в частности, мини-аппы и игры, чат-боты, плагины. Супераппы по типу WeChat могут дышать свободно, как и wannabe-платформы вроде Telegram и Discord.
Это ещё один вестник платформенного сдвига, в котором мы сейчас живем. Старые подходы к созданию и продвижению IT-продуктов уже не работают. Рынок насытился, в сторах высочайшая конкуренция, а платная реклама зарубает на корню экономику 99% проектов.
Зарождается новая взлётная полоса — Layer2-платформы, такие как Telegram, Discord, Roblox. Сейчас здесь самые сладкие условия для стартеров: масштабный переток пользователей в эти платформы, высокие виральные возможности, быстрая и дешёвая разработка.
В Китае такая модель победила изначально. Для многих китайцев, весь интернет — это WeChat, внутри которого уже есть все нужные сервисы от платежей до заказа еды. А сейчас мы наблюдаем этот сдвиг и в других странах.
И благодаря новым правилам Apple, Телеграм/Discord могут больше не шифроваться с Mini App’ами. Вполне вероятно, что это станет триггером и для других платформ: для Layer2-разработчиков могут открыться eX-Twitter, WhatsApp, Instagram.
Уже активно срываются «низковисящие фрукты» в B2C, что мы и видим на примерах Notcoin или The Pixels. Но для В2В это даже бОльшие возможности, если судить по траектории WeChat.
В эту среду (10 апреля) мы проведём онлайн-брейншторм на тему инструментов для Layer2-разработчиков. Если вы хотите поучаствовать и найти соратников — присоединяйтесь к нашему сообществу Трендоскоп Lab. Подать заявку можно в этой Гугл-форме. Велкам 🙂
@trendoscope
Метаверсище и ИИще 2024-04-08 15:53:05
Ну за концептеров. Это я готовлюсь к постам про Креа, Визком и будущие нормальные интерфейсы, а не вот это вот все комфиюаищще и автоматищ1щ1щ1щ1е.
У корейцев много такого добра, прочекайте тут:
https://www.youtube.com/shorts/EoCdwUaErt0
Метаверсище и ИИще 2024-04-08 15:42:49
В прошлом году писал про ситуацию с Аленой, у которой "украли голос".
Ее ролик набрал больше миллиона просмотров на разных платформах. Голос Алены уже убрали "из продаж голосов". В общем ситуация бомбанула и поставила много вопросов, на которые нет ответов.
Вот тут развитие истории
https://dtf.ru/u/952987-holly-forve/2084880-tinkoff-zametaet-sledy
Но похоже на эти вопросы будет один ответ: читайте контракты.
Вот свежий пример: барышня озвучивала голосовой помощник Кортану для Микрософта. На немецком. За 3000 долларов.
Озвучила.
А потом ей стали звонить знакомые и говорить, что слышат ее голос отнюдь не из Кортаны, а воще непонятно где.
Все просто - голос был продан как оцифрованное звучание голосовых связок.
Девушку покрал у Игоря.
Метаверсище и ИИще 2024-04-08 15:12:09
Забавное исследование отклика на музыку.
Взяли восемь коротких мелодий, состоящих всего из четырех аккордов каждая. И полтыщщи слушателей.
В каждой мелодии было разнообразное сочетание свежих и предсказуемых аккордов, а также определенных и странных последовательностей этих аккордов.
«Наше исследование показывает, что разные последовательности аккордов вызывают схожие телесные ощущения в определенных органах, особенно в голове, сердце и брюшной полости».
Предсказуемая мелодия - ощущения в животе (безопасность?)
Мелодия с неожиданными новыми сочетаниями аккордов - ощущения в сердце (новизна?)
Тревожная музыка - в голове (все проблемы в голове).
Загвоздка в том, что картирование участков тела проводилось со слов испытуемых, а не датчиками или сенсорами. И, возможно, это показывает стереотипы (языковые прежде всего) о том, где живут тревога или спокойствие.
В любом случае это жутко интересно. И возможно в пятой версии Suno мы увидим галочки "Музыка для сердца\живота\головы". ИИ подучится на таких исследованиях и ну генерить музыку для специфический ощущений.
https://neurosciencenews.com/music-body-sensation-25858/
Метаверсище и ИИще 2024-04-08 14:14:22
Тема ИИ-гадалок пошла в массы.
Наконец-то.
Я писал об этом ровно 6 лет назад, когда ИИ еще ворочался в утробе слабых видеокарт.
Но, прогресс, как обычно, свернул не туда, поэтому поглядите на скриншоты и почитайте этот ад на русском вот тут:
https://twitter.com/facelessboy00/status/1777160844607988063
и вот тут:
https://twitter.com/gambala_codes/status/1777219418772128205
Ну и конечно, эти гадалки в телеграмме попросят у вас денег и призваны налить трафика себе в подол.
Я в свое время думал над ИИ-кукушкой, которая по вашему лицу и телефону накукует, сколько вам еще осталось лет куковать.
А тут коллеги подкинули вот такую работу прошлого года:
Глубокое обучение для предсказания прогноза рака по портретным фотографиям с помощью StyleGAN.
https://arxiv.org/abs/2306.14596v2
Я немного содрогнулся, потому что, если гадальщики выше сделают такой сервис и народ начнет получать свои онкопрогнозы, то у некоторых могут включиться очень нехорошие программы внутри. И я надеюсь, что на уровень инсты и ботов в телеге это не выйдет.
Но думаю, что инфоцыганская физиогномика сейчас расцветет в полный рост. Пока в интернетике активно работают раздеваторы и одеваторы по фото. Дальше по селфи они будут обнажать вашу душу и делать приворот шиткойнов. А потом доберутся до предсказаний чего угодно. По личику.
Хотя три года назад мы уже это проходили.
Анализ черт личности людей по их фотографиям (гадалки в кучу).
https://hightech.fm/2020/05/22/ai-personal-character
Также держите анализ здоровья и facial blood flow по фотачкам.
https://t.me/cgevent/1862
Ну и вишенка на торте:
"Этот искусственный интеллект, финансируемый ЕС, оценивает, насколько неотвратительно ваше лицо - с точки зрения общества. Система также определяет ваш возраст, индекс массы тела(body shaming detected)), продолжительность жизни(!) и пол."
https://thenextweb.com/neural/2020/10/06/this-eu-funded-ai-rates-how-hideous-your-face-is-for-societys-sake/
Погадаем?
эйай ньюз 2024-04-08 12:52:33
Наверное кое-кто из вас уже слышал про ШАД (Школа Анализа Данных от Яндекса). Это одна из немногих программ на русском языке, которая дает очень серьезную базу по ML.
Я сам закончил ШАД в 2014 в Беларуси (там тоже есть филиал), когда про нейронные сети ещё мало кто слышал. И это дало мне начальный импульс строить свою карьеру в ML. Короче, советую.
Обучение в ШАДе бесплатное, однако конкурс высокий — в прошлом году он был 17 человек на место. Но ради карьерного буста можно и постараться: по опросу, 8 из 10 выпускников работают в топовых технологических компаниях, а каждый четвёртый идёт в науку (типа меня).
Учиться в ШАДе можно как очно, так и удаленно.
Кстати, сейчас там преподает Елена Войта, которая работает ресерчером в Meta AI и ведет курс по NLP.
Подать заявку можно до 12 мая. Сайт ШАДа.
@ai_newz
Сиолошная 2024-04-08 12:14:45
Чуть меньше, чем через 2 часа (в 17:00 МСК), встречаемся с Валерой @cryptovalerii у него на канале в видео-формате. Запись, как всегда, будет
Поговорим про модели мира, что это такое и какое они отношение имеют к языковым моделям. Часть материала будет из моей статьи https://t.me/seeallochnaya/1120 про Sora — если вы пропустили и у вас есть время, то это маст хэв к прочтению!
Вопросы по теме можно писать под этим постом, только без спама.
Метаверсище и ИИще 2024-04-08 09:52:10
Ну, за челленджи.
Есть такой ютюбер pwnisher, у него нехилый такой канал по 3Д и разным челленджам. Я немного залип на последнем.
Был дан образец - болванчик поднимается по винтовой лестнице, надо было сделать креативный 3Д-рендер, на основе этого.
Народ прислал аж 2800 работ. Поглядите лучшие по ссылке.
А я подумал, что такого рода механики рано или поздно будут девальвированы с помощью ИИ.
Уже сейчас можно взять начальный образец и прогнать его через video style transfer и получить примерно 100 000 вариантов, которые можно прислать на конкурс.
Далее, если глядеть в сторону SORA, то можно представить себе генератор промптов, который на основе заданного сеттинга генерит 100 000 промптов, описывающих креативы, которые даже в голову не придут трехмерщикам, их мышление, как правило, слегка (и предсказуемо) деформировано ограничениями производства 3Д контента (от времени рендера и каустик, но всяких сложностей, связанных с симуляциями). А ИИ вам нагенерит безбашенных роликов с каустиками и водичкой наперевес.
Я это к чему. Вон Клод стихи уже пишет как царь, с текстами и креативами все понятно, с креативом на картинках тоже становится понятно, что фантазия ИИ порождает такие шедевры, которые не придут в голову кожаным. Теперь он идет за видео и 3Д. Дайте ему время.
https://youtu.be/UNjMSFLkMZA
Метаверсище и ИИще 2024-04-08 07:02:14
Последние две недели чиллил во Вьетнаме.
И не просто так, а с ИИ-пользой на ИИ-саммите от AI Talent Hub. Полсотни молодых, талантливых, энергичных технооптимистов, верящих в силу ИИ.
Стартаперы, ML-щики, продуктовики, тимлиды ну очень больших компаний, аутсорсеры из Корпуса, магистранты ИТМО - этаких безумный нетворк-замес на берегу океана в Муйне.
Наконец-то познакомился с Ильей Макаровым (обсудили родной мехмат), встретился оффлайн с Димой Широносовым (обсудили EveryPixel), посадил на байк Диму Ботова, катнул на Ветратории на виндсерфинге, успел покататься на Будде на лонге пока волны были, нашел вьетнамский покерный катран и встретил нереальную массу знакомых из Дахаба.
Кстати, одним из неожиданных знакомств, оказалась встреча с ребятами из XOR. Я подписан на канал DataSecrets - мне нравится ортогональный моему стиль подачи, обезличенный, но с юмором, задачками и тонной полезного контента для тех, кто в теме. Я думал там жоские ботаники, но оказалось, что это прекрасная Влада(см. фото) и скромный Ваня. Мой шаблон был разорван. После чего я еще более неистово плюсую за их канал. У меня теперь приятные воспоминания, когда читаю их контент. Подписывайтесь, они классные: @data_secrets
Сиолошная 2024-04-07 20:51:58
И отдельно хочу показать визуализацию планируемой ловли ускорителя руками Мехазиллы (да, башню так называют).
Глядя на видео не забывайте, что серебристая цистерна из нержавейки имеет высоту 71 метр (24-этажное здание) и массу без топлива порядка 200 тонн. И нужно аккурааааатненько легоооонько вот так вот подлететь на ручки...плюхнувшись с высоты более 100 КМ.
Сиолошная 2024-04-07 20:49:04
Всего (целых?) 3 недели назад, 14-го марта, мы с вами наблюдали за третьим тестовым пуском SpaceX Starship, который выполнил почти все задачи миссии. На неделе появились новости касательно четвёртого пуска (а также ролик с анонсом)
Тезисно про будущее программы:
— четвёртый запуск должен состояться в мае, менее чем через 3 месяца после предыдущего
— если так пойдет и дальше, то план в 6 пусков на этот год может быть выполнен. Повеселимся и порадуемся!
— в следующей миссии будут поставлены целы: для бустера — затормозить и сесть на «виртуальную башню», для корабля — пережить вход в атмосферу и выйти на связь ближе к Земле.
— что за «виртуальная башня»? Согласно новой визуализации, ускоритель должен подлететь к реальной башне аккуратно сбоку, подвинуться и плюхнуться на специальные руки. Так как тестировать это на реальной башне — опасно для инфраструктуры, то SpaceX внесёт в код координаты виртуальной башни, к которой ракета и будет подкатывать. По телеметрии можно будет отследить, всё ли прошло штатно, сколько метров была погрешность, успели ли сбросить скорость итд.
— если тренировка пройдет успешно, то в пятом полёте скорее всего будет предпринята попытка сесть на реальную башню
— (как только это произойдет хотя бы два раза подряд, можно будет сказать, что произошла революция в космонавтике — потому что это существенно снизит затраты на любой пуск, даже если корабль будет сгорать в атмосфере каждый раз)
— в следующем году нас ждёт демонстрация орбитальной заправки с помощью перекачки топлива с одного корабля на другой
— для полёта на Марс потребуется 5-6 таких заправок. Интересно, сколько нужно для Луны? Скептики оценивали, что нужно 12 — пока выглядит, что ошиблись. Будем посмотреть!
— к концу 2025-го года будет 4 пусковых башни, 2 в Техасе и 2 на легендарном мысе Канаверал. Это позволит существенно ускорить программу.
— ну а в этом году хотят построить ещё 6 кораблей и 6 ускорителей. Впереди нас ждёт множество пусков, удачных и не очень!
Ещё были новости про Марс и Лунную колонию, но об этом как нибудь потом.
Сиолошная 2024-04-07 19:55:16
Интересная ситуация произошла в Твиттере (но на самом деле она часто проходит и в комментах тут, и в других ТГ-каналах).
5 апреля: VictorTaelin придумал задачку, которую GPT НИКОГДА (он прям выделил) не сможет решить. Почему? Потому что модель же тупая, она не умеет рассуждать и решать задачи, на которых не была натренирована. Узнали себя или критиков из комментариев? 🙂
Для него такая задача и невозможность её решения якобы служила примером того, что модель никогда не сможет двигать науку: «если 15-летний подросток уничтожает модель в какой-либо интеллектуальной задаче вроде этой, то я не буду особо верить в то, что она сможет вылечить рак». Само заявление конечно странное, но допустим (на самом деле он пытался найти такую задачу, которую человек решает, а машина нет — что опять же глупо, люди не умеют то, что может калькулятор — и что?).
Что за задача? Есть 4 символа, B# A# #A #B. Если две разные буквы в некотором наборе символов повёрнуты друг к другу решётками, то их надо поменять местами. B# #A -> #A B#, и так далее, пока никакие два символа нельзя обработать. Сможет ли генеративная LLMка разобраться и решить задачу для строки из, скажем, 7 символов? Автор попробовал несколько раз и у него не вышло. Всё, дело закрыто, AI - хайп, пузырь.
6 апреля: после волны недовольства в комментариях, а также демонстрации того, что иногда модель решает (особенно если немного поменять условие и/или добавить интерпретатор кода, чтобы модель, ну вы знаете, могла писать программы), автор решил сделать конкурс на $10'000. Полные правила можно найти текстом вот тут. Правда он усложнил задачу — теперь символов в такой строке 12 (то есть нужно сделать от 0 до 24 шагов для решения), подаётся 50 примеров, и нужно, чтобы модель решила как минимум 45/50. 12 символов потому, что ему уже показали, что строки длины 7 решаются (иногда).
Главное ограничение — модель не должна писать код, решение должно быть полностью текстовое. Само по себе это глупо, ведь мы отбираем у модели инструмент, которым а) она умеет пользоваться б) хорошо подходит для таких задач. Блин, языки программирования и были придуманы для алгоритмизации задач со строгими правилами! Ну ладно. Считайте, что задача — забить гвоздь, но кувалды и молотки запрещены.
7 апреля: модели решают <10% задач (5 из 50), однако у двух авторов получилось выбить 29/50. Интересно, что тут вырвались вперёд модели Anthropic семейства Claude 3.
8 апреля: конкурс окончен, промпт одного из участников стабильно решает более 90% задач (47 из 50 при первом запуске). Напомню, что задачи даже более сложные, чем в изначальном твите (они длиннее), а главный инструмент решения выключен. Автор признал, что был не прав. Он также указал, что действительно верил, что LLM, аналогичные GPT, просто не могут решить такие задачи.
Автор признал, что его изначальные верования были неправильными, он ошибся. Решение задачи, конечно, не доказывает, что модели смогут придумать лекарства от рака, но они точно могут решать логические-алгоритмические задачи, которые не видели раньше (в целом не новость, но не все верят ведь!).
Интересный факт: финальное решение работает на модели Claude 3 Opus, но ни одно из топ-решений не было на GPT-4. Может, Anthropic уже используют новую архитектуру, которая лишена некоторых недостатков своих предков? Или OpenAI сильно урезают косты и ужимают модели? Возможно, узнаем в будущем — так же как и промпт, которым была решена задача (он пока не был опубликован).
эйай ньюз 2024-04-07 18:54:36
Нейродайджест за неделю (#12)
1. Туториалы
- Mixture of Experts - введение в технологию MoE, маст хэв в топовых LLM.
- Туториал по свежей text2music модели Suno v3 - о том как выжать из суно максимум, а еще запилить клип.
- Интро в Трансформеры для чайников - серия видео от 3Blue1Brown, доступно (ну прям совсем) объясняющая принцип работы трансформеров.
- Tutorial on Diffusion Models for Imaging and Vision - VAE, DDPM, Score-Matching Langevin Dynamics и стохастическим диффурам. База по диффузии для среднячков.
2. Релизы
- Gaussian Head Avatar - гипер-реалистичные 3D аватары на основе Гауссовских сплатов и нейронного рендеринга.
- Higgsfield AI - новый игрок на поле генерации видео. Где-то между Runway Gen-2 и Sora.
- Stable Audio 2 - text2music, но без пиратского контента в датасетах, если не хочешь рисковать
- Command R+ – прекрасная open sourse LLM для которой не нужен супер компьютер (но 2x3090)
3. Новости
- Землетрясение в Тайване и его влияние на производство чипов. Как природные катаклизмы влияют на индустрию AI.
- Выбесить LLM или новый метод "many-shot jailbreaking" для обхода фильтров безопасности моделей с длинным контекстом.
- Siri учится видеть - Apple о модели ReALM для чтения экрана.
4. Личное
- Собеседования в Meta: Про то, какие собеседования я провожу, и про то, как я записался на обучение вести новые типы интервью.
#дайджест
@ai_newz
Neural Shit 2024-04-07 18:15:23
Можно ли считать нейронку зашкваренной после такого ответа?
Метаверсище и ИИще 2024-04-07 16:34:27
Принес вам взрослое ИИ 3Д.
ИИ Theia анализирует традиционные плоские чертежи и техническую документацию и автоматически преобразует все это добро в трехмерные цифровые модели. В жизни это недели кожаных часов, в Theia - это минуты.
У разработчиков также есть DigiPart - анализатор документации и оценка пригодности и рентабельности производства тех или иных деталей. Идея состоит в максимальной автоматизации процессов создания цифровых двойников, подбора наиболее подходящих расходных материалов и производственных технологий, а затем поиска контрактных производителей.
Thеia — замес из сегментации, автоматической маркировки, оптического распознавания символов, сопоставления признаков и семантического анализа технической документации.
Вот такой ИИ нам нужен!
Всевбету!: - https://spare-parts-3d.com/theia-beta/
Метаверсище и ИИще 2024-04-07 16:01:01
Рубрика "интернетик приподвзорвался".
Новостями про новую камеру-раздеватор. Прямо как в школьных пубертатных страшилках про камеру или очки, в которых все видны без одежды.
Читаем например тут:
"Генерация дипфейка происходит в реальном времени. Пользователь делает снимок человека в одежде, после чего нейросеть анализирует кадр и составляет промпт для генерации обнажённого снимка. "
Если посмотреть на сайт "производителя" камеры, то там максимально странные обтекаемые формулировки и совершенно непонятен процесс. Нас же интересуют технические подробности: время, девайс для генерации, софт. А журналюги яростно копируют формулировку "ИИ превращает, рисует, генерирует". Где, как, с помощью чего?
Отвечаем: никакого реалтайма, никакого локального просчета, вся генерация идет на серваке, время просчета около 10 секунд, используется Stable Diffusion 1.5 и некий NSFW-чекпойнт с Civitai.
Дальше к сгенерированной картинку пришпандоривается лицо счастливца с фото с помощью face-swap. И присылается обратно на камеру, чтобы зумеры взорали.
Грубо говоря, это просто еще одно приложение раздеватор, про которые я уже не раз писал, просто упакованное в кусок пластика, напечатанный на 3Д-принтере. Есть очень продвинутые одеватораздеваторы типа Slook, которые работают быстрее и качественнее.
А теперь, внимание, журналисты, это вообще не продукт. Это способ привлечения к арт-проекту.
Троллинговые рекламные видеоролики и изображения на сайте NUCA - это намеренная сатира на рекламу реальных потребительских гаджетов. Это не настоящий продукт, который планируются продавать, но он будет включен в экспозицию под названием "Необъяснимое" в берлинском музее Nüüd 29 июня.
А авторы отчаянно троллят интернетик и журналюг. И, кстати, у них на сайте отсылки к тем самым "просвечивающим очкам" из школьных историй.
И очень развеселые картинки на сайте.
Я думаю их скоро прикроют борцы за чистоту нравов, как прикрыли приложение DeepNude, с которого все и началось, и чей функционал копируют в своей сатире авторы NUCA.
Neural Shit 2024-04-07 09:20:20
Полицейский разворот - это унылый и скучный манёвр.
Зацените нейронный разворот от Sora
Сиолошная 2024-04-07 07:47:27
Ещё осенью мне позвонил Паша @RationalAnswer и предложил поучаствовать в создании видео про AI с одним из крупнейших научпоп-каналов рунета. «Нести свет в массы — это всегда пожалуйста. Варламов уже был, и тут справимся!» — ответил я, и вот наконец на канале ТОПЛЕС вышло 40-минутное видео: https://www.youtube.com/watch?v=1A_9slmQx8M
У нас была достаточно интересная и многосторонняя задача:
— рассказать увлекательно
— но углубиться в тему, а не просто закидать картинками с первой страницы гугла и общими фразами из Википедии
— постараться не допустить технических неточностей из-за попытки упростить материал
— и при этом связать всё в одну историю, покрывающую несколько областей
В целом считаю, что вышло неплохо! Уверен, команда сильно прокачалась в топике, по ходу работы над сценарием и кейсами для рассказа была видна прогрессия — столько сил вложили! А главное задавали интересные вопросы, чтобы дополнить материал чисто с обывательской точки зрения материалом, который я воспринимаю как само собой разумеющееся. Да ещё и визуал вышел шикарным, тут отдаю должное.
Интересно, что когда видео вышло (а я ещё ничего не постил), то мне в личку пара человек написали, мол: «Ты помогал чтоли? я смотрю чет один в один)) буквально паттерны твоих лекций. ток попроще». Так вот, если вам хочется ещё больше про ИИ, только чуть посложнее (но теперь-то база будет!) — у меня есть богатая подборка контента:
(а ссылки на все мои материалы, включая лекции и подкасты, можно найти в шапке канала: https://t.me/seeallochnaya/3)
Со всеми статьями мне помогал Павел Комаровский @RationalAnswer, не забудьте подписаться и на него – особенно если вам интересна тема рационализма и финансовой грамотности.
UX Live 🔥 2024-04-06 19:55:45
Вот реально необходимая нейросеть сегодня, а не эти ваши экстендеры.
Neural Shit 2024-04-06 12:27:42
Играют ли виртуальные армяне в виртуальные нарды?
Киберпанк который мы заслужили.
эйай ньюз 2024-04-06 09:59:46
Какой может быть новая Siri?
Вышел пейпер от Apple про их новую модель ReALM. Я недавно писал про то, как Bloomberg пытались тренировать свою модель, и то, как у них это не получилось. Но Apple доказали, что при грамотном тюнинге даже ну ооочень маленькой моделью в 80М можно догнать или даже обогнать флагманские LLM а определенных задачах.
Так вот, новая Siri обещает очень ловко справляться с UI. А учитывая тот факт, что Apple – это крупнейшая экосистема, то у Siri будет доступ ко всему, что вам может понадобиться. От голосового управления календарём до составления плейлистов в iTunes (но пока это все фантазии).
Вообще, в статье описывается интересный метод для взаимодействия LLM с UI. На вход принимаются скриншоты, и с них в тупую собирается весь текст. Далее текст идет на анализ в LLM, и та, основываясь на инпуте юзера и тексте с экрана, решает, что делать и как отвечать.
Пока нет прямого управления UI, чтобы агент прям сам запускал какую-то работу в приложении. В статье пока только примеры того, как модель собирает информацию с экрана и выводит релевантный ответ. Например, собирает адреса с сайта, который сейчас на экране. Суть в том, что потом это можно будет использовать для таких запросов, типа: "Напиши второму в этом списке контактов, что созвон в 14:00". Пока они учат понимать, что происходит на экране.
Очень жду крутые анонсы WWDC в июне!
Пейпер
@ai_newz
Сиолошная 2024-04-06 07:52:12
Мы в 2025-м, когда задаём вопрос GPT-5.
Ставь лайк если узнал, откуда кадр
Сиолошная 2024-04-06 07:48:22
Вот так это выглядит вживую, уже можно купить в США за $700.
Интересно, когда венчур Altman x Ive доберётся до чего-то физического? Сколько нужно времени первоклассной команде, чтобы разработать нечто подобное с нуля, с учётом того, что AI-часть отдана на откуп OpenAI?
Сиолошная 2024-04-06 07:48:16
Помните были слухи про то, что легендарный дизайнер из Apple Johy Ive о чём-то там трётся с Sam Altman про AI-девайсы будущего?
Согласно The Information (надёжные журналюги с меткими инсайдами об OpenAI), процесс идёт полным ходом. Сейчас ведутся переговоры про привлечение инвестиций — Ive хочет поднять до $1 млрд. Цифра выглядит огромной для потенциальной компании, у которой нет ни продукта, ни, как я понял, MVP. Занятно, что на это жалуются и инвесторы, которые не участвуют в переговорах
К сожалению, пока деталей о самом девайсе и его отличии от привычных нам форм-факторов нет — лишь говорят, что «оно не будет выглядеть как смартфон». Так что можно немного пофантазировать. Для того, чтобы персональный AI-ассистент для каждого имел контекст вопроса, нужно, чтобы он имел микрофон, камеру и, вероятно, динамик (хотя это не обязательно, интерфейс с наушниками с костной проводимостью я бы взял). Может быть это очки? Камера в дужке (как у Meta X RayBan, они тоже говорили, что хотят ИИ в них запихнуть).
Но я смотрю в другую сторону. Sam Altman является крупнейшим инвестором Humane, компании, которая в начале года представила AI Pin. Выглядит как верхняя половинка маленького iPhone (см. следующий пост). Что интересно, насколько мне удалось нагуглить, они используют модели OpenAI по API для того, чтобы ассистент работал.
В общем, идея такая:
1) нацепил пин на грудь
2) он постоянно слушает (и сохраняет?) речь и диалоги
3) он регулярно делает фото/короткие видео (например, 5 сек раз в минуту) и распознает, что там происходит
4) в любой момент можно обратиться к нему с запросом, и модель внутри либо найдет ответ/сделает действие сама, либо обратится к собранной по пунктам 2 и 3 памяти и вернётся с ответом.
Вот бы туда ещё мини-проектор, чтобы на стену мог выводить визуальную информацию
(вот тут в Твиттере лежит клёвая демка, как с помощью алгоритмов записанное с Ai Pin видео переводят в 3D-модель, по которой можно виртуально полетать)
Какой дизайн понравится больше вам — очки или пин?
эйай ньюз 2024-04-05 18:08:08
Что такое Mixture of Experts (MoE)?
МоЕ — это вид моделей, который используется в куче современных LLM. Далеко ходить не надо — пять из шести моделей, о которых я рассказывал в дайджесте на прошлой неделе, были MoE. GPT-4, судя по слухам, подтверждённым Хуангом – тоже MoE.
Чем MoE отличаются от обычных (dense) моделей?
В MoE часть слоев заменяется на sparse (разреженные) MoE-слои. Они состоят из нескольких "экспертов" — по сути, отдельных небольших слоёв. Для каждого токена используется только небольшая часть экспертов. Решает, какие токены обрабатываются каким экспертами, специальная "сеть-маршрутизатор". Это позволяет MoE быть быстрее чем dense модели, как в тренировке так и в инференсе.
Почему MoE используют?
Модели с MoE учатся в разы быстрее обычных с таким же количеством компьюта. Авторы DBRX хвастались что их конфиг MoE учится в 2 раза быстрее их же dense модели, а у авторов Qwen-MoE прирост скорости был вообще 4x.
Откуда такая разница между разными MoE в приросте эффективности тренировки?
Когда учится MoE, нужно балансировать потребление памяти, эффективность тренировки и скорость выполнения, что достигается уменьшением или увеличением общего числа экспертов, числа активных экспертов и размера экспертов. Разные команды используют разные конфигурации, отсюда и разница.
Почему MoE не используют везде?
MoE потребляет в разы больше памяти чем обычные модели, что касается и обучения и инференса. На практике большее количество памяти означает большее количество видеокарт. Для запуска Grok, например, нужно 8 видеокарт. Для GPT-4, по слухам, нужно вообще 64 видеокарты. Чтобы это имело финансовый смысл, нужен определенный уровень нагрузки, который есть не у всех. Плюс тот факт, что модель - MoE, часто ставит крест на возможности запуска на потребительских видеокартах.
Как их запускают?
Модель разбивают на несколько видеокарт (например, с помощью tensor parallelism). На каждую видеокарту кидается одинаковое количество экспертов и используют трюки чтобы убедиться что на каждого приходится одинаковая нагрузка.
Как это выглядит применимо к трансформерам?
Обычно эксперты в MoE делаются на основе слоёв MLP внутри трансформера. То есть вместо одного MLP делают несколько параллельных, но одновременно используется только часть из них. Остальные части модели (attention, эмбеддинги) — общие для всех экспертов.
>> Блогпост про MoE с большим числом деталей
#ликбез
@ai_newz
эйай ньюз 2024-04-05 12:58:03
Немного личных баек про работу. Так как я теперь Staff Research Scientist (подробнее об этом писал тут), сегодня мне пришло приглашение пройти курсы для проведения интервью на более синьорные роли в компании.
До этого я несколько лет собеседовал челов как на AI позиции (CV, NLP), так на Software Engineer (SWE) по трем типам интервью:
— Coding
— AI Coding
— AI Research Design
Теперь буду учиться собеседовать людей на AI Research Screen интервью. Это самое первое интервью, на которое кандидат попадает (разговор с рекрутером не в счёт) и по его результатам решается, приглашать ли чела на onsite раунды или нет. Скрининг дают делать только начиная со старших уровней, обычно E6+, так как тут важно уметь опытным глазом быстро оценить потенциал кандидата и насколько он подходит на выбранную роль.
Onsite интервью — это то, что раньше было полным днём собеседований, когда кандидату оплачивали билеты на самолёт и отель, чтобы он пришел в офис компании физически и попотел у вайтборда в течение 5-6 раундов собеседований, все в течение одного дня. Сейчас к сожалению такие поездки не делают, и все финальные раунды проходят по видео.
Кроме этого, меня записали на курс Behavioral интервью, что тоже обычно проводится людьми IC6+ (про уровни писал тут), где нужно оценить софт-скилы кандидата. Это также одно из решающих интервью, где всплывают сигналы, определяющие уровень кандидата, например middle vs senior.
Ну, и для полного комплекта, я зарегался ещё на тренинг для проведения ML System Design — это более прикладная штука, когда кандидату нужно спроектировать end-2-end ML систему. У ресерчеров такого интервью не бывает, а вот для ML Engineer и Research Engineer его нужно проходить.
Планирую собрать все лычки всех типов интервью
Если у вас есть какие-то вопросы, или если что-то ещё интересует в плане карьеры — велком в комменты.
#карьера #мойпуть
@ai_newz
Метаверсище и ИИще 2024-04-05 12:06:16
А еще у меня сегодня день рождения.
Поэтому постов (наверное) больше не будет сегодня.
Кинул в chatGPT запрос: main character from "Big Lebovski" movie in t-shirt with "Hello World" print
Потом выбрал картинку и попросил: make character older and replace text on t-shirt to "Dedushka Psih"
Если вы зайдете в фейсбучек и кинете в поиск "дедушкапсих", то поймете почему.
Я провел двое суток по пути из Вьетнама на Кипр и у меня сегодня The Hub в Лимассоле, где я стендаплю по случаю ДР.
Можете поздравить меня в коментах, или в фб, или жбакнув по кнопке Поддержать справа вверху, или даже криптой. Но это опционально, главное - продолжайте читать все мои глупости!
Метаверсище и ИИще 2024-04-05 11:29:04
А теперь небольшой челлендж с новой функцией инпайнтинга в DALL·E 3.
Я попросил его сгенерить горизонтальные полоски, потом выбрал-покрасил среднюю треть картинки и попросил его сделать там вертикальные полоски. У chatGPT снесло крышу. И он стал путать вертикальные и горизонтальные полоски. Кстати у кожаных есть нейроны отвечающие за чувство вертикали, и похоже у DALL·E 3 вышибло этот слой.
В общем попробуйте попросить его сгенерировать разноцветные вертикальные полоски (stripes), а потом покрасить кружок в середине и попросить сделать там горизонтальные полоски.
У меня не получилось. Образец на первой картинке из фотошопа. Остальные - мои издевательства над ним.
Метаверсище и ИИще 2024-04-05 10:43:07
А вот как выглядит редактирование картинки целиком в chatGPT. Кликаете в картинку и пишете промпт там где Edit Image.
Давай, говорю, мне комикс на тему rolling cubes.
А теперь, говорю, replace cubes to spheres
В общем это не композ, с заменой объектов. Это ментальный композ, с заменой антуража в голове у ИИ. История та же, но рассказана по-другому.
Можно генерить раскадровки тоннами, экспериментируя с персонажами и окружением.
Метаверсище и ИИще 2024-04-05 10:25:13
У меня раскатали фичу инпайнтинга в DALL·E 3.
Работает прямо в чате chatGPT, необязательно загружать DALL·E 3 GPTшку.
Если сгенерировать картинку и кликнуть в нее, то можно либо выделить область на ней, либо описать изменения для всей картинки.
Потренировался на котиках, естественно.
Он довольно лихо заменяет один текст на другой, оставляя картинку вокруг нетронутой.
у DALL·E 3 и так неплохо с текстами, а тут появляется возможность делать принты на майках в любом количестве с любыми текстами.
Впечатляет.
Дальше я, конечно, начал сувать в соломорезку рельсу. Об этом следующий пост-челлендж.
cat in t-shirt with "Hello World" print
change text "Hello World" to "Python Sucks"
Neural Shit 2024-04-05 05:55:13
А кто-нибудь пользуется платной Claude 3 Opus? Как она? Такая же соевая как и бесплатная? Есть смысл с ChatGPT-4 переходить?
Метаверсище и ИИще 2024-04-04 17:33:42
Познавательные картинки из статьи. Сравнения разных моделей.
А я пока мучаю его Чебурашками в тельняшках, цветиком-семицветиком, играюсь с регионализацией и бьютификацией.
Он смешно избегает обнаженки, делает радужные тельняшки, ну и в целом опыт немного отличается от SD. Надо приспособиться.
Скоро запощщу..
Метаверсище и ИИще 2024-04-04 17:28:20
Kandinsky 3.1 - огненные апдейты!
Мне тут достался доступ к новой бете Кандинского, и это прям хорошо.
Там не только про скорость и качество (хотя разогнали его здорово), но и про новые фишки, которые сейчас появляются во всех генераторах картинок, типа LLM-промптинга и контролнетов.
По порядку:
Скорость:
Kandinsky 3.1 ускорили почти в 20 раз. Kandinsky 3.0 из диффузионной модели по факту превратился в GAN версии 3.1
Бьютификации запроса:
То, что всегда было в DALL·E 3, потом появилось в Fooocus и теперь внедряется везде, от SD3 до Midjourney. На вход языковой модели подаётся инструкция с просьбой улучшить запрос, и ответ LLM-модели подается на вход Kandinsky для генерации.
В качестве LLM использован neural-chat-7b-v3-1 от Интел со следующим системным промтом:
You are a prompt engineer. Your mission is to expand prompts written by user. You should provide the best prompt for text to image generation in English. \n### User:\n{prompt}\n### Assistant:\n
IP-Adapter:
Это когда мы даем на вход референсную картинку, а ИИ "читает" ее содержимое в виде внутреннего представления и использует ее как промпт.
Работает в любых режимах. От смешивания до вариации. Все как у людей.
Обучили и добавили ControlNet(!!) на основе HED detector. Midjourney снова нервничает, но виду не подает.
Подрулили inpainting
Kandinsky SuperRes
В новой версии Kandinsky 3.1 появилась возможность получать генерации изображений в разрешении 4K. Для этого была обучена диффузионная модель повышения разрешения KandiSuperRes. Код и веса на гитхабе.
Выпустили маленькие версии модели (1B) для слабого железа и дообучения.
Я пока генерю в секретном боте, но надеюсь скоро раскатают на всех. Мне пока очень нравится. И скорость и качество. Как я уже писал, я часто использую Кандинского на интерактивных лекциях именно из-за скорости и бесплатности. А тут еще новые фишки завезли..
Го тестировать, поделюсь ссылкой на бота, как смогу.
А для гиков, есть отличная подробнейшая статья вот тут:
https://habr.com/ru/companies/sberbank/articles/805337/
Картинок сейчас накидаю.
эйай ньюз 2024-04-04 15:20:03
Command R+ — новая модель!
104 миллиарда параметров, 128к контекста. Моделька с нуля сделана для использования тулов и RAG (Retrieval Augmented Generation), на бенчмарках связанных с этим модель показывает себя очень достойно. Нормальных тестов пока что нет, но Command R 35B очень хорошо себя показала на LLM арене, так что модель в три раза больше вряд-ли ударит лицом в грязь.
Веса уже выложили, даже квантизированные
Для инференса понадобится минимум 2x3090 либо A100 80 GB, ну или есть вариант с маком с большим RAM.
У меня большие надежды на эту модель!
Демка
Веса
Блогпост
@ai_newz
эйай ньюз 2024-04-04 12:50:55
Наконец-то у Sora появился достойный противник. Higgsfield AI анонсировали свою базовую видеомодель.
Higgsfield AI — компания из Сан-Франциско, русско-казахский стартап в душе, позиционирует себя, как команда, которая стремится "демократизировать" создание видео и фильмов. Короче, большой упор на пользователя и киношки с телефона.
По черипикам из твиттера, это, конечно, не Sora, но и не Gen-2 и пика (лучше).
Демка модели - Diffuse УЖЕ лежит в эпсторах некоторых стран (до остальных еще не успело доехать). Правда, апка с ограничениями. Дают анимировать персонажа по вашей фотографии, так чисто побаловаться.
Вообще, результаты Higgsfield — это то, что я ожидал увидеть от OpenAI Просто Сора, ну как-то уж совсем крыше снос.
Пейпера нет, какой-то еще инфы тоже. Есть Вейтлист.
@ai_newz
Метаверсище и ИИще 2024-04-04 10:36:31
Продолжение.
И ведь такие картинки могли появиться в научной статье, как показывают нам три поста выше. Тут мне подумалось что грань между научными журналами и фейсбучеком, где я зачем-то нашел этот ад, становится тоньше. Благодаря ИИ. И нашим метрикам.
Также мне вспомнилась сказка про курочку Рябу. "И снесла Курочка яичко. И не простое.." Дайте два.
Метаверсище и ИИще 2024-04-04 10:30:13
Отличный пример из статьи выше. Как же жоско ИИ нас троллит.
Недавно вот такая картинка появилась в рецензируемой статье, недавно опубликованной в авторитетном журнале. Все эти тексты и цифры, были сделаны в Midjourney. Особенно доставляет надпись "dck".
Статья под названием "Клеточные функции сперматогониальных стволовых клеток в связи с сигнальным путем JAK/STAT" была написана тремя исследователями из Китая, включая автора-корреспондента Динцзюнь Хао из больницы Xi'an Honghui. Статья была опубликована во вторник в журнале Frontiers in Cell and Developmental Biology.
Хотите больше картинок из статьи, шуруйте сюда. Там легкий адок.
У меня все, я пошел на самолет.
Хотя нет, щас вам подкину еще одну генеративную картинку - уж больно хорошо она бьется с темой генеративного ИИ и научных статей.
Метаверсище и ИИще 2024-04-04 10:20:46
ИИ-Экология.
ИИ нас троллит. Со всеми нашими попытками ввести метрики на все, что угодно. Как только появляется возможность автоматизировать получение тех или иных оценок, которые ведут к выгоде, появляется ИИ, который в смышленых руках способен побить любые кожаные результаты.
Хорошая колонка в NY Times, которая показывает, что если мы и дальше продолжим измерять эффективность в количестве статей и знаков, объеме трафика, индексах цитирования и прочей SEO оптимизации, это приведет к тому, что мы сами захлебнемся в ИИ-отходах, которые сами же и нагенерили.
Дальше я выкушу самое сладкое, статья написана очень хорошим языком, близким по духу к моему изложению.
Возьмем науку. Сразу после выхода GPT-4, язык научных исследований начал мутировать. Особенно в сфере самого ИИ.
В официальных заявлениях исследователей о чужих работах, которые составляют основу научного прогресса, слово «дотошный» встречается более чем в 34 раза чаще, чем в обзорах в прошлом году. Слово «похвальный» использовалось примерно в 10 раз чаще, а слово «сложный» – в 11 раз.
Значительное количество исследователей на конференциях по искусственному интеллекту были пойманы на том, что они давали свои экспертные оценки чужих работ с помощью ИИ. И чем ближе к сроку были получены присланные отзывы, тем больше в них обнаруживалось использование ИИ.
Простой поиск в научных базах данных выдает фразы типа «Как языковая модель ИИ» в тех местах, где авторы, полагающиеся на ИИ, забыли замести следы.
То, что происходит в науке, — это мwdtnjxrb. Публиковать в социальных сетях? Любой вирусный пост в твитторе теперь почти наверняка включает в себя ответы, сгенерированные искусственным интеллектом, от краткого изложения исходного поста до реакций, написанных мягким голосом ChatGPT-Википедии, и все это для сбора подписчиков. Instagram наполняется моделями, созданными искусственным интеллектом, а Spotify — песнями, созданными искусственным интеллектом. Издать книгу? Вскоре после этого на Amazon часто будут появляться в продаже сгенерированные ИИ «рабочие тетради», которые якобы сопровождают вашу книгу и содержат полный бред. Лучшие результаты поиска Google теперь часто представляют собой изображения или статьи, созданные искусственным интеллектом. Крупные средства массовой информации, такие как Sports Illustrated, создают сгенерированные искусственным интеллектом статьи, приписываемые столь же фальшивым профилям авторов. Маркетологи, продающие методы поисковой оптимизации, открыто хвастаются использованием ИИ для создания тысяч спам-статей с целью кражи трафика у конкурентов.
Залипательные дешевые синтетические видеоролики для детей на YouTube. Типа музыкальных клипов о попугаях, в которых у птиц глаза в глазах, клювы в клювах, непостижимо трансформирующиеся, поющие искусственным голосом: «Попугай на дереве говорит привет, привет!». Двухлетки залипают также как на адских клипах про спайдерменов трехлетней давности. И стоит это ничего. Wired обнаружил доказательства использования генеративного ИИ в производственных конвейерах некоторых аккаунтов с сотнями тысяч или даже миллионами подписчиков. Что останется в головах у детей?
Культура будет настолько наводнена творениями ИИ, что при обучении будущих ИИ предыдущие результаты ИИ будут просачиваться в обучающий набор, что приведет к будущему копий копий копий. поскольку контент становился все более стереотипным и предсказуемым. В 2023 году исследователи ввели технический термин, обозначающий, как этот риск влияет на обучение ИИ: коллапс модели. В каком-то смысле мы и эти компании находимся в одной лодке, плывя в одной и той же грязи, текущей в наш культурный океан.
ИИ-Экология:
Точно так же, как компании и частные лица были вынуждены загрязнять окружающую среду из-за устройства экономики, так и культурное загрязнение ИИ вызвано рациональным решением удовлетворить ненасытный аппетит Интернета к контенту как можно дешевле.
Метаверсище и ИИще 2024-04-04 10:20:46
Продолжение: Гаррет Хардин, биолог и эколог декларировал аж в 1968 году, что проблема загрязнения среды вызвана людьми, действующими в своих собственных интересах, и что поэтому мы заперты в системе «засорения собственного гнезда» до тех пор, пока ведем себя только как независимые, рациональные, свободные предприниматели». Он охарактеризовал проблему как «трагедию общества». Такая структура сыграла важную роль для экологического движения, которое стало полагаться на государственное регулирование, чтобы делать то, что могли или не хотели делать компании в одиночку.
От себя добавлю, что пока государственное регулирование в основном борется с утечками персональных данных и соблюдением механизма авторских прав. Охраняя существующие механизмы и упущенную прибыль. Проблемой загрязнения интернета никто не заморачивается, ибо основная метрики - трафик и внимание.
Пока никто не начал болеть и умирать (или хотя бы терять огромные деньги) от ИИ-контента, ИИ будет наваливать контент везде, где на контент есть спрос. И неважно, что это мусор. Мы сами создали систему метрик, основанных на количестве (а не качестве) контента.
Neural Shit 2024-04-04 07:36:31
А почему умная колонка так больше не отвечает??? Это же логично!
Метаверсище и ИИще 2024-04-04 07:04:07
ИИ видит сквозь стены или Новый Нормальный Нейромокап.
Писал об этом год назад, но уж больно видео хорошее - теперь от глаз ИИ не укрыться ни на кухне, ни в спальне. И сценарий о том, что он прошивает себя в каждый раутер, чтобы видеть вас всегда, становится вполне жизненным.
Если вы в зоне покрытия вайфая, то ИИ может вас видеть и считывать ваши движения. Его научили сопоставлять изменения в вайфай сигнале и картинку с камеры. Потом камеру убрали.
Ждем расшифровки мимики по отраженному вайфай сигналу и ныряем в мир Minority Report.
Сама работа тут:https://arxiv.org/abs/2301.00250
Метаверсище и ИИще 2024-04-03 23:22:45
Источник, конечно, так себе. Но как сценарий для будущего фильма мне нравится. Уж больно выпуклая фигура в истории всего IT. Считайте это запоздалым первоапрельским постом (у меня после 12 часов в самолетах и 12 часов в аэропортах, время слегка деформировалось, а завтра опять лететь, EgyptAir просто взял и перенес рейс на день позже).
Джона Макафи (того самого, которого замочили в испанской тюрьме) видели в Сальвадоре, сообщают многочисленные источники — BM
Метаверсище и ИИще 2024-04-03 22:54:34
3D AI: Пришел приглос в бету Rodin Gen-1.
Про DeemosTech уже много писал, слежу за ними, у них много ресурсов на разработку. Их Чатаватары - единственные, кто умеет без цензуры делать башку Тома Круиза в 3Д.
Теперь у них анонсирован Rodin - image-to-3D, про него я тоже писал:
https://t.me/cgevent/7577
Пока у них на сайте написано так:
Multimodal 3D Generative AI Search Engine
Но в демке из твиттора видна неплохая ретопология (даже в quads).
Что касается AI Search Engine - это когда даешь на вход картинку, а он тебе выдает все похожие 3Д-модели из базы - недавно Адобченко выкатил такую же фишку для Substance 3D.
Но Илюха Самохвалов делал такое уже год назад, причем он умеет искать не по своей базе, а по всем 3Д-стокам!
Глядите сюда.
В общем я жду, когда мне расчехлят бету Rodin, чтобы попробовать генерацию 3Д.