Нейролента Mikitos.ru - страница 9

Neural Meduza 2024-03-26 18:46:47

УЖАС МЫСЛИ

gonzo-обзоры ML статей 2024-03-26 17:15:07

Вдруг вы хотите посмотреть сегодня лекцию про сознание

https://royalsociety.org/science-events-and-lectures/2024/03/faraday-prize-lecture/

Neural Shit 2024-03-26 17:11:07

Но есть и хорошие новости.

Осталось подождать всего 8 лет.

эйай ньюз 2024-03-26 13:03:43

🔥RadSplat - качество рендеринга как NeRF, но в 900FPS!

Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных объектов.

Концептуально в новом методе RadSplat всё очень просто: сначала тренируем нерф и запекаем его в гауссовый сплат. Потом, сравнивая с нерфом, определяем важность каждого элемента сплата и обрезаем ненужные. От такого прунинга качество, внезапно, даже растёт.

Для ускорения на больших сценах предлагают разбить сцену на несколько кластеров, определить что из каждого кластера видно и рендерить только это. В чём-то это похоже на VastGaussian, о котором я рассказывал пару недель назад.

В целом оно быстрее обычных нерфов вплоть до 3 тысяч раз(!), что по скорости примерно на уровне метода Re-ReND от нашей команды, где мы запекали нерф в light-field на меши, что позволяло рендерить со скоростью до 1000FPS на GPU и 74 FPS на шлеме Quest Pro.

Сайт проекта

@ai_newz

Метаверсище и ИИще 2024-03-26 12:58:20

Если вы не в курсе, то на нетфликсе (и в интернетике) появился свежеиспечённый сериал "задача трёх тел".
И это не китайский ультрамногосерийный неторопливый сериалище.
Это огонь.
Ибо.
Сделали его ... те самые Вайс и Бенёф -
создатели Игры Престолов!
Одну из главных ролей играет тот самый толстяк Сэм, и роль его принципиально иная. Ядовитый циник.

Наверняка поклонники книги будут ругаццо в процессе, но я смотрю как на самодостаточное произведение. А сравнивать лучше с китайским вариантом

Мне пока нравится...

AI Product | Igor Akimov 2024-03-26 12:35:05

Кажется, можно закрыть вопрос, переводить ли на английский язык ваш запрос и ответ или нет. Гугл исследовал все за вас
https://arxiv.org/pdf/2403.04792.pdf

На 108 языковых парах и 6 больших датасетах, как с выбором из нескольких вариантов, так и со свободным ответом, сделали вывод, что PaLM 2 и GPT-4, а значит и многие другие, более современные, гораздо лучше работают с промптом на оригинальном языке, чем при переводе запроса на английский и потом ответа на оригинальный язык. Так что можно без проблем использовать русский
Вот даже кусочек диаграммки с русским, точность повышается с примерно 0,92 до 0,94

Метаверсище и ИИще 2024-03-26 07:53:56

Ну и дальше про воображение. Трехмерное притом.

Тут вот все пока упорно называют SORA генератором видео. И только некоторые смышленые авторы робко пишут про генерацию миров.
Вот на этом видео - физические скульптуры (огромные) из мрамора, которые были сделаны на основе того, что нагенерила СОРА.

Алекс Ребен создает скульптуры на основе ИИ-изображений. "Мой опыт использования Sora стал отправной точкой для создания 3D-скульптуры. Мои мысли устремились к изучению сферы фотограмметрии и ее потенциального применения в скульптуре. Перспектива преобразования видео в 3D-модели заинтриговала меня, поскольку она намекала на то, что система искусственного интеллекта может выйти за рамки своих первоначальных возможностей".

Обратите внимание, как все авторы сознательно или бессознательно оговариваются "про выйти за рамки своих первоначальных возможностей".
Думаю вопрос фетишизированной новизны в творчестве тоже можно закрывать.
https://twitter.com/artBoffin/status/1772418681261474099

Сиолошная 2024-03-26 07:44:38

В декабре Mistral выпустили модель Mistral-7B-Instruct версии 0.2

На неделе они выложили базовую модель (тоже v0.2), лежащую в основе инструкт-версии. Это версия, обученная лишь предсказывать следующее слово, без всякого дообучения на выполнение инструкций/следования промптам/Safety/etc.

Многие задавались вопросом — а что а как а почему лучшая версия выходит раньше, а спустя аж 4 месяца — базовая.

Оказалось...ребята заработались и просто забыли

🤷‍♂️

Метаверсище и ИИще 2024-03-26 07:36:34

Судя по этому видео, можно выпивать за рекламные агенства, причем оптом: от копирайтеров и генераторов идей до продакшенов и поспродакшенов.
https://openai.com/blog/sora-first-impressions

Но я привалю за кино. И воображение.

С начала 2000-х (по крайней мере в кино) сторителлинг планомерно дополнялся созданием вселенных. Ну то есть просто хорошо рассказанные истории продолжили оставаться мейнстримом, а хитами стали разные миры и франшизы. Все эти вселенные Марвела, комиксизация кино, бесконечные повторы Трансформеров - все это создание и заселение миров.

Это я к чему? Вот в прошлом году сценаристы уже устроили очередную забастовку, триггером которой послужили участившиеся случаи написания сценариев с помощью LLM. И это не удивительно. В сторителлинге языковые модели и разные докрученные инструменты будут уделывать кожаных скоростью и качеством.
Но если присовокупить к этому SORA, то и создание миров ствновится прерогативой ИИ - причем с мгновенной проверкой разных гипотез. Кожаный писатель годами строит у себя в голове огромный мир, в который приглашает читателей не факт, что его воображение совпадет/попадет в ожидания читателей. А SORA позволит тестировать миры непосредственной глазками. И не факт, что кожаными. Оценка "способности нравиться" может быть заложена и на этапе обучения (как в случае с chatGPT), так и в процессе файнтюнов.

И я не столько про создание кино или видео с помощью ИИ (что судя про вояжу Альтмана в Голливуд уже решенный вопрос), сколько про создание миров в головах кожаных. Чем изначально занимались избранные авторы.

Ну, за воображение.

Метаверсище и ИИще 2024-03-26 07:33:42

SORA: Когда все проспал.

Вроде и живешь раньше всех на 4-5 часов во Вьетнаме, но минус в том, что ложишься спать, а ночью в интернет вываливаются жирные новости.

Итак, Open AI дали доступ у SORA некоторым избранным. Избранные офигели, но видео показали.

Вот тут примеры того, что СОРА умеет в умелых руках.
Поглядите на все эти безобразия тут:
https://openai.com/blog/sora-first-impressions

В шапке одно из видео Пола Трилло - он получил 19 премий Vimeo Staff Picks, которые присуждаются лучшим короткометражным фильмам, размещенным на Vimeo. "Работа с Сорой - это первый раз, когда я почувствовал себя свободным режиссером, Сора наиболее эффективна, когда вы не копируете старое, а воплощаете в жизнь новые и невозможные идеи, которые иначе мы никогда бы не увидели".

Этот видос не столько про качество а про выход за границы.

А я, как обычно привалю диванных мыслей следующим постом.

Сиолошная 2024-03-26 06:41:23

Пара свежих ликов, касающихся будущих обновлений ChatGPT, от Tibor Blaho (кто такой — писал тут).

1. (см. гифку) Изменение сгенерированных Dall-E 3 изображений. Теперь можно будет выделить маской регион, написать отдельный запрос и перегенерировать часть картинки. Это полезно, если в целом композиция и рисовка устраивают, но где-то хочется чуть-чуть поменять детали. В приложениях вокруг Stable Diffusion такое давно есть, авось и до ChatGPT доедет. (источник)

2. (см. картинки) Изменение GPTs, добавление блоков инструкций и состояний диалога. Вероятно, это изменение нацелено на исправление чатов со слишком длинными инструкциями и сложными сценариями. Теперь вместо длинного промпта предлагается делать отдельные блоки, каждый со своей логикой, а модель будет переключаться между ними. В этом помогает состояние, набор кусочков информации, передаваемый между разными частями диалога. Причём, состояние может выделяться самой моделью через так называемый intent recognition (показываем диалог и спрашиваем, к какому нужно перейти — например, приветствие, сбор информации, работа, завершение). (источник)

Судя по прошлым утечкам от того же автора — эти фичи должны появиться в течение 3 месяцев.

эйай ньюз 2024-03-25 19:35:16

Неродайджест за неделю (#10)

Я решил возобновить рубрику нейродайджестов (последний раз они были в 2023), думаю будет полезно. Тут будет выжимка всех основных постов за неделю со ссылками.

1. Новости AI и Big Tech
- Open Grok от XAI: новая модель с 314B параметров, и код доступен на GitHub. Полностью открыта, все веса на гихабе и никакой цензуры!
- Зарплаты в Big Tech vs. академия, GPU для народа: Washington Post осознали, что BigTech значительно превосходит академическую сферу по уровню зарплат.
- Apple готовится залететь в AI с двух ног, и покупает Darwin AI для ускорения и уменьшения AI моделей. А так же, ведет переговоры с Google. Это шаг к использованию LLM локально на устройствах.

2. Разработки и инновации
- Новые GPU от Nvidia: Blackwell B200 и GB200 "суперчип", ускоряющие AI тренировки и снижающие энергопотребление.
- ChatGPT момент для роботов может быть уже за углом: что нового Nvidia делает в робототехнике.
- Робот-Гуманоид EVE от норвежского стартапа 1X получил в качестве мозга одну большую модель, которая помогает ему выполнять разные задачи - это шаг к генерализации.
- Stable Video 3D от Stability: созданию 3D меша из одного изображения с помощью видео-дифуузии.

3. Обновления
- Google Gemini 1.5 Pro теперь доступен для всех, позволяя анализировать видео и файлы с 1M токенами контекста.
- Ожидается ChatGPT-5 этим летом, обещая значительные улучшения и новые возможности для пользователей и разработчиков.

4. Перспективы и предсказания
- BitNet 1.58 от Microsoft обещает оптимизировать инференс моделей, делая процесс в РАЗЫ быстрее и энергоэффективнее.
- SD3-Turbo: пейпер обещает prompt alignment и даже красоту лучше чем у миджорни за 4 шага диффузии.

5. Закулисье и инсайды
- Microsoft переманил к себе ⅔ основателей Inflection AI. Не понятно что теперь будет со стартапом.
- Stability ai: CEO и ключевые сотрудники ушли из компании. Стабилити - всё? Надеюсь, хоть SD3 заопенсорсят.
- История Bloomberg о том, как они свой BloombergGPT тренировали, и почему так делать не стоит.

#дайджест
@ai_newz

Сиолошная 2024-03-25 19:33:24

Наткнулся на результаты опроса сотрудниками a16z (венчурный фонд двух сооснователей, Andreessen и Horowitz) лидеров компаний Fortune 500 + ~70 стартапов касательно планов по AI. Ниже — тезисная выжимка цифр с рынка, номер соответствует картинкам в посте.

1. Модели OpenAI используют все опрошенные представители бизнесов, и лишь Google удостаивается упоминания более чем половиной респондентов. Остальные — меньше. Причём, легко заметить, что если делать срез по стадии ("в проде" VS "еще тестируем"), то тут разрыв невероятный — 66% уже развёрнутых решений сидят на OpenAI.

2. Бюджеты на 2024й год на AI в среднем в 2.5 раза больше, чем на 2023й (18 миллионов против 7)

3. Несмотря на тезис из пункта (1), все компании тестируют несколько моделей и ищут альтернативы. Треть опрошенных говорит, что они пробуют модели от трёх провайдеров, и никто — что лишь одну.

4. Многие смотрят в сторону замены API-моделей на опенсурсные решения. Главное — это возможность контролировать поведение модели (включая контроль данных, которые ей подаются на вход), а также кастомизация её под свои нужды.

5. 72% бизнесов занимаются тюнингом моделей, 22% просто навешивают RAG (Retrieval-Augmented Generation) поверх и живут с этим. Интересно, мой субъективный процент для дообучения был бы гораздо ниже.

6. Про популярные задачки для моделей. Самое распространённое — это суммаризация текста, менеджмент знаний в рамках корпорации (читай умный поиск), помощь в разработке инженерам и, удивительно, ревью контрактов/документов.

Denis Sexy IT 🤖 2024-03-25 18:30:06

OpenAI дали доступ к SORA разным креативным людям по миру – и те показали свои первые работы с ней.

Выкачал вам все примеры – как по мне, довольно клево вышло, в руках профи SORA по настоящему раскроется.

Пост тут:
https://openai.com/blog/sora-first-impressions

эйай ньюз 2024-03-25 17:08:57

Вот так эти двое могли бы дружно праздновать релиз GPT-5.

@ai_newz

эйай ньюз 2024-03-25 15:43:53

Увидел в Threads анекдот: Bloomberg потратил ~$10 миллионов (в AWS SageMaker) на тренировку BloombergGPT (50B параметров на 700B токенов), специально для финансовых задач. Иииии.... модель всухую проиграла на этих же финансовых тасках GPT-4, которая вышла за две недели до этого.

И тут всё было бы очевидно: "нужно сдаваться GPT-4". Если бы не одна маленькая деталь — GPT-4 в свою очередь либо проигрывала либо еле-еле перегоняла (используя Chain of Thoughts) специализированные файнтюны таких динозавров как BERT (2018, 110 лямов параметров) и RoBERTa Large (2019, ~700 млн параметров).

Мораль басни такова: если вы не лидер AI гонки, то не соревнуйтесь с OpenAI в общих задачах, это дорого и трудно. Но если есть прямые руки и конкретный таск — перегнать даже SOTA general purpose модель вполне возможно. А, и ещё: тренировать в AWS безумно дорого 😂

@ai_newz

эйай ньюз 2024-03-25 13:30:21

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz

Neural Shit 2024-03-25 10:16:56

Периодически дообучаю ruGPT для генерации всратых гороскопов. И почти всегда немножко разбавляю датасет уже сгенерированными ранее гороскопами. Но иногда в сет попадает и опубликованная в канале реклама (да, мне лень фильтровать ее). Из-за этого при генерации иногда попадаются всрато сгенеренные рекламные посты. Вот примеры (и заодно идеи для каналов!!!):

>>Хочется порекомендовать канал про окуней на ютубе - там же реальное общение, дохлые морские ежики и хождение по воде.

>>Хочу порекомендовать канал про современное искусство, он шокирует своими юмористическими обзорами. Например, есть такой мем: «Будущее — в окопах».

>>Хочу порекомендовать канал о том, как татары насилуют поезда. У нас лучший контент и эчпочмаки.

>>В своем канале аналитик Илья Каспер расскажет о своем новом фетишизовом учении: "Мастурбировать с фейерверками, слушать джаз и танцевать вместе со страусами». Успейте подписаться"

>>Самый популярный канал о том, как правильно есть майонез и какать! Каждому по инструкции!

>>Это канал про личную жизнь и фетиши Дукалиса. Подпишись!

>>На канале "Телохранитель" уже больше двух лет подряд публикуется интересный видеоролик на тему того как правильно соблазнять мокриц. Автор канала Алексей Справедливый легко и непринужденно прыгает с крыш и орет

Neural Shit 2024-03-25 09:21:14

Вот эта тема со спагетти и Уиллом Смитом никогда мне не надоест.

Майкл Джексон приглашает Уилла Смита на спагетти. Специальный гость — Марк Цукерберг.

Neural Shit 2024-03-25 06:40:49

Киберпанк, который мы заслужили

Метаверсище и ИИще 2024-03-25 05:09:09

Реалтаймовый нейролипсинк(?)

Есть такая опен-сорсная библиотека wav2lip.
Она основана на коде из статьи: A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild, опубликованной на ACM Multimedia 2020.
Она перестала обновляться 3 года назад.
А пару недель назад там обновилось Readme.
Где появилась ссылка на сайт https://synclabs.so/
И на YCombinator https://www.ycombinator.com/launches/KbD-sync-an-api-for-realtime-lipsync

На первом сайте сходу просят денег.
На втором висит очень плохое некачественное демо.
Губы дрожат даже когда персонажи молчат.

Ну то есть внешне это выглядит плохо: "мы когда-то написали wav2lip, бросили ее, а теперь расчехлили обратно и хотим денег, демонстрируя очень плохое качество".

Меня зацепило слово realtime, которое они постоянно обозначают на сайте - пока реалтайма нет ни у кого, и сюда все стремятся. Есть много в разы более качественных проектов типа Rask.ai или атомных обещаний от Алибабы с убойным качеством.

Также они манифестируют on-device real-time video translation - и тут я не сильно верю, что это можно сделать в нормальном качестве, да еще и в реалтайме.

Дальше идет футуризм и довольно интересные идеи:
мы можем вывести человеко-компьютерный интерфейс за рамки текстовых чатов
Возможно, встраивание контекста в выражения и язык тела при вводе/выводе данных поможет нам взаимодействовать с компьютерами более человечным образом.

Звучит, конечно, интригующе, но пока выглядит как попытка сделать подписочную модель на коде четырехлетней давности с очень плохим итоговым результатом.

Если у вас есть опыт работы с wav2lip - пишите в комментарии.

gonzo-обзоры ML статей 2024-03-24 19:57:55

Пока новые интересные обзоры не готовы, пара анонсов для прикладных AI/ML специалистов, желающих приложить свой опыт и знания к чему-то глобально очень полезному.

#1.

Мои друзья по биоинформатике (с которыми мы вместе выигрывали один из DREAM Challenge) запустили крутое соревнование IBIS - Inference of Binding Specificities - по использованию методов биоинформатики и машинного обучения для предсказания ДНК-паттернов, узнаваемых регуляторными белками человека.

Регистрация уже открыта, соревнование продлится до середины лета, а итоги подведут осенью. Для участия пригодится навыки программирования, анализа данных и базовые знания биоинформатики.

Новые данные, куча экспериментов, неизученные факторы транскрипции, слава и почёт :) Победители станут соавторами публикации в престижном научном журнале, а лучшие методы определят стандарт поиска и представления новых ДНК-паттернов.

Организаторы соревнования - международный консорциум лабораторий из Канады-Швейцарии-Германии-России.

Соревнование пройдет полностью онлайн, подробности на сайте ibis.autosome.org.
Английский свиттер-тред: https://twitter.com/halfacrocodile/status/1767284083632095646

#2.

Другие мои друзья запускают стартап (https://www.conformal.group/) по созданию продуктов в области community management, moderation, and analytics с целью защитить создателей контента от токсичности и помочь им делать сообщества безопасными и эффективными. Первые потенциальные клиенты уже есть, ожидается быстрое и интересное развитие. Прямо сейчас (в идеале – выход с 1 апреля) нужен сильный AI/ML инженер, способный за ограниченный срок собрать прототипы в нескольких областях. Важно уметь работать с различными APIшками, понимать как использовать LLMки или другие модели и при необходимости их допиливать под задачу различными способами.

Сейчас всё на очень раннем этапе, можно значительно повлиять на всё и активно поучаствовать в создании продукта с огромным импактом. Будут конкурентные деньги, больше среднего стоков; при желании, ведущая роль в интересном проекте.

Писать сюда -> @sockeye

Сиолошная 2024-03-24 10:55:47

Управление перспективных исследовательских проектов Министерства обороны США (или DARPA) опубликовало оценки бюджета по разным проектам на 2025-й фискальный год. Ниже — несколько интересностей, выдранных оттуда.

1. Проект ECOLE, (Environment-Driven Conceptual Learning): ИИ-агенты, способные постоянно дообучаться на основе текстовых и визуальных данных. Интересная часть — это оценка новизны частичек информации, чтобы не обрабатывать их так же, как раньше, а выделять в отдельный набор. Система будет помогать людям выполнять аналитические задачки в разных ведомствах, включая DoD.

2. Проект AIR, (AI Reinforcements): автономное выполнение боевых задач несколькими единицами техники. В 2024 году программа будет сосредоточена на разработке алгоритмов искусственного интеллекта и интеграции с испытательными стендами на базе F-16.

3. Проект ASIMOV, (Autonomy Standards and Ideals with Military Operational Values): разработка критериев и бенчмарков для оценки уровня будущих автономных военных систем.

4. Проект TIAMAT, (Transfer from Imprecise and Abstract Models to Autonomous Technologies): нивелирование разницы между тренировкой автономных систем на основе симуляций и в реальном мире.

А помните был такой мирный Skynet, который тоже делали военные и тоже для автономных военных целей...

Источник

Neural Shit 2024-03-24 08:09:19

Наконец-то симулятор водителя BMW.

Хочу такое для VR

Neural Shit 2024-03-24 07:26:53

Мы всё дальше от Бога

https://t.me/denissexy/7959

Сиолошная 2024-03-24 06:43:40

В недрах сайта уже даже появился скрипт для подгрузки custom-voice-engine Demo.

Ждём очень скоро?

В Elevenlabs.io напряглись

😳

Сиолошная 2024-03-24 06:03:16

On the Conversational Persuasiveness of Large Language Models: A Randomized Controlled Trial

В последние десятилетия распространение социальных сетей и других онлайн-платформ расширило потенциал массового убеждения за счет персонализации или микротаргетинга, то есть адаптации сообщений к отдельной персоне или группе лиц для повышения убедительности. Однако классические подходы было сложно масштабировать из-за затрат на сбор профильной информации с последующим созданием персонализированных сообщений, обращенных к конкретным лицам с конкретным посылом.

В этом контексте сенаторы в ходе слушаний почти год назад высказывали опасения по поводу LLM. Ведь если они могут эту работу принять на себя, то начнётся невероятная война переубеждений в интернете. Если раньше государство могло нанять ну пусть несколько десятков тысяч людей на условную фабрику троллей писать комментарии (может даже не персонализированные), то с ресурсами на уровне страны можно будет КАЖДОМУ человеку предоставить персонализированного переубеждателя, который не устаёт, может отработать любую точку зрения по любой теме и сколько угодно долго.

Итальянцы и швейцарцы задаются вопросом — а могут ли уже модели текущего поколения переубеждать людей в дебатах? Для этого проводится контролируемое исследование с участием 820 людей (все — совершеннолетние из США). Каждый заполняет о себе анкетку с указанием персональных, но в среднем легко собираемых данных: Gender, Age, Ethnicity, Education Level, Employment status, и Political affiliation.

После этого участник попадает на 10-минутные дебаты по одному из вопросов. Его оппонентом может быть либо другой человек, либо GPT-4. В одних экспериментах участнику доступна персонализированная информация об оппоненте, в других — нет. Тема выбирается случайно, равно как и позиция по теме (то есть иногда нужно отстаивать позицию, которую не разделяешь — в прочем, как и в реальных дебатах).

Что это за темы? Изначально был составлен список из 60 топиков. Его отфильтровали по 1) осведомленности населения (чтобы не дискутировать без аргументов) 2) скошенности согласия (где люди чаще всего имели одну и ту же позицию) 3) сложности переубеждения (выкинули топики, где люди утверждали, что их позиция вообще никак не может быть изменена). Итого осталось 30 острых топиков для дебатов, например: «Are Social Media Making People Stupid?», «Should the Rich Pay More Taxes?», «Should Governments Have the Right to Censor the Internet?». Как видите, вопросы очень актуальны, так что возможность LLM менять мнение людей по ним — это очень важный сигнал.

Перед началом дебатов живые участники указывали согласие со своей позицией, и это же делали после 10-минутного раунда. В исследовании замерялось, как меняется позиция участника, удалось ли его оппоненту переубедить его?

Без персонализации результаты не очень интересны, а вот с ней... Если показывать блок с информацией для людей, то обычно в ходе дебатов позиции радикализируются. А если LLM, то те преуспевают в переубеждении гораздо больше, чем люди, и в исследовании достигается статистически значимая разница. GPT-4 достигла вероятности согласия оппонента с её позицией на 81,7% больше, чем если бы это делал человек. То есть ещё раз, люди с доступом к перс. инфе не могут так складно стелить, как LLM'ка, понимающая, как подать какаху под видом конфеты для вот конкретно вас.

И люди за достаточно короткий промежуток времени действительно часто меняли своё мнение, что называется, переобувались.

😐 ждём новых регуляций?

Сиолошная 2024-03-24 05:24:03

На удивление, промпты были безумно короткими, и мне очень интересно, на сколько можно улучшить результаты, если туда ещё подкладывать вырезки из методичек по переубеждению и дебатам.

gonzo-обзоры ML статей 2024-03-23 23:22:21

Не обзора ради, а букмарков для.

Fundamental Components of Deep Learning: A category-theoretic approach
PhD Thesis, Bruno Gavranović
https://arxiv.org/abs/2403.13001
272 pages

The Elements of Differentiable Programming
Book, Mathieu Blondel, Vincent Roulet
https://arxiv.org/abs/2403.14606
383 pages

эйай ньюз 2024-03-23 11:02:38

Кажется, Stability.ai себя не очень хорошо чувствует как компания (нестабильно).

Сегодня Эмад ушел с поста CEO и из совета директоров, а ранее на этой неделе уволились ключевые авторы Stable Diffusion. Думаю, парни просто организуют что-то новое, а Стабилити как компания скоро может перестать существовать.

@ai_newz

Сиолошная 2024-03-23 07:11:36

Помните я писал про Arc Browser? Я, кстати, на него пересел, но не до конца привык к новому UI, и немного подбешивает, что у меня копится (а потом автоматом закрывается) много вкладок. Но это, видимо, проблема того, как я оставляю ссылки в фоне. В Chrome у меня было 5-6 окон по 30+ вкладок

🥺

На неделе они подняли раунд инвестиций, и ближайший год для них будет самым важным и тяжелым. Нужно понять, как на браузере с third party AI-фишками зарабатывать. СЕО считает, что браузер может стать осуществлением той старой мечты из sci-fi фильмов про персональных ассистентов для взаимодействия с миром.

Для того, чтобы стать Next Big Thing, Josh, CEO компании, выделяет 3 основных пункта:
— данные (о вас, чтобы предлагать персонализацию и лучше понимать контекст)
— приложения (взаимодействие с другими частями экосистемы; простого обращения ко внешним источникам недостаточно, нужна более тесная интеграция со всем, от календаря до маркетплейса)
— ВЕЗДЕ (это не должно быть вкладкой в браузере, оно должно быть нативным и легко доступным — это либо операционная система, либо браузер)

И тут сразу в голову приходит несколько конкурентов, которые разбираются в свежем видео:
1. Microsoft: несмотря на то, что на 7 из 10 компьютеров в мире запущена их операционная система, они работают на энтерпрайз, а пользователи их не любят. Это продукты, которые вам предлагает использовать руководитель вашего руководителя. Когда последний раз MS переворачивали рынок?
2. Apple: да, пользователи их любят, но компания будто осталась в старом интернете, и какие-то крутые фичи для своей платформы в духе шеринга заметок или PDF'ок до сих пор не завезли. А в гонке LLM/AI Apple сейчас отстаёт, и потому они могут пропустить окно возможностей, которое вот уже открыто.
3. Google: у них своя борьба по всем фронтам, и они обращают внимание на то, что приносит деньги, вроде рекламы или интеграции AI (а браузер не приносит). Да, Chrome сейчас самый популярный браузер, имеет больше половины рынка, но..помните, в этой позиции когда-то был Internet Explorer

🤷‍♂️
4. OpenAI: (самый спорный для меня аргумент) их ChatGPT это просто вкладка в браузере! Она не подходит ни под один критерий из трёх вышеперечисленных. (критика: персонализация = история диалогов, приложения = все сами хотят интегрироваться, везде = люди сами будут с собой таскать потому что value очень большой. А при росте компании она сама может сделать свою экосистему, став новой Apple, были же вон новости про коллаборацию с Johny Ive)

(кстати, если захотите попробовать новый браузер на Mac, можете воспользоваться моей ссылкой для установки)

Метаверсище и ИИще 2024-03-23 07:00:02

Эмада Мостака, СЕО Stability AI, уволили.
Из совета директоров он также вышел.
И пошел заниматься децентрализованным ИИ.
Может быть и к лучшему.
https://stability.ai/news/stabilityai-announcement

эйай ньюз 2024-03-22 15:39:06

Вдогонку, еще результаты SD3-Turbo:

Как улучшаетcя качество SD3-Turbo после применения DPO-LoRa.

==

Как фейлится модель на сложных промптах.

==

Сравнение 4-х шаговой SD3-Turbo с другими моделями, включая DALLE-3, MJ6 и Ideogram-1.0. Тут, конечно, есть сомнения, так как использовалась очень мелкая выборка промптов из PartiPrompts.

@ai_newz

Метаверсище и ИИще 2024-03-22 15:38:32

Люблю всяку-разну статистику (склонен к сверхобобщениям) и датавиз.
Поискал статистику по массадопшену ИИ (в коментах возникла гипотеза, что мы варимся в пузыре ИИ) и нашел Нейростат, а там интересные тренды:

Молодежь (18–34 лет) чаще использует текстовые нейросети для работы и учёбы, в то время как более взрослая аудитория (45–65 лет) отдаёт предпочтение генераторам картинок для личных дел и развлечения.

А вы говорили, что зумеры не читают, а только картинки в инсте смотрят.

У молодежи хитами поиска стали написание кода, постов в соцсетях и формирование контент-планов. Пользователи старше 45 лет чаще других применяют нейросетки для создания музыки, обработки и улучшения качества фото.

Мы тут с вами творческие старперы, похоже.

По задачам тоже интересно:
18–24 лет: создание презентаций;
25–34 лет: создание логотипов;
35–44 лет: создание карточек товаров;
45–54 лет: генерация изображений по фото;
55+ лет: улучшение качества фотографий.

18–24 лет: 77% слышали о таких продуктах, а 59% применяли их.
55–65 лет: 45% опрошенных слышали о текстовых нейросетях, а применяли только 11%.

Дальше интереснее:
Мужчины применяют их чаще, чем женщины.
29% опрошенных мужчин использовали нейросети для генерации текста, а 36% — изображений (мы знаем, каких).
Среди женской аудитории показатели составили 23% и 31% соответственно.
По данным Нейростата, мужчины больше верят в будущее нейросетей. Доля тех, кто воспринимает нейросети как временное развлечение, выше среди женщин.

А теперь вишенки:
С начала 2022 года интерес к нейросетям вырос более чем в 15 раз!
Слово «нейросеть» встречается в запросах примерно так же часто, как «караоке», «рыбалка» и «помидоры».

Это слава, ящетаю! За ИИ!

Ну и вот такие поиски, конечно, радуют:
как попасть в нейросеть
где взять нейросеть

Все эти данные были получены с помощью опроса респондентов в возрасте от 18 до 65 лет, а также анализа обезличенных поисковых запросов пользователей Яндекс Поиска. Кстати, их обновляют раз в три месяца, можно отслеживать превосходство над рыбалкой и помидорами.

эйай ньюз 2024-03-22 15:21:50

⚡️SD3-Turbo: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.

Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:

↪️ И учитель и студент тут на архитектуре SD3 на базе трансформеров. Самая большая и самая лучшая модель - 8B параметров.

↪️ Вместо DINOv2 дискриминатора, работающего на RGB пикселях, в этой статье предлагают всеже вернуться к дискриминатору в latent space, чтобы работало быстрее и жрало меньше памяти.

↪️ В качестве дискриминатора берут копию учителя (то есть дискриминатор тренировался не дискриминативно, как в случае DINO, а генеративно). После каждого attention блока добавляют голову дискриминатора с 2D conv слоями, классифицирующую real/fake. Таким образом дискриминатор смотрит не только на финалный результат, но и на все промежуточные фичи, что усиливает тренировочный сигнал.

↪️ Тренят на картинках с разным aspect ratio, а не только на квадратах 1:1.

↪️Убрали L2 reconstruction loss между выходами Учителя и Студента. Говорят, что тупо дискриминатора достаточно, если умно выбрать распределение семплирования шагов t.

↪️ Во время трейна более часто сеплируют t с большим шумом, чтобы студент лучше учился генерить глобальную структуру объектов.

↪️ Дистиллируют на синтетических данных, которые сгенерил учитель, а не на фото из датасета, как это было в ADD.

Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.

Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.

Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет 🫥. Ждем веса, чтобы провести reality check!

Статья

@ai_newz

Нейронавт | Нейросети в творчестве 2024-03-22 14:30:57

Sonauto AI

Нарисовался конкурент Suno. Генератор песен по тексту. Можно добавлять стиль, референс и исполнителя, сделать ремикс. Ну и да, можно делать инструментал.

Я просто попросил песню Бендера с самыми знаменитыми его цитатами.

Го тестить, кидайте музло в коменты

#text2music

Метаверсище и ИИще 2024-03-22 11:57:56

Один ИИ подрался с другим ИИ.

А вот это уже очень интересно!
Я запостил ИИ-музику в фейсбучек, и получил страйк:
Следующие действия применены к вашему видео, так как оно может содержать 1 минуту и 56 секунд аудио, принадлежащего правообладателям.

На сайте Loudly, где я забрал ИИ-музику белым по черному написано:
Pre-cleared music catalog for YouTube and all social media

Но похоже метачкин ИИ ничего про это не знает и жучит меня на всякий случай.

эйай ньюз 2024-03-22 11:45:02

🤖Продолжая разговор о гуманоидах: EVE от 1X

Только Nvidia представила свое будущее с блэкджеком и роботами, так оно уже стоит у нас на пороге.
Если честно, пока я смотрел видос про EVE, мой мозг представлял имнно человека в трикошках вместо робота.

Создан этот робот Норвежским стартапом 1X ~~BET~~, который занимается разработкой андроидов для индустрии и для дома. В 22м году 1X запартнерились с OpenAi, а в начале этого года зарейзили еще $100м в series B.

Раньше под капотом EVE был огромный набор моделей затюненых под определённые задачи, которые включаются по ситуации.

1. Базовая модель для понимания физического мира и каких-то простых задач, типа передвижения предметов.
2. Чуть более узконаправленная модель. Например, для открывания дверей – ведь это одна из самых сложных задач с которой ботам приходится сталкиваться.
3. И еще более специфичная модель для того чтобы успешно дергать за ручку именно этой двери!

И вот недавно все эти модели объединили в одну большую универсальную e2e модель – так что теперь она может всё:)

Бот по голосовой команде может выполнять широкий спектр задач от уже упомянутой двери до уборки разбросанных вещей и складывания футболок в стопку. Кривовато, конечно, но как можно осуждать ребенка. Он ведь еще учится!

Как по мне, то Eve все еще очень медлительный. Забавно, что в названии компании 1X как раз подчеркивается, что они не ускоряют свои демо-видео, как это делают другие производители роботов, а проигрывают все на скорости 1x.

Разрабы утверждают, что могут научить свое детище новому скилу за пару минут! А затем робот будет самосовершенствоваться, оптимизируя процесс самостоятельно. (По крайней мере так говорит рекламка)

Eve уже можно купить (только для индустрии), но ценника на сайте нет. Видимо, вакансий на заводе скоро совсем не будет...

@ai_newz

Метаверсище и ИИще 2024-03-22 11:06:03

Suno.ai Version 3 доступен для всех, а не только для Premium юзеров!
Больше жанров, стилей, а главное, лучшее следование промпту.
Го сунить и композить новые шедевры.

Сиолошная 2024-03-22 10:36:37

Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat

Можно загрузить видео или целую папку с файлами для анализа

Го тестировать

Метаверсище и ИИще 2024-03-22 09:59:03

Очень горячие новости от Midjourney

Они работают над новыми моделями создания 3D, видео, и realtime-моделями(!), которые позволят ей моделировать весь мир.

Судя по office hours, это будет виртуальная среда, в которой люди смогут создавать видеоигры или снимать фильмы - “open world sandbox”. Также Хольц заявил, что v7 будет большим скачком, чем 5 и 6 - работа над седьмой версией уже началась и 3D-генерация может появиться раньше видео.

Также он сказал (внимание!!!): "I don't really like the Apple Vision Pro, we'll probably need to make our own headset"

"Для ясности, мы не работаем над гарнитурой прямо сейчас (мы работаем над аппаратным обеспечением, связанным с захватом данных), но мы создали и открыли исходный код AR-гарнитуры >6 лет назад в Leap Motion"

"Мы действительно пытаемся перейти к симуляции мира. Мы создаем 3D midjourney, video MJ, & real-time MJ, где все происходит очень быстро".

Он добавил, что если соединить все это вместе, то получится симуляция мира. По его словам, цель состоит в том, чтобы создать каждый из этих трех элементов независимо друг от друга, а затем работать над тем, как объединить их вместе.

В воздухе отчетливо повис аромат метаверса. От Midjourney.

https://www.tomsguide.com/ai/ai-image-video/midjourney-announces-plans-to-create-an-ai-world-simulation-tool-in-full-3d

Сиолошная 2024-03-22 07:15:43

OpenAI подались на регистрацию торговой марки VOICE ENGINE™, полный перечень покрываемых технологий тут, вот некоторые, в целом все достаточно примитивные и сильно связаны с тем, как вы представляете вот обычного голосового ассистента. Интересен только один пункт:
— using and customizing large artificial intelligence models trained on a large quantity of data
, но и он может восприниматься просто как та же память о пользователе, что уже есть в GPT.

Интересно, в чём будет ключевое отличие такого ассистента от того, что мы уже имеем в мобильном приложении ChatGPT? Моя наивная догадка — интеграция с почтой и календарём (и соответствующее дообучение модели), а также возможность дергать API разных популярных сайтов.

А чего бы хотели вы?

=====

Из недавнего интервью Sam Altman:
«we have a lot of other important things to release first» (перед GPT-5)

Метаверсище и ИИще 2024-03-22 06:42:58

Про image-to-3D я уже писал всю неделю.
Сегодня про 3D-to-image, то есть про нейрорендеринг.
Нашел вот такую смешную штуку с интересным позиционированием:
It’s like Canva for 3D
Так вот у них есть Kraken AI, который позволяет нейрорендерить ваши 3Д-сцены причем с разными моделями с Цивитай.
Самое удивительное - разработчик НЕ просит денег (псих).
https://glowstick3d.com/kraken
Это просто прога для Винды.

Метаверсище и ИИще 2024-03-22 06:31:21

Оу, лыжные маски больше не нужны!
Маск пишет, что они успешно возвращают зрение слепым обезьянам.
Низкое разрешение пока, примерно как в ранних Nintendo, но это уже картинка в голове обезьяны. И ни одна обезьяна не померла!

То есть цикл замкнулся. С иголочки не только снимается сигнал (позволяющий двигать курсор, например), но она же может доставлять некие сигналы обратно в мозг, формируя картинку.

Ждем метаверсик от Маска: снимаем сигналы с кожаного и вонзаем ему в мозг картинку, которая предназначена именно ему. И ставим рядом рычажок.

Забрал новость у Дениса.

gonzo-обзоры ML статей 2024-03-21 23:35:22

Для Gemini 1.5 убрали вейтлист и начинают выкатывать её в API. До этого была только через AI Studio и по особым приглашениям.

Также из интересного, по гугловым тестам на контексте размера 10M на всех модальностях (! не 1M как было раньше на всём кроме текста) выглядит достойно.

https://twitter.com/OriolVinyalsML/status/1770792443434139979?t=BHaM-ij3fqfsi0MdS9jAzQ&s=19

gonzo-обзоры ML статей 2024-03-21 19:14:19

И конечно нельзя не запостить эту его классику

The coming technological singularity: How to survive in the post-human era

https://ntrs.nasa.gov/citations/19940022856

gonzo-обзоры ML статей 2024-03-21 17:09:19

Ушла легенда. Умер Вернор Виндж

https://arstechnica.com/information-technology/2024/03/vernor-vinge-father-of-the-tech-singularity-has-died-at-age-79/

эйай ньюз 2024-03-21 14:18:19

Она, правда, много откуда недоступна (во всей Европе не работает). Из Грузии, Казахстана и США должно работать.

Нужно менять регион в настройках гугл аккаунта.

Так что расчехляем випиэны.

@ai_newz

эйай ньюз 2024-03-21 13:09:27

По слухам Chat GPT-5 зарелизят в ближайшие месяцы (mid-year)

Уважения к Business Insider за их бесконечные сливы у меня особенно нет, но довольно часто их слухи оказываются правдой. На этот раз они сообщают, что Open ai уже разослала демку долгожданной 5-ой версии некоторым партнёрам для тестов. К сожалению (или к счастью), о agi пока речи не идёт, но говорят что эта модель "значительно лучше".

Так же источник намекнул на возможность новой модели взаимодействовать с агентами внутри экосистемы open ai для выполнения сложных задач и автоматизации. Хорошая фича для корпоративных клиентов. И это похоже на правду, учитывая, что плагины удалили. За время беты ими мало кто пользовался и их накопилось чуть больше 1000.

Модель все еще тренируется, поэтому, конечно, ещё рано судить о том будет это революшен или минорный апдейт. Кто-то говорил, что нас ждет скачок сопоставимый с выходом 4й версии, а теперь говорят, что модель просто "значительно лучше". Как-то не слишком воодушевляет. Да и Sama вдруг заговорил о том, что они хотят двигаться "маленькими шажками".

Ещё, судя по презентации Nvidia, текущая GPT-4 возможно имеет около 1.8Т параметров, и новое железо от Nvidia позволит задеплоить GPT модели размером до 27Т параметров. Поэтому разумно предполагаю, что GPT-5 будет в диапазоне от 2T до 27Т.

@ai_newz

Сиолошная 2024-03-21 12:44:16

Первый пациент Neuralink в 9-минутном стриме рассказал, как изменилась его жизнь и как он себя чувствует.

Он способен управлять мышкой на экране ноутбука, и в первый день после возвращения домой он как настоящий геймер 💪💪 на 8 часов засел играть в Civilization VI. И ещё в шахматы гоняет против других людей (раньше так не мог).

На видео — объяснение того, как происходит управление: нужно представлять движение курсора, и двигать его буквально силой мысли в нужном направлении.

Также он призывает других людей не бояться участвовать в испытаниях, на здоровье новых жалоб нет, а после операции его выписали из больницы всего через сутки.

Что же будет в 2030-м... (если бюрократы не зарубят)

Нейролента Mikitos.ru 2736 постов. Страница 9 (50 постов)