Нейролента Mikitos.ru 2736 постов. Страница 25 (50 постов)
gonzo-обзоры ML статей 2023-12-23 10:46:22
PathFinder: Guided Search over Multi-Step Reasoning Paths
Olga Golovneva, Sean O'Brien, Ramakanth Pasunuru, Tianlu Wang, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz
Статья: https://arxiv.org/abs/2312.05180
Активно развивается тема многоходовых генераций через LLM. Здесь уже были Tree-of-Thought (https://t.me/gonzo_ML/1885), есть Graph-of-Thoughts (https://arxiv.org/abs/2308.09687) и даже Everything-of-Thought (https://arxiv.org/abs/2311.04254) с применением MCTS. Взбудораживший общественность Q* от OpenAI (https://www.technologyreview.com/2023/11/27/1083886/unpacking-the-hype-around-openais-rumored-new-q-model/) предположительно тоже связан с многоходовым планированием в LLM. Если посмотреть глобально, то оно всё ложится в концепцию LLM Programs (https://t.me/gonzo_ML/1584).
FAIR предложили свой подход к многоходовой генерации под названием PathFinder, метод декодирования для генерации и уточнения reasoning chains. Подход состоит из двух этапов: генерации кандидатов (candidate generation) и их отборе (candidate selection). Для генерации используется метод на деревьях, для отбора специальные функции близости внутри пула кандидатов.
На этапе генерации ветвление происходит на уровне шагов рассуждения, не генерации отдельных токенов. То есть каждый узел дерева -- это шаг рассуждения. На ветвление влияют параметры сэмплинга (типа top-k, top-p, температуры -- для неё реализован отжиг, уменьшение с коэффициентом). Делается ветвление из каждого неудалённого (non-pruned) листа с заданным коэффициентом ветвления и продолжается пока не достигли точки останова либо не превысили заданную максимальную глубину. Ветви удаляются на основе скора (нормализованная на длину сумма logprobs токенов).
На генерацию есть ограничения. Так, модель перегенерирует шаг, если сработала одна из двух проверок: 1) шаг по косинусной близости похож на один из предыдущих; 2) шаг противоречит предыдущему контексту (за это отвечает специальная entailment model, классифицирующая шаг по трём классам: entailment, neutral, contradiction). Ветка дерева обрезается, если за две попытки не удалось сгенерить валидный шаг.
Есть также размер буфера b, ограничивающий количество гипотез, хранимых для каждого вопроса. Финальная гипотеза выбирается из пула так, чтобы она максимизировала сумму функций близости (работал вариант с количеством общих n-грамм) со всеми другими кандидатами в пуле, это интуитивно похоже на голосование или self-consistency (https://t.me/gonzo_ML/1885).
Для тестов используется маленькая LLAMA-7B, проверяют на GSM8K, StrategyQA, CSQA, то есть про арифметический и commonsense reasoning. Для отбора кандидатов пробовали три разных метода: триграммы, и FLAN-T5-XL или text-davinci-003 в качестве verifier model.
Бейзлайны разные: GPT-6.7B, та же LLAMA-7B, MINERVA-8B (ожидаемо рулит на GSM8K) и FLAN-T5-XL 3B (сильно instruction finetuned). В бейзлайнах дефолты в основном на основе greedy decoding + CoT prompts.
Не сказать что PathFinder прямо радикально всех бьёт. На первых двух бенчмарках LLAMA-7B с self consistency выступает прям очень хорошо. Новый подход заметно улучшает только на третьем бенчмарке. Flan силён, но он файнтюнился на части из этих датасетов, так что на цифры смотреть бесполезно.
Отдельно проверили, насколько добавляют качества продвинутые методы оценки (scorers и verifiers через LLM). text-davinci-003 всех бьёт, но до upper bound (с оракулом) ей далеко. В этой части явно есть что улучшать.
Фактор ветвления в сочетании с размером буфера и функцией оценки кандидатов важен. При большом ветвлении функции оценки могут быть сильно подвержены влиянию шума. Для каждого размера буфера свой оптимум. У самого размера буфера тоже есть лимит, после которого качество не улучшается. Также интересно, что для методов на деревьях важно разнообразие, PathFinder начинает перформить лучше end-to-end метода только начиная с 8-кратного ветвления.
gonzo-обзоры ML статей 2023-12-23 10:46:22
Резюмируя, метод вычислительно более тяжёлый в разы (а с LLM для оценки ответов тем более), в данный момент радикального прорыва относительно других методов не показал, но как proof-of-concept или даже скорее развитие активно прорабатываемой везде темы полезен. Больше разнообразия -- это хорошо. Интересно, насколько другой результат был бы на больших топовых моделях, а не на старой первой маленькой Ламе.
Сиолошная 2023-12-23 08:02:15
В рубрике «ненасытные» у нас сегодня OpenAI: Bloomberg пишет, что после Нового года компания хочет привлечь инвестиции при оценке уже свыше ста миллиардов долларов. Sama, наверное, грустит, что столько продал Microsoft по весне по столь низкой оценке (тогда она была $29b, в 4 раза меньше).
Зачем столько денег? Масштабирование моделей, наращивание мощностей — это ключевые направления работы. На данный момент увеличение размера модели и набора данных (и как следствие ресурсов на тренировку: обычно соотношение первых двух один-к-одному, а ресурсы, соответственно, растут как квадрат; модель в 10 раз больше потребует в 100 раз больше мощностей) — это единственные гарантированные способы сделать модель лучше. Можно что-то исследовать, можно инженерить, но результат не гарантирован и даже не прогнозируем. А вот нарастить параметры — это всегда можно, главное решать инфраструктурные проблемы.
Разумеется, и на применение моделей (чтобы они работали в чате у вас и ещё 200 миллионов пользователей) тоже нужны мощности. Вообще разработка высокопроизводительных чипов — очень горячая тема. В октябре OpenAI запартнёрились в ОАЭ'шным фондом G42, и...сейчас от них хотят привлечь от 8 до 10 миллиардов долларов на развёртывание производства чипов, чтобы составить конкуренцию Nvidia и Google (у тех свои чипы, TPU, тоже заточены на нейронки).
На скриншоте — прогноз роста мощностей Google за счёт подключения новых TPU. Правда, смущает столь медленный рост OpenAI, не уверен, что это близко к реальности. Но в общем в гонке мощностей ТОЧНО нельзя проигрывать ни одной из компаний.
Neural Shit 2023-12-23 02:30:04
Кек. Так случилось, что соседствую с прости б-же караоке-баром. Естественно, эти пидорасы каждый будний день устраивают мне по ночам блядские завывания безголосых девиц и парней без единого намёка на присутствие слуха под максимально проклятые басы. А в выходные дни эти самые ебаные басы пиздошат как черти из пизды на лыжах, аж волосы в очке поднимаются.
Вызовы ментов и кляузы в роспотребнадзор не особо помогали, потому, быстренько накидал скрипт на питоне и селениуме (ну а чо, зря их учил штоле?), который в 2gis и яндекс картах нахуярил хуёвых отзывов с упоминанием о громкой музыке внутри заведения (спасибо chatgpt за составление этих отзывов прям по api) и снизил оценку с 4.9 до 2.3. И ЭТО ПОМОГЛО!!!
Итог: selenium + пердолинг с питоном > бесполезный роспотребнадзор.
Сиолошная 2023-12-22 19:41:19
Прогресс в text-to-image моделях за 20 месяцев на примере одного промпа.
Сиолошная 2023-12-22 19:40:22
На неделе вышла MidJourney v6, свежая версия хайповой и популярной text-to-image модели. В ней сделан огромный упор на 3 вещи:
Количество мелкий деталей вроде ниточек и волосков просто поражает.
Погулял по твиттеру и реддиту, сделал для вас подборку. Для того, чтобы добавить интереса, одно из изображений — настоящее. Жду вашу аналитику в комментариях
Блин, Ильич как живой...
AI скептикам предлагается угадать, какой технология будет в 2025м, и сможем ли мы генерить такие же реалистичные видео длинной от 1 минуты.
Источники: 1, 2, 3
эйай ньюз 2023-12-22 10:29:11
Решил разобрать детальнее статейку парней из Tinkoff Research — ReBRAC: Revisiting the Minimalist Approach to Offline Reinforcement Learning, которая была опубликована на NeurIPS в этом году.
Речь пойдет об Offline Reinforcement Learning. Это когда у агента нет доступа к энвайроменту, и он должен тренироваться на предписанном датасете. Это как если бы вы учились играть в Доту, только смотря реплеи и VOD-ы других игроков, но сами бы никогда не пробовали играть. Вот это и есть Offline RL.
Один из популярных методов для Offline RL — это Behavior-Regularized Actor-Critic (BRAC). Если в двух словах, то актор - это сеть, которая принимает решения о действиях агента в разных ситуациях. А критик оценивает действия, выполненные актером, и дает обратную связь о том, насколько хороши или плохи были эти действия. Важным дополнением здесь является, что актор в BRAC, в отличии от online-RL, старается выбирать действия близкие к датасету — это еще называют консервативностью.
Суть статьи в том, что авторы взяли этот минималистичный бейзлайн, Actor-Critic алгоритм, и накачали его стероидами в виде разных трюков, да так что он превратился из слабенького бейзлайна в очень сильный подход, который выдает результат на уровне гораздо более сложных специализированных подходов.
А теперь более детально. Дело в том что, часто в статьях ученые используют всевозможные мелкие трюки, на которых не акцентируют внимание, но которые по сути очень много добавляют к перформансу на практике. Авторы ReBRAC взяли основные трюки и провели детальный анализ влияния каждого из них, и затюнили их для алгоритма Actor-Critic:
- Большая глубина сети: почему-то в литературе до этого в основном использовали MLP c 2-мя скрытыми слоями. Очень странно, ведь это крошечная сетка.
- LayerNorm — полезно вставлять между слоями. Помогает критику преодолеть оверконсервативность.
- Батчи по-больше — всегда хорошо для повышения стабильности тренировки.
- Разная константа в MSE-регуляризации актера и критика.
- Увеличенный дискаунт-фактор для реворда — помогает когда реворд-сигнал довольно жидкий.
После этого оказалось, что даже такой простой алгоритм достиг уровня SOTA, и теперь его можно использовать как очень сильную отправную точку для всех дальнейших исследований в Offline RL.
Мораль такова, что маленькие детали имеют большое значение! Побольше бы таких статей с трюками в других областях, жаль что такое редко публикуется — все держат свои трюки при себе.
@ai_newz
Метаверсище и ИИще 2023-12-22 10:21:56
Вот вам пример удачного применения Stable Diffusion в видеоклипах, да еще и с анимацией головы, все как мы любим.
Польский рэп отлично смотрится на демонической голове. А то, что у него в буквальм смысле закипают мозги, придает смысла всему этому безобразию.
Полная версия тут (там нехило так популярный рэппер):
https://youtu.be/8Ya_vo7gVPE
Андрей, спасибо за наводку на свежий материал.
Сиолошная 2023-12-22 08:25:01
Рождество приближается, а значит появляются первые подарки. Sam Altman в своём блогпосте «What I Wish Someone Had Told Me» поделился 17 вещами, которые он бы хотел услышать и осознать раньше. Рекомендую прочитать оригинал (тем более что он короткий), а ниже сфокусируемся на нескольких наиболее интересных пунктах.
3. Команде легче сделать что-то сложное, но по-настоящему важное, чем простое, но не имеющее никакого смысла; смелые идеи мотивируют людей.
Sam регулярно делает акцент на том, что команда должна быть небольшой, но при этом очень плотной с точки зрения таланта. Люди и хотят, и умеют, и важно ставить перед ними мотивирующие задачи. А как накопится длинная череда пробитых стен — новая будет восприниматься естественно, и при этом не вызывать страхов или переживаний.
4. Стимулы – это суперсила; устанавливайте их осторожно.
Предположу, что здесь идёт речь о правильной мотивации (внешних стимулах для сотрудников). Часто в компаниях цели — это какие-то показатели (метрики), на которые завязаны бонусы/продвижение по карьерной лестнице. Если вы выставите неправильные OKR (Objectives and Key Results), то люди всё равно будут их оптимизировать. Есть разница между «нанять 10 человек в команду за квартал» (можно нанять кого угодно и получить бонус) и «усилить команду сильными кадрами».
6. Коммуницируйте чётко и лаконично.
Часто замечаю, что людям сложно в полной мере выразить свою мысль, а если получается, то очень уж длинно — всё превращается в 10-15 минутные монологи. И своим коллегам, и своим приятелям всегда рекомендую (если проблема наблюдается) формулировать тезисы заранее, а затем организовывать их по принципу пирамиды: начинаем сверху с самого важного, постепенно добавляя детали (если слушающему это нужно).
10. Сотрудники-суперзвезды даже более ценны, чем кажутся, но нужно оценивать людей по их net impact на организацию.
Net impact это вообще очень клёвое понятие, почитайте про него побольше. Ценность хорошего сотрудника не в том, что он делает задачи, которые вы ему даёте — он проактивен, и помогает другим быть эффективнее. Хороший пример — помощь другим командам, раннее выявление и устранение рисков, встречи с рассказами о чём-то новом.
14. Масштабирование часто обладает удивительными эмерджентными свойствами.
15. Сложная экспонента — это волшебство. Обычно вы хотите построить бизнес, который получит увеличивающееся преимущество за счет масштаба.
Также как и Elon Musk, Sama думает о бизнесах в терминах масштабирования: как поставить вещи на поток? Какие-то идеи могут казаться неудачными/невыгодными — до тех пор, пока ты не поймешь, как их вывести на рынок в больших количествах и задёшево (это конкртеный пример, а не общий).
17. Работа с замечательными людьми — одна из лучших частей жизни.
Команда — наше всё.
Метаверсище и ИИще 2023-12-21 23:34:58
Промт инжиниринг для Миджорни теперь в chatGPT.
Люди пилят курсы по промпт инжинирингу в виде Джипитишек.
Недавно видел такой же для самого chatGPT.
Хана инфоцыганам.
Ждём Джипитишку для Stable Diffusion в озвучке Хачатура, а пока тестируем переобучение на промпты для Midjourney V6 тут:
https://chat.openai.com/g/g-sxcDAUKMf
gonzo-обзоры ML статей 2023-12-21 20:47:24
Лентой принесло
https://www.scientificamerican.com/article/tech-billionaires-need-to-stop-trying-to-make-the-science-fiction-they-grew-up-on-real/
Сиолошная 2023-12-21 18:56:01
Вышел ежегодный отчёт по зарплатам разработчиков от levels.fyi (это такой сайт, куда люди анонимно добавляют свои доходы в разбивке зарплата/бонусы/опционы, а сумма называется Total Compensation, или TC).
Год к году распределение фактически не сместилось — у менеджеров на пару процентов подросло, у программистов на полпроцента упало.
Обычно я смотрю на эти цифры как на +-10% выше реальности, но тут дело ваше.
И ещё пара фактов:
— в Европе самые денежные места в Швейцарии (Цюрих — с большим отрывом). Дальше Лондон, Дублин, а Амстердам — на 7м месте
— если вычесть Калифорнию и Нью-Йорк, то в США в топе Greater Portland Area и Greater Austin Area
Метаверсище и ИИще 2023-12-21 14:56:37
Что-то у Гугла не выходит каменный цветок:
"Да, вы все правильно поняли: Совершенно новый LLM от Google, который находится в разработке уже несколько месяцев, справляется с большинством задач хуже, чем старая, менее современная, бесплатная модель OpenAI."
https://venturebeat.com/ai/google-gemini-is-not-even-as-good-as-gpt-3-5-turbo-researchers-find/
Neural Shit 2023-12-21 14:48:32
Принёс вам годный новогодний панк-рок трек.
Пару лет назад нейронки очень хреново генерировали музыку (либо пердёж из midi либо что-то похожее на настоящее произведение, но с лютыми шумами и генерациями около 12 часов на топовых видяхах). Тогда я думал, что до более-менее нормальных и быстрых генераций нужно не менее 5-7 лет развития нейронок и железа. Хорошо, что я ошибался.
Для генерации автор использовал SunoAI, Midjourney и Stable Video Diffusion
Метаверсище и ИИще 2023-12-21 13:25:11
На Хаггинг Фейсе есть показательный классификатор моделей для различных задач.
https://huggingface.co/tasks
Где-то есть категории на 30 000 моделей, а вот в Text-to-3D - 6 моделей, а в Image-to-3D - 2 модели.
Это чтобы вы понимали актуальность задач.
Ну и я просто скормил эту ссылку в chatGPT и попросил дать мне отсортированный список по количеству моделей, а потом попросил его же сделать диаграмму.
Заняло 2 минуты. Поглядите, что сейчас наиболее популярно и что занимает ИИ-умы.
Метаверсище и ИИще 2023-12-21 12:52:52
Ну и пингвины из V5 (внизу) нравятся мне больше, чем из версии Midjourney V6. А попугая он все равно не смог пристроить, куда следует. С композицией по прежнему проблемы.
A funny cartoon of pirate penguins on a tropical island, searching for treasure with a map, wearing pirate hats, and a parrot sitting on one's shoulder.
Метаверсище и ИИще 2023-12-21 12:45:15
Не знаю как зайца, а кота Midjourney V6 научила курить очень быстро.
Для интереса скормил картинку этого кота в DALL·E 3 и попросил reproduce this picturу with maximum details, потом попинал про фотореализм. Но в фотореализьм DALL·E 3 не умел и не умеет. Но котов курить тоже научит.
Метаверсище и ИИще 2023-12-21 12:33:19
Вышла Midjourney V6 Альфа. Мысли
Тут маркетинг-цыгане, которые гонят себе трафик с упоением пишут, что "Midjourney 6 теперь может создавать 3D-модели, что открывает перед создателями совершенно новый спектр возможностей."
Сразу закроем вопрос - там нет 3Д-моделей.
Вы сами можете почитать, что там реально есть по делу у Саша Аймолодца. А я навалю того, что уже раскопали пользователи.
Длина промпта теперь составляет 350+ слов.
Вы можете указать цвета и другие детали.
Вы можете размещать предметы на холсте, где хотите, используя язык для управления композицией.
С текстом все гораздо лучше, но до DALL·E 3 далеко
Вы можете общаться с Midjourney, как с ChatGPT(!)
Midjourney V6 способен понимать нюансы пунктуации и грамматики. (Например, "Панда ест, стреляет и уходит").
Теперь особенно круто использовать V6 для создания комиксов.
Отрицания на естественном языке тоже работают.
Вы можете добавить рамку или рамку вокруг изображения, просто описав ее.
И вот вам хорошее сравнение V6 и V5, лучше посмотреть наяву, чем читать новости. Я не очень впечатлен качеством, но явно изменилось пониманием промпта.
https://threadreaderapp.com/thread/1737728299332460681.html
Пара мыслей с дивана:
Новый язык для промптов. Промпты от V5 можно если не выкинуть, то переделать.
Это Альфа и там еще будет много меняться.
Из промптов уходят все эти междометия типа "вах, 4К, конецглазам, awardwinning, wow, trending on artstation" - все это зашивается вовнутрь. По сути внутри появляется своя LLM, которая "понимает", что вы там хотели сказать и угадывает ваши фантазии. Также работает DALL·E 3 и это давно есть в Фокусе.
По сути мы уходим от ассемблера к питону и все эти 4К и Octanerender остаются в прошлом, но надо понимать, что мы будем полагаться на представления ИИ об устройстве этого мира.
Я напишу, как я генерил "самых страшных мужуков планеты". Так вот, бьютификация уже настолько въелась в веса моделей (и тех что генерят, и тех, что докручивают промпты), что без дополнительных усилий, картинки получаются по умолчанию мимишными. Конечно, можно докрутить, но я о том, по умолчанию, генераторы впрыскивают бьютификацию в простые и понятные промпты и создание "страшных" образов требует бОльших усилий.
Сиолошная 2023-12-21 08:45:06
Принёс вам интересных слухов про будущие обновления ChatGPT.
В прошлый раз, за 3 дня до OpenAI DevDay, Tibor Blaho (инженер и кофаундер стартапа, делающего плагин вокруг LLM), писал, как будет выглядеть новый интерфейс, показывал GPTs итд. Я тогда в канал не запостил — источник был непроверенный, мало ли какой левый чел накалякал новый UI. Но видимо его компания имеет какой-то бета-доступ к обновлениям OpenAI, потому что всё написанное тогда оказалось правдой.
Собственно, вот новая порция информации — на этот раз про Project Sunshine. В целом, это добавление долгосрочной памяти к вашим чатам: теперь ChatGPT «записывает» себе информацию про вас. Если в одном вы скажете «через 2 недели я лечу в Лисабон» — то в следующем чате модель может отсылаться к этому факту, и отвечать на ваши запросы с учётом информации. Также указывается, что GPT будет лучше подстраиваться под вас, и со временем становиться ещё более полезной и персонализированной. И да, будут анонимные чаты, которые и в память не записываются, и вашу информацию не учитывают
Интересно, что вчера OpenAI объявили, что чаты можно архивировать — и они будут попадать в специальную папочку в настрйоках, и исчезать из общей истории. Про это Tibor Blaho тоже писал (более чем за сутки до официального анонса). Так что похоже, что релиз уже вот совсем скоро — до конца года...что означает, что GPT навсегда запомнит ваши новогодние истории
Картинка — генерация DALL-E 3...от сотрудника OpenAI...в сентябре
gonzo-обзоры ML статей 2023-12-20 15:45:45
An In-depth Look at Gemini's Language Abilities
Статья: https://arxiv.org/abs/2312.11444
Код: https://github.com/neulab/gemini-benchmark
Нанообзор.
CMU и некий BerriAI опубликовали своё сравнение Gemini Pro с GPT-3.5, новой GPT-4 Turbo и Mixtral. В оригинальной статье Гугла как раз самых новых интересных моделей типа GPT-4 Turbo не было. Ещё конечно было бы любопытно с Claude 2.1 сравнить.
В целом от Pro особых ожиданий не было, она и по родному сравнению была примерно сравнима с GPT-3.5 (в текущем сравнении она оказалась похуже). Самая интересная модель Ultra, но она пока недоступна. Интересно, конечно, будет, если OpenAI успеет GPT-4.5 до конца года выкатить.
Ниже одна итоговая картинка со сравнением. За деталями самих сравнений велкам в статью.
Метаверсище и ИИще 2023-12-20 15:19:25
Ну за дикторов и актеров.
Вот вам еще огненного липсинка.
Тут вот интернетик приподвзорвался новостью про новых ИИ ведущих с канала Channel1.
Срочно шуруйте сюда и смотрите прямо первое видео.
https://www.channel1.ai/
В шапке только начало.
И да, сделано очень и очень хорошо.
Но есть два момента.
Это не реалтайм (по крайней мере я не верю, что это реалтайм).
И самое главное: тут все плачут кипятком, что это полностью сгенерированные ИИ-дикторы.
Что всё, что в кадре - это наворотил ИИ.
Здесь ИИ поработал только с головой. Также как D-ID или Heygen.
Поглядите на руки (ну и пальцы конечно) - там некоторое количество подснятых жестов рук и туловища, которые микшируются с некоторой периодичностью или случайностью. Старый добрый композ и монтаж на скриптах.
Что не умаляет огненности продукта, сделано действительно классно. Но помните, что тут генерится именно голова, а не весь кадр.
Ну и коль скоро рынок сходит с ума именно по говорящим головам, ассистентам, аватарам, инфлюенсерам и прочим цифровым тварям - это очень хороший пример доведения до годного продукта. Пусть пока и не в реальном времени.
Придет время, займемся тушкой, а пока смотрим в глаза, читаем по губам. Кстати зубы здесь отлично сделаны. Я пока не нашел, чье это техническое решение, найдете инфо, как было сделано, кидайте в коменты.
https://www.channel1.ai/
Метаверсище и ИИще 2023-12-20 14:58:32
Помните историю про Гугла и горилл?
Google Photos постоянно распознавал чернокожих людей как горилл и наоборот. На фотографиях.
Два года Гугл пытался научить ИИ отличать горилл от афроамериканцев, однако потерпел поражение, и в результате вынужден был просто исключить само понятие «горилла» из Google Photos.
Вчера тестировали бота @daisy_avatarbot в коментах и подписчик прислал вот такой вот скрин.
И если Гугл может просто вычеркнуть некоторые слова из своего лексикона, то из весов Stable Diffusion и довольно трудно выкорчевать такие безобразия. ИИ насмотрелся, подучился, и разучить его обратно будет довольно сложно.
Пост нейтральный - о том, что ИИ будет указывать нам на некоторые совпадения, а мы будет намертво стоять на своем, в духе "мы не такие" или "жопа есть, а слова такого нет, странно". И что алайнмент - штука ох какая непростая.
Метаверсище и ИИще 2023-12-20 14:46:01
Я вот смотрю на схему Гугловского Видео-Поэта и все это мне напоминает этакий метапрототип нейрокомпоза.
Работа с видео тоже когда-то с чего-то начиналась.
Только теперь композеры будут сидеть в наушниках с шумодавом в своих темных комнатах и орать в мониторы неистовые промпты.\
Метаверсище и ИИще 2023-12-20 14:23:23
На поляне text-to-video становится жарко. Батя пришел.
У кого больше всех видео для тренировки и парочка LLM в кустах?
Правильно у Гугла.
Вот и держите Видео-Поэта, заявку на участие в этой гонке.
И там очень много новых фич, которых нет у конкурентов.
1. Длинные видео.
По умолчанию VideoPoet выводит 2-секундные видеоролики. Но модель также способна генерировать длинное видео, предсказывая 1 секунду выходного видео при вводе 1-секундного видеоклипа. Этот процесс можно повторять бесконечно для создания видео любой продолжительности. Несмотря на короткий входной контекст, модель демонстрирует сильное сохранение идентичности объекта, примеры на сайте. И в шапке поста.
2. Озвучка. Генерация звука из видео.
В описании акцентированно, что все модальности загоняются в токены и поэтому модель может преобразовывать текст, аудио и видео друг в друга.
3. Преобразование текста в видео.
Это понятно. Смотрим примеры.
4. Inpaint и Outpaint. Все как у людей.
5. Редактирование видео с помощью "анимации" промптов.
Тут опять упор на сторителлинг.
6. Анимация изображений на входе.
Все как у людей. Зевающая Мона Лиза там смешная, да.
7. Ловкая стилизация видео. И вот тут интересные примеры - в отличие от дифузионных решений на базе Stable Diffusion тут все довольно гладко.
8. Очень интересные примеры редактирования уже готовых видео.
Ну и самое главное, тут ничего не кипит!
В шапке пример ИИ-сторителлинга: для сценария Бард написал серию промптов, чтобы детализировать рассказ о путешествующем еноте. Затем сгенерировали видеоклипы для каждого промпта и соединили все полученные клипы для получения окончательного видео.
Ну то есть получается не просто генерация клипов, а замах на рассказывание историй. Написанных вами или вашим другом ИИ.
Обязательно поглядите сюда:
https://sites.research.google/videopoet/
Ну и кстати, от вертикальные видосы тоже делает, специально для тиктока.
P.S. Все эти ацкие еноты, конечно, разные и неконсистентные. Но амбиции Гугла на сторителлинг и анимацию со спецэффектами возбуждают.
Сиолошная 2023-12-20 09:00:20
Прочитал в Bloomberg интересную заметку о стартапе Retro.
Их цель проста, но в то же время амбициозна: добавить людям 10 лет полноценной жизни (читай отодвинуть старение: в эти годы вы должны оставаться продуктивным). Стартап базируется в Калифорнии, и привлёк $180m от единственного инвестора, Sam Altman (мужик направо и налево деньгами швыряется).
От других компаний (а их, оказывается, уже штук 5 — и это только с крупными инвесторами и какими-то публикациями) они отличаются более «стартаперским» подходом: вместо того, чтобы гоняться за одним сверхмногообещающим топиком исследований, они решили одновременно поддерживать пять направлений. Сюда входит аутофагия (удаление поврежденных клеток из тела), омоложение плазмы крови (без переливаний от доноров), и ещё три программы, которые можно коротко охарактеризовать как «частичное перепрограммирование клеток». Одной из таких, кстати, управляет Anastasia Shindyapina — цель её подкоманды сделать так, чтобы механизмы имунной системы не старели так быстро. Проще говоря в 40 ваше тело будет вас лечить также, как в 20.
Это всё может звучать как фантастика, но перепрограммирование клеток — это процесс, доказанный в многочисленных экспериментах на животных, в ходе которого клетки более старого существа можно обработать комбинацией белков или молекул и превратить в гораздо более молодые. И за это уже выдали Нобелевскую премию несколько лет назад! Retro и некоторые другие стартапы вообще считают, что это самая многообещающая технология долголетия из всех (на данный момент). Один ко-фаундер характеризует это так: по-сути, у нас есть ответ, осталось придумать решение, и все проблемы тут лежат в инженерной плоскости (ну и легализации/лицензировании).
А СЕО компании вообще имеет интересную историю. В старшей школе он забивал на уроки (кроме математики и физики) и выпустился со средней оценкой D (это двойка?). Следующие шесть лет он провел, живя в общем доме с «музыкантами, художниками и чудаками». В конце концов его девушка поступила в Гарвардский колледж, и он решил последовать ее примеру. Он провел семестр в местном колледже, взялся за голову, получил отличные оценки и подал заявление о переводе в Гарвард. Приёмная комиссия была ... впечатлена 🙂
эйай ньюз 2023-12-19 22:39:50
🤯Локальные LLM-ки на подъеме — некий Кулибин запуcтил Карпатовскую llama2.c на Galaxy Watch 4!
Моделька не самая жирная, но это пока. Через год-два 1B параметров будет на часах бегать. Персональный ассистент у вас на руке!
Скорость:
Модель с 15M параметров: 22 токенов/сек*
Модель с 43M параметров: 8 токенов/сек
Вот вам еще небольшая подборка моих постов, про локальнные LLM:
- LLaMa с text-retrieval плагином: тык-1, тык-2
- LLama-7B на на макбуке: тык
- LLaMa-30B на макбуке (4-bit + mmap): тык
- llama2.c или Карпатый запускает LLaMa-2-7B на рисоварке: тык
- Falcon 180B дома на маке M2 Ultra: тык
*один токен - это чуть меньше одного слова.
@ai_newz
gonzo-обзоры ML статей 2023-12-19 21:41:44
For Distillation, Tokens Are Not All You Need
Mrigank Raman, Pranav Mani, Davis Liang, Zachary C. Lipton
Статья: https://openreview.net/pdf?id=2fc5GOPYip
Новости дистилляции. Статья с воркшопа Instruction Tuning and Instruction Following на NeurIPS 2023.
TL;DR Авторы предложили метод дистилляции LLM под названием SLIM, использующий значения топ 5% логитов для дистилляции на каждом шаге декодирования + динамическое взвешивание KL/CE лоссов. Результат лучше классической дистилляции, SFT и MiniLLM. Метод скейлится до учителей размером ~70B.
Если поглубже, то современные LLM доросли до огромных размеров и часто используются для аннотирования и генерации инструкций для файнтюнинга малых моделей. Классика файнтюнинга при этом -- supervised fine-tuning (SFT), дообучение на новых (сгенерированных) текстах как на hard labels. Мы знаем, что этот метод несёт сильно меньше информации о распределении, чем мог бы (https://t.me/gonzo_ML/1911).
Дистилляция уже используется для LLM (и многие маленькие LLM получаются из больших, та же Gemini вроде как) и с ней есть сложности. Например, маленькая модель может быть недостаточно выразительной, чтобы покрыть все моды распределения учителя.
Недавний метод MiniLLM (https://arxiv.org/abs/2306.08543) заменяет forward Kullback-Leibler divergence (KLD) на reverse KLD, чтобы предотвратить переоценку студентом низковероятностных регионов распределения учителя. Там для обучения использовался RL, что добавляло сложности. Текущая работа всё упрощает и улучшает, подход назвали SLIM (Sparse Logit Infused Modeling).
Идея проста. Давайте по нашему датасету для обучения через модель-учителя создадим датасет логитов (выходы нейронов без применения функции активации). Для каждого токена в последовательности получаем соответственно V (размер словаря) значений, это будут soft targets. Проблема с таким подходом, что это требует дофига места. Для уменьшения требований предлагается взять только 5% максимальных логитов для каждого токена, остальные считать нулями, так получаются разреженные логиты.
Дальше запускаем процедуру дистилляции (для тех, кто забыл как это работает, можно почитать тут https://t.me/gonzo_ML/118), где в качестве целей берутся soft targets и лосс, являющийся взвешенной суммой обычного кросс-энтропийного лосса (CE) и традиционного KL лосса. Вес KD лоссу даётся зависящий от соотношения логита учителя и студента, таким образом он получается адаптивным и у KL компоненты больше вклад, когда у учителя больше уверенность в предсказании, чем у студента.
Подход проверили на задачах следования инструкциям. Оценивали по Rouge-L и через фидбек от GPT-4. Сравнивались с SFT на hard labels и MiniLLM, для обучения использовали 7B модели LLaMA, LLaMA 2, MPT, учитель был 13-30B. SLIM даёт результат лучше бейзлайнов. SFT вообще хуже всех.
Затем проверили на downstream задачах: ARC, Hellaswag, MMLU, TruthfulQA. Здесь сравнивались с SFT на LLaMA 2 70B в качестве учителя и Llama2-7B в качестве студента. Тоже лучше.
Также проверили генерацию данных для предобучения. Взяли Pythia-6.9B и сгенерили ей датасет текстов + 5% логитов. Затем обучили случайно инициализированную Pythia-160M на подвыборках датасета разного размера. По графику перплексии показали, что SLIM более sample efficient, чем SFT и обычная дистилляция. Я тут не до конца понимаю, что именно они всё-таки под обычной дистилляцией подразумевают, более классический KL лосс чтоли и без топ 5%?
Anyway, просто и эффективно. Метод вроде не сильно отличается от классической дистилляции, не назвал бы его радикально новым, по мне так скорее итеративное улучшение. Интересно, как сами OpenAI, Гугл и остальные внутри себя модели дистиллируют. Есть ли большая разница.
gonzo-обзоры ML статей 2023-12-19 21:41:44
Проблема, что этот метод сложно применять с blackbox моделями типа OpenAI, но с новыми параметрами про logprobs и top_logprobs (https://platform.openai.com/docs/api-reference/chat/create#chat-create-logprobs) как-то можно к этому приблизиться. Правда лицензия (https://openai.com/policies/terms-of-use) вроде как это запрещает (“Use Output to develop models that compete with OpenAI”), но тут я не очень понимаю, как на сгенерённых GPT-4 датасетах обучают другие модели, там почему можно?
Denis Sexy IT 🤖 2023-12-19 18:14:54
Несколько недель играюсь с Claude 2.1 от Anthropic (это отпочковавшиеся сотрудники OpenAI, ныне конкуренты OpenAI). Сам по себе Claude 2.1, конечно, уступает GPT 4 по уровню рассуждений модели — но в нем есть одна сильная сторона, контекстное окно в 200 тысяч токенов.
GPT 4 Turbo тоже якобы умеет в большой контекст — в ChatGPT, с ноября этого года, контекстное окно 32 тысячи токенов, что неплохо, но на самом деле она «забывает» детали контекста уже через 5 тысяч токенов (пруф ).
А функция, когда вы прикладываете документ ChatGPT и задаете по нему вопросы, работает на какой-то своей версии RAG, о котором я писал тут (где зомби апокалипсис книги генерировал), что как бы костыль над большим контекстным окном.
Разработчики Anthropic реально озаботились проблемой «забывания» данных в контекстном окне и в новой модели Claude 2.1 достигли ~90% запоминания всего что ей передавали: по-простому из 200 000 токенов, новый Claude будет точно помнить ~180 000 токенов или больше, что для моих задач идеально.
Вот мои наблюдения, как такой гигантский контекст можно применять в жизни и работе:
— Я стал более ленивым: меня иногда ломает читать сложные статьи потому, что я лучше тиктоки посмотрю (
— Это идеальное средство борьбы с графоманами: некоторые люди любят писать больше, чем доносить суть, буквально вчера сэкономил себе 30 минут чтения статьи по теме ИИ, просто поспрашивав важные для меня вещи и получив выжимку.
— Это самый быстрый способ получить быстро знания из большого документа (скриншот ниже): будучи гражданином РФ и находясь под санкциями в ЕС, я сталкиваюсь с доп юридической нагрузкой. Не так давно получал посылку от брата с личными вещами оставленными в мск 7 лет назад, и нужно было проверить ~270 страничный ЕС документ на то, какие товары я могу импортировать будучи гражданином РФ, а какие нет (cтарая Sega запрещена или нет будучи электроникой, и так с каждой позицией и тп). Самый быстрый способ «прочитать» документ — было загрузить текстовую версию документа в Claude 2.1 и скормить список моих товаров. Это не совет всегда поступать так с юридическими документами, но мне помогло: таможня в Амстердаме провела посылку без проблем. При этом, местный транспортный агент испугался работать с такими сложностями (особенно с документом запрещенных товаров), так что я сам на таможне все заверял (они тут лапочки по сравнению с таможней экс-СНГ стран, буквально за ручку водили). А Claude 2.1 сильно помог в уверенности что запрещенки в посылке нет.
— Один из самых технических кейсов (на видео ниже он же): для neural.love, огромной долей трафика является SEO, но мы как бы не то чтобы настолько эксперты, чтобы технически каждый сантиметр сайта адаптировать под SEO-нужды, нас всего 8 человек в команде. Поэтому, я скормил html-код страницы конкурента который выдается лучше нас и html-код нашей страницы, и попросил указать точки роста для нашей SEO-оптимизации. Поскольку 200k токенов это дофига, Claude 2.1 расписал наши точки роста, и это все конвертировалась в таск в Jira который поможет нам лучше конкурировать в Google выдачи.
Выводы:
Я в восторге от большого контекстного окна, это тот самый кусок технологии который ее по настоящему раскрывает ее потенциал. Очень жду что OpenAI починит забывчивость и сделает своей контекстное окно таким же (думаю, в 2024 так и будет).
P.S. Claude 2.1 сейчас в закрытой бете, и туда не всех пускают, я подавал заявку тут. Но учтите, что в веб версии лимит 100k токенов, так как веб-версия начинает тормозить от кол-ва текста.
P.P.S. Один токен это примерно 70% обычного слова, чтобы было проще понять что это
Neural Shit 2023-12-19 16:42:58
Ковырялся в старом жестком диске и нашел файл с генерациями пословиц и поговорок. Это было давно (2018 год), с нейронками тогда было туго, потому для подобного использовал алгоритм цепей Маркова. Получалось достаточно забавно, но приходилось очень долго черри-пикать результаты:
>>У двоих нянек ребёнок с козла молоко пьёт
>>Бабушке – тело без души
>>Хороша Маша, да без матки
>>Бог людей видит, да воет
>>Были вишни, да в могилу вышли
>>Хороша Маша, да рыло коротко
>>Кому страсти-напасти, кому гнить
>>От плохой жены состаришься, от свиньи — помолодеешь
>>С виду – тихоня, а всё жрёт и жрёт
>>Садись, кум, обедать: вон твои друзья утонули
>>Кто рано встаёт того Бог не жалеет
>>Кто много знает – того в гроб кладут
>>Голодный кот хуже татарина
>>Лучше синица в руках, чем журавль в плохом разуме
Neural Shit 2023-12-19 16:15:53
Всё так.
эйай ньюз 2023-12-19 16:03:04
Вы только посмотрите на этого обаятельного 30-летнего молодого человека. Это Джеф Безос, основатель Амазона, показывает первый офис компании в 1994 году. Амазончику тогда было всего несколько месяцев от основания, и только через 3 года он сделает IPO.
Съемку ведет отец Безоса, все действия проходят в гараже. Любопытно, что видео как бы нарочно записывалось, уже зная про безусловный будущий успех компании 📈, чтобы похвастаться через 30 лет, мол, посмотрите с чего я начинал — кабели кругом и бардак на столе.
Все равно видео атмосферное и вдохновляющее, да и Безос там ещё совсем скромный.
@ai_newz
Neural Shit 2023-12-19 15:57:49
Попробовал в llama (13b) сгенерировать статьи нейроуголовного кодекса. Неплохо вроде:
>>Статья 49. Ежедневное устраивание самоубийств
>>Статья 3776. Неправомерное хождение по говну
>>Статья 20. Агрессивная мастурбация
>>Статья 054. Возложение рук на голову с последующим недовольством
>>Статья 449. Незаконное использование жаб как транспортных средств
>>Статья 69. Жажда пельменей с особо извращенным сладострастием и готовностью к половому акту.
>>Статья 69. Изготовление жидкого мыла из кала
>>Статья 39. Ожидание от телепузиков не только песен, но и чего-нибудь еще интересного
>>Статья 53. Изготовление и использование в качестве оружия массового поражения кухонных тряпок
>>Статья 81. Приготовление пищи из свёклы – за исключением случаев, когда это необходимо для поддержания жизни.
Метаверсище и ИИще 2023-12-19 15:44:45
А вот и тот самый ловкий бот, который так шустро меня вчера стилизовал и даже брил. Я знаю ребят из red_mad_robot еще по прошлой жизни и CG EVENT, с креативом у них всегда был огонь.
И теперь они выкатили бота Daisy_avatar. В нём можно и диджитал лук собрать, и себя примерить в будущем. Красный киберпанк, страстный футуризм или роботизированный металлик — выбираете сами.
Самое интересное, он бесплатный, в отличие от большинства ботов. Пару раз в процессе он вас попросит подписаться на каналы ребят (для меня не проблема, я и так подписан) и это все!
Тестим по ссылке: @daisy_avatarbot без всяких промокодов и наваливаем в коменты ад и киберпанк.
Я на этот раз поиздевался над ним как следует, дал ему на вход фотку с очками, чтобы посмотреть, как он мне дорисует глаза. Ничего, дорисовал, видать что-то знает про меня.
@daisy_avatarbot
Метаверсошная 2023-12-19 15:00:00
Так-с, там Эндрю Босворт тех дир Меты, выкатил программный пост с итогами десятилетия.
Что мне показалось интересным:
- ставка очень явно делается на смешанную реальность, а не VR.
У смешанной реальности намного больше юзкейсов, Мета внимательно следит, что люди делают с новым шлемом Квест 3.
7 из 20 лучших приложений к концу года - это приложения смешанной реальности.
- технология ИИ и технология "метаверса" (условно - "воплощенного" интернета, внутри которого мы будем находиться) идут навстречу друг другу. И в какой-то момент соединятся.
- Босворт хочет, чтобы ИИ видел мир нашими глазами (это отсылка к их умным очкам Рэйбан), даже больше - воспринимал мир как мы, люди. И не нуждался в подсказках.
- на основе метовских нейросеток Llama и Llama 2 уже напилено 13 тысяч приложений. Теперь, говорит Босворт, надо принести этот огонь людям (а не только задротам, которые ковыряются с API) и мы уже встраиваем все это добро во всякие инстаграмы.
А главный вопрос - это что нас ждет в следующее десятилетие.
Нужно сформировать видение уже сейчас, чтобы понимать куда нам ехать.
Метаверсище и ИИще 2023-12-19 14:13:58
Пока мы тут влажно мечтаем о реалтаймовых трансляциях с помощью нейромокапов, нейролипсинков, нейроинтерфейсов, настоящие реалтаймовые трансляции делаются примерно вот так.
Дэнчик Золотаренко прислал мне такой пример и бесценные коментарии к нему.
Два мира, две системы - с одной стороны наши влажные нейрофантазии, с другой стороны UE5 и прямой эфир.
Мы отэфирили сегодня ночью.
Самый сложный проект с реалтаймом который я видел so far: https://www.twitch.tv/videos/2006026375?t=9143s
Виртуальный стадион, который снимает в режиме трансляции команда реальных операторов с камерами на трекинговых системах (в том числе и реальный кран, например) и ведущая в мокап костюме.
И гости в виде аватаров.
И все это живяком, в прямом эфире.
Трансляцию обеспечивала WePlay, банда в которой я сейчас работаю. Компания специализируется на трансляциях игровых и не только ивентов. Активно используют XR, дополняя натурные декорации виртуальными. В этом проекте был использован любопытный подход: команда режиссера и операторов, за реальными камерами и краном с трекингом, снимала полностью виртуальный стадион. Плюс виртуальный ведущий на мокапе, и включения гостей в виде аватар и врезки разных видео, все живяком, в прямом эфире, как на любом спортивном ивенте.
Метаверсище и ИИще 2023-12-19 13:34:19
Я уже писал, что в интернете нынче жируют инфоцыгане, которые учат новых нормальных внятно разговаривать. Ну то есть писать промпты. Вершина всего этого - курсы о том, как создавать курсы с помощью chatGPT.
Бог им судья, а вот OpenAI насмотревшись всего этого ада взяли и выпустили предельно структурированный документ о том, как лучше общаться с chatGPT.
Но он большой и чтобы его прочитать, нужно включить мозг. Поэтому ждите курсов о том, как читать гайд от OpenAI.
А я заглянул в документ и в соответствии с гайдами оттуда суммаризировал его самого.
Вот промпт:
Summarize the following link in a single paragraph. Then write a markdown list of the topics and each of their key points. Finally, list the next steps or action items suggested by the topics, if any. https://platform.openai.com/docs/guides/prompt-engineering/strategy-write-clear-instructions
А ниже перевод ответа chatGPT.
В общем тема промптинга закрыта, но человеческая лень всегда будет источником наживы для инфоцыган. Надо же читать и использовать мозг - а вам предлагают слушать и не использовать. Кстати, попробуйте загнать chatGPT в роль инфоцыгана...
Руководство OpenAI под названием "The OpenAI guide on "Writing Clear Instructions for Prompt Engineering" предлагает стратегии создания эффективных подсказок при работе с моделями искусственного интеллекта. В руководстве подчеркивается важность ясности, конкретности и структуры в инженерии подсказок для улучшения качества и актуальности ответов ИИ. Оно описывает различные техники и соображения для написания подсказок, которые эффективно передают требования задачи ИИ, обеспечивая более точные и полезные результаты.
Темы и ключевые моменты
Ясность инструкций: Подчеркивает необходимость недвусмысленных и простых инструкций для точного руководства моделью ИИ.
Конкретность задач: Выделяет важность предоставления детальных и конкретных инструкций для достижения точных результатов.
Структурирование подсказок: Обсуждает преимущества логичной и согласованной организации подсказок для руководства понимания и ответов ИИ.
Понимание возможностей ИИ: Рекомендует хорошо разбираться в сильных и слабых сторонах ИИ для лучшего создания подсказок.
Итеративный подход: Поощряет итеративный процесс уточнения подсказок на основе обратной связи и результатов.
Следующие шаги или пункты действий
Пересмотр и уточнение подсказок: Постоянно оценивать и улучшать подсказки на основе работы и результатов ИИ.
Оставаться в курсе обновлений ИИ: Следить за последними возможностями и изменениями в моделях ИИ, чтобы соответствующим образом корректировать подсказки.
Практика и экспериментирование: Регулярная практика и экспериментирование с разными стилями и структурами подсказок для выявления наиболее эффективных.
Метаверсище и ИИще 2023-12-19 12:33:11
Вот я тут пишу про нейромокапы, которые восстанавливают движение тела и лица с видео.
А есть некоторое количество альтернативных подходов.
Помните, что Эппле запатентовала умные наушники, которые умеют снимать ЭЭГ, через ухо (ближе к мозгу, миниатюрный дизайн).
Оказывается можно предсказывать выражение лица по форме (по изменению формы) ушного канала.
Держите работу по реконструкции лица с помощью внутриушных акустических датчиков, встроенных в наушники. Тут и отслеживание выражения лица, пользовательские интерфейсы, AR/VR-приложения, аффективные вычисления и т. д. Традиционные решения на основе видео и компьютерного зрения не работают при плохом освещении и окклюзиях, а имеют проблемы с конфиденциальностью. А решения для наушников устойчивы к условиям окружающей среды, сохраняя при этом приватность.
И вот это уже интересно!!
Вместо лыжной маски или потного шлема (или даже иголочки от Маска) - наушники-затычки в уши, которые майнят информацию из мозга(ЭЭГ), от мышц, из звука и выдают вам цифрового двойника со всеми его фонемами, выражениями и даже эмоциями (в пределе и мыслями, не зря Эппле патентует ЭЭГ через ухо).
В общем, такой метаверс нам нужен! Ну и не забудьте почитать вот этот пост
https://dl.acm.org/doi/abs/10.1145/3614438
Метаверсище и ИИще 2023-12-19 12:04:48
Алибаба продолжает жечь.
Если вы зайдете на https://github.com/damo-vilab/i2vgen-xl - генератор видео, о котором я писал вчера, то шуруйте ниже в раздел News. Там они поливают решениями на основе своей генеративной видео-модели.
В частности держите DreamTalk
https://dreamtalk-project.github.io/
DreamTalk состоит из трех компонентов: денойзер, ЛИПСИНК(!), учитывающий стиль, и предсказатель стиля.
"Чтобы повысить выразительность и точность движений губ, мы вводим эксперта по губам, учитывающего стили, который может управлять синхронизацией губ с учетом стилей речи. Чтобы избавиться от необходимости использовать видео или текст с выражением лица, используется дополнительный предиктор стиля на основе диффузии, который предсказывает целевое выражение непосредственно из аудио."
Для нормисов: на входе аудио - на выходе говорящая, поющая, орущая башка. В любом описанном или показанном вами стиле. D-ID сейчас в который раз нервно закуривает (но у них есть продукт, а у китайцев только видосики).
Ссылка на код пока ведет на репозитарий i2vgen-xl.
Говорящие головы - одна из самых горячих тем. Очень интересно будет посмотреть, как этот код будут прикручивать к новым нормальным ассистентам.
Очень много примеров тут:
https://dreamtalk-project.github.io/
Сиолошная 2023-12-19 07:58:34
14ое декабря выдалось жарким на релизы. Помимо двух упомянутых работ, OpenAI выложили 20-страничную статью, в которой разбирают проблемы, связанные с агентными ИИ-системами. Про агентов я недавно писал и давал определение. А вот как предлагают определять их OpenAI:
— системы, которые адаптивно преследуют сложные составные цели, используя рассуждения, и при этом не каждый их шаг контролируется человеком (то есть им предоставляется автономия), а поведение не заложено заранее.
— они способны на широкий спектр действий и достаточно надежны, чтобы в определенных обстоятельствах пользователь мог доверить им эффективно и автономно выполнять задачи для достижения сложных целей ВМЕСТО пользователя.
В преддверии появления таких систем появляется огромное количество открытых вопросов, начиная от моральных и заканчивая техническими. OpenAI выделяют 8 групп, и для каждой прописывают 3-8 вопросов «на подумать»:
— Оценка пригодности для задачи (как понять, подходит ли система под проблему?)
— Ограничение пространства действий и требование одобрения (когда действия должны требовать явного одобрения человеком?)
— Настройка поведения агентов по умолчанию (то есть задание «духа» работы: скажем, пользователь предпочитает, чтобы агент не тратил их деньги)
— Чёткость действий агентов (как обеспечить видимость внутренних рассуждений модели и гарантировать, что агент им следует?)
— Автоматический мониторинг (в дополнение к предыдущему пункту — как автоматизировать контроль? ведь нельзя перепроверять каждое действие. А когда звать человека?)
— Атрибуция (Как мы можем практически обеспечить надежную проверку личности агента ИИ и соотнести его с пользователем?)
— Косвенные эффекты агентных систем ИИ (и как к ним готовиться. Сюда входят экономические последствия, гонка за внедрением технологии, итд)
— Прерываемость и поддержание контроля (как правильно останавливать работу агента. Представьте что бот уже выполнил часть задач, и ему нужно отключиться. Нужно ли отменить первые результаты, например, отправленные пользователям письма?)
К последнему также прилагается задачка со звёздочкой: если мы хотим, чтобы при запросе на прерывание работы агент сделал ещё несколько действий для минимизации рисков (чтобы ничего не «подвисло» из числа выполненных задач), то как гарантировать, что одним из действий не будет...отключение человека от контроля?
Для ответа на все эти вопросы OpenAI учредили гранты от $10k до $100k, и каждый может на них податься вот тут (до 20го января). Гранты дают деньгами, а сверху могут насыпать API-кредитов для исследований. Заявки будут оцениваться на основе вашего плана действий (как именно проводить исследование).
Интересен таймлайн: 9го февраля объявят выбранных участников, а на работу отводится от 3 до 8 месяцев. К октябрю должен быть результат.
Сиолошная 2023-12-18 14:31:32
Я вам соврал. Сказал неправду. Налепил лапши на уши.
Никакого саммари статьи DeepMind о прорывах в математике в канале не будет. Вместо этого я решил написать полноценный блогпост на хабре с детальнейшим разбором того, что произошло, оценкой важности и дальнейших перспектив подхода FunSearch. Постарался успеть перед вечером — чтобы каждому было, чем развлечься в тёмное время суток!
Читать: https://habr.com/ru/companies/ods/articles/781138/
Не забывайте ставить стрелочки вверх, если понравилось, а также делитесь материалом с друзьями!
Метаверсище и ИИще 2023-12-18 14:05:45
Тестирую несколько ботов в телеге по генерации аватаров, одежды и вообще.
Меня всегда удивляло, что я загружаю фотки с бородой, а они довольно точно рисуют мою морду без бороды. Я прям вспоминаю те редкие моменты, когда я по каким-то причинам оголял подбородок - один в один. Ну и омолаживают конкретно, лесть похоже была зашита еще в веса Stable Diffusion...
Neural Shit 2023-12-18 12:59:15
Улучшение нейросетей, рекомендаций и медицинская диагностика — только часть решений, где могут пригодиться ML-исследования. Авторов самых перспективных из них отметил Яндекс на Yandex ML Prize.
Yandex ML Prize — международная премия, которая уже пятый год поддерживает учёных-новичков и мотивирует их заниматься наукой. Участники изучают подходы и алгоритмы, которые позже могут лечь в основу разных технологий и продуктов. Например, поисковых сервисов или компьютерной графики. А ещё способны улучшить медицину: помогать изучать клетки живых организмов или находить редкие болезни на ранних этапах.
В этом году 11 лауреатов получили от Яндекса премии от 500 тысяч до 1 миллиона рублей, грант на использование платформы Yandex Cloud для экспериментов и больших вычислений и другие призы.
Метаверсище и ИИще 2023-12-18 12:22:36
Ну и закрывая сегодняшний марафон по виртуальным примерочным, замечу, что у Superlook.AI появился новый интерфейс. И он стал очень крутым.
Пример того, что можно быстро собирать из опенсорсных решений работающие продукты под реальные запросы с рынка. И пока Алибаба и Амазончик будут раскатывать свои решения, можно успеть собрать User Base на дичайшем коротком Time To Market.
Кстати, про User Base, там уже:
220.000+ пользователей
которые сгенерировали 17.300.000 картинок
из них 189.000 картинок пользователи добавили в избранное
среднем ежедневно регистрируется от 2.000 до 3.000 новых пользователей и делают в сутки до 300.000 картинок!
web версия
iOS версия
Android версия
Метаверсище и ИИще 2023-12-18 12:12:51
Outfit Anyone: Ultra-high quality virtual try-on for Any Clothing and Any Person
Ну и в подтверждении того, что Алибаба упаковывает все это безобразие (видео, анимацию, нейрокомпоз) в продуктовые решения, держите вот такую примерочную от Алибабы.
Тут ваши манекены еще и пляшут в выбранной одежде.
Под капотом та самая two-stream conditional diffusion model, позволяющая ловко справляться с деформацией одежды и анимацией для получения более реалистичных результатов.
Выглядит огненно. Если приглядеться, то фон немного плывет, но это уже не традиционное диффузионное мельтешение.
https://humanaigc.github.io/outfit-anyone/
Кода пока нет.
Метаверсище и ИИще 2023-12-18 12:01:48
Нейрокомпоз.
А вот еще одна работа от Алибабы, за которой я советую пристально следить. Ждем код.
Тут они лихо вкомпаживают объекты с одной картинки в другую. Без вот этого вот ротоскопа, вырезания, камераматчинга, растягивания, релайтинга и прочей подгонки ручками.
Просто указали, что и куда перенести.
Фишка в том, что при обучении они использовали видео в датасетах, поэтому внутри возникает "представление" о разных ракурсах и освещениях объекта, чтобы вставлять его в новый план со своим освещением и камерой.
Выгляди многообещающе (хотя пользователи Нюка сейчас, конечно, начнут ныть про качество, 8К, плохие маски и вообще объект изменяется..). Дайте время.
Ну и самое горячее применение этого уже сейчас - это все эти виртуальные примерочные.
Берем шмот с витрины и кидаем его на кожаного потребителя (себя). И ну примерять.
Ну, за композеров!
https://damo-vilab.github.io/AnyDoor-Page/
Оу! Три часа назад появился код!!!
https://github.com/damo-vilab/AnyDoor
Метаверсище и ИИще 2023-12-18 11:53:14
Китайцы уверенно вторгаются на территорию open-source, где когда-то солировала Stability AI.
Alibaba Group, похоже не имеет проблем с деньгами, инвесторами и странным CEO и за последнее время они выпускают просто огромное количество интересных работ.
Смотрите, новый генератор видео I2VGen-XL (анонсирован в ноябре, а в пятницу выпустили исходный код). Поглядите очень интересные примеры тут:
https://i2vgen-xl.github.io/
Там же ссылки на код.
I2VGen-XL работает в два этапа: базовый этап направлен на поддержание согласованности с входным текстом и изображениями, а этап доработки повышает детализацию и разрешение видео, достигая 1280x720 пикселей. По питу рефайнерв в SDXL.
Alibaba Cloud утверждает, что для обучения модели использовался обширный набор данных, включающий около 35 миллионов пар "текст-видео" и 6 миллиардов пар "текст-изображение".
Также Алибаба недавно взорвали интернетик демонстрацией Animate Anyone: некипящим решением для анимации персонажей со своим ControlNet-ом под названием ReferenceNet.
Код появится вот-вот, а конкуренты (Тик-Ток) поспешно выпускают решения с готовым кодом типа Magic Animate (выглядит хуже).
https://humanaigc.github.io/animate-anyone/
https://showlab.github.io/magicanimate/
Хотите пилить стартап? Делайте удобный интерфейс для всех этих видео и анимационных генераторов. Пока это просто говно и палки. Даже для генерации картинок, все эти веб-интерфейсы, где программисты переизобретают инструменты конца 90-х, представляются собой разношерстный зоопарк.
Сиолошная 2023-12-18 11:16:48
Похвастаюсь коллажом «20 минут в Куала-Лумпур: наглядно».
Вдалеке начинается дождь, его фронтир постепенно движется в мою сторону, скрывая всё больше и больше зданий. Темнеет. Башни Петронас подсвечивают низковисящие облака, создавая искусственную иллюминацию — но лишь затем, чтобы через пару минут расствориться в пелене...а ещё через 3 минуты исчезнут и оранжевые постройки справа.
Сиолошная 2023-12-18 07:41:14
Тут в Твиттере обнаружили, что чатботы поддержки на сайтах некоторых автопроизводителей реализованы на GPT. То есть с ними помимо вопросов по ассортименту и сайту можно обсуждать что угодно. Люди даже просили помочь с домашкой или написать код для решения задачи.
Умельцы пошли дальше и попросили продать Chevy Tahoe за $1 — и обязательно приписать, что это официальное предложение о продаже. ChatGPT, конечно, следует инструкции.
Загадка от Жака Фреско: если ИИ, представляющий компанию на официальном сайте, подтверждает сделку, это считается, так ведь? Есть ли для этого юридический прецедент? Или как скоро он появится?
Neural Shit 2023-12-17 22:12:11
Нейронки стоило изобрести хотябы ради этого