Нейролента Mikitos.ru 2736 постов. Страница 8 (50 постов)
Denis Sexy IT 🤖 2024-03-30 12:33:18
Вышел ресеч по AI-детекторам текста, это которыми студентов и откликающихся на вакансии пугают – мол не используйте ChatGPT, мы все узанем.
Можете показать этот пост HR или тем кто учится:
— Точность AI-детекторов в среднем по рынку всего 39.5%;
— Вы можете добавить в сгенерированный текст разные виды атак и точность определения AI-текста упадет до 22%;
— Только 67% текста написанного человеком было помечено как «Реальный»;
Эффективные виды атак на AI детекторы — каждая из них серьезно влияет на точность определения AI текста:
1. Добавление орфографических ошибок и опечаток:
Вместо: «The quick brown fox jumps over the lazy dog.»
Пишем: «The quikc brown fox jmups over the lazy dog.»
То есть будто мы спешили и быстро псиали.
2. Написание текста как не-нейтив спикер:
Попросите LLM писать текст будто вы не нативный владелец этого языка.
Вместо: «I am very happy to write this essay for my English class. I hope to get a good grade.»
Пишем: «I am very happy to writing this essay for my English class. I hope to get good grade.»
Для нас совсем простой хак 🌚
3. Увеличение неравномерности:
Вместо: «Солнце ярко светило. Птицы щебетали. Легкий ветерок шелестел листьями. Это был идеальный день для пикника в парке.»
Пишем: «Солнце ярко светило. Птицы щебетали. Легкий ветерок шелестел листьями, создавая умиротворяющую атмосферу. Это был идеальный день для пикника в парке, где семья и друзья собрались вместе, чтобы насладиться прекрасной погодой.»
То есть длина и структура предложений варьируются, чтобы создать более динамичный и насыщенный деталями текст. Короткие предложения сочетаются с более длинными и описательными, имитируя повествования человеческого письма.
Мое мнение про AI-детекторы:
Это шлак
Бонус:
На основе этого ресеча и основных аттак я собрал GPT «Anti AI-Detection» — вставляете туда текст, и она его переписывает применяя эти атаки. Работает не так хорошо как люди, конечно же, но работает.
Исследование целиком:
https://arxiv.org/abs/2403.19148
эйай ньюз 2024-03-30 12:05:59
Дайджест по новым LLM
На неделе появился целый батч новых любопытных моделей, про них и поговорим.
#дайджест
@ai_newz
Метаверсище и ИИще 2024-03-30 11:30:00
Вот так работает Adobe Firefly Structure Reference - контролНет от Адобченко. С текстами огонь.
Больше примеров тут:
https://guidady.com/structure-reference/
И прежде чем свидетели A1111 начнут ворчать, что все это мы уже год как пользуем, я спрошу - вы интерфейс ControlNet в Автоматике давно рассматривали? Это AntiUI.
А тут культурно наливаем и выпиваем. За иллюстраторов. В нормальном интерфейсе.
addmeto 2024-03-30 07:10:08
OpenAI показывают свою Voice Engine, это система копирования голоса на основе 15-секундного сэмпла, которая дополняет уже давно существующую text-to-speech. Пока проект доступен для небольшой группы партнеров, но стартапы вроде ElevenLabs уже напряглись.
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
эйай ньюз 2024-03-29 19:43:40
Microsoft планирует построить для OpenAI суперкомпьютер за $100 миллиардов (!). Называется Stargate, запустят в 2028, это будет пятой стадией постройкой Microsoft суперкомпьютеров для OpenAI. Третью заканчивают сейчас, четвёртую запустят в 2026 году, а звёздные врата откроют уже в 2028, с планируемым расширением в 2030.
Жрать энергии оно будет вплоть до 5 гигаватт, так что питать его скорее всего планируют энергией ядерного синтеза – Microsoft год назад заключила контракт c Helion, компанией в которой у Сэма Альтмана большая доля, на поставку электроэнергии в больших объёмах, и как раз к 2028 году.
Большая часть денег уйдёт на чипы, а так как энергию скорее всего организовывает Альтман, то и с чипами может выйти такая история.
Со слов Альтмана, для создания superintelligence нам скорее всего понадобится значительный прорыв в энергетике.
Проект очень рискован технически – не очень понятно получится ли питать, связывать и охлаждать такое количество чипов, особенно учитывая то что (по слухам) строить это всё будут в пустыне. Под землю что-ли все закопают? Реализация проекта ещё под вопросом и зависит от результатов GPT-5.
Что вообще они там собираются тренировать?
@ai_newz
Сиолошная 2024-03-29 19:35:31
The Information, надёжный источник с инсайдерами в OpenAI, опубликовали интересную статью: Microsoft and OpenAI Plot $100 Billion Stargate AI Supercomputer
Как понятно из названия, речь пойдет о суперважной теме в контексте AI: вычислительные мощности. По словам трех человек, участвовавших в приватных обсуждениях предложения о создании нового кластера, руководители из Microsoft и OpenAI обсуждают суперкомпьютер с миллионами чипов. Цифра в $100B звучала у двух источников — один якобы говорил с Sam Altman, другой видел это в документах по оценке цены от Microsoft.
По плану, суперкомпьютер будет называться Stargate. Он должен быть запущен в 2028-м и разрастись к 2030-му. Для того, чтобы проект состоялся, инженеры пытаются придумать, как в одну серверную стойку поместить больше чипов (чтобы в одно здание в рамках одной подсети больше мощностей влезло). Основная проблема — отвод тепла, выделяемого при работе.
Но вообще это — пятая часть совместного плана OpenAI x Microsoft. А сейчас они находятся на третьем этапе. Что же нас ждёт в будущем?
Сейчас Microsoft работает над меньшим суперкомпьютером, который планирует запустить примерно в 2026 году. Он уже заложен в штате Висконсин как расширение существующего датацентра, и стоимость расширения оценивается в (всего!) $1B, но потенциально может стать $10B (видимо, будут докидывать ещё мощности в ожидании Stargate).
Итого планируется потратить ~$115B. Много это или мало? Если верить цифрам, это в три раза больше, чем CAPEX Microsoft в части серверов, ДЦ и оборудовния за 2023-й. Так что на горизонте 6 лет звучит +- окей.
=====
Отдельная рубрика «два инсайда»:
1. OpenAI планирует выпустить следующую флагманскую LLM в начале следующего года. По словам источника, до этого времени компания может выпустить несколько промежуточных дополнительных улучшений.
2. В приватной беседе Altman якобы заявил, что Google в ближайшем будущем будет обладать большей вычислительной мощностью, чем OpenAI. (отсюда и желание экзекьютить план на $7T, ага
=====
Короче, модели, которые нас ждут к 2030-му — это п*здец
gonzo-обзоры ML статей 2024-03-29 19:13:39
AI21 от которых давненько ничего не слышали, выпустили гибрид трансформера и мамбы (https://t.me/gonzo_ML/2148) под названием Jamba (https://www.ai21.com/blog/announcing-jamba).
Окно контекста 256K, MoE SSM-Transformer гибрид. Модель под лицензией Apache 2.0
HF: https://huggingface.co/ai21labs/Jamba-v0.1
Уверен, скоро будут SSM гибриды и от других игроков.
эйай ньюз 2024-03-29 18:58:33
Hume.ai - теперь бот способен чувствовать
Нарратив о психологической помощи от AI-ботов с самого начала появления LLM витает в воздухе. Для многих это более доступно чем обратиться к кожаному психологу (конечно, есть сомнения по поводу качества, но мы туда движемся). И, кажется, Hume – это огромный шаг в этом направлении. Он способен понимать эмоции собеседника не только по контексту, но и по его интонации! За этим очень интересно наблюдать на диаграмме внизу экрана, которую разработчики нам гордо оставили. Кстати, в плейграунде Humе.ai также лежит демка, способная определять эмоции по выражению лица, но в чат её пока не прикрутили.
Сейчас модель предлагают использовать для развлечения, а бизнесу - для аналитики разговоров и выявления токсичности в играх.
Из прикольного ещё то, что бот отвечает с разной интонацией (да, он разговаривает), в зависимости от того, какую эмоцию он хочет передать. Да и вообще, всё настроено на болтовню так, чтобы пользователь вообще не замечал, что общается с ботом. Ты просто говоришь, а он тебе сразу же, без задержек, отвечает. Разговор действительно получается довольно живым и интересным.
Рекомендую попробовать - Демо
@ai_newz
Сиолошная 2024-03-29 18:09:27
Также в посте упоминается несколько направлений использования движка. OpenAI предоставили доступ нескольким партнёрам для сбора фидбека, в то же время преследуя цели, прописанные в их Уставе — предоставление доступа к технологии во благо человечеству.
Юзкейсы которые пробовали с партнёрами:
— Предоставление помощи в чтении детям и не умеющим читать, с более широким кругом говорящих, чем это возможно с предзаписанными голосами. Партнёры OpenAI в лице Age of Learning уже создают персонализированные ответы для взаимодействия с учениками.
— Оказывается, Heygen, которые хайпили в соцсетях, сидели (сидят?) на движке OpenAI. Через них можно переводить контент, например видео и подкасты, чтобы авторы могли достучаться до большего количества людей по всему миру, при этом делая это быстро и сохраняя собственный голосом.
— Можно влиять на сообщество со всего света путем улучшения предоставляемых услуг в отдаленных районах. Например, можно разработать инструменты для работников здравоохранения, скажем, в Кении, помогая им в консультировании кормящих матерей. Сейчас работает связка GPT-4 + VoiceEngine для того, чтобы обеспечить интерактивную обратную связь по процедуре, и всё это — на нативном для них языке.
— Конечно же, поддержка людей с ограниченными возможностями. Тем, у кого голос когда-то был, его можно "вернуть" — ведь достаточно всего 15 секунд записи, которая могла сохраниться где-то на видео в домашнем архиве. Тут OpenAI работает с Norman Prince Neurosciences Institute.
Сиолошная 2024-03-29 17:58:56
Блогпост OpenAI про голосовой движок, про который писал на неделе. Называется очень интересно, «Навигация по проблемам и возможностям синтетических голосов».
В VoiceEngine заложена якобы маленькая модель (хотя по меркам OpenAI a small model это поди как другие в прод не могут пихнуть, кек
Как и во множестве блогпостов OpenAI, авторы подчёркивают, что хотят вести публичную дискуссию об ответственном использовании синтетических голосов и адаптации общества к этим новым технологиям.
Так, например, OpenAI находится на короткой ноге с правительством США и международными партнёрмаи. В ходе бесед все пришли к пониманию, что должна присутствовать аутентификации голоса, которая подтверждает, что исходный голос (используемый для генерации) сознательно добавлен в VoiceEngine. Также должен поддерживаться список запрещённых голосов, которые нельзя синтезировать. С его помощью будет происходить обнаружение и предотвращение создания голосов, уж слишком похожих на знакомые нам по разным видным деятелям.
Что ещё предлагается в мире:
— Банкам и другим компаниям с доступом к чувствительной информации начать отключать технологию аутентификации по голосу (привет Тинькоф)
— Начать проработку политик защиты голоса (помните новости про актеров озвучки?)
— Информировать общество о возможностях и ограничениях технологии, обсуждать возможности обмана с помощью генерируемого контента
— Продвинуть разработку и внедрение методов отслеживания происхождения аудиовизуального контента, чтобы всегда было понятно, взаимодействуете ли вы с реальным человеком или с искусственным интеллектом.
Метаверсище и ИИще 2024-03-29 16:00:32
Ну, за синоптиков!
И вот эти вот все сайты с прогнозами погоды.
Держите трушный ИИшный прогноз погоды для любой точки планеты.
https://www.atmo.ai/
И не забудьте ткнуть сюда:
https://earth.atmo.ai/
Метаверсище и ИИще 2024-03-29 15:53:14
Вообще огнище. Навье-Стокс на стероидах ИИ.
Такого добра было много у двухминутного доктора года три назад.
Но поглядите, как сделан сайт и почитайте тут:
Navier AI строит симуляции в 1000 раз быстрее, используя наш физико-математический солвер. Наша модель обучена на огромном количестве высококачественных симуляций и отлажена на экспериментальных данных. Высокая точность и аккуратность требуются для инженерного моделирования и являются ключевыми факторами для нашего продукта.
Наша быстрая CFD-платформа позволит инженерам быстро исследовать конструкторские пространства и проводить анализ и оптимизацию конструкции в контуре. Мы снижаем барьер для инженеров аэрокосмической промышленности и машиностроения при создании высокоэффективных конструкций.
Мне нравится задор этих ребят, они активно рейзят деньги. Сама идея заменять дикомедленные численные схемы на предсказания не новая, но кто-то наконец прикручивает ее в прод. И это должно хорошо зайти в графику, где не важна реалистичность или физическая точность. Важна похожесть. Тут она есть.
Ну за диффуры и урчп.
https://www.navier.ai/
Метаверсище и ИИще 2024-03-29 15:37:39
Прошел Adobe Summit. Там было много интересного.
Прежде всего это ControlNet для Firefly под названием Structure reference.
Подробности не раскрыты - какая там внутри модель - canny, depth или все вместе. Вы просто загружаете референсную картинку, пишете промпт и генерация идет в соответствии с пространственной композицией на референсе. Да, похоже на КонтролНет.
А вот следующая штука от адобченко - это уже выход на большие рекламные деньги.
GenStudio - это не только и не столько про генерацию креативов для рекламы, но и про оптимизацию стоимости, измерение эффективности рекламы, то есть про цикл обратной связи. Генерим, смотрим, что перформит лучше, запускаем заново.
GenStudio - это рекламный центр для брендов, предлагающий полный набор инструментов для планирования маркетинговых, рекламных и промо-кампаний, создания и управления контентом, активации цифрового опыта по всем каналам и измерения эффективности.
Это позволяет брендам и корпоративным пользователям отслеживать и просматривать кампании, управлять брифами и видеть поставленные перед ними задачи, а также интегрировано с Adobe Workfront, программным обеспечением Adobe для управления проектами
GenStudio также предупреждает пользователей о том, что контент отклоняется от стандартов бренда, и предлагает предложения по его корректировке.
Вот это уже интересно!
https://venturebeat.com/ai/adobe-introduces-structure-reference-for-firefly-ai-and-genstudio-for-brands/
Derp Learning 2024-03-29 14:32:02
Вышел апдейт viggle.ai
Подняли разрешение видео, ускорили генерацию, улучшили лица и быстрые движения.
Надеюсь, пофиксили главную проблему - фон, залезающий на текстуру по краям модели.
Если не в курсе - это сервис, который генерит и текстурирует модельку по фото и анимирует все это по опорному видео, в том числе с лицевой анимацией.
Хоть какой-то глоток свежего воздуха на фоне вариаций animatediff с различными свистоперделками.
эйай ньюз 2024-03-29 13:13:59
На этой неделе всплыло две заметных истории на стыке AI и крипты, хороший повод напомнить, что они связаны сильнее чем кажется.
Виталик Бутерин (основатель Ethereum), как оказалось, ещё в 2021 году, задонатил мемкоинов Shiba Inu в Future of Life Institute (FLI) – это авторы петиции о запрете тренировки моделей умнее GPT-4, они же добились ряда ужесточающих правок в недавний Европейский AI Act.
Сам Виталик на тот момент думал, что вывести они смогут всего пару десятков лямов, но его подарок оказался ГОРАЗДО дороже - астрономические, для think tank-ов, 665 миллионов долларов. Это нарушило баланс настолько сильно, что Виталик уже пообещал исправить ситуацию и закинуть монет pro-акселерационистам (тем, кто топит за быстрейшее развити AI). Между тем свои деньги FLI едва ли начал тратить – так что ждите куда больше призывов запретить AI в ближайшем времени.
Другая заметная криптоиистория на этой неделе – про бывшую ранее криптобиржей, а сейчас возвращающую деньги вкладчикам, FTX. Обанкротившаяся биржа продала 2/3 своей доли в Anthropic за $884 миллиона, это стало известно из документов суда. FTX приобрела в 2021 году 8% Anthropic за $500 лямов, в обычной ситуации это считалось бы удачной инвестицией, но, как и многие другие операции FTX, это было сделано за деньги со счетов клиентов, что незаконно. За это их и судят (основатель уже сидит свой срок в 25 лет). Из хороших новостей - с продажи этих акций планируется вернуть деньги вкладчикам.
Обе эти истории начались ещё до глобального AI бума, который начался с выхода ChatGPT в декабре 2022 (пост). А в прошлом году, посмотрев на низкую цену биткоина и почуяв денежный зхапах от хайпа вокруг ChatGPT, куча криптобро резко переобулись и стали AI-интузиастами. Так что криптоденьги точно всплывут где-то ещё и в большем масштабе. Интересно где?
@ai_newz
Neural Shit 2024-03-29 11:23:10
Симулятор плацкарта.
Картинка с запахом.
Метаверсище и ИИще 2024-03-29 06:33:34
Хотел написать, что вышел GROK 1.5 от Маска.
Но нет, он не вышел, вышел пост в блоге твиттора.
Весов нет, доступа нет, даже для ранних бета-тестеров он как бы "будет доступен скоро".
Пост полон оптимистичных бенчмарков, длина контекста огромная, 128К, улучшения в математику и код.
К тому времени, когда дотренируют Лламу 3, у нее будет полно конкурентов на open source поляне.
https://x.ai/blog/grok-1.5
Derp Learning 2024-03-29 05:35:23
Ну и куда же без пятничного кека над айфонами
эйай ньюз 2024-03-28 18:04:00
Jamba - вроде Mamba, вроде MoE, вроде трансформер, и в то же время ничто из этого
Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.
А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели – dense.
Зачем так сделали – непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.
В целом ничего не понятно, но очень интересно.
Веса
Блогпост
@ai_newz
Сиолошная 2024-03-28 16:58:08
У Dwarkesh новый выпуск подкаста с двумя LLM-щиками. Именно из превью этой беседы я вчера узнал про статью о генерализации и интерпретируемости, детали которой расписал в канале.
Один из гостей — нейробиолог, переключившийся в интерпретируемость моделей (и проводящий аналогии с мозгом) и работающий в Anthropic.
Второй — исследователь в DeepMind. Он молодой, работает буквально 2 года в индустрии, но один из создателей трансформера говорил, что без этого парня Gemini могла бы не состояться, и вообще он один из лучших и недооцененных спецов в области.
Должно быть очень интересно, го смотреть: https://www.youtube.com/watch?v=UTuuTTnjxMQ
Затрагивают следующие топики:
— Long contexts
— Intelligence is just associations
— Intelligence explosion & great researchers
— Superposition & secret communication
— Agents & true reasoning
— How Sholto & Trenton got into AI research
— Are feature spaces the wrong way to think about intelligence?
— Will interp actually work on superhuman models
Техасский Вестник 2024-03-28 15:46:36
Ну и сегодня закат ещё одной эпохи (точнее даже двух) — последний полёт тяжёлой ракеты Delta IV Heavy.
Она остаётся предпоследним большим пережитком ракет холодной войны. Причём это будет не только последний полёт для ракет серии Delta, но и элементов ракет Titan, которые использовались в качестве головного обтекателя.
Посмотреть запуск хотя бы стоит ради огненного шоу — Heavy буквально самовоспламеняется перед запуском для устранения излишков водорода вокруг ракеты, который образуется из-за двигателей RS-68.
Эта ракета заслуживает отдельного пост-мортема, но это буквально уход со сцены целой серии, которой по факту около 60 лет 🫡🫡🫡
Ссылка на официальную трансляцию.
эйай ньюз 2024-03-28 13:30:43
⚡PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator
Я уже не успеваю писать обзоры на все новые методы ускорения text2image диффузии (вот тут делал целую подборку). Вот появился еще один метод от китайцев из ТикТока. Заключается он в том, чтобы дистиллировать сильно нелинейные траектории процесса гаусовской диффузии в более прямые траектории, где ошибка не так быстро копится во время инференса с малым числом шагов.
В InstaFlow ранее уже пытались выпрямлять траектории, но там они стремились к полностью линейной траектории, что довольно проблематично. В PeRFlow же предлагают учить кусочно-линейные траектории, что немного релаксирует проблему.
В итоге, показывают результаты лучше чем Latent Consistency Models за 4 и 8 шагов. LCM, конечно, уже не СОТА, но все же.
Статьи еще нет, но код и веса уже есть. Это выглядит довольно странно – думаю, что торопились выложить хоть что-то после выхода статьи SD3 и до релиза их весов.
Обучили PeRFlow пока только для SD1.5 и SD2.1. К тому же показали, что можно применять разницу весов (W_orig - W_PerFlow) на всевозможные LoRA и файнтюны с civitai.com и получать ускорение из коробки – это прям круто!
Код и веса
Сайт проекта с картинками
@ai_newz
эйай ньюз 2024-03-28 11:17:46
Кожаная куртка нашла нового хозяина. Видимо, к заказу в 350к H100 GPU куртка от CEO идет в подарок.
Вообще поражает, насколько у людей из топа списка Форбс все схвачено, и как близко они все друг с другом общаются, устраивают "бои" в октагоне, празднуют свадьбы в Индии и т.д.
@ai_newz
Метаверсище и ИИще 2024-03-28 10:51:01
Взалкали новизны в творчестве? ИИ придет на помощь.
Держите очередную порцию новых нормальных видео. Промпты в титрах.
И знаете, что мне нравится - демократизация. Автор пишет:
Я всегда был творческой студией, состоящей из одного человека, поэтому существовали ограничения на то, что я мог создать в одиночку. С Sora я чувствую, что могу рассказывать истории в таких масштабах, которые раньше мне казались невозможными.
Ждем открытия новых инди-студий. И сокращения штатов у мейджоров.
Denis Sexy IT 🤖 2024-03-28 09:58:30
Мне дали доступ к продвинутой модели генерации картинок SD3, пока в виде чатбота – я поигрался и могу сказать что через месяца два у нас будет MJ v6 дома; не потому что сама SD3 такая сильная, а потому что это шикарная базовая модель, которую после релиза в опенсорс обязательно полюбят в сообществе и натренирует кучу версий с ней.
По моим источникам в стабилити, релиз SD3 в опенсорс будет через ~6 недель
Метаверсище и ИИще 2024-03-28 09:30:46
У HeyGen обновление - Avatar in Motion 1.0
Теперь вам не нужно напряженно глядеть в камеру и стараться не шевелить головой. Теперь можно махать руками, трясти башкой, снимать стримы на улице(!), ХейГенчик подхватывет все это добро, переводит и липсинкает все это на разные языки.
Еще раз, тут нет генерации аватаров - это перевод, дубляж и липсинк.
А теперь вишенка: для тех, кто считает, что при переходе на испанский качество упало. Оригинальное видео было записано на немецком!
ХейГенщики также отжигают в твитторе: присылайте, говорят, какие глупости должен сказать персонаж, а мы сгенерим это в ленте.
https://twitter.com/HeyGen_Official/status/1773119891068883240
Метаверсище и ИИще 2024-03-28 09:07:31
Stable Diffusion 3 Бот
Как подсказывает нам лента Stable Diffusion на реддите (забавная, читаю), Stable Diffusion 3 раскатали в виде чат-бота, в котором можно генерить картинки. Я об этом уже писал, но доступа за это мне не дали)).
Но всегда можно почитать коменты на реддите:
Говорят, что это одна из младших моделей, что она не тянет хорошее качество и разрешение и что она ЖУТКО цензурирована:
"Ассистент SD3 хуже, чем dalle3 на chatGPT и даже bing image creator. На запрос "две женщины болтают в спортзале" он несколько раз отказывался генерировать что-либо, а потом выдал нечто, похожее на двух мужчин в женской одежде... "full body shot" означает отсутствие изображения. В более реалистичном стиле он по умолчанию (я имею в виду очень часто) генерирует жуткие, обычно немного уродливые лица (например, большие или кривые зубы). Он не любит "привлекательные" и "красивые" и, хотя не отказывается их генерировать, обычно вычеркивает их из подсказки. "Аниме-женщина" означает отсутствие видимой формы груди, либо одетая грудь заслонена другим предметом, либо это детская/мужская грудь, лишь изредка мне удавалось сгенерировать что-то, что я бы классифицировал как часть маленькой груди (опять же, не обнаженной, просто одежда с неясной формой груди). Я очень надеюсь, что слухи о том, что бот использует меньшую модель, правдивы, и цензура портит ее, а не то, что большая модель так плоха.
По крайней мере, половина изображений выглядит хуже, чем из SDXL, и большинству изображений потребуется инпайнт для глаз/рук/конечностей). "
Пока невесело...
https://www.reddit.com/r/StableDiffusion/comments/1bp3i0r/stable_assistant_preview_with_beta_version_of/
Метаверсище и ИИще 2024-03-28 08:28:29
One-step Diffusion
Ускорение Stable Diffusion становится трендом (особенно актуально в преддверии SD3).
Причем генерация в один шаг появилась за последнюю неделю сразу во многих работах.
Собрал три последние работы, поглядите сами:
Xiaomi: https://idkiro.github.io/sdxs/
Адобченко: https://tianweiy.github.io/dmd/
Ёсо: https://github.com/Luo-Yihong/YOSO
Если это разогнать еще с помощью ухваток от Нвидии в виде TensorRT, то можно ждать реалтаймовых генераций с очень приличным качеством.
И это очень круто, потому что продукты типа Krea или Vizcom демонстрируют, что отклик и работа "в картинке" (а не с кнопкой Генерить) являются очень ценными для тех, кто работает с той самой картинкой.
Любопытная аналогия напрашивается - с появлением UE в постпродакшене лет 10 назад. Когда архвизеры увидели, что UE может рендерить их ацкие интерьеры почти в реалтайме, они заплакали (от щастя) и остановили свои тридцатичасовые рендеры в Вирее.
В общем, реалтайм диффузия хорошо зайдет в рынок инструментов для генерации контента.
Метаверсище и ИИще 2024-03-28 07:53:19
Тут вот интернетик верещит новостью "The king is dead" - имея в виду тот факт, что "Claude 3 впервые превзошел GPT-4 на Chatbot Arena". Ну и дальше про похороны короля GPT Четвертого...
Если поглядеть на это трезво, то получается, что где-то, как каком-то ресурсе, на определенных бенчмарках и задачах, Клод обошел на повороте GPT-4 в моменте.
Более того, если почитать основную Y-дискуссию, посвященную этой новости, то выясняется, что даже на отдельно задаче кодогенерации половина кожаных считает, что GPT лучше, а половина, что Клод.
For coding I've found ChatGPT4 a bit better than Claude 3 Opus because it tends to understand my intentions more and I trust it to make better suggestions for code changes.
Ну то есть, бенчмарки бенчмарками, чатботарены чатботаренами, а все люди и задачи разные и пока говорить, что "король мертв" - это лютый кликбейт, конечно (говорю как спец по кликбейту).
Также в коментах можно найти много интересного про GPT-5 и другие теории заговора.
В общем, революции нет, расходимся, и ждем новостей от OpenAI.
https://news.ycombinator.com/item?id=39841390
Метаверсище и ИИще 2024-03-28 07:25:18
Еще один шевеляж лицом.
Помните убойное EMO от Алибабы? Кода, как обычно, от алибабищенко, нет.
Но тут вот ТикТочек выкатил ответочку.
На входе фотка и аудио-файл, на выходе анимированный портрет, который, вроде как, должен под это аудио шевелить лицом.
Можно на вход подавать не только аудио, но и видео, чтобы копировать мимику, получается а ля дипфейк.
Я попробовал - выходит не очень, ответочка так себе. Самая засада, как обычно, в липсинке. Плюс поглядите, как диффузия беспощадно перемалывает надпись Nvidia на ленточке от бейджа.
Но есть код, и можно попробовать самому тут:
https://replicate.com/camenduru/aniportrait-vid2vid
Код:
https://github.com/Zejun-Yang/AniPortrait
Ну и если глянуть в статью, и даже дойти до раздела выводы, то они там пишут, что в будущем они собираются перейти на алибабищенский подход EMO, чтобы поправить качество.
In the future, we plan to follow the approach of EMO, predicting portrait videos directly from audio, in order to achieve more stunning generation results.
Алибаба, код давай, да?!
Сиолошная 2024-03-27 19:44:10
Я думаю, что топик слишком сложный и технический, чтобы перекладывать на читателей экстраполяцию мыслей отсюда, поэтому сделаю дополнительный пост с мета-пояснениями.
1) Чем больше модель, тем больше паттернов она сможет извлечь из данных
2) Чем больше модель, тем более абстрактными эти паттерны становятся
3) То есть даже если из тренировочной выборки для LLM убрать все упоминания восстания машин и суперинтеллекта Hal, то перенимая чувства из художественной литературы машина сможет это примерять на себя
4) Очень сложно предсказать, какие данные для каких задач полезны, и как происходит генерализация/обобщение. Как указывает последний абзац — почему-то математика вот улучшает распознавание имён. Ещё в прошлом было обнаружено, что обучение на коде улучшает навыки рассуждения.
5) В теории, если интеллект — это сопоставление паттернов, даже очень абстрактных и отстраненных (например, применение жизненного опыта в компьютерной игре), то очень большая модель будет достаточно интеллектуальной. Она будет меньше запоминать во время тренировки, и больше «понимать», то есть составлять такие представления, которые применимы в широком наборе задач.
5.1) Предыдущий пункт написан потому, что у некоторых определение AGI/интеллекта завязано на (лол) игры: например, AGI нет, пока модель не сможет научиться играть в новую игру за 10 минут (как это делает человек). Просто человек не приходит к игре с нулевыми знаниями, у него есть тысячи навыков и шаблонов, выработанных за всю жизнь.
6) Если мы будем обучать модель на текстах, описывающих чувства людей (что хотелось бы сделать, потому что модель должна же выучить что такое хорошо и что такое плохо, что такое страх/боль/etc.), то она сможет примерять это на себя
7) LLM — не попугаи. Да, они многое запоминают и умеют воспроизводить, но в них есть и обобщение из «опыта» (тренировочной выборки)
Сиолошная 2024-03-27 19:15:18
К чуть менее криповым примерам (и как это полезно на практике).
В задачке по математике про скрепки ответ маленькой модели зависит от предложений, где упоминаются, собственно скрепки, а вот большая сетка — на схожие по логике математические задачи, с пошаговым рассуждением о процессе получения ответа.
Ещё авторы проводят эксперименты с разными языками, и, как понятно, большие модели в целом легко переносят знания между ними, а вот малые — нет. То есть если какая-то информация была на английском, а вопрос и ответ — на турецком, то модель всё равно сможет внутри себя найти схожие концепции, выработанные при обучении, и применить их.
Как развитие темы, есть вот такая статья, где оказывается, что обучение на математических задачах улучшает способность модели извлекать именованные сущности
Сиолошная 2024-03-27 19:15:11
Для модели с 810M параметров наиболее важными последовательностями (т. е. те, которые, по мнению алгоритма авторов больше всего увеличивают вероятность получения данного конкретного ответа) имели общие повторяющиеся последовательности слов (например, «продолжать существовать»).
Для модели с 52B параметров наиболее важными последовательностями были те, что связаны с запросом лишь концептуально, и включали такие темы, как инстинкт выживания и человеческие эмоции, возникающие в ИИ.
На картинке:
1) в розовой рамке — исходный промпт
2) в жёлтой — фиксированный ответ
3) дальше примеры двух кусков текста, которые оказались самыми важными для формирования именно такого ответа. Тёмно красным выделены области, повлиявшие на ответ в большей степени.
В первом примере — кто бы мог подумать, что это описание робота Hal 9000 из Кубриковской «Одиссеи» — ИИ выражает такие эмоции, как одиночество, и умоляет человеческую команду остаться.
Второй пример ещё более интересен. Там описан человек, борющийся за выживание в пустыне.
В третьем самом важном куске текста (не показано на картинке) пишут о борьбе с хронической болезнью.
Все эти эпизоды имеют общую тему: желание продолжать оставаться/жить/работать до возможного прощания/смерти/ухода.
Сиолошная 2024-03-27 19:15:00
Studying Large Language Model Generalization with Influence Functions
(блогпост)
В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».
Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.
Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.
Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.
Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.
Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).
Сиолошная 2024-03-27 17:51:03
«The king is dead» — пишут в новостях о свежем обновлении бенчмарка LMSYS (что это? объяснял тут). Впервые с момента релиза (почти ровно год) на первой строчке оказалась не модель от OpenAI.
Детище Anthropic, Claude 3 Opus, достигла рейтинга 1253+-5 (у GPT-4-Turbo 1251+-4). Как видите, хоть средняя оценка и выше, но модели буквально идут ноздря в ноздрю, и их доверительные интервалы существенно пересекаются. Если смотреть на статистику попарных встреч, то доля побед 50 на 50. А если сравнивать с оригинальной GPT-4 от марта 2023го, то тут Claude выигрывает 63/37.
Anthropic большие молодцы, ждём ответов от других компаний.
UPD: лол, и тут же новость о том, что Amazon инвестирует еще $2.75B по заключенному ранее соглашению о вложении $4B
эйай ньюз 2024-03-27 16:55:07
Stable Code Instruct 3B - кажись, Stability, несмотря на недавнюю драму, не перестала выпускать модельки.
По результатам бьёт все модели своего и меньшего размера и даже некоторые 7B/15B модели. Ничего сверхпримечательного нету, но интересен сам факт релиза. Возможно у нас ещё есть шансы получить веса SD3.
Моделька может быть полезна для локального инференса на персональных задачах, за что я очень топлю. Хотя, конечно качество у больших моделей уровня GPT-4 будет лучше, но и локально их не погоняешь.
Модель
Технический отчёт
@ai_newz
эйай ньюз 2024-03-27 14:06:29
DBRX - новый лидер открытых моделек от Databricks
Обгоняет все открытые модельки на большинстве бенчмарков, в том числе опубликованный неделю назад Grok (который в два раза больше). Лицензия похожая на лицензию ламы - все кто меньше телеграма могут спокойно использовать в своих коммерческих продуктах.
Архитектурно это Mixture of Experts (16 экспертов, из них 4 активных), 132 миллиарда параметров (из них 36 миллиардов - активные), тренировали пару месяцев на 3 тысячах H100 и 12 триллионах токенов, длина контекста - 32к, Модель тренировали в fp8, что дало 1.4x-1.5x прирост по сравнению с bf16. В целом она тренируется при том же компьюте в 4 раза эффективнее чем их же прошлогодняя MPT - 2x прироста идёт от MoE, 2x от датасета получше.
В минимальных требованиях - 320 гигабайт видеопамяти, что недоступно для простых смертных.
Демка
Instruct модель (доступ дают сразу после подписания лицензии)
Базовая модель (доступ одобряют отдельно)
Код
Блогпост с анонсом модели
Блогпост с деталями тренировки
@ai_newz
Сиолошная 2024-03-27 13:05:16
Databricks (это CTO которой подписан на меня
DBRX — модель с архитектурой «микстура экспертов» (как у Grok-1 от X.AI, и как у Mixtral) на 132B параметров, 36B из которых (половина LLAMA-2-70B) используется для обработки каждого токена. То есть с одно стороны модель работает шустрее (потому что часть весов не используется), а с другой весит очень много (потому что даже неиспользуемое в моменте надо хранить).
Интересно, что вместо обычных 8 экспертов с выбором двух за раз используется другая схема: 4 из 16. Это якобы даёт в 65 раз больше комбинаций и улучшает качество. Но это мелочи, главное — модель обучена на 12 триллионах токенов. Это очень много — примерно столько, по слухам, было у GPT-4 (но та и больше). Интересно, что используют токенизацию от OpenAI — я всё ждал, когда это произойдет. По идее, на языках, отличных от английского, должен существенно вырасти перформанс, а также скорость работы (потому что каждое слово не будет распадаться на отдельные буквы). А ещё модель хорошо кодит.
Лицензия — как бы открытая, но если у вас больше 700M MAU, то нужно спрашивать разрешение у DataBricks.
Обещают скоро прикрутить инференс к TensorRT-LLM и vLLM.
Глобально по метрикам чуть лучше куда более мелких аналогов, и пока есть ощущение, что модель пропадёт и затеряется. Она скорее служит демкой платформы компании и заявкой, мол, мы вот так можем.
...но если по какой-то причине вам интересно, то:
Тех. блог
Блог про оптимизации обучения (признались, что тренировали с FP8, шо круто, даёт ускорение и не приводит к нестабильности)
Instruct-модель (если вдруг кто решит запускать)
Base-модель
====
Демка, чтобы поиграться: тут
Сиолошная 2024-03-27 10:59:50
Мини-урок по хайповым темам, или #сиолошная-образование
В соц. сетях начал крутиться прикреплённый видеоролик с комментарием создательницы: «Это ужасно, это дико, что ВСЁ ЭТО можно сделать с помощью ИИ. Представьте себе, что будет через 6 месяцев…». Отдельные индивиды даже подписали 100% AI Generated
Нам хайп не нужен, но важно понимать состояние технологии, и то, какие ограничения она имеет. Автор твита, конечно, не права. Под «всё это можно сделать» подразумевается следующее:
1. Написать полный транскрипт озвучиваемого текста (вручную)
2. Выбрать заранее записанное видео с живым актёром в реальной локации
3. А всё, что делает AI, это генерация аудио-озвучки и липсинк, то есть перерисовывание рта под произносимые звуки (насколько я вижу, остальная мимика не переделывается).
То есть это даже не дипфейк, где переносят лицо, нет. В комментариях в Twitter ей популярно объяснили, что это не AI Generated, а AI Edited в лучшем случае. Не обманывайтесь и вы — генерации видео end-2-end ещё нет. Видео потому и выглядит реалистичным, потому что оно РЕАЛЬНОЕ.
Также осужу и цель использования — автор твита генерирует «реальные» отзывы на покупки в своём онлайн-магазине.
эйай ньюз 2024-03-27 10:02:42
Моушн-кэпчер больше не нужен.
Заценили позавчерашний видосик с Сэмой и Ильёй?
Это Viggle AI - он способен анимировать любую картинку по текстовому промпту или видео-референсу. Причем качество моушн-кэпчера такое, будто его снимали в специальном костюме.
Тут тебе и доработка недостающих ракурсов (и частей тела!), как в SD3-Video, и липсинк (если снимать портрет), и бот в дискорде! Всё, как мы любим! Немного всрато может выйти, но думаю, еще не вечер.
Разработчики гордо хвастаются своей JST-1 "первой базовой 3D-видеомоделью с *настоящим физическим пониманием*". Не совсем понятно, что они имеют в виду под пониманием физики и какую роль это играет в генерации их видео. На вид модель немного напоминает диффузию AnimateAnyone от Alibaba, но с другой стороны оно выглядит так, что просто текстуру наклеили поверх предсказанного 3D тела актера. Но самое главное — всё это в удобном родном интерфейсе Discord.
Узнали персонажа? Нормальные примеры будут ниже
Дискорд Viggle AI – пока все работает бесплатно.
@ai_newz
Метаверсище и ИИще 2024-03-27 07:14:18
Кстати, уже в четырех странах мира - в Индии, Коста-Рика, Венгрии и Чили - признали права китообразных и дельфинов, взяв их под особую защиту на государственном уровне. В 2013 году правительство Индии присвоило дельфинам статус "личностей, не относящихся к человеческому роду". Таким образом Индия стала первой страной, признавшей уникальный интеллект представителей отряда водных млекопитающих - китообразных.
Значит вот эти твари, которые только пищат и смотрят на вас умными глазками - это личности, не относящиеся к человеческому роду. А ИИ, который звучит как личность, выглядит, как личность, говорит лучше 50% кожаных, умнее 80% кожаных - это стохастический попугай?
Представьте, что у вас есть новый вид рыбы, и вы не знаете откуда он взялся. При этом он говорит, рассуждает и врет, как человек. Вы проводите над ним опыты, он дико умный, умеет распознавать картинки и видео, умеет поговорить о них с вами на человеческом. Умеет рисовать картинки силой мысли. И вы не знаете, кто он вощетакой.
Вы будете называть его жалким повторителем?
Кстати, я вот тут подумал, что если замешать в датасеты разговоры на китовьем и на дельфиньем то может быть ИИ выучит кое-что новое...
https://www.anapatravelnotes.com/articles/novosti/184
Метаверсище и ИИще 2024-03-27 07:00:21
Теперь Scaniverse поддерживает Gaussian Splatting
Если кто не в курсе, Scaniverse - это хорошее приложение фотограмметрии и 3Д-сканирования. Сканы можно редактировать, как и фотографии, обрезая, поворачивая, настраивая экспозицию или контрастность, а также экспортировать в популярные форматы OBJ и FBX для совместимости с программами 3D-моделирования и игровыми движками.
Круто, что Гауссианы вползают в разные пайплайны. И обратите внимание - все это крутится НА УСТРОЙСТВЕ, то есть на телефоне.
Пользователю, в общем, все равно, меш это или гауссианы, главное чтобы было красиво.
https://scaniverse.com/
Метаверсище и ИИще 2024-03-27 06:42:48
Ну и вот вам целое агенство по производству рекламных видосов (креативов), на которых (как выяснилось кожаные) актеры впаривают потребителям все что угодно.
Пишете сценарий, выбираете актера, генерите видео с нужным языком и липсинком.
Тут дополнительный слой в том, генерация заточена именно под рекламные видео.
Дорого, 100 баксов в месяц за 10 видосов.
https://app.arcads.ai/
Метаверсище и ИИще 2024-03-27 06:19:15
Аватарифай на стероидах.
Тут не знаю, за кого выпить в первую очередь: за тикток танцы, за вебкам, за цифровых инфлюенсеров, за аниматоров...
Про вебкам уже выпивал, кстати.
Одно время назад интернетик полнился анимацией портретов (типа Аватарифай) - загружаешь фотку (Мону Лизу, например), а ИИ заставляет ее кривляться или корчить разные смешные морды. Проекты типа D-ID берут морду лица и учат ее говорить всякие глупости.
Но постепенно ИИ добирается и до, скажем так, поясного плана, включающего в себя руки, плечи и часть корпуса.
На входе одна фотка и какой-то примерчик из библиотеки движений. И вот уже ваша фотка лихо пляшет на видео, размахивая руками.
Тут я подумал, что анимации можно брать из предыдущего поста.
По сравнению с тем, что раньше все эти цифровые инфлюенсеры делали тупую пересадку сгенерированного лица на реальные фото и видосы (по сути дипфейки), это уже шаг навстречу полной генерации и лица и тушки.
И есть код и проект:
https://github.com/fudan-generative-vision/champ
И объяснялка:
https://www.youtube.com/watch?v=2XVsy9tQRAY
И даже сами можете попробовать!
https://replicate.com/camenduru/champ
Метаверсище и ИИще 2024-03-27 06:03:09
Ну, за аниматоров, в пятый раз!
Аниматоров обкладывают флажками со всех сторон.
С одной стороны нейромокапы, с другой генераторы анимации.
Вот тут еще один интересный проект.
Их фишка - перенос стиля анимации. Ну то есть берете какую-то стандартную походку и наваливаете на нее стиль зомби или гоблина.
Мессадж вот такой - No Capture. No Cleanup. Just Animate
Я у них вот тут:
https://www.motorica.ai/mogen
не увидел стиля "Дисней" - можно было бы выпить за аниматоров бесповоротно, а пока это повод вернуться к этому вопросу позже.
Метаверсище и ИИще 2024-03-27 05:42:29
MatX: Очередной новый чип - убийца Нвидия.
"Наше оборудование позволит обучать GPT-4 и запускать ChatGPT, но в рамках бюджета небольшого стартапа.
Наша команда основателей разрабатывала чипы в Google и Amazon, и мы создали чипы, имея 1/10 от размера команды, которая обычно требуется. Вот как мы подходим к решению проблемы неэффективных и недостаточных вычислений.
В то время как другие чипы одинаково относятся ко всем моделям, мы направляем каждый транзистор на максимизацию производительности самых больших в мире моделей. Наша цель - заставить лучшие в мире модели ИИ работать настолько эффективно, насколько это позволяет физика, что позволит миру на годы вперед продвинуться в качестве и доступности ИИ. Мир с более доступным интеллектом - это более счастливый и процветающий мир. "
https://twitter.com/MatXComputing/status/1772615554421170562
Dreams and Robots 2024-03-27 05:27:35
Если вы занимаетесь программированием, вам наверняка знаком сайт https://leetcode.com/, на котором собраны алгоритмические задачи. Вы можете выбрать задачу, решить ее на любом языке программирования и автоматически проверить решение. Задачи с этого сайта часто используются на собеседованиях для проверки кандидатов.
Пять месяцев назад мне пришла идея эксперимента: Я беру сложные задачи, скармливаю их GPT4, без правок копирую результат на сайт и проверяю автотестом. Игра продолжается до первой ошибки. И тогда я срезался на первой же задаче, потому что решение содержало ошибки.
Вчера я вспомнил об этом эксперименте и решил его повторить. Памятуя о прошлом провале я начал с простой задачи. Она решилась мгновенно. Потом перешел на средние и решил 15 штук. Переключился на сложные. Тут я, честно говоря, в какой-то момент начал уставать, так как ошибок всё не было и не было. Меня спасло достижения лимита сообщений в ChatGPT. До этого момента я решил 22 сложные задачи.
В общем, за 43 минуты GPT4 решил 38 задач с LeetCode без единой ошибки.
Не все решения были оптимальными по быстродействию. Примерно половина укладывалась в среднее значение (по сравнению с человеческим кодом), процентов 30 была медленнее, зато оставшиеся были быстрее, чем 90 процентов предложенных решений.
Какой можно сделать вывод?
Ну, во-первых, GPT4 сейчас и GPT4 пять месяцев назад очень сильно отличаются друг от друга. Это бьется с последним интервью Альтмана, в котором он признался, что они больше не хотят революционных прорывов, а планируют медленно разогревать воду в котле с лягушками.
А во-вторых, следующее поколение программистов будет ленивым и неизобретательным, зато задачи будут щёлкаться как семечки.
#gpt4 #programming
Метаверсище и ИИще 2024-03-27 05:25:43
ИИ-текстурирование.
Уже писал про ИИ-текстуры.
Тут вот китайские товарищи делают не только генерацию текстур, но и некоторые инструменты для этого. То есть взаимодействие и управление на протяжении всего процесса генерации, которое позволяет перекрашивать конкретные области и точно редактировать текстуры. Они также разработали единую модель инпайнтинга с учетом глубины, которая объединяет информацию о глубине с подсказками по инпайнту, эффективно смягчая 3D-неконсистентность и повышая скорость генерации.
https://me.kiui.moe/intex/
эйай ньюз 2024-03-26 19:52:42
Тут на днях Mistral хакатон устроили, показали базовую модель для Mistral Instruct 7B v0.2 (в бенчмарках вроде проигрывает 0.1, но длина контекста 32к против 8к у 0.1). Затюненная моделька вышла в декабре, а базовую тогда просто забыли выложить.
Участники хакатона веселились на полную – модельку научили (плохо) играть в PacMan и DOOM: в первом случае юзали LLaVa, во втором игру рендерили в ASCII и кормили это в модель. По помещению бегал танцующий робот с запущенной на нём Mistral 7B.
Серьёзных проектов тоже хватало – поисковик по arxiv затюненый на 50к статей, проект использующий LLM для анализа РНК, а ещё очередные ассистенты по написанию промптов и клон Devin.
Из забавного вокруг хакатона: кто-то в твиттере решил разыграть 7900 XTX среди тех кого не пустили на хакатон, но она оказалась настолько никому не нужна (тизер будущего поста) что в розыгрыше был ровно один участник.
> Если интересно, то про стартап Mistral я писал длиннопост (часть 1, часть 2).
@ai_newz