Нейролента Mikitos.ru - страница 3

Сиолошная 2024-04-20 10:47:55

Как я себя чувствую каждый раз когда я пишу в канал:
https://youtu.be/f_7Se53EzaA?t=3167

(Если вы не смотрели фильм, то почему вы ещё не исправились??? Даже вон старик Tarantio говорит!)

Приятель посоветовал посмотреть интервью с Aidan Gomez, CEO Cohere (это от них недавно вышла CMD R+, на пару дней лучшая опенсурсная LLM. А ещё он ко-автор трансформера, и конечно работал в Google)

Ссылка с таймкодом

«...все похвалы должны быть направлены OpenAI за то, что они попробовали все эти идеи (LLM, модели генерации изображений) на огромном масштабе, особенно в то время, когда исследователи глубокого обучения стигматизировали за использование подхода «тупого добавления большего количества слоев» (мем Stack More layers). Исследователи из OpenAI имели смелость сказать: мы даже не начали увеличивать модели, подержите моё пиво!»

Интересно, что буквально на днях прочитал вот этот блогпост с David Luan, ~30м сотрудником OpenAI (то есть очень ранним). Он также был лидом в Google Brain и вёл направление языковых моделей. Там он отвечал на вопрос «Почему Google не сделали GPT-3»:

«В то время в Google существовала такая штука, как Brain Credit Marketplace. Каждому подразделению выделен кредит и квота. Если у вас есть кредиты, вы можете покупать вычислительные мощности, в зависимости от спроса и предложения. Итак, если вы хотите выполнить огромную работу, обучить большую модель, вам нужно убедить 19 или 20 ваших коллег не делать ИХ работу. Действительно сложно собрать критическую массу, чтобы масштабировать модели. [в OpenAI] мы смогли победить Google просто потому, что мы делали большие шаги в одном направлении, на которое был весь фокус»

(Ilya Sutskever так вообще за масштабирование болел с допотопных времён, ещё в 2012-м, кек)

Ну теперь-то с выходом ChatGPT, когда всем-снова-всё-стало-очевидно, у Google такой фокус появился, что 1) объединили две команды, Google Research и Google DeepMind 2) у команды Gemini было больше 900 авторов 3) выделили ресурсы и расписали план наперёд!

UPD: в Google был такой Noam Shazeer, тоже очень известный и крутой дядька, много чего придумал — и он тоже топил за масштабирование. И его тоже обделяли ресурсами, хоть некоторе его и поддерживали и говорили SOMEBODY, PLEASE! Get this man a GPU. А потом он ушёл делать свою компанию (жаль не в OpenAI...

🥺)

UPD-2: (ссылка на мою лекцию) у Google в момент выхода GPT-3 самая большая модель была Т5-11B, на её обучение потратили в 10 раз меньше вычислительных мощностей. С одной стороны кажется «ой, всего в 10?», а с другой — это другой порядок инженерных работ. Нужно гораздо больше мощностей связать воедино, чтобы это всё заработало, отладить, и потом только тренировать модели.

gonzo-обзоры ML статей 2024-04-19 16:07:05

Из грустных новостей сознания и не только, сегодня умер Daniel Dennett :(

https://dailynous.com/2024/04/19/daniel-dennett-death-1942-2024/

gonzo-обзоры ML статей 2024-04-19 15:30:35

Хорошие новости

https://sites.google.com/nyu.edu/nydeclaration/declaration

The New York Declaration on Animal Consciousness
April 19, 2024 | New York University

Which animals have the capacity for conscious experience? While much uncertainty remains, some points of wide agreement have emerged.

First, there is strong scientific support for attributions of conscious experience to other mammals and to birds.

Second, the empirical evidence indicates at least a realistic possibility of conscious experience in all vertebrates (including reptiles, amphibians, and fishes) and many invertebrates (including, at minimum, cephalopod mollusks, decapod crustaceans, and insects).

Third, when there is a realistic possibility of conscious experience in an animal, it is irresponsible to ignore that possibility in decisions affecting that animal. We should consider welfare risks and use the evidence to inform our responses to these risks.

Популярно по теме:
https://www.quantamagazine.org/insects-and-other-animals-have-consciousness-experts-declare-20240419/

эйай ньюз 2024-04-19 12:07:21

🔥 LLaMa 3 конкретно ворвалась на лидерборд ChatBot Arena и уже бьет все существующие опенсорсные модели (даже Command R+, про Мистрали я вообще молчу).

И не только! Если брать запросы на английском языке, то LLaMa-3-70B-instruct уже рвет даже Claude 3 Opus и уступает только ChatGPT-4.

Голосов еще не много (чуть больше тысячи), но некие выводы уже сделать можно. Напоминаю, что это модель всего на 70B параметров.

Почитать, что такое ChatBot Arena можно тут.

@ai_newz

Neural Shit 2024-04-19 11:39:49

ML-специалисты тут? Вас уже ждут в Тинькофф!

Вместе с результативной командой вы будете:
- Генерировать гипотезы и ставить на их основе эксперименты;
- улучшать качество моделей и ускорять их работу в различных сценариях;
- оформлять эксперименты в воспроизводимые пайплайны;
- создавать масштабные ИТ-продукты.

Откликайтесь на вакансию, а компания обеспечит комфортные условия для работы и возможность воплотить ваши идеи в больших ИТ-проектах вместе с командой единомышленников.

АО «Тинькофф Банк», ИНН 7710140679

#реклама

Neural Shit 2024-04-19 10:52:09

А вот русскоязычный тюн llama3.

Ждем gguf

https://t.me/senior_augur/82

Neural Shit 2024-04-19 10:21:31

Новая llama 3.

Если хотите потестить, но нет возможности поставить себе, вот тут можно сделать это онлайн.

CGIT_Vines 2024-04-19 09:37:19

Смотрите и запоминайте, вот эти приемы с ними точно работать не будут!
#Урок самообороны №17, год 2034.

Метаверсище и ИИще 2024-04-19 08:53:27

Если устали от шквала метрик и хотите сами оценить интеллектуальные способности свежеиспеченной LLAMA 3, а заодно проверить все модели от LLAMA 2 70B до LLAMA 3 70B, можете воспроследовать вот сюда:
https://llama3.replicate.dev/
Работает архибыстро.

Метаверсище и ИИще 2024-04-19 08:41:19

Мне вот не дает покоя демо Адобченко, где он показал, что будет\может использовать внешние видеогенераторы как источники видео.
Тут им придется переобуться, ибо до сих пор они декларировали, что все, что отрыгнет их ИИ - это юридически чистый контент и они даже впишутся за своих авторов-подписчиков если что.
В данном случае эта модель перестанет работать, но я не о том сейчас.

А что мешает Адобченко также вструмить Suno и Udio как аудио-генераторы?

А потом GPT-4, Клода или локальный Мистраль как текстовые генераторы (для титров) или генераторы титров по картинке?

А потом DALL·E 3 как генератор картинок (SORA можно, а DALL·E 3 нельзя?!?!). Вон там инпайнтинг завезли, идеально ляжет на фотошопные кисти.

У Адобченко есть инструменты работы со звуком и видео и картинками. С огромной экосистемой. Туторами, коммюнити, культурой.

Всем контент генераторам не хватает нормальных инструментов редактирования. По времени (таймлайн) и по пространству(панель инструментов фотошопа).

Если Адобченко так лихо показал пристегивание внешних генераторов, что мешает ему быть Хабом для генераторов всея ИИ?

Понятно, что у Midjourney нет АПИ. Но это вопрос либо денег и переговоров, либо альтернатив.

В общем у меня теперь не сшивается реальность после их демо Premiere.
Еще раз - SORA можно, а DALL·E 3 нельзя? Вон у них в демо SORA и Firefly сосуществуют мирно, так что вопрос не в эксклюзиве для Firefly.

Что думаете?

Метаверсище и ИИще 2024-04-19 08:26:55

Вынесу из коментариев такой пример генерации от подписчика Mike:

"The Truth" - песня о поиске истины.

"Постарался вытянуть из Suno максимум (сначала мучил Udio, но результат был хуже).
Потратил около 5 часов, 90+ генераций, нарезка, чистка, маскировка артефактов звуковыми эффектами. И монтаж в Blender (не удивляйтесь)."

Это я к тому, что:
- ИИ можно допинывать до годного или до нужного тебе, ИИ тут вполне себе инструмент
- это стоит времени, если есть заказчик и не стоИт задача генерить тысячу треков в час.
- можно конечно жать кнопку "Давай еще", но этот подход не работает, как с картинками, музика немного сложнее
- для видео и аудио генераторов точно нужен интерфейс для редактирования треков. Об этом след пост.

А пока послушайте. Мне это слышится скорее как закрывающий трек для эпизода какого-то сериала. Обратите внимание как сделаны шумы (на картинке ответ).

P.S. Mike прислал картинку и mp3. Я просто спросил chatGPT:
I have png image and mp3 file - I need to make mp4 video using ffmpeg - give me ffmpeg comand

chatGPT: Апажалста: ffmpeg -loop 1 -framerate 1 -i image.png -i audio.mp3 -c:v libx264 -tune stillimage -c:a aac -b:a 192k -pix_fmt yuv420p -shortest output.mp4

Ибо Movavi не умеет в такое (жмакает картинку в хлам).

Метаверсище и ИИще 2024-04-19 07:07:22

А тем временем Stability AI увольняет около 10 процентов своих сотрудников, около 20 человек.
Пишут:
Решение об увольнении сотрудников является частью "стратегического плана по сокращению расходов, укреплению поддержки наших инвесторов и партнеров, а также предоставлению командам возможности продолжать разработку и выпуск инновационных продуктов".

Что ж такое там происходит? Мы тут все алкаем SD3, а кто ея будет допиливать?

https://www.theverge.com/2024/4/18/24133996/stability-ai-lay-off-emad-mostaque

Сиолошная 2024-04-19 05:02:43

Вчера уже не стал писать, но META также обновили свой основной сайт с чатботом: meta.ai

И прям в него выкатили свою новую модель для генерации изображений и анимаций. Называется Imagine Flash, по сути это ускорение модели EMU для обслуживания десятков миллионов пользователей. Если обычная EMU генерировала изображение в 25-50 шагов (постепенно уточняя детали), то эта модель делает всё в 3 шага — почти в 10 раз быстрее. Работает даже шустрее, чем StableDiffusion 3 Turbo в API компании Stability.

Демонстрацию работы вы можете увидеть на прикреплённой гифке. Скорость генерации легко заметить — картинка получается прямо во время того, как вы печатаете текст!

(У меня получилось зайти через бесплатный браузерный VPN Browsec с установкой на Сингапур)

А детали обучения и разработки можете прочитать у Артёма @ai_newz — он Staff Research Scientist и руководил этим проектом прямо внутри META! Так что бегом подписываться на канал Артема, там много годноты!

Neural Shit 2024-04-18 23:23:28

Если тоже не спите, то вот вам позалипать немножко 😵‍💫

Метаверсище и ИИще 2024-04-18 22:40:44

Примеры оживляжа картинок кнопкой Animate

Метаверсище и ИИще 2024-04-18 22:40:01

Замени говорю, котов на собак, потом на свиней, потом на людей. Он точно про нас что-то знает.
(про свиней тоже, зацените прикиды хрюш)
Промпт был "дай много котов, смотрящих в камеру"

Метаверсище и ИИще 2024-04-18 22:38:31

Пока все пишут про LLAMA-3, я тестирую новый генератор картинок от Метачки, который тоже вышел сегодня.
Включаете штатовский впн.
Залетаете на https://www.meta.ai/
Логинитесь фейсбучеком.
И ну генерить.
Он быстрый.
Генерит в 1280 на 1280.
Настроек нет, только промпт.
Генерит 4 картинки без всяких кредитов и подписок.
Когда сгенерил, есть кнопки Edit и Animate.
Edit работает интересно - он лихо заменяет котиков на собак, собак на свиней, а свиней на людей. Но не может в make it black and white.
А вот Animate генерит двух секундное видео из картинки. С людьми лучше даже не пробовать, а с котиками иногда получается интересно.

Он не хочет генерить нашу принцессу, и порой отказывается генерить совсем нейтральные промпты.

Но самое главное - иногда он переходит в режим ТУРБО и начинает генерить в реальном времени! Пока вы печатаете.

Так, я начал печатать picture of black square и заметил, что после слова black он безответственно сгенерил афроамериканца! Я стер square - и да, я не ошибся.
Потом я поиграл с picture of white, потом перешел к черным и белым парам, по следам истории с Гуглом. Белые пары оказались азиатами.

В общем - это очень интересный турбореактивный генератор, который генерит в высоком разрешении (иногда) в реальном времени (думаю это впн сажает пинг).

Всем срочно его тестировать!
https://www.meta.ai/

Почему он такой быстрый и как он умудряется генерить в реальном времени почитайте у Артема

эйай ньюз 2024-04-18 21:36:44

Вот Марк как раз рассказывает про нашу Imagine Flash. Врать не буду, очень приятно, когда про твою работу так говорят 🙂

@ai_newz

Сиолошная 2024-04-18 20:53:25

И последняя на сегодня новость по LLAMA-3

Вечером пока читал, казалось, что где-то это видел, но потерял, и не стал без источника указывать. Сейчас наткнулся снова, понял, что это были не галлюцинации (я всё таки не LLM!).

Дообучение LLAMA-3 после этапа предтренировки производилось на 10M (!) вручную размеченных людьми примеров. Это ОЧЕНЬ много — я не видел ни одной работы по LLM, где было бы существенно больше 200 тысяч. Ну, миллион, ну, полтора, но не десять же!

Вообще в META любят подразметить — в паре предыдущих работ, особенно по картиночным моделям, тоже были немаленькие датасеты, прошедшие через людей.

Очень ждём появления LLAMA-3-70B-Instruct на LMSYS Arena, посмотрим на этого храброго воина!

эйай ньюз 2024-04-18 20:31:18

Принес еще несколько примеров как работает наш Imagine Flash.

Попробовать можно на meta.ai под американским VPN-ом.

@ai_newz

Сиолошная 2024-04-18 18:57:22

(продолжение поста выше с TLDR'ом подкаста: 🔼)
— Mark считает, что META будет продолжать выпускать модели в открытый доступ. Исключение - если они начнут натыкаться на навыки модели, с которыми не будут знать, что делать. Он ушёл от ответа на вопрос про «перевыравнивание» моделей через тренировку (когда исследователи дообучили модель как-то не отвечать и что-то не делать, а люди дообучили её в обратную сторону, и теперь она снова может что-то плохое писать, например). Пока надёжных способов это сделать я не видел, так что хз, как они будут с таким справляться.
— когда хост начал расспрашивать про риски открытых моделей уровня AGI, Zuck привёл уже избитый пример с кибербезопасностью. Мол, да, у плохих людей будет в руках AGI, но он же будет и в руках всех компаний и людей, так? Они смогут его использовать для защиты! Меня этот пример никогда не убеждал: ведь тогда получается, что одним могут вбухать в 100 раз больше мощностей на одну атаку, а «защищающаяся» система не сможет потянуть такое. И очевидно, что есть такие системы, куда многие недоброжелатели хотели бы вклиниться: банки, интерпол, etc. А если AGI должны будут запускать люди у себя дома, и такая модель будет, скажем, для них очищать интернет — кто за это будет платить? Почему политики не смогут в 100 раз больше вложить в создание качественной пропаганды, чтобы обойти такое было очень дорого (или близко к невозможному)?
— Но возможно они сами придут к тому, что побороть никак не смогут, и не будут ничего публиковать 🤷‍♀️
— на вопрос «релизните ли вы модель, обучение которой стоило $10b, если она полностью безопасна?» Mark ответил «да, пока нам это помогает». Под помощью тут подразумевается то, что это как-то облегчит работу компании. Часто Гуглы да Фейсбуки что-то выпускают, и оно становится стандартом индустрии; многие специалисты начинают изучать технологию, и по сути приходят готовыми. А ещё сообщество помогает искать баги 🙂 правда что будет с моделями, какая польза от людей вне компании - представить сложно. «Особенно если будут другие модели, такие, что наша не будет давать каких-то существенных преимуществ» 🙂

🚬
— моё мнение: я вижу очень большое противоречие. Основные приросты качества происходят из-за масштабирования моделей, и чем дальше в лес — тем меньше людей вообще сможет к ним прикасаться. Вот сейчас выйдет 405B модель, и что? На макбуке её уж точно никак не запустить (даже на будущем M4, почти уверен), дома нужен целый сервер. С ней будут работать компании, которые могут себе это позволить. У LLAMA-6 (самой большой версии) вообще круг ЦА потенциально узеньким будет. Людей, которые что-то придумают и улучшат, можно сразу нанимать будет, и всё, никакого опенсурса. И при этом многие вещи (вроде оптимизаций) можно будет переносить с условной LLAMA 4, если окажется, что в архитектуре и общем принципе не будет существенных изменений. В чем тогда смысл и ценность открытия моделей для META? Будем следить!
— (ну или индустрия вычислительных мощностей должна так круто перевернуться, что каждый на тостере реально сможет крутить модели. Молимся на великого Sama

🙏)
— META работает над своим железом для обучения LLMок, но даже LLAMA-4 не будет на нём тренироваться. В первую очередь сейчас заняты чипами для разгрузки GPU, чтобы можно было перекинуть все рекомендательные системы и ранжирования на узкоспециализированные чипы (вот недавно новый представили). А уж после начнут с мелких LMок, и там LLMки.

Сиолошная 2024-04-18 17:36:01

— загадочное «400B+» в названии самой большой LLAMA 3 означает 405B. Это dense модель, не микстура экспертов.
— в ближайшие месяцы ожидаются новые модели, они будут мультимодальными (как минимум с картинками на входе), а также поддерживать больше языков и более длинный контекст
— решение закупить много GPU в 2022м было принято в рамках работы над... Reels в Instragram 😕 тогда подумали, что хорошо бы делать рекомендации не только по рилсам ваших контактов, но и по незнакомым. Mark хотел догнать TikTok с точки зрения рекомендаций и ленты. Он сделал yolo bet и сказал «давайте закажем в два раза больше? Наверняка мы что-то упускаем сейчас, пригодится». Ну вот, нашлись и другие применения 🙂
— LLAMA-2 не тренировали на большим количестве кода, так как думали, что у пользователей не будет таких задач для модели при интеграции в продукты META. Но оказалось (по-моему, исследования были и до выхода LLAMA-2, см. тут), что обучение на коде улучшает рассуждения модели и в других доменах — поэтому LLAMA-3 обучена на огромном количестве скриптов.
— в LLAMA-3 наблюдаются лишь мелкие зачатки агентности (возможности самостоятельно решать отдельные задачи с минимальным наблюдением человека), задача при разработке LLAMA-4 развить их, так как финальное видение AI-ассистентов у Mark — это что ты говоришь «сделай то-то и это», и оно делается
— При обучении 70B на 15T токенов (триллионов. Очень-очень много — LLAMA 2 видела 2T, GPT-4, по слухам, 12-13T) качество модели не вышло на плато, то есть её можно продолжать тренировать и улучшать. У 400B версии наверное вообще конца-края не видно будет

🤙 и это всё — на один проход, без повторений. И дубли, я почти уверен (статьи-то нет), отсекали и фильтровали.
— Также CEO META считает, что экспоненциальное развитие пока будет продолжаться, и что траты в сотню миллиардов долларов на дальнейшее развитие моделей выглядят приемлемыми. Но ещё до того, как индустрия придёт к тому, что капитал больше не имеет смысл вкидывать в железо и обучение, мы упрёмся в энергию, и это будет боттлнеком. Даже если у вас есть деньги — почти нигде не получится не упереться в регуляции и взять и построить электростанцию для подпитки датацентра.
— Более того, решение вопроса с энергией также позволит строить кластера большего размера, чем мы можем сегодня (тут хочу напомнить про проект суперкомпьютера OpenAI x Microsoft за $100B). Сейчас нет датацентров для тренировки LLM на 1 гигаватт. Но они будут появляться. Условно датацентр, а прямо за ним — АЭС (не шутка, Mark сам это упомянул - и он не первый кстати, CEO Anthropic тоже такое упоминал).
— Скорее всего, в будущем тренировка будет происходить не просто на имеющихся данных, а прям итерациями: обучили, сгенерировали синтетические данные, дообучились, и так по кругу. Это не лишено смысла — как писал выше, моделям нужно больше данных, они не доучиваются прям до конца, не выходят на плато. И на это тоже потребуются огромные мощности.

(это первая половина, читайте ниже остаток 🔽)

Neural Shit 2024-04-18 17:30:59

И еще годноты от нейро.

Жаль, что скоро вот такое поведение скорее всего пофиксят и подобных лулзов больше не будет.

Сиолошная 2024-04-18 17:20:03

Пока пишу обзор подкаста выше, вот удобная табличка для сравнения метрик будущей LLAMA-3-405B и ведущих моделей.

Проигрывает и Opus, и GPT-4-Turbo, но ведь и тренировка ещё не закончилась! Кто знает, сколько там осталось впереди?

Источник

эйай ньюз 2024-04-18 16:52:02

Статью с деталями Imagine Flash от нашей команды можно почитать тут.

Там описываем, как мы дистиллировали базовую text2image модель Emu 2.7 B, которой требуется 25+ шагов, в Imagine Flash, которая работает за 3 шага без существенной потери в качестве.

То есть ускорили более чем в 10 раз!

Ещё Imagine Flash в meta.ai работает в несколько раз быстрее end2end чем SD3 Turbo API.

Скоро сделаю детальный разбор метода в канале.

Статья

@ai_newz

gonzo-обзоры ML статей 2024-04-18 16:47:53

Из интересного про Llama 3, в процессе обучения находится 400B+ модель. Также ожидается мультимодальность и мультиязычность.

https://ai.meta.com/blog/meta-llama-3/

gonzo-обзоры ML статей 2024-04-18 16:27:14

Llama 3 announced.

* 8B and 70B models and instruction-tuned versions are available.
* Trained on more than 15T tokens, 7x+ larger than Llama 2's dataset!
* 8k context window
* New trust and safety tools with Llama Guard 2, Code Shield, and CyberSec Eval 2.

In the coming months, Meta plans to introduce new capabilities, longer context windows, additional model sizes, and enhanced performance.

https://llama.meta.com/llama3/

Сиолошная 2024-04-18 16:20:44

И параллельно у Dwarkesh'a вышел подкаст с Mark с разговором про LLAMA-3

Го смотреть

https://www.youtube.com/watch?v=bc6uFV9CJGg

Сиолошная 2024-04-18 16:11:57

(но это только после показа 400B версии, до этого OpenAI чё переживать то)

источник

эйай ньюз 2024-04-18 16:11:47

⚡️Imagine Flash - самая быстра генерация text2image

И самая главная новость Imagine Flash – это проект который я вел, и модель, которую я лично тренировал. Мы дистиллировали и ускорили нашу text2image модель Emu, да так, что генерация работает в риалтайме пока вы печатаете промпт! Я очень горжусь тем, что мой проект, который я начал в конце прошлого года вылился в такой мощный релиз – круто видеть реальный импакт своей работы.

Модель Imagine Flash интегрирована в LLaMa. Нужно только начать печатать "Imagine ..." и моментально будет показано превью того, что вы пишете, обновляя генерацию с каждым символом.

А после отправки сообщения можно кликнуть "animate" и быстро анимировать картинку – я и моя команда, конечно, тоже ускорили эту модель для анимации. Еще можно создать видео, где показано как меняется финальный результат во время того, как вы печатали промпт.

Уже доступно в WhatsApp и meta.ai (Flash только в СШA).

Блогпост

#карьера
@ai_newz

эйай ньюз 2024-04-18 16:10:52

Будет ещё большая LLaMa3 модель на 400В+ параметров, она все еще тренируется.

@ai_newz

эйай ньюз 2024-04-18 16:05:52

🔥LLaMa 3 - дождались: Новая SOTA в open-source!

Сегодня день больших релизов от Meta, в которых и я и моя команда принимала прямое участие.

Зарелизили в опенсорс LLaMa-3 8B и 70B:
🔳LLaMa-3 8B – лучшая в своем классе модель, и сопоставима с LLaMa-2 70B, хоть и в 10 раз меньше.
🔳LLaMa-3 70B – тоже самая мощная в режиме 70 млрд параметров, достигает 82 на MMLU бенчмарке (показывает уровень общих знаний в разных областях). Для сравнения, недавняя Mixtral 8x22B с 141B параметров достигает только MMLU 77.8. Ну, и ждем результатов на арене.

C новыми моделями можно початиться на meta.ai

Блог
Подробности
Скачать веса модели
Код

@ai_newz

эйай ньюз 2024-04-18 16:02:36

Пошла жара! Марк анонсирует новую LLaMa 3 и Meta AI штуки на meta.ai.

@ai_newz

Сиолошная 2024-04-18 16:00:31

15T токенов, но маленькое окно контекста: 8k
(для сравнения, LLAMA-2 тренировалась на 2T)

отсюда

Сиолошная 2024-04-18 14:43:08

Ждём LLAMA 3 сегодня?

🚨

Уже на двух площадках засветились новые модели — сайт Replicate для развёртывания моделей и Microsoft Azure, один из крупнейших облачных провайдеров. На обоих указана версия модели на 8B параметров (против общепринятых 7), а на первом ещё есть 70B версия. Согласно утечкам, планируется сначала выпустить две модели «меньшего размера» — 70B не очень-то в это вписывается! Или, быть может, они готовят титана 150B+? Поживём - увидим.

Сейчас в Калифорнии почти 8 утра 🚬 возможно, официальный анонс будет в ближайшие 4 часа.

Главных вопроса два:
— будут ли эти модели хоть как-то лучше оных от Mistral и Cohere?
— будет ли опубликована статья с техническими деталями процесса обучения?

В опросе ниже можно делать ставки!

эйай ньюз 2024-04-18 12:28:16

На прошлой неделе впервые слетал в Гамбург

Побывал в офисе Меты, посмотрел, как тут наш гамбургский офис. В Гамбурге сидят в основном сейлс. Тут нет технарей, инженеров. Поэтому устроиться работать туда как Research Scientist не получится, а жаль, потому что виды из окна - отличные.

Встретился с экс-CFO одного крупного немецкого банка. И заметил одну интересную вещь – люди, вне тех сектора, часто заблуждаясь, считают что проще простого нанять highly-skilled AI инженера. Он с уверенностью говорил, что банки пылесосят IT-таланты, и что там уже работают самые крутые AI спецы, потому что банки им могут хорошо платить (кек). Есть, конечно, банки-исключения, но в целом даже в Big Tech команды страдают от того, что очень тяжело даётся найм людей, тем более на высокие уровни. Людей, хорошо секущих в AI рисерче, на сегодня по моей прикидке от силы 10-20 тысяч. А в engineering допустим x2. Чем более опытного спеца ты ищешь, тем уже становится выбор. И тут одних лишь денег зачастую бывает мало, такие люди хотят еще и интересными вещами заниматься, коих в банке не всегда могут предложить. Да и в банках платят в среднем сильно меньше чем в BigTech или OpenAI, конечно если ты не CFO.

Мои впечатления о городе:
Город прикольный, что-то между Берлином с ультралевыми вайбами и Амстером, потому что в Гамбурге тоже есть квартал красных фонарей, бордели, очень много секс-театров и прочих удивительных вещей в этом духе. Есть там как трэшовенькие квартальчики, так и очень красивые. Фан факт: в Гамбурге живет самое большое количество миллионеров в Германии. Еще здесь много вкусных морепродуктов, я случайно нашел целую улицу португальских ресторанов и очень хорошо там покушал.

А есть у нас тут в канале люди из Гамбурга?

#personal #карьера
@ai_newz

Метаверсище и ИИще 2024-04-18 10:54:27

Ютюб мне постоянно подсовывает курсики типа "как заработать с помощью нейросетей" или "как покрасить пони в розовый в миджорни".
Соотношение шлака и годноты похоже инвариантно во все времена. Начиная с открытия книгопечатания.

Если за годноту, могу порекомендовать (бесплатный) марафон из 20+ спикеров с небанальными темами по четырём направлениям:

Users — реальные кейсы и применение нейросетей в бизнесе
Developers — технические детали и разработка ИИ-решений
Visioners — тренды развития ИИ и его будущее
Practics — мастер-классы и челленджи для отработки навыков

Марафон пройдет с 23 по 26 апреля на канале Магия Нейросетей.

Все подробности вот тут: https://t.me/NeuralMagic_official/8340

Denis Sexy IT 🤖 2024-04-18 10:13:14

🍓

Эм, не буду постить сюда это видео, чтобы случайно кто-то не включил звуки стонов языковой модели в неудобном месте – по ссылке ниже чувак подключает языковую модель к «электровагине» (секс игрушке), чтобы она звуки и текст синтезировала в зависимости от «интенсивности» действий пользователя

В видео чувак тестирует все пальцами, так что можете спокойно посмотреть:
https://orifice.ai/testing-123/

Короче языковые модели это новый блютус – их встроят всюду

P.S. Скажите же, что «электровагина» идеальное название для панк группы??

Метаверсище и ИИще 2024-04-18 09:19:44

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Помните огненный липсинк EMO от Алибабищенко?
Держите ответочку от Микрософта.

На входе одна портретная фотография + аудио, на выходе - видео говорящего\поющего персонажа с липсинком, реалистичным поведением лица и натуралистичными движениями головы, создаваемыми в РЕАЛЬНОМ ВРЕМЕНИ.

Похоже тема липсинка скоро будет закрыта, а то wav2lip безнадежно устарел.

Смотрите примеры в твитторе:
https://twitter.com/minchoi/status/1780792793079632130

А также на сайте самого проекта:
https://www.microsoft.com/en-us/research/project/vasa-1/

Кода, конечно, нет, только бумага.

Сиолошная 2024-04-18 08:53:38

Many-Shot In-Context Learning

LLM известны своим навыком In-Context Learning (ICL) — они могут выучить новую задачу без непосредственно обучения, просто по демонстрации примеров в промпте. Однако долгое время количество подаваемых примеров оставалось маленьким — 4-8, может, 25 максимум. Однако модели текущего поколения набирают обороты, и у той же Gemini 1.5 Pro в контекст влазит аж 1М токенов — хватит на сотни и даже тысячи примеров решений!

Поэтому авторы из DeepMind возвращаются к вопросу ICL и исследуют изменение качества при увеличении количества примеров. Результаты ожидаемые - почти всегда и почти везде качество растёт, тут ничего удивительного. Например, в задаче машинного перевода на редкие языки (с английского на курдский и тамильский) Gemini 1.5 Pro обходит гугл переводчик (в промпте при этом примерно 85-100k токенов пар-примеров с переводом). В разных бенчмарках по математике и рассуждениям тоже наблюдаются приросты — картинка будет в первом комментарии.

Один из вопросов с точки зрения практики - готовы ли вы платить +$0.5 за обращение к модели, чтобы поднять качество ответов на 5-15%? Уверен, найдутся домены, где это окупается.

«Ну так блин, для этого надо столько разметки вручную делать, это не всегда доступно» — можете заметить вы, и будете правы (разметка ответов и решений для помещения в промпт). Поэтому начинается интересная часть, делящаяся на два направления:
1) подавать просто текст проблем в промпт, без решений и ответов (называется Unsupervised ICL)
2) генерировать решения LLM'кой (и отбирать их по имеющемуся ответу) и брать их. Да, в таком случае некоторые неправильные решения могут приводить к верному ответу. Называется Reinforced ICL.

Эти два метода расширяют применимость ICL с большим количеством решений — в первом так вообще ничего не надо, кроме текстов проблем. И...это тоже увеличивает качество. RICL так вообще почти всегда показывает такое же качество (и даже лучше!), чем демонстрация написанных людьми решений. И даже UICL иногда работает — вероятно, потому, что модель лучше понимает и формирует внутри себя представление о том, с какими проблемами имеет дело.

Лично мне в статье не хватило сравнения с RAG подходом, когда отдельная модель сначала из всего корпуса проблем и/или решений выбирает самые подходящие, подаёт их в промпт, а затем уже LLM генерирует ответ. Тут не нужен большой контекст, и потенциально можно отфильтровать шум. Быть может этот метод будет давать качество ещё выше

🤷‍♀️

Ждём модели с 100M контекста, чтобы кормить им описание всего, что только под руку попадётся — даже если за это придётся платить долор(

Метаверсище и ИИще 2024-04-18 08:47:56

Коль скоро я сегодня пасусь на продакт ханте, вот вам отличная новость - у Каскадера (про который я постоянно пишу, ибо знаю Женю, Диму и команду уже 8 лет), новая фича. Это Анбейкинг, который "распекает" анимацию, и позволяет редактировать мокап и ассеты.
Если на пальцах, то обычно анимация из мокапа - это ключи в каждом кадре. Редактировать это невозможно.
Теперь возможно с помощью Каскадера и Animation Unbaking.

Там также новые Retargeting и AutoPhysics.

Для аниматоров, инди-разработчиков и всех, кто работает с мокапом - маст хев.

Это я к чему: сегодня ребята бахнули этот эпический апдейт Каскадера на продакт хант. Поддержите неистовыми лайками, плюсами кликами и что там еще есть. Реально хороший продукт на фона шквала проходняка на ханте.
https://www.producthunt.com/posts/cascadeur-working-with-mocap-and-assets

Хотите подробнее?
Поглядите видео:
https://www.youtube.com/watch?v=euMb627cF9I

Метаверсище и ИИще 2024-04-18 08:34:05

Вот вам еще пример такого middle-ware стартапа, который говорит, мы сгенерим картинки, которые будут НРАВИТЬСЯ пользователям в соц-сетях. С вас только идея. Дальше мы сами.

Create Eye-Catching Social Media Graphics

Ну то есть оценка того, что будет нравиться кожаным делегируется ИИ.

Ладно, думаю, попробую, тем более вроде выпускники Y-combinator

Попробовал. Вкинул идею "Be Creative" - мы ж тут за творчество трём.
Задал палитру (черный, желтый, белый). Даже лого загрузил.

Получил вот такое "Границы - это прекрасно. Они показывают, где кончаешься ты и начинаются Эмоциональные границы", если убрать ошибки.

Дальше все это попадает в простенький веб-редактор типа нано-канвы.

Цвета мимо. Композиция мимо. Чем-то похоже на генераторы слайдов для презентаций, но с астрологическим уклоном.

Но. Опять же, вам шашечки или ехать?
Вам заливать контент тоннами в интернетик или самовыражаться?

Определитесь. ИИ поможет в обоих случаях.

https://www.sevn.ai/

Метаверсище и ИИще 2024-04-18 08:03:52

ИИ-кино и ИИ-творчество. Или сам себе ИИ-режиссер.

Тут у нас в коментах шквал музыкальной ИИ-годноты. Чтобы слабать ИИ-пестню, а точнее, чтобы оценить результат на слух, вам не надо много .. ну скажем так мозгов. Нравится или нет. Рынок попсы этим живет.

С кино все сложнее. Ну ок, вы можете сказать, я вот щас дам chatGPT идею и он мне все распишет и синописис, и сценарий, и персонажей, потом раскадровки и пр.
Но.
Боюсь вы не сможете оценить ни синопсис, ни сценарий. Нужен опыт, глаз, насмотренность и даже (о, боги) какой-то образование или хотя бы начитанность. (Тут мы говорим про крупные форматы, а не мемные видосы для тиктока и инсты). У вас может не хватить этих .. как его ... мозгов.
Ну то есть бутылочное горлышко в самом начале.
Самые смышленые неорежиссеры скажут, "а давайте поручим оценку годноты самому ИИ". И будут правы.
Смотрите, я сегодня тусовался на продакт ханте и нашел такой стартап.

"Обычно нас путают с платформами для создания видеоклипов, такими как Runway или Sora.

Снимать фильм - все равно что готовить. Эти платформы - это платформы для генерации ингредиентов, цель которых - создать желаемые фрагменты видео. Они не помогают вам решить, что готовить, как готовить, и не предоставляют кухню.

Directin AI - это кухня. Мы не только позволяем вам генерировать ингредиенты с помощью искусственного интеллекта в течение нескольких кликов, но и сопровождаем вас на протяжении всего процесса."

Я предвижу создание такие middle-ware стартапов там, где юзеры уже получили в руки инструменты для генерации контента, но не имеют ни начитанности, ни насмотренности, ни (самое главное) опыта. И тут ИИ такой: щас все порешаем и сделаем шедевр.

Но у меня вот такой вопрос. Судя по тому, как пользователи в сети остервенело генерят картинки, музику и видео, у них есть огромное желание "творить", самовыражаться, исторгать из себя нечто.

И когда приходит ИИ и говорит: "Стопэ, давайте я буду творить и делать в разы лучше", что почувствуют кожаные?

Сдается мне ответ простой в виде вопроса: "Вам шашечки или ехать?".

Вам деньги зарабатываться на производстве контента или самовыражаться?

ИИ поможет по обоим пунктам.
https://directin.ai/

Метаверсище и ИИще 2024-04-18 07:35:54

Продолжаем предвкушать Stable Diffusion 3.

Вот держите 100(сто) пар картинок, сгенеренных в SDXL и SD3.
Фаундер ScenarioGG провел титаническую работу и сравнил две модели.
Картинки в основном из области геймдева(логично), концепт-арта, персонажки, ассетов и окружений. Клянется, что не черипикал, то есть брал, что есть.
Тут я рискую переобуться и начать сравнивать одну красоту с другой, но сдается мне, что SD3 прям получше.
Листайте тут, там все разбито по парам и промпты напечатаны сверху.
Го сравнивать красоты!
https://twitter.com/emmanuel_2m/status/1780831947335381010

Neural Shit 2024-04-17 23:47:24

Электронка с игорями.

Мы всё дальше от Бога.

Скорее бы DOOM портировали

эйай ньюз 2024-04-17 17:08:56

🔥Там релизнули Stable Diffusion 3 API.

Потыкался в API SD3 Turbo (разбор статьи), и вот мои результаты. End2end задержка ~2.5 сек.

Может из меня плохой промпт инженер, но не выглядит, что она лучше чем MJ6 – слишком много артефактов. Основные авторы ушли из стабилити и, возможно, релиз был сделан кувырком совсем другими людьми.

1&2. Moloch whose eyes are a thousand blind windows, whose skyscrapers stand in the long streets, whose smoke-stacks and antennae crown the cities! 
3. A photograph of a pig with a unicorn’s horn. 
4. A shark fighting an alligator
5. a cat in boots and dog
6. Emma Watson eating noodles
7. cute cotton candy monster, flirty cute stubborn determined, style of krenz cushart and craig davison, highly detailed
8. Spiderman fighting Dinosaur in jurassic park

Colab ноутбук (нужен API ключ - получить здесь)

@ai_newz

Метаверсище и ИИще 2024-04-17 15:35:56

Оппа, релизнули Stable Diffusion 3 API.
https://stability.ai/news/stable-diffusion-3-api

Что это значит для нормальных людей?
Правильно, пока ничего.

Но можно почитать документацию, чтобы посмотреть, что там за параметры у нее на входе:
https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post

За цены можно посмотреть тут.

While the model is available via API today, we are continuously working to improve the model in advance of its open release. In keeping with our commitment to open generative AI, we aim to make the model weights available for self-hosting with a Stability AI Membership soon.

эйай ньюз 2024-04-17 15:28:03

Новый Atlas от Boston Dynamics

Только вчера они прощались с классической моделью Атласа, над которым как только не измывались, а сегодня уже показывают его замену. В отличие от прошлых, гидравлических, поколений, новое поколение Atlas - полностью электрическое, что делает его сильнее и ловче.

Выглядит прикольно - дизайном напоминает фантастику 50-х. Мелкой моторики Optimus мы тут, конечно же, не увидим, но двигается он гораздо живее. И, самое важное, его возможно будет купить после бета-тестирования клиентами (пока что это только Hyundai). Но, смотря на цену Spot (да-да, та самая робо-собачка) в $75k, страшно и представить сколько попросят за гуманоидного робота.

@ai_newz

gonzo-обзоры ML статей 2024-04-17 14:53:59

Future of Humanity Institute закрылся.

https://www.futureofhumanityinstitute.org/

Нейролента Mikitos.ru 2736 постов. Страница 3 (50 постов)