Нейролента Mikitos.ru 2736 постов. Страница 2 (50 постов)
эйай ньюз 2024-04-25 06:07:15
Для контекста о посте ниже: Степан (автор e/acc) — фаундер и венчурный инвестор. У него можно почитать и про крипту, и про веб3 (это не формат файла, если что), ну и без AI/ML, конечно, не обошлось. А еще, как инвестор, Степан много рассуждает на тему того, как будет устроен мир в перспективе от 5 до 30 лет. Так что там не обошлось и без программируемой экономики с цифровыми государствами. Рекомендую почитать, если про такое еще не слышали — контент в канале у Степана топовый.
@ai_newz
эйай ньюз 2024-04-24 22:31:45
Diffusion Models for Video Generation
Вышел новый пост #ликбез в моем любимом блоге. У Lilian Weng (OpenAI) всегда получаются очень подробные разборы тем. На этот раз она написала про существующие подходы для генерации видео с помощью диффузии. Контент для продвинутых юдокас.
Другие крутые посты из блога Lilian:
- Про диффузию
- Про оптимизацию трансформеров
- Про другие генеративные модели
@ai_newz
Сиолошная 2024-04-24 20:55:41
8 лет спустя: Jensen доставляет первый в мире DGX H200 "to advance AI, computing, and humanity" компании OpenAI
В этом ящичке мощи для обучения нейронок больше, чем у самого мощного суперкомпьютера в мире ~11 лет назад (этот или этот) в сумме (а ведь они занимали целый машинный зал!). А дальше - только больше: этот готов, и ещё 200 тысяч на подходе!
Источник (GDB, мужик справа)
эйай ньюз 2024-04-24 18:59:40
Ищем ML engineer с опытом в Gen AI (Diffusion, GAN, CV)
О нас:
Мы продуктовая ai компания, сделали uncensored 18+ multimodal AI chat (text, photo, voice) и сейчас имеем сеть крупных клиентов из adult, dating индустрии с миллиардами юзеров в месяц, которые наши продукты берут себе как SaaS whitelabel. У нас сильные ребята в rnd (из Stability AI, Meta), и мы расширяем команду rnd в сфере vid2vid и text2vid.
Задачи:
- Ресерч и воспроизведение текущих опенсорс решений.
- Эксперименты с допиливанием и файнтюном текущих решений до прототипов.
- Video editing, image to video, text to video
- Video to anime, video filters as de-aging, hair color stylization, enhancement
- Тренировка adult foundation model
Есть доступ к большим объемам данных и видеокартам. Сделаем то, чего еще нет в adult индустрии.
Если у тебя нет подходящего опыта, но есть хорошее образование (мфти, шад, и ты внимательно дочитал до сюда, то бронируй сразу календли дот ком слеш vb--fdmx) тоже не стесняйся откликаться, мы набираем большую разнообразную команду под этот ресерч.
$1000 за успешную рекомендацию после прохождения ИС
Заполняй форму и отправляй друзьям!
https://forms.gle/oywNE9VAG6xue4xh6
Полный текст вакансии:
https://teletype.in/@softpear/D5xjp1xuP_-
#промо
Neural Shit 2024-04-24 18:38:02
Киберпанк, который мы заслужили
Сиолошная 2024-04-24 14:22:16
Сначала люди говорят, что ARA («автономная репликация и адаптация», https://t.me/seeallochnaya/574) для LLM/AGI-моделек это бред, потому что столько денег модели не смогут зарабатывать на своё содержание, а потом удивляются, что пользователь с первого запроса на счётчике
Автор: @senior_augur (подпишитесь на Илью)
gonzo-обзоры ML статей 2024-04-24 14:13:15
Из других свежих интересностей, HF опубликовал свою открытую реимплементацию Gato (https://t.me/gonzo_ML/966) под названием Jack of All Trades (JAT).
Пост: https://huggingface.co/blog/jat
Статья: https://arxiv.org/abs/2402.09844
Код: https://github.com/huggingface/jat
Модель: https://huggingface.co/jat-project/jat
Датасет: https://huggingface.co/datasets/jat-project/jat-dataset
gonzo-обзоры ML статей 2024-04-24 14:05:14
Надоело уже писать про новые LLM, но сегодня ещё и Snowflake выкатил свою enterprise-focused модель Arctic.
Arctic — это Dense-MoE гибрид с 480B параметров, из которых в каждый момент активны 17B. Заявлен лучший перформанс среди открытых моделей на энтерпрайзных бенчмарках. Лицензия Apache 2.0.
Пост: https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/
HF: https://huggingface.co/Snowflake/snowflake-arctic-instruct
Метаверсище и ИИще 2024-04-24 13:01:42
Лекция "Погружение в 3D CV"
Если вы тоже стали чаще замечать термины, задачи и инструменты из мира 3D, вам интересно узнать, что они значат и что происходит в индустрии, приходите на открытую лекцию "Погружение в 3D CV".
На лекции вы узнаете:
- какие задачи решают в 3D
- почему таких задач становится больше
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с 3D
- что такое SLAM, SfM, SMPL, NeRF, 3D Gaussian Splatting и другие баззворды🐝
А также мы представим программу курса "3D Computer Vision" и подарим скидки участникам🎁
📌 Лекция пройдет в четверг, 25 апреля, 18:00 МСК
💡 Всем, кто зарегистрируется на встречу, мы отправим miro-схему с описанием направлений и инструментов в 3D — поможет быстро сориентироваться и погрузиться.
Регистрируйтесь по ссылке!
#промо
gonzo-обзоры ML статей 2024-04-24 12:56:47
Интересное обновление. Выложена phi-3-mini (https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3), доступны версии с контекстом 4k и 128k.
Метаверсище и ИИще 2024-04-24 12:13:31
Помните, как я распинался про измерение красоты?
Умные люди запили, наконец, слепые тесты.
Есть такой сайт, ChatBotArena, там люди общаются с разными LLM вслепую и просто выбирают те ответы, которые им понравились. Не зная, какая ЛЛМ ответила.
Получается коллективно-сознательный тест.
Так вот, теперь такое же сделали для картинок, можете самом попробовать.
Смотрите на промпт, и выбираете, какая картинка ему лучше соответствует.
Только хардкор и вкусовщина!
Предсказуемо Midjourney на первом месте.
Пока.
Остальное смотрите на сайте:
https://artificialanalysis.ai/text-to-image/arena
Тестировались только базовые модели, никаких чекпойнтов с цивитай:
Models compared: DALLE 3, DALLE 2, DALLE 3 HD, Stable Diffusion 3, Playground v2.5, Stable Diffusion 1.6, Stable Diffusion 2.1, Stable Diffusion 3 Turbo, Midjourney v6, SDXL-Lightning (4-Step), Stable Diffusion XL 1.0 (SDXL)
Number of inference steps: for open source models with inference/DDIM step setting, creator defaults preferred. Stable Diffusion XL 1.0 (SDXL): 30. SDXL-Lightning (4-Step): 4. Stable Diffusion 1.6: 50. Stable Diffusion 2.1: 50. Playground v2.5: 50.
Метаверсище и ИИще 2024-04-24 11:03:00
В покере есть такое понятие - полублеф. Это когда ты ставишь имея на руках дро или перспективу.
Похоже пора вводить понятие полудипфейк.
Это когда на картинке вроде как узнаваемый человек, но как бы в перспективе, если он, например, похудеет или займется спортом.
Одна из австрийских политических партий использует искусственный интеллект для создания «мужественных» фотографий своего кандидата, второе изображение - то, как он выглядит на самом деле.
Если раньше у нас была бьютификация в фотошопе, то теперь бьютификация происходит в мозгах ИИ. Просто говоришь ему, сделать так, чтобы кожаным понравилось. Он делает. Дальше вопрос чувства меры.
Метаверсище и ИИще 2024-04-24 08:48:18
ИИ-регуляции в действии.
Но есть вопросы.
Преступнику, осужденному за создание более 1000 непристойных изображений детей, запретили использовать любые «инструменты искусственного интеллекта» в течение следующих пяти лет в рамках первого известного дела такого рода.
Народ на реддите уже отжигает с аналогиями:
«Мужчина арестован после того, как нарисовал более 1000 изображений несовершеннолетних детей. Ему пожизненно запретили использовать Photoshop».
https://www.reddit.com/r/StableDiffusion/comments/1c9dnof/sex_offender_banned_from_using_ai_tools_in/
У таких приговоров конечно больше вопросов, чем ответов.
Ну и мне не нравится прецедент тем, что массовый читатель газет получит еще один шаблон типа "а, ИИ-картики, это ж сплошное порно и педофилия", по аналогии с "а, крипта, это для покупки наркотиков".
Но больше всего, конечно, интересно, как они будут отслеживать трогал он ИИ или не трогал после вынесения приговора.
Метаверсище и ИИще 2024-04-24 08:27:07
Ну, за дизайнеров.
Тут Тик-Ток выкатил работу под названием ГРАФИСТ.
Графист берет на вход некоторое количество графических элементов (просто картинки с альфой, RGBA), понимает, что они из себя представляют и делает макет. Расставляет элементы красиво с точки зрения графического дизайна.
То есть ИИ берет на себя композицию, по пути понимая, что за контент вы ему скормили.
На входе пачка RGBA файлов, на выходе JSON, описывающий слои и расположение элементов.
Из интересного: под капотом китайская LLM Qwen1.5-0.5B/7B, причем есть две версии Графиста: Graphist-Tiny на Qwen1.5-0.5B и
Graphist-Base на Qwen1.5-7B.
Читая статью узнал вот про такой датасет-сток:
https://create.vista.com/ - может кому-то пригодится.
На итоге они взяли волонтеров, которые в их веб-демо(которого нет) нагенерили картинок. Которые они прогнали через CPT-4 Eval и получили, предсказуемо, что Графист всех уделал.
Кода нет, демо нет, есть гитхаб с картинками и статья, любопытная притом.
https://github.com/graphic-design-ai/graphist
Сиолошная 2024-04-24 08:21:06
Когда-то я писал про систему DIDACT (https://t.me/seeallochnaya/573) — инструмент внутри Google, который берёт на себя часть процесса разработки и тем самым увеличивает эффективность программистов. Это не только код писать, но и улучшать его качество, покрытие тестами, помогать отвечать на комментарии и делать предложения по исправлению ошибок.
Вчера Google выпустили блог Safely repairing broken builds with ML, где, как следует из названия, рассказывается о части этой системы на этапе «сборки» кода. Сборка — это перевод человекочитаемого кода в финальный артефакт в машинном формате, например, приложение или исполняемый на сервере файл. И вот такая сборка может ломаться, если вы наделали в коде ошибок. Какие-то вещи заметить просто и без сборки, с помощью десятка эвристик и инструментов, а какие-то всплывают лишь после того, как программист отправил свой код на сборку (так как они сложны и возникают из-за неочевидных взаимодействий).
Иногда сборка ломается, и приходится идти читать логи ошибок, смотреть, что там не понравилось машине — а затем придумывать исправление. Всё это отнимает время, а когда у тебя одни из самых высокооплачиваемых специалистов, то улучшения даже на проценты на таком масштабе дают существенный выигрыш.
В общем, эта система учится по вашему коду и ошибке сборки предсказывать необходимое изменение в коде, чтобы всё заработало. Поскольку хочется избежать багов и уязвимостей, то после генерации нескольких кандидатов система фильтрует их (и может показать 0 вариантов). Такое изменение предлагается внести в одну кнопку — программист смотрит, жмёт Apply, и идёт работать дальше.
Систему раскатили на весь Google на 11 недель, побив разработчиков на 2 равные группы для оценки эффекта. Оказалось:
— на 2% уменьшилось время работы над одним изменением перед его отправкой на сборку
— на 2% уменьшилось время, проходящее от отправки на ревью до закрытия (включая внесение изменений по обратной связи от других сотрудников)
— среднее количество изменений, отправляемых сотрудниками выросло на 2%
— при этом количество откатов назад не изменилось статистически значимо (то есть новые изменения не вносят какие-то другие проблемы)
Ждём двузначных чисел улучшений через годик-два, с улучшением моделей!
Neural Shit 2024-04-24 05:25:27
Пока мы живем в 2024, китайцы живут уже в 3024.
По всему Шанхаю начали появляться умные писсуары, которые за 20 юаней (около трёх баксов) сделают анализ вашей мочи.
Тред в твитторе с опытом использования такого писсуара
эйай ньюз 2024-04-24 01:08:07
Сделал вам небольшой румтур по офису Мечты Меты в Menlo Park.
Я сейчас в Менло Парке, тут самый большой офис Меты в мире, где работает наверное несколько десятков тысяч человек. Да, это шокируют, но и размах пространства тут соответствующий. Приходится на маршрутке либо велосипедах передвигаться между корпусами.
Сижу в том же здании, где и сам Марк Цукерберг. Позитивно заряжаюсь от рабочей суеты, когда много людей в офисе. Народ кодит, рисует на вайтбордах, обсуждают идеи, толпится на микрокухнях и общается. После небольшого цюрихского офиса, тут все выглядит очень очень движово.
---
Кстати, я обещал создать чатик для встречи в Пало Альто либо рядом. Вот он — присоединяйтесь, если хотите поужинать либо встретиться на пиво сегодня.
@ai_newz
Техасский Вестник 2024-04-23 23:10:42
300.
300 раз первая ступень Falcon 9 успешно совершала посадку на плавучую платформу или площадку на суше. Пока что не 300 раз подряд, но и до этой цифры остались считанные недели.
300 успешных приземлений с помощью ракетного двигателя это много или мало? Это кратно больше, чем просто запусков практически для всех семейств ракет. Из ныне летающих систем, Falcon 9 является самой надёжной и по количеству безаварийных пусков и посадок подряд.
300 это уже просто рутина. И спустя почти 9 лет после первой успешной посадки ускорителя, ни одна компания или страна, не может сократить этот отрыв. Продлится ли это вечно? Вряд ли.
Результат сейчас недосягаемый. Ждём 500 через несколько лет.
эйай ньюз 2024-04-23 15:32:47
FineWeb - открытый датасет масштаба LLaMa 3
Взяли CommonCrawl, отфильтровали оттуда 15 триллионов токенов (прям как у LLaMa 3). Вышло лучше большинства других датасетов для претрейна. Тестят они это натренировав на ~350 миллиардах токенов из каждого датасета 1.8B модель, а вообще в процессе разработки датасета натренировали 200+ мини-моделей. График красивый но слегка устарел - у датасета Dolma (в котором всего 3 триллиона токенов) на днях вышла версия получше, с ней сравнить не успели и кто из них лучше - пока непонятно.
Иметь хороший датасет крайне важно, "garbage in, garbage out" распространяется на ИИ больше чем на всё остальное и именно в качестве датасетов огромное преимущество больших лаб. Это видно, например, на Falcon 180B, который тренировали на 3.5 триллионов токенов ($30 миллионов в AWS, ничему жизнь не учит), только затем чтобы слегка обогнать LLaMa 3 8B (~2.5x меньше компьюта) и безнадёжно отстать от LLaMa 3 70B (~2x больше компьюта). И, несмотря на то что Falcon оптимальный по Шиншилле (соотношение токенов/параметров чтобы модель вышла наилучшей при фиксированном компьюте), он не добивается особо выдающихся результатов по сравнению с моделью которая в десятки раз быстрее и в разы дешевле в тренировке. И всё (по крайне мере) из-за датасета.
Пока релизнули только англоязычный датасет, многоязычный обещают чуть позже, и я обязательно напишу о его релизе. Плюс открыли не только датасет, но и скрипты которыми его фильтровали!
Датасет
Пайплайн фильтрации
@ai_newz
Метаверсище и ИИще 2024-04-23 13:02:53
Внимание айтишников! Вы можете принять участие в отборе статей к публикации в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».
Автор самой лучшей работы получит денежное вознаграждение — 1 млн рублей.
Причем издание выйдет и на англоязычной версии журнала под названием Doklady Mathematics, а также будет представлено в рамках ведущей международной конференции по ИИ — AI Journey. А это значит, что все статьи будут рассматривать реальные эксперты. Поэтому ваши таланты и знания оценят по достоинству.
Не упустите такую возможность — заявку можно подать до 20 августа. Не забудьте прочитать все правила оформления статьи на сайте.
Метаверсище и ИИще 2024-04-23 11:36:46
Хмм. Ведение социальных сетей с помощью GenAI.
Доклад на Adobe Max 2024.
Вы находитесь здесь.
Метаверсище и ИИще 2024-04-23 11:22:57
Принес вам забавную архитектурную ИИ-рисовалку.
Этакая nano-krea, сделанная одним человеком на коленке и питонге. Заточенная как бы под архитектурку (хотя там просто Дримшейпер модель с возможностью замены).
Полный опенсорс, несложная установка, можете сами попробовать.
Прикольная фишка - в качестве входного изображения, можно подать ему на вход захват области экрана, например окна Иллюстратора, где можно рисовать сплайнами. Справа будет ИИ-подрендер вьюпорта Иллюстратора.
Поглядите примерчики, забавно.
https://github.com/s-du/ScribbleArchitect?tab=readme-ov-file
Метаверсище и ИИще 2024-04-23 11:10:18
Адобченко начинает жечь в преддверии Adobe Max.
Поглядите, как должен выглядеть интерфейс для работы с ИИ-картинками.
IP-Adapter и Style Reference, Firefly 3 и многое другое от Адобченко. Ждем к вечеру еще новостей.
Метаверсище и ИИще 2024-04-23 10:50:29
Я уже писал про SORA-клипы от Пола Трилло.
Похоже SORA становится просто инструментом - TED заказал Полу клип для продвижения нового сезона выступлений TED, который будет посвящен искусственному интеллекту и изучению того, что TED будет освещать через 40 лет.
Клип эмулирует полет FPV-дрона: похоже скил пилотирования дронов теперь конвертируется в скил пилотирования Сорой.
Из интересных утечек:
Трилло рассказал о промптах, которые он использует, в том числе о «коктейле слов, который я использую, чтобы сделать это не похожим на видеоигру, а на что-то более кинематографическое». Очевидно, они включают в себя такие подсказки, как «35 миллиметров», «анаморфотный объектив» и «виньетка объектива с глубиной резкости», которые необходимы, иначе Сора «по умолчанию будет использовать этот очень цифровой результат».
Всего он нагенерил 330 клипов в Соре, отобрал 25, а дальше - старый добрый кожаный монтаж.
И да, лого Тэда - тоже кожаное, приделанное на посте.
https://www.techradar.com/computing/artificial-intelligence/openais-new-sora-video-is-an-fpv-drone-ride-through-the-strangest-ted-talk-youve-ever-seen-and-i-need-to-lie-down
Метаверсище и ИИще 2024-04-23 10:10:25
Боятся ли VFX-специалисты прогресса нейросетей?
Вчера пока сражался с Нейро на Кинопоиске обнаружил вот такую статью. И там ВСЕ знакомые лица. Причем знакомые по 10-20 лет.
Самый пессимист, конечно Даня: «Кто говорит, что AI — это просто инструмент, давайте дружить! Вместе будем разносить еду в кафе и мыть посуду». Скорее всего, нам всем придется менять профессию, но не в смысле «делать то же самое, но как-то на новый лад», а вообще заниматься чем-то другим.
Гоша - оптимист: Почему покрутить промпт хуже, чем покрутить ручками проект? Непонятно.
Саня - выше суеты: Если говорить о нейросетях в CG-индустрии, то я не вижу проблемы, с которой надо бороться.
CGF действительно внедряли ML, когда я еще ИИ-глупости в фб писал (и до сих пор пишу тут).
В общем все по Гауссу, от негатива до позитива с мейнстримом посередине.
Но меня цепанула сентенция Дани про профсоюз. И тут я с ним согласен:
Права CGI-специалистов никак не защищены по сравнению с представителями других творческих профессий. Наличие профсоюзов у актеров и сценаристов — это следствие реалий времени% они сформировались в 20–30-х годах прошлого века, когда в обществе был глобальный тренд на создание профсоюзов в больших секторах профессий, и творческие специальности проехали туда прицепом. Постпродакшен опоздал на эту вечеринку примерно на 60 лет, к тому же пост гораздо легче аутсорсить в места с более дешевым трудом и меньшим количеством разговоров о правах. Я не очень верю в шансы создания глобального профсоюза CG-индустрии в обозримом будущем. Все проблемы, что мы видим в индустрии сейчас, будут только усугубляться. Чем это закончится, я не берусь предсказать.
https://www.kinopoisk.ru/media/article/4009359/
Метаверсище и ИИще 2024-04-23 09:54:06
Видеогигаган 8Х.
Топаз нервно закуривает овальные сигареты.
Адобченко показал Видеогигаган - свой 8Х апскейлер для видео.
https://videogigagan.github.io/ (очень много примеров)
VideoGigaGAN базируется на апскейлере изображений - GigaGAN. Простое раздувание GigaGAN до видеомодели путем добавления временных модулей приводит к сильному временному мерцанию. В отличие от предыдущих методов, VideoGigaGAN генерирует темпорально согласованные видео с более тонкими деталями.
И мой пойнт, как обычно, в том, что это будет встроено в текущую экосистему и пайплайны. Не надо брать видео, ходить с ним куда-то в нейродебри, приносить обратно. Все в одном месте.
Кода и демо нет, но я ожидаю демо и еще очень много чего на грядущем Adobe MAX, который вот-вот начнется - можно смотреть тут:
https://www.youtube.com/watch?v=NA0hFqIHfro
Может и про интеграцию с SORA расскажут подробнее...
Neural Shit 2024-04-23 09:52:25
К предыдущему посту: оно работает не только с футболками и толстовками
Neural Shit 2024-04-23 09:51:43
Увидел в твитторе интересную модельку для переодевания человеков в футболки/толстовки.
Подаете на вход фотку одежды и фотку человека, на выходе получаете уже переодетого в ваш шмот кожаного.
Потестить можно тут. Работает достаточно быстро. Фотки на вход лучше подавать квадратные, иначе результат будет попердоленным
Neural Shit 2024-04-23 08:26:11
Абсолютно проклято.
Нашел тут
gonzo-обзоры ML статей 2024-04-23 07:20:53
Microsoft продолжает линейку моделей Phi (Phi-2, Phi-1.5, Phi-1). Теперь вышла Phi-3.
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Статья: https://arxiv.org/abs/2404.14219
Пост: https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential
Модели: https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
Обучено три модели: phi-3-mini (3.8B, на 3.3T токенов), phi-3-small (7B) и phi-3-medium (14B, обе на 4.8T токенов). Модель mini совместима по структуре блоков и токенизатору с Llama 2 (наверное и с Llama 3). Модель small использует токенизатор tiktoken и чередование dense и blocksparse внимания.
Mini (3.8B) может быть запущена на телефоне, после квантизации в 4 бита она весит примерно 1.8GB, на iPhone 14 выдаёт 12 токенов в секунду. При этом по части академических бенчмарков она сравнима с GPT-3.5 (1106 версия), Gemma 7b, Llama-3-In 8b, Mixtral 8x7b.
эйай ньюз 2024-04-22 16:46:05
Вау! Марку действительно нравится наша моделька. Он протестил Imagine Flash — говорит, если он когда-нибудь уйдет из Мета, то откроет магазин мяса Mark's Meats 🥩.
@ai_newz
эйай ньюз 2024-04-22 14:46:01
Многие любят читать биографии крутых чуваков по типу Стива Джобса, Маска и т.п. Видимо, надеются узнать, как сделать также 🤷♀️. К сожалению, правда в том, что им несказанно повезло, и таких историй единицы. Если смотреть на мир под чуть более реалистичным углом, то, если уж стать миллиардером, запустив свой мегапродукт, может и не получится, то стать директором какого-нибудь клевого IT-направления, мне кажется, вполне под силу каждому, кто пытается.
Так вот, на этой неделе Яндекс проведет открытый лекторий, приуроченный к 10-летию Факультета компьютерных наук ВШЭ, с топ-менеджерами компании. Это отличная возможность поучиться у лучших спецов Яндекса.
24-го числа будет открытие с фуршетом и небольшой приветственной лекцией. Из прикольного, то, что можно будет задать спикерам любой интересующий вопрос по этой форме. А ещё две встречи будут в мае и июне.
К слову, ведут лекции директора направлений Яндекс Образования и Вертикалей (это авто, я.недвижимость и пр). Вот здесь немного подробнее. Спикеры поделятся личными историями о развитии в IT и о том, как сделать так же. У них можно будет спросить совета о своем возможном будущем.
Участие, конечно же, бесплатное. Онлайн, только нужно зарегаться.
Регистрация
Форма для вопросов
#промо
Метаверсище и ИИще 2024-04-22 14:20:53
Ну, за кинокритиков.
Недавно писал про запуск Нейро от Яндекса. Также писал про эксперименты Кинопоиска с нейросетками.
А теперь они взяли и скрестили ужа с ежом.
Точнее взяли Нейро и кожаного кинокритика (Даулет Жанайдаров) и задали им одинаковые вопросы:
почему Нолан гений, как Симпсоны предсказывают будущее, худший ли фильм “Комната”, почему Финчер главный режиссер по маньякам, почему Ди Каприо долго не давали Оскар, чем крут Шрэк.
Почитайте тут.
На мой взгляд Нейро зачастую более "конкретен". Не разливается в прилагательных, а довольно четко поясняет за свою позицию.
Кожаный же критик часто углубляется в отступления и виляет в круговороте "с одной стороны, но с другой стороны".
Ну или просто уходит от ответа "все относительно, особенно оценки произведений искусства!", в то время как ИИ нетолерантно пишет, что "«Комната» 2003 года - говно".
Наверное читать кожаного критика интереснее (у меня просто чувство языка отзывается на порядок слов). Там много интересных фактов, иногда не относящихся к делу.
Но если бы я делал просто кино-ресерч, то не факт, что тексты кожаного критика понравились мне больше. Ну и как показывает позиционирование Нейро - он именно для ресерча. Плюс он не такой многословный.
Мне стало интересно спросить его: Почему Игра Престолов лучший сериал всех времен и народов? (Ответ в коментах)
Почитайте дуэль вот тут, занятно:
https://www.kinopoisk.ru/media/article/4009335/
Метаверсище и ИИще 2024-04-22 14:17:49
Ну за актеров!
Как в воду глядел.
Помните, тут недавно актеры и сценаристы бастовали против ИИ?
Актеры, в частности, очень озабочены тем, что их внешность может быть отсканирована в 3Д и потом использована без их гениального участия.
Я тогда писал:
Все снова поделится на два лагеря.
Будут актеры (в основном с хорошим портфолио и гонорарами), которые будут сниматься на камеру "по старинке", а за каждый цифровой чих вписывать пару нулей в договор. И будут актеры, которые будут готовы сниматься "для синтеза", то есть цифровать свой стиль, внешность, мимику и пр. для любых последующих манипуляций. Для них это самый доступный пусть Голливуд. А там, может быть повезет, и удастся перебраться в первую категорию.
Новость:
Ведущее голливудское агентство по поиску талантов CAA, как сообщается, тестирует инициативу под названием CAA Vault, позволяющую клиентам из числа знаменитостей создавать искусственные клоны самих себя, чтобы открыть новые творческие возможности.
CAA сотрудничает с компаниями, занимающимися ИИ, чтобы сканировать тела, лица и голоса клиентов, создавая их копии для таких целей, как пересъемка, дубляж и наложение дублей каскадеров.
Цель CAA - в конечном итоге сделать эту технологию доступной для всей индустрии, а не только для своих клиентов.
Тут недавно голливудский магнат Тайлер Перри остановил крупное расширение своей студии после того, как увидел Sora от OpenAI, предсказав масштабное сокращение рабочих мест в индустрии развлечений из-за прогресса ИИ. Что-то почувствовал.
Итого, что мы имеем?
В то время как индустрия борется с последствиями внедрения искусственного интеллекта, CAA принимает упреждающие меры, чтобы помочь клиентам извлечь выгоду из этого изменения. Кто из вас отличит настоящего Тома Круиза от его двойника в кино?
А двойник обойдется в разы дешевле.
https://www.theinformation.com/articles/hollywood-talent-agency-caa-tests-ai-clones
Сиолошная 2024-04-22 14:01:26
Уже полторы-две недели собирался написать лонг про AI и образование, даже начал составлять план и тезисы выписывать, но пока не решил, что прям точно надо писать.
А сегодня увидел, что у Ethan Mollick вышла статья на 70 страниц на схожую тему (TLDR).
Походу, всё таки придётся писать....
В прошлые разы, когда я упоминал тему образования, в комментариях отмечались люди, которые делали схожие проекты (в университетах Мск и в Германии, кажется). Если вам есть что сказать, или ваши примеры потенциально могут послужить материалом для статьи — дайте знать.
Neural Shit 2024-04-22 12:38:18
🔥 Это база с 1900 вопросами с собеседований по анализу данных, машинному обучению, sql. Фишка в том, что вопросы разбирают эксперты, которые сами проводят собесы и дают примеры правильных ответов. Вы легко получите оффер, изучив популярные вопросы 💼
А здесь мы собрали папку для тех, кто любит машинное обучение и готовится к собесу.
Метаверсище и ИИще 2024-04-22 11:00:11
Продолжаем тему оцифровки мира, скинов для него и гауссианов.
С одной стороны мы можем теперь стримить наш мир через мозги одних нейросеток (Stable Diffusion).
С другой стороны, мы можем пропускать его через мозги других нейросеток (Luma AI), которые восстановят 3Д и покажут наш мир с любого ракурса.
Ну а потом мы может опять позвать первые нейросетки и постримить эти новые ракурсы с новыми скинами (но это я увлекся, пардон).
Смотрите, уже можно оттрехмерить не только видео с дронов и телефонов, можно присунуть им на вход любимые фильмы!
И получить миры этих фильмов, где можно гулять в любом направлении. Вот он намек на развлекательный метаверс!
Ниже ссылки на сцены из культовых фильмов, которые скормили в Luma AI и получили Gaussian Splatting трехмерное представление этих сцен.
По ссылкам можно покрутить эти сцены.
Gaussian Splatting - это аналог микрополигонов, для тех, кто знает, что такое Рендерман.
Источник и полный фарш вот тут.
Погуляйте по ссылкам, покрутите сцены. Реверс инжиниринг в действии.
LOTR: https://lumalabs.ai/capture/176ED9AA-514F-4A45-9343-D4C708C86570
Matrix: https://lumalabs.ai/capture/F358C359-42BE-44B6-BA81-D58C7F75E19D
Citizen Kane: https://lumalabs.ai/capture/4ED192E4-44C9-4550-BC80-2CB130753F5D
Wizard of Oz: https://lumalabs.ai/capture/3D8B463B-62FF-43AF-AD42-B1E47C1213D5
Terminator 2: https://lumalabs.ai/capture/220C2F41-E512-455C-B3EE-47CDD4398743
It's a Wonderful Life: https://lumalabs.ai/capture/F843DABF-89DC-4673-B04A-2EFC2AA04F29
High Noon: https://lumalabs.ai/capture/ED3780E3-822F-4FF5-8CA4-AD99060CCC17
Peewee's Playhouse: https://lumalabs.ai/capture/8863F7C6-6E0D-457A-99A8-2AD30BDC242A
Statue of Liberty, 1929, footage from a Graf Zeppelin: https://lumalabs.ai/capture/24BB48C2-CFC1-4554-B857-F4256413F82B
New York, 1929, footage from a Graf Zeppelin: https://lumalabs.ai/capture/B7E93490-2773-451A-9FFF-7214CFC2A711
New York Skyline from a boat, 1930s, colorized: https://lumalabs.ai/capture/9F704C61-4D60-46BE-A49F-4231EFA167D8
Psy Eyes 2024-04-22 10:35:19
Постигаем сингулярность
Чуваки из Infinite-Realities (я писал о них ранее) довели свою систему создания 3D/4D сцен из сплатов до коммерческого состояния. Можно запечатлеть всё: от сложных динамичных кадров для кино, так и моменты с семьёй.
В полученной сцене можно свободно управлять камерой, а детализация на высочайшем уровне. Всё воспроизводится в реальном времени в 30 fps на стороннем движке, работающем в виртуальной среде с частотой 120 fps.
Женим теперь это всё с голографическими дисплеями Looking Glass и киберпанк официально прибыл.
Видео в хайрезе на Vimeo
Сайт
Метаверсище и ИИще 2024-04-22 10:27:17
А метаверсик к нам идет через генерацию миров (или бесконечных скинов для нашего мира) с помощью нейросеток.
Я уже давал примеры стриминга с веб-камеры в Stable Diffusion.
Держите еще один. Еще более близкий к реальности. Здесь это уже крутится на телевизоре и Stable Diffusion взаимодействует с живыми людьми, а не с гиками.
Кому интересно, это все крутится на домашнем компе с 3090 с помощью SD Turbo with LCM LoRa, 2 Steps and CFG 1.6, denoise 0.5 и вот этой приблуды: https://github.com/toyxyz/ComfyUI_toyxyz_test_nodes
Когда в очередной раз будете смотреть телевизор, спросите себя, это точно не нейросеть?
Метаверсище и ИИще 2024-04-22 10:15:45
Я опросил некоторое количество новоиспеченных владельцев Apple Vision Pro. 99, если не 100 процентов ответов приводятся вот к такому общему знаменателю: "Он классный, но пустой".
Даже неистовые фанаты говорят: "кроме как смотреть кино там делать нечего". И с надеждой добавляют "пока".
Вы помните, как Эппле долго тормозила с выходом лыжной маски? Люди уже ставки начали делать, когда счет пошел на годы.
Все просто - не было киллер-фичи. Не было вот этого убийственного повода взгромоздить полкило железа себе на голову и залипнуть там надолго.
И, честно сказать, я был сильно удивлен, что Эппле все-таки выпустили маску без киллер-фичи.
И все такие "ну щас девелоперы подтянутся и напилят приложений".
Да, но нет. Девелоперы - это девелоперы, а киллер-фичу (и экосистему вокруг нее) никто за Эппле не придумает. И не придумал.
Смотрите, никто не придумал, что делать в метаверсе, кроме как играть. Но даже такой экспириенс как виар-гейминг, не заставил юзеров хоть как-то выйти за рамки 2.5% фриков в шлемах. Ну не хотят кожаные надевать железяки на голову.
В руки брать готовы, на запястье вешать тоже. Но на голову - нет.
Физиология. Безопасность. Выживание.
И я не знаю, какой может быть киллер-фича, которая сделает вот этот вот красиво придуманный spatial computing массовым. Не продуктов в нишах, а массовым явлением.
А пока без киллер-фичи Vision Pro по-прежнему пустой. И похоже покрывается пылью на полках.
Сиолошная 2024-04-22 08:47:25
Сегодня дедлайн подачи заявки в YCombinator - один из самых престижных стартап-акселераторов в мире. А завтра (во вторник, 23 апреля) в 19:00 по Мск — думаю, многим будет интересно — буду слушать Юру @rebrykblog про то, как он попал в YC и поднял $2m на развитие стартапа.
Юра и команда делают программку, которая слушает ваши созвоны, обращает внимание на произношение и слова-паразиты, а затем даёт фидбек — и ещё позволяет практиковаться. Я бы сам ей пользовался - просто пока большого количества созвонов на английском нет. Вот выйду на работу...
Немного лора: Юра это тот чувак, который был стажёром в 5 или даже 6 разных компаниях в США (блин, оч завидую - столько времени относительно беззаботно пожить в Штатах, сейчас уже такого не предвидится), и потом ушёл делать своё (компания Myna Labs).
Всё бесплатно, но записи не будет.
Заполните гугл формочку, чтобы попасть на встречу: https://forms.gle/2e8uD33f7FytppSUA
Что будет:
1. Что важно знать про фандрейз, что многие не понимают.
2. Как рейзят стартапы из YC.
3. Юра покажет свой дек, письма инвесторам, как нужно просить интро.
4. Что делать восточноевропейским фаундерам, которых никто не знает.
(напоминаю, что в моём канале рекламы нет, и все упоминания других каналов - только если я их а) читаю б) хочу делиться сам)
эйай ньюз 2024-04-22 06:42:10
Коротко о том, как развлекается кофаундер и CSO HuggingFace🤗
Чуваки сделали умного робота из г*вна и палок
Whisper - распознаёт речь.
Idefics2 - ЛЛМ с виженом.
Parler-TTS - голос робота.
Все под управлением Dora-CS, а компьют лежит на ноуте, но связь по безпроводу.
Назвали мило Немо😊
Малой неплохо так катается по офису, вроде как, даже знает, где кухня. На видео (лучше сами гляньте) один из разрабов вежливо просит привести ему кофе, но оказалось, что кофемашина на ремонте, о чем преданный четырёхколёсный отчитывается хозяину. А еще эта штука кажется понимает язык жестов и едет туда, куда ты тыкаешь.
Вот э тайм ту би алайв!
Твит
Код
@ai_newz
Neural Shit 2024-04-22 04:52:19
Новые статьи нейроуголовного кодекса от llama 3:
>>Статья 3357. Превращение в обезьяну
>>Статья 119. Отречение от человеческого рода
>>Статья 975. Сливание сока с пельменей
>>Статья 975. Поедание пирогов с безнравственными целями.
>> Статья 507. Жизнь без разрешения властей
>>Статья 318.4 Хранение и распространение книг с неправильной грамматикой и пунктуацией.
>>Статья 219. Укрывательство факта наличия скрытых талантов или навыков
>>Статья 272. Превышение допустимого количества эмодзи в текстовых сообщениях как форма хулиганства
>>Статья 504. Пробуждение революционного духа в роботах-пылесосах.
>>Статья 311. Изготовление поддельных мемов
>>Статья 601. Создание альтернативной реальности с помощью алкоголя
>>Статья 8861. Нарушение фундаментальных законов физики при готовке еды
>>Статья 999:Употребление метафор в понедельник.
>>Статья 2222: Вкладывание круглых фигур в квадратные отверстия
>>Статья 502. Использование телепортации для уклонения от уборки в доме
>>Статья 1198. Использование неканонических собачьих прозвищ
>>Статья 135. Неосторожное обращение с гирляндами, могущее привести к преждевременному наступлению нового года.
>>Статья 721. Незаконное присвоение чужих воспоминаний
>>Статья 888. Опаздание на собственные похороны
эйай ньюз 2024-04-21 10:28:21
Друзья, прямо сейчас вылетаю из Цюриха в Сан-Франциско. Буду там неделю, нужно встретиться с коллегами и боссами лицом к лицу, и, конечно, отпраздновать успешный релиз.
Буду рассказывать хайлайты из поездки, так что накидайте бустов, чтобы я мог постить стори: https://t.me/boost/ai_newz
ПС, если есть кто в районе Менло Парк или Пало Альто — пишите в комменты, может пересечёмся
#personal
@ai_newz
эйай ньюз 2024-04-21 09:09:56
Дайджест за неделю (#14)
1. Ведомости с просторов интернета:
- В Chatbot Arena Альтман наносит ответный удар 🤭 GPT-4 Turbo победила Opus, забрав топ-1 обратно.
- Boston Dynamics представила Atlas, нового гуманоида для битья на электродвигателях вместо поршней.
- У Adobe закончился контент, теперь адобченко платит за плодосъемы для датасетов по 3 бакса в минуту.
- *слух* TikTok экспериментирует с AI-инфлуенсерами для рекламы. Подстава для кожаных тиктокеров?
- Невнятный релиз Stable Diffusion 3 API. SD3, по-братски, выйди и зайди нормально. Красиво, как обещали в пейперах. Мы подождем.
- Gemini Ultra обошлась в 191.4 млн $. Небольшой реалити чек от гугл.
- LLM дайджест за неделю.
2. Почитать на досуге:
- Курс Эндрю Ына "ChatGPT Prompt Engineering for Developers". Хотелось потестить, вот вывод: поможет только новичкам.
- AI Index Report 2024 обзор основных тезисов из огромного отчета от Стэнфорда.
- Запись доклада авторов SORA. Шакальная запись митапа в долине для главных фанатов. Хоть немного приоткрывающая завесу тайны их супер видео модели.
3. Обо мне : )
- Сгонял в Гамбург. И немного размышлений о рынке труда.
4. Meta в опенсорсе:
- Анонсы 1 и 2 от самого Цукерберга.
- LLaMa-3 - новая топ-1 open source LLM. Результаты ChatBot Arena.
- Imagine Flash лично от меня 🤌 (и команды, конечно) ) – новый ультра быстрый генератор картинок уже доступен в WhatsApp и meta.ai (с впном сша). Здесь о том, как мы ускорили ее в >10 раз.
#дайджест
@ai_newz
Psy Eyes 2024-04-21 07:55:52
Кто-то наваял удобоваримый интерфейс для генерации музыки — AI Jukebox. Пишешь промт, выбираешь длительность, жанр, настроение, и жмёшь сгенерить.
После Udio это конечно всё не то, но суть вообще в другом: не нужно хостить миллионы треков, так как музыка генерится локально у слушателя. На первом запуске качается 600мб какой-то итерации MusicGen, а дальше через WebGPU оно обрабатывается прямо в браузере (не надо касаться ни кода, ничего).
Следом пойдут маленькие мощные модели, которые будут заточены на определённом стиле типа 90' nu-metal, Berlin techno, Japanese noise, djent, future garage, итд. Люди смогут подключать голоса артистов или звучание групп из их официальных датасетов с выплатами за использование через смарт контракты. Или юзать на халяву народные датасеты, собранные из задоначенного аудио, а также контента в свободном доступе. Подрубят крутилки, чтобы можно было поточнее настроить под себя волну. А для тех, кому нужен детальный контроль над каждым стемом (высотой голоса, позицией инструмента, итд) будут плагины для давок и аудиоредакторов.
Сейчас максимальная длительность на выходе 30 секунд, особо не разбежишься. Хотя Udio ведь по 33 секунды и генерит. Будем ждать когда кто-то пришьёт расширение трека влево/вправо как у них. До новой фичи Krea опенсорс добрался чуть ли не в тот-же день.
Другое дело, что нужен реалтайм, какой-то аналог LCM или Turbo только для аудио, потому что у меня на эти 30 секунд ушло 10 минут генерации. Сколько у вас и на каком железе?
Генерить музыку
Сиолошная 2024-04-20 16:55:36
Из того же блога/интервью с David Luan, про роль менеджера (тут в контексте исследований, но это применимо и к продуктовой разработке, и к ML, и почти хоть к чему):
— Я думаю о своей работе так: я был своего рода распределителем. У меня есть очень, очень умные люди. Моя работа — убедить других людей объединиться вокруг небольшого количества действительно хороших идей и затем довести их до финиша. <...> Когда идеи начинают аккумулироваться и некоторые из них начинают хорошо работать, моя работа состоит в том, чтобы направить ресурсы на то, что действительно заработает, а затем начать расформировать некоторые вещи, которые не работают.
В моё определение ещё входит такая формулировка: менеджер конвертирует проблемы процессов в решения и/или план действий.
эйай ньюз 2024-04-20 16:31:38
LLM дайджест за неделю
LLaMa 3 - главная звезда недели, открытые веса, три размера: 8, 70 и 405 миллиардов параметров, последняя ещё тренируется, что не удивительно, ведь датасет для неё это 15 триллионов токенов. Попробовать можете тут, пока только с VPN или можете скачать квантизированные веса с Huggingface, но тогда у вас не будет прекрасной функции Imagine Flash, которую тренировал ваш покорный слуга (да, я).
Pile-T5 - у всех версий T5 довольно плохой токенизатор где отсутствует куча специальных символов, ребята из EleutherAI решили это пофиксить и заменили его токенизатором от второй ламы. Вышла модель чуть лучше базовой T5, но отстающая от FLAN файнтюнов. T5 – это рабочая лошадка, юзаемая как в проде бессчётного количества компаний, так и в новомодном ресёрче вроде SD3 и ReALM, так что пользы от такой "пофикшеной" версии будет немало. А ещё это напоминание что enc-dec модели живее всех живых.
Reka-Core - ещё один encoder-decoder от выходцев из Google, проприетарная модель на уровне примерно LLaMa 3 70B и ниже Gemini Ultra. Мультимодальная, кроме картинок умеет в видео и аудио. Её всё ещё тренируют, факт релиза сырой модели удивляет, походу у стартапа просто заканчиваются деньги. Цены API на уровне GPT-4 Turbo, так что непонятно кому это вообще нужно.
Mixtral 8x22B Instruct - тюн оригинального Mixtral 8x22B, который держал первое место среди открытых моделей по ряду бенчей вроде MMLU целых 26 часов, а потом случилась LLaMa 3.
RWKV EagleX v2 - модель без аттеншна перегнала LLaMA 2 7B и почти догнала Mistral 7B. При том, что на большей длине контекста она СИЛЬНО быстрее. Очень хорошо показывает себя на языках отличных от английского. Модель всё ещё тренируют (общая тема этого дайджеста), так что скорее всего Mistral они догонят.
Хочу отметить что за последние 30 дней рекорд по MMLU среди открытых моделей (который держала Mixtral 8x7B почти 4 месяца) били ПЯТЬ раз: Grok - 73.0%, DBRX - 73.7%, Command R - 75.7%, Mixtral Instruct - 77.75% и LLaMA 3 - 82.0%.
Как вам вообще такой формат дайджеста именно по LLM, стоит продолжать?
#дайджест
@ai_newz
Метаверсище и ИИще 2024-04-20 10:58:40
Не можешь пофиксить победить - возглавь!