эйай ньюз страница 9. Показано 50 статей из 595
2023-04-27 08:58:18
🥩 A Cookbook of Self-Supervised Learning
Раз уж пошла такая пьянка про self-supervised learning для зрения, то вот вам ещё подарочек от моих коллег из Meta AI. Позавчера Ян Лекун в соавторстве с другими ребятами опубликовали книгу рецептов по self-supervised обучению.
Авторы отобрали плотную выжимку рецептов из топовых статей про self-supervised обучение за последние 5-6 лет и теперь представили в виде 44 страниц годноты. Кстати, таких маленьких, но плотных книг очень не хватает в других областях AI.
В книге вы найдете трюки и подходы к тому как правильно приготовить и обучить свою self-supervised модель на своих данных. Начиная от лоссов и заканчивая способами ускорить тренировку и методами оценки качества моделей. Также по этой книженции вы сможете лучше разобраться как работает тот же DINOv2 из поста выше.
Советую, однозначно.
❱❱ Книга на arXiv
@ai_newz
2023-04-26 18:18:08
Про обобщение DINOv2 на другие задачи и трюки обучения
DINOv2 тренировалась на сбалансированном large-scale датасете, да ещё и без лейблов, то есть информация, на которой обучают сеть, не ограничена качеством текстовых аннотациями.
Авторы тут еще применили серию SOTA трюков для тренировки self-supervised моделей на картинках:
— Обучали одновременно и на целых изображениях и на патчах, чтобы учить сеть замечать более мелкие детали на изображениях
— Варьировали разрешение картинок во время тренировки
— Использовали регуляризатор, который максимизирует энтропию фичей внутри батча
— и несколько других трюков, про которые можно почитать в статье.
В итоге фичи DINOv2 хорошо показывают себя на ряде новых задач, например на предсказании глубины, сегментации и матчинге точек на парах изображений. Причем без всякого файнтюнинга. Просто берутся замороженные фичи DINOv2 и поверх них тренируется один линейный слой, которые решает новую задачу.
Конечно, можно и файнтюнить, если у вас данных достаточно.
@ai_newz
2023-04-26 16:20:14
Что у нас по SOTA self-supervised сетям для зрения?
Зарелизили DINOv2.
Это трансформер для картинок, который натренирован абсолютно без лейблов.
Идея позаимствована из тренировки языковых моделей, где случайным образом удаляется слово из предложения и нейронка должна предсказать, что было пропущено. В картинках же закрашивают случайный патч черным и просят сеть предсказать, что там было.
В чем прелесть?
В том, что DINOv2 натренировали на огромном сбалансированном датасете (142M изображения) и выложили код и веса на гитхаб. То есть теперь, когда решаете свою задачу, нужно начинать не с весов, натренированных на ImageNet, а с весов DINOv2, которые более универсальные и лучше подходят под новые задачи. Так же авторы показали, что фичи DINOv2 лучше чем фичи OpenCLIP, который тренировался соотносить размеченные пары картинок и их текстовых описаний.
Натренили ViT трансформеры разного размера: дистиллированный ViT-L/14 с 300М параметров перформит почти как ViT-g/14 с 1.1B параметров!
Блог
Код
Демо
@ai_newz
2023-04-24 11:01:26
Scaling Transformer to 1M tokens and beyond with RMT
Парни из DeepPavlov (привет, если читаете!) на днях выпустили тех-репорт, где соорудили Recurrent Memory Transformer, который способен держать контекст в 1M токенов!
Чтобы вы понимали, ChatGPT сейчас имеет контекст в 32k токенов. А 1 миллион токенов - это несколько книг приличного размера. Теперь модель сможет держать гораздо больше информации "в голове", и например, написать эссе по целому роману, вместо того чтобы работать на маленьких отрывках.
Принцип работы похож на рекурентную сеть, где трансформер постепенно поедает куски контекста, при этом сжимая инфу из каждого куска и обновляя свое внутреннее состояние. В результате такой компресси финальный результат получается слегка хуже чем при работе с маленькими контекстами. Ну, и работает это медленно, ведь все равно придется прогнать все 1M токенов через сеть.
Однако, это интересный результат, который, вероятно, через несколько месяцев доработают и оптимизируют.
Код для BERT
Статья
@ai_newz
2023-04-22 12:05:52
Вы только посмотрите какого малыша я встретил! ❤️
Стричь лужайку полагается в определенном порядке, и в этом ему помогает ChatGPT-4,
Хайп настолько велик, что не удивляйтесь, если теперь будете видеть технику с наклейкой "ChatGPT внутри". Это все грязный маркетинг, но обыватель будет брать.
@ai_newz
2023-04-21 09:53:07
В индустрии сейчас есть тенденция на сближение фундаментальных ресерч команд с продуктовыми делами. AI уже не маленький пиздючок, который ничего без взрослых не может. Хватит играть в песочнице, пора бы и хлеб в дом приносить.
Теперь больше нет отдельной компании DeepMind, вчера она окончательно слилась с Google, где попала в состав большой команды Google DeepMind, куда так же вошла и ресерч команда Google Brain. Я так понимаю, теперь ресерчеры будут ближе к продуктам, ближе к импакту.
Кроме того, Jeff Dean был назначен главным учёным всей компании (Google’s Chief Scientist), который стоит над всеми ресерчерами и докладывает напрямую CEO.
@ai_newz
2023-04-20 18:37:58
Что нужно ученому для счастья
Сегодня после обеда было паршивое настроение из-за XFN партнеров. Что я сделал? Взял
#карьера
@ai_newz
2023-04-19 13:37:39
🚀Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
[CVPR 2023]
Кажется, этот год будет годом генерации видео!
Тут авторы Stable Diffusion постажировались в NVIDIA и выкатили Latent Diffusion для синтеза видео.
Со слов автора статьи и моего одногруппника Робина, важной частью тут является временной fine-tuning декодера для видео — он исправляет мерцающие артефакты, возникающие при наивном декодировании.
Кода и весов не будет, потому что это NVIDIA🌚. Так что наслаждайтесь примерами и ждем реиплементации от китайцев.
Сайт проекта
@ai_newz
2023-04-17 20:35:53
📑RedPajama: текстовый датасет на 1.2 триллиона токенов!
Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!
RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный с целью воспроизведения передовых LLM. Датасет был воссоздан, следуя рецепту описанному в статье о LLaMA (то есть LLaMA училась на чем-то похожем). Кайф в том, что RedPajama-Data-1T является открытым и доступным для скачивания, то есть на нем можно обучать свои модельки.
RedPajama-Data-1T - это 2048 json файлов, которые включают 7 сегментов данных:
- CommonCrawl: 5 дампов
- C4 датасет
- GitHub код, отфильтрованный по лицензиям
- arXiv: Научные статьи
- Books: Корпус открытых книг
- Wikipedia: Подмножество страниц
- StackExchange: скроулили 28 крупнейших сайтов платформы
Кажется, что через пару месяцев мы увидим в open-source полностью открытую версию LLaMA, обученную с нуля с использованием этого набора данных.
Блогпост
Скачать датасет
@ai_newz
2023-04-17 18:00:50
Яндекс Браузер релизнул перевод видео с китайского на русский
Об особенностях китайского можно рассказывать долго: тут и множество диалектов, влияющие на смысл тоны, а также грамматические нюансы. Со всем этим разработчики Яндекс Браузера сталкивались впервые и по ходу обучения модели придумывали различные решения трудностей.
Проект выдался поистине уникальным, поскольку никто раньше не разбирал китайский язык в контексте перевода в реальном времени так детально — подробнее об этом можно прочитать в статье, написанной участником разработки.
@ai_newz
2023-04-17 11:17:01
Про боязнь доминации AGI
Действительно. Ян считает, что бояться нам нечего. Тем более, чтобы захватить контроль над человечеством, нужно этого хотеть. У людей желание доминировать сложилось эволюционно в результате того, что мы социальные существа.
У машины же такого желания быть не может, если мы его не заложим в нее. Все в наших руках.
Кстати, Юдковский не пропускает ни одного твита ЛеКуна 😁
@ai_newz
2023-04-16 18:53:37
Насколько полезным сейчас является скилл программирования на CUDA? Если я хочу производительности для своих нейронок - достаточно ли пайторча? (Вопрос от подписчика)
CUDA - это довольно редкий скилл. И если ты умеешь программировать на CUDA, то без работы точно не останешься. Мало кто из ресерчеров умеет программировать на куде. А скилл очень полезный, например для оптимизирования кернелов и ускорения нейронных сеток. В больших компаниях (типа Меты) есть отдельные команды, которы умеют делать такую магию, например команды PyTorch и AITemplate. Люди там занимаются именно низкоуровневой оптимизацией.
Например, мы придумали новую архитектуру, какие-нибудь замудренные трансформеры с нестандартными блоками, и нужно, чтобы они быстро работали. Тут в первую очередь вступают в игру те люди, которые умеют в низко-уровневую оптимизацию и переписывают некоторые операции на CUDA. А вызовы нативных функций пайторча меняются на оптимизированные куда-кернелы. Это очень ценный скилл.
Еще одно применение CUDA программирования в зрении — это когда работаешь с нейронным рендрингом. Есть методы, которые полностью написаны на куде, например Instant-NGP. Либо наша статья VisCo Grids на NeurIPS 2022, где мы просто садились и писали все кернелы на CUDA для forward и backward pass нашей модели. Иначе все слишком медленно получалось. Обычным пайторчем там нельзя было обойтись.
В ноябре я рассказывал, что разговаривал с Matthias Nießner, который искал к себе в лабу в TUM студентов, которые знают CUDA, чтобы заниматься нейронным рендерингом. То есть и во время PhD это ценнейший скилл.
Я быстренько набросал небольшую статью со ссылками на материалы, которые я использовал в прошлом году, чтобы освоить CUDA программирование за неделю. Может кому пригодиться!
#карьера
@ai_newz
2023-04-16 09:55:57
Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields
На днях барон всех нерфов, Джон Баррон, опубликовал еще одну статью, где разъебал сильно улучшил 3D реконструкцию и рендеринг больших сцен.
Серьезно, имя Джона Баррона нужно знать, если интересуетесь нейронным рендерингом. Чел работает Senior Staff Research Scientist в Google и опубликовал более 20 статей по теме за последние пару лет.
В новом методе он объединил
медленный, но мощный mip-NeRF 360, который решает проблему алиасинга при рендеринге объектов разного масштаба, и быструю модель Instant NGP, которая работает на воксельных гридах. Для вычисления цвета пикселя Mip-Nerf использует конусовидные фрустумы вместо трейсинга лучей, однако такой трюк не получится заюзать в лоб с методами, работающими на воксельных сетках. В Zip-Nerf барон изворачивается и эту проблему решает.
Качество рендеринга улучшилось на 8%–76%, а тренировка ускорена в 22 раза по сравнению с mip-NeRF 360.
Сайт проекта
Вот ещё ссылка на либу с GUI для разных нерфов
@ai_newz
2023-04-13 09:16:57
🚀Dolly 2.0 – первая открытая 12B Chat-LLM, которую можно использовать в коммерческих продуктах
Databricks удивили! Ребята заметили, что все опен-соурсные ChatGPT-клоны либо используют LLaMA, в которой некоммерческая лицензия, либо используют данные, которые запрещают коммерческое использование (как например датасет инструкций от Alpaca, сгенерированный с помощью GPT-3).
В чем преимущество OpenAI перед опен-суорсом, если не брать в расчет размер GPU кластера? В данных. Чтобы дообучить ChatGPT было собрано много качественных диалогов и иструкций от реальных людей, ну, и плюс RL from Human Feedback (RLHF), где люди оценивали ответы языковой модели.
Было решено собрать свой датасет. В Databricks работает ≈5000 человек, их всех и попросили написать вручную несколько семплов для обучения клона ChatGPT. Нужно было составить качественные пары Вопрос-Ответ, либо Инструкция-Ответ, на которых можно было бы добучить опенсоурсную авторегрессионную LLM, которая умеет просто продолжать текст, а не вести диалог. В итоге с помощью пряников в виде бонусов за написание лучших примеров, было собран высококачественный датасет на 15000 семплов!
Далее, они взяли свежу языковую модель Pythia-12B от EleutherAI с MIT лицензией и дообучили на своем датасете, получив Dolly 2.0* которую тоже зарелизили под MIT лицензией вместе с кодом и весами. Разве не прелесть?
generatetext = pipeline(model="databricks/dolly-v2-12b", torchdtype=torch.bfloat16, trustremotecode=True, devicemap="auto")
generatetext("Who is Shcmidhuber?")
Умельцы уже кванитизовали Dolly 2.0 в 4 бита и ускорлили для запуска на CPU. Теперь ждём шага от OpenAssistant, которые по слухам зарелизят свою модел в ближайшие дни.
*Dolly 1.0 была обучена на тех же инструкциях, что и Alpaca.
Блогпост про Dolly 2.0
@ai_newz
2023-04-12 11:35:48
Все-таки, при всей закрытости OpenAI сейчас (какой оксиморон), они не всегда были такими. Во многом благодаря им мы получили такое быстрое развитие открытых text2image моделей вроде GLIDE и Stable Diffusion.
Ведь это OpenAI два года назад выложили на GitHub код guided-diffusion из статьи Diffusion Models Beat GANs on Image Synthesis. Ну, а там пошло-поехало, их код перекочевал в сотни репозиториев, в том числе в Latent Diffusion (Stable Diffusion), дав большой толчок в развитии.
@ai_newz
2023-04-11 20:59:35
Segment Anything + Stable Diffusion в Automatic1111
Как вы и просили, уже появилось расширение для Automatic1111*, которое позволяет использовать модель Segment Anything для быстрого редактирования выбранных регионов картинки! Нужно только кликнуть мышкой и SA автоматически выдаст маску.
Автор репозитория планирует добавить еще Grounded-Segment-Anything (см. предыдущий пост), чтобы можно было получать маску по текстовому промпту.
* Automatic1111 — самый мощный web GUI для Stable Diffusion, который можно запускать как локально, так и на сервере. Ну, вы и так в курсе.
❱❱ Код расширения
2023-04-11 07:03:13
Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything
Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion.
Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой неделе.
Grounded-SAM — это проект, который объединил несколько моделей для контролируемого редактирования отдельных регионов изоюражания.
Segment Anything - мощная модель сегментации, но требует подсказок (таких как рамки/точки) для создания масок.
Grounding DINO - сильный zero-shot детектор, способный выдавать качественные рамки по текстову промпту.
Объединив, Grounding DINO и SA, мы можем по текстовому промпту генерировать маску, отвечающую описанию, а затем подавать картинку с маской в Stable Diffusion (или другую txt2img модель) и редактировать заданный регион.
Применять можно как в художествах, так и для генерации множества синтетических, но реалистичных аугментаций для тренировки других моделей.
Код на гитхабе.
@ai_newz
2023-04-10 21:17:35
Альтернативные интерфейсы для ChatGPT
Пытался найти сторонний вариант интерфейса для бесед с ChatGPT, так как стал пользоваться им каждый день. Свой интерфейс на LangChain писать лень, поэтому проделал небольшой ресерч и оформил это в развернутый пост.
Итог: нашел класный тул на Rust, который позволяет вызывать ChatGPT из терминала.
Напишите в комментах, если есть какие-то хорошие враперы над ChatGPT, которыми пользуетесь.
Читать пост.
@ai_newz
2023-04-10 06:01:09
Я протестил модельку Segment Anything у себя в браузере.
Запустил на картине Питера Брейгеля Старшего, который страсть как любил рисовать много мелких деталей. И вот, что получилось: Хоть в тренировочном датасете не было картин, модель хорошо сравляется сегментацией и нарисованых объектов. Иногда, когда одной точки не хватает, чтобы полность выделить объект, нужно кликнуть еще разок, либо выделить боксом.
Пока я двигал мышкой, prompt encoder и mask decoder крутились в реальном времени локально у меня на CPU.
Кстати, модель Segment Anything можно неплохо склеить в единый пайплайн с Instance деткекторами. Детктор будет выплевывать боксы, а SA будет выдавать маски по заданным боксам.
Или еще лучше. Для артистов: Вы текстом говорите, что поменять и как, затем Segment Anуthing выдает маску, а Stable Diffusion по маске генерит измененный регион в желаемом виде. Ждите скоро на просторах интернета.
Демка тут.
@ai_newz
2023-04-09 18:00:36
Хотите получить ценные знания из области машинного обучения и аналитики от эксперта и опытного менеджера? Рекомендую присоединиться к каналу Валеры Бабушкина @cryptovalerii
Валера - бывший топ-менеджер одного из крупнейших офлайн-ритейлеров и руководитель команд в Facebook(тоже бывший). На его канале вы найдете множество полезных материалов на такие темы как компенсации и ожидания от различных уровней в BigTech, разбор статей и алгоритмов, подготовка к собеседованию, системный дизайн и многое другое.
Ознакомьтесь с его LinkedIn профилем здесь и убедитесь в его опыте самостоятельно.
Не пропустите возможность послушать Валеру и его гостей о том, что несет нам будущее в этот четверг
@ai_newz
2023-04-09 16:14:32
Segment Anything: Архитектура
Структура модели:
Тут все по классике - большие трансформеры и кросс-аттеншены.
1. Encoder изображений ViT-H, который обрабатывает каждое изображение и выдает фичи.
2. Encoder запросов, который обрабатывает входные промпты, такие как клики, боксы или текст.
3. Легкий декодер на основе трансформера, который предсказывает маски объектов на основе фичей изображения и запросов.
Размер модели:
Image Encoder содержит 632M параметров.
Encoder запросов и decoder масок содержат 4M параметров. Это позволяет посчитать фичи картинки на GPU (0.15s на A100), и гонять все остальное реалиайм на CPU прямо в браузере (50ms на запрос).
Модель обучалась в течение 3-5 дней на 256 GPU A100, что не особо много в современных реалиях, когда SD или GPT-4 обучаются месяцами.
Для мощной генерализации модель нужно обучать на огромном датасете. Так вот авторы собрали и опубликовали самый большой датасет по сегментации: 1 млрд масок на 11 млн изображений. Его и использовали для обучения.
@ai_newz
2023-04-09 15:44:20
Segment Anything
[Meta AI]
Итак, ребята, что там по сегментации? Кажется, теперь не придется тренировать новую модель сегментации под каждую отдельную задачу (sic!). Мой товарищ Алекс Кириллов и коллеги из Meta AI разработали фундаментальную модель для сегментации картинок, которая может многое.
Из коробки модель Segment Anything (SA) умеет в сегментацию объектов по промпту. Промпт может быть текстовым, либо несколько точек, либо выделенная область.
SA выучила общую концепцию объектов и может генерировать маски для любого объекта на любом изображении или видео, даже включая объекты и типы изображений, которых не было в трейне. Она готова к использованию на разных "доменах" без дополнительного обучения".
Выход Segment Anything - это что-то вроде "GPT-3 момента" для сегментации. Когда можно взять большую общую модель и она сразу будет работать не хуже, а то и лучше (если данных мало), чем специализированная модель.
Мало того, веса и код модели полностью открыты!
Сайт проекта
Demo
@ai_newz
2023-04-06 12:40:08
Ещё, SDXL, кажется, чуть лучше умеет в текст, чем SD v2.1. Но всё ещё не дотягивает.
Пытался заставить ее сгенерить на табличке "I love AI newz". У меня это все равно до конца не вышло.
@ai_newz
2023-04-06 12:14:53
🔥Stability.ai релизнули новую модель SDXL beta!
По слухам, новая модель имеет 2.3-2.4 B параметров, что в несколько раз больше чем предыдущая версия. Других подробностей пока нет.
Чтобы попробовать SDXL дают совсем немного бесплатных кредитов. Я потестил, и на мой взгляд, качестве сильно увеличилось, ещё лучше генерит иллюстрации. Но в этой модели сильно подкрутили фильтры и возможно порешали датасет. Теперь она не понимает некоторые известные имена. Вместо Яна ЛеКуна генерит азиата, хотя и слегка похожего на Яна.
Уходит примерно 8 сек, чтобы сгенерить 4 картинки за 50 шагов.
Интересно посмотреть, зарелизят ли веса этой модели, или кончилась эпоха щедрости?
Попробовать SDXL тут.
@ai_newz
2023-04-05 13:50:00
Мои знакомые (ex-deepcake) выпустили AI-сервис Rask.ai для локализации видео-контента на 50+ языках в несколько кликов.
На Rask.ai можно перевести видео длинной до минуты с любого языка на английский бесплатно.
Скоро обещают ещё и липсинк приделать. Такой сервис для блогеров и ютуберов – то что нужно, чтобы распространить свой контент на более широкую аудиторию.
На прикрепленных видео я перевел русский оригинал на английский и японский с помощью rask.
Кстати, ребята сейчас пытаются подняться в ранке на product hunt. Поддержать команду, а также попробовать продукт и дать фидбэк можно по ссылке.
@ai_newz
2023-04-03 13:10:10
Любой, кто воспользуется быстро развивающейся технологией [AI], будет наказан повешением
Вы наверное заметили, что истерия вокруг опасности ИИ набирает обороты. Коротко перескажу недавние события.
Илон Маск, Стив Возняк, Ёшуа Бенжио и др. подписали открытое письмо, которое призывает AI лаборатории приостановить тренировку AI систем мощнее чем GPT-4. Маск то понятно, но про Бенжио, честно говоря, не до конца понятно, почему он сюда вписался. Может тоже хочет выиграть время.
Самопровозглашенный ИИ эксперт Юдковский, выпускает опус, настаивающий на полном запрете исследований в области ИИ, и призывает глав государств буквально бомбить несанкционированные дата-центры с GPU-кластерами. Интересно слышать апокалиптические пророчества от человека, который не имеет никакого инженерного или научного AI бэкграунда и мало понимает, как вообще работают современные нейросети.
Думеры от вида новых нейронок рвут на голове волосы с криками "кампутеры нас всих пагубят, лишат работы и парабатят!".
А буквально сегодня верховой лидер Ирана издает фетву, в которой назвал ИИ сатанинской технологией [классика] и призвал всех мусульман мира бороться против неё. А тот, кто будет убит в процессе этой борьбы, будет объявлен мучеником. "Любой, кто воспользуется быстро развивающейся технологией, будет наказан повешением." - пояснили иранские власти.
Кстати, это первый случай, когда иранское государство издает фетву против нечеловеческой сущности.
Ух, как много весёлых событий!
@ai_newz
2023-04-02 08:35:18
С прошедшим днём Смеха, и с ещё одним днём без AGI 😁.
Забыл только stackoverflow дать по щам.
@ai_newz
2023-04-01 09:29:23
LLaMa 30B на 6GB RAM
Блин, как здорово, когда что-то в опен-соурсе допиливается коллективным разумом до невероятных результатов.
Чел отимизировал загрузку весов в LLaMa.cpp с помощью mmap, и теперь инференс 30B модели можно гонять на CPU на Линуксе, используя меньше 6 GB RAM 🤯. Скорость холодного запуска модели тоже серьезно возросла.
Сами веса 4-bit квантизованной LLaMa 30B занимают 20 GB на диске, но после оптимизации, со слов автора пул-реквеста, при загрузке модель дает всего 4GB футпринт в RAM. Всё благодаря ленивому чтению с помощью mmap, который подгружает с диска в RAM только нужные в текущий момент страницы памяти.
Каждый день мы видим новые оптимизации и трюки. Модели становятся меньше, быстрее и мощнее, что расширяет их область применения и доступность. Это не может не радовать. Не все же закрытому AI OpenAI у себя в закромах держать.
@ai_newz
2023-03-31 16:06:38
Я недавно писал, что ChatGPT не очень юзабельна для серьезных вещей из-за наплевательского отношения на приватность данных.
Вот итальянцы уже заблокировали ChatGPT у себя в стране из-за того, что бот не соответствует GDPR. Итальянский орган по защите данных дал OpenAI 20 дней на то, чтобы объяснить, как они собираются устранить их опасения. Если они не справятся, то им грозит штраф в 20 миллионов евро или даже до 4% от годового оборота. Не шутка!
Думаю, что скоро могут подтянуться и другие страны Евросоюза.
Говорю же, нужно поднимать свою реплику LLM дома, под столом.
@ai_newz
2023-03-29 16:44:59
С опозданием на 4 месяца, но я таки залил нашу NeurIPS 2022 статью VisCo Grids про 3D реконструкцию поверхностей на arXiv.
https://arxiv.org/abs/2303.14569
@ai_newz
2023-03-28 18:03:57
Как же замечательно, что сейчас столько новых экспертов по эйай появилось!
@ai_newz
2023-03-27 10:20:34
Так как все хостится локально, то можно безопасно подсунуть в модель свои личные документы и файлы (а не отправлять их на сервера OpenAI через API) и гонять лламу по ним как своего личного ассистента.
Мне, например, было бы некомфортно засылать свои емейлы в чатгпт. А вот в локальную копию Лламы я бы их загрузил.
Ллама, конечно, ещё послабее чем GPT-4, но ещё не вечер. Думаю, в опен-соурсе в ближайшее время появится что-то сравнимое с ChatGPT, благо есть много открытых инициатив. Народ продолжает допиливать LLaMa-Alpaca, ведется сбор датасетов в рамках Open Assistant, и ещё парочка других инициатив.
Могли бы вы представить 3 месяца назад, что сможете запускать в реальном времени большую языковую модель у себя на макбуке да и ещё по сути зарепродюсить голосового помощника типа Алексы?
Скорость прогресса просто mind-blowing!
@ai_newz
2023-03-27 09:40:06
Вот пример работы LLaMa с text-retrieval плагином. Ее спросили, какой заголовок статьи, в которой опубликовали ее саму. Тут можно видеть и контекст, который генерируется плагином и выход модели.
@ai_newz
2023-03-27 09:36:59
🦙 LLaMa не стоит на месте
Есть уже куча примеров какие чудеса кулибины вытворяют с моделькой LLaMa. А вчера чел соорудил подобие Джарвиса, или Алексы, если хотите, прямо у себя в терминале на MacBook M1 Pro.
Причем все работает реалиайм на связке Whisper + LLaMa.
Под капотом: ggml / whisper.cpp / llama.cpp / Core ML
STT: Whisper Small
LLM: 13B LLaMA
Другой Кулибин начал прикручивать плагины от ChatGPT к опенсоурсной LLaMa. Уже работает text-retrieval плагин, и есть код.
@ai_newz
2023-03-25 21:49:03
В продолжение к посту про интервью с Ilya Sutskever (OpenAI)
Вот ещё интересно, Илья говорит, что он согласен с ЛеКуном в том, что обучаться понимать мир проще, если есть доступ к данным из нескольких модальностей. Например текст, аудио и картинки вместе. Но в то же время он верит, что всему можно научиться сугубо по тексту, однако это будет сложнее и дольше.
Дальше он приводит интересный эксперимент. После обучения LLM, они посмотрели на эмбединги, отвечающие за цвета. Оказалось что модель, которая в глаза никогда не не видела визуальную информация, выучила такие эмбединги, где фиолетовый ближе голубому чем красный, что красный ближе к оранжевому чем фиолетовый, и т.д. И все это модель выучила только на основе текста.
Ещё Илья признает, что файнтюнинг RLHF не добавляет в модель новых знаний о мире. Модель и так уже все выучила на основе статистических паттернов в тексте во время large-scale тренировки. RLHF файнтюнинг же всего лишь "делает ответы модели более надёжными", то есть во время файнтюна модель бьют по рукам если она что-то неугодное ляпает. От себя добавлю, что RLHF так же позволяет более эффективно взаимодействовать с моделью в режиме инструкций. То есть в режим вопрос-ответ или задача-решение. Но этого, вроде как, можно достичь и без RL, а с помощью обычного self-instruct fine-tuning.
@ai_newz
2023-03-25 20:01:35
Сейчас смотрю недавнее интервью с Ильёй Сатскевером, главным ресерчером в OpenAI и кофаундером компании. Топовый чувак, которого я безмерено уважаю за его вклад в развитие AI, начиная с архитектуры Alexnet и заканчивая GPT.
Кстати, Илья родился в России и вырос в Израиле. Но потом переехал в Канаду и в 17 лет уже начал работать с Хинтоном, что и определило его научную карьеру.
Илья утверждает, что обучение глубокой модели предсказывать следующее слово в пределе может привести к очень подробному понимаю мира. Нужно только чтобы модель была очень мощная и обучающая выборка всеобъемлющая. Его мысль в том, что если ты хорошо выучил распределение слов и фраз в языке, то ты натурально уже начал понимать как устроен мир, смотря на него через призму текста.
Я не совсем согласен, ведь тут все очень зависит от того, какие тексты вошли в трейн. Вымысел может путаться с реальностью. Тогда это не является действительным понимание мира.
Бороться с галлюцинациями моделей Илья предлагает с помощью дообучения их человеческим фидбеком (RLHF). Он надеется что так они смогут научить модели не галлюцинирвать. Но это ещё предстоит поисследовать и понять, так ли это.
Видео – обязательно к просмотру всем интересующимся AI и адептам скорого прихода AGI.
@ai_newz
2023-03-25 13:05:14
Все: чатгпт, генеративный эйай, AGI, новая эра.
Снепчат: а давайте сделаем фильтр с прыгающей тачкой!
Линза тут.
@ai_newz
2023-03-25 11:51:34
Сейчас загружал статью на arXiv. Как же бомбит от ошибок компиляции Latex и нафталинового UI на сайте! Приходится по 10 раз исправлять что-то в файлах (которые локально компилируются без проблем), и перезагружать на arXiv, и запускать компиляцию заново.
Искренне надеюсь, кто-то прикрутит туда языковую модель, которая автоматизирует все это безумие.
С другой стороны, это бесплатный архив, созданный академиками для академиков, который очень сильно продвинул открытость в науке и за счёт этого ускорил цикл обмена новыми идеями. Чего я жалуюсь?
@ai_newz
2023-03-25 01:47:42
💥 Cog: ML-модели с ходу в контейнер
Я редко пишу прл ML-ops, но вчера наткнулся на обалденную либу для pet проектов. Cog - это инструмент для упаковки ML-моделей в контейнеры и оборачивания в сервис, прям всё по феншую.
Нужно только обернуть модельку в класс предиктор.
Что либа умеет:
1 Docker-образы без мучений: ты делаешь простой конфиг, Cog делает все остальное.
2 Благодаря этому, нет ебатни с CUDA.
3 HTTP-сервер с предиктором из коробки.
4 Поддержка очереди из коробки
5 Работает S3 и Google Cloud Storage.
6 Изи развернуть модель где угодно, где есть Docker.
Cog, кажется, делает все то, что мне лень делать руками. Я ведь хочу просто обучить модель, оттрейсить ее в torchscript и закинуть на сервак, чтобы дергать ее по API.
🤙 https://github.com/replicate/cog
@ai_newz
2023-03-23 12:01:39
Друзья, без паники. Пост сверху – сугубо ироничный. Конечно, никто никого из-за драного Copilot-а увольнять не станет.
По крайней мере в текущем состоянии, и пока у компаний есть легальный риск отдавать ему на анализ свой проприетарный код.
В любом случае, Copilot, GPT, LLaMa и прочие языковые модели уже могут увеличить продуктивность кодинга, и это нужно эксплуатировать!
@ai_newz
2023-03-23 09:26:16
Сopilot X: программеры, держитесь!
Команда GitHub Next решила прокачать GitHub Copilot, чтобы уделать любого программиста, ой, простите, чтобы он стал AI-помощником на всех этапах разработки. Они не только использовали GPT-4 от OpenAI, но и добавили чат и голосовые функции для Copilot, интегрировали его с пул-реквестами, командной строкой и документацией. Короче, одним словом - киберпанк. Все это обозвали Copilot X.
Copilot Chat предоставляет разработчикам ChatGPT-подобный опыт прямо в редакторе, интегрированном с VS Code и Visual Studio. Copilot Chat не просто предлагает код - он анализирует написанный разработчиком код, ошибки и становится неразлучным компаньоном в среде разработки. Таким образом, разработчик получает подробный анализ и объяснения блоков кода, может генерировать юнит-тесты и даже исправлять ошибки (см видео).
Еще выкатили GitHub Copilot для Docs - экспериментальный инструмент с чат-интерфейсом, который предоставляет AI-генерированные ответы на вопросы о документации, включая языки, фреймворки и технологии.
Copilot для пулл-реквестов: этот маленький хитрец автоматически находит тех, кто забыл о тестировании пулл-реквеста. А после, словно волшебник, предложит потенциальные тесты на выбор, чтобы наши уважаемые кодеры могли поредактировать, принять или отвергнуть их в зависимости от капризов своего проекта. Ну разве не чудо?
Также стоит отметить GitHub Copilot CLI для командной строки. Разработчики проводят много времени в терминале, и даже опытным иногда приходится листать страницы мануалов, чтобы вспомнить точный синтаксис команд. Вот здесь на помощь приходит Copilot CLI, который компонует команды и циклы, манипулирует сложными флагами, чтобы облегчить страданья разработчика.
С Copilot X, разработчики смогут увольнять некоторых коллег, ведь AI-помощник возьмет на себя их рутинные задачи. Разработка станет не только продуктивнее, но и дешевле веселее!
@ai_newz
2023-03-22 14:24:09
Nvidia GTC: новая видеокарта H100 NVL на 192 GB VRAM и другое
Для тех кто, как и я, не смотрел онлайн. Вчера была ежегодная презентация Nvidia GTC. CEO и фаундер Nvidia, Дженсен Хуанг, дал очень интересный и вдохновляющий доклад. Очень рекомендую к просмотру!
Если коротко, то NVIDIA максимально топит за AI и Generative AI в частности.
Выпустили кучу новых железяк, которые ускоряют, все что ускорялось. В том числе спаренную видеокарту H100 NVL с 192GB памяти, куда влазит GPT-3 для инференса. То есть уже можно у себя под столом развернуть такое при большом желании 😅.
Еще показали как все хорошо пользуются их решениями для крупных дата-центров с тысячами серверов.
И на последок Хуанг показал, как можно круто генерировать синтетические данные в их софте для фотореалистичных симуляций Omniverse.
Вот ссылка на 29-минутный кат доклада, где есть все самое важное.
@ai_newz
2023-03-21 16:00:45
Подписчик принес полезную ссылку. Это список ресурсов для того, чтобы начать играться/поднимать свою опенсоурсную альтернативу чатботу ChatGPT только с блэкджеком и ... что там у вас на уме.
А вот тут ещё как запускать модель LLaMA у себя на машине (да, это возможно).
@ai_newz
2023-03-21 12:24:25
Вчера остановилась работа у тысяч программистов и копирайтеров 😢. ChatGPT упал и лежал 4 часа. Кроме того из-за бага в вэб-приложении ChatGPT произошла небольшая утечка диалогов пользователей. Но, кажется, утекли только заголовки диалогов. А сейчас, когда сервис восстановили, пропала вся история диалогов.
Вот почему никогда не стоит строить свою жизнь и работу на основе внешнего ресурса, который ты не контролируешь или можешь потерять доступ к нему без возможности восстановления – это же как картошку сажать на чужом огороде!
@ai_newz
2023-03-21 11:03:27
GenAI: Персональный апдейт
Несколько недель назад Марк анонсировал, что будет создана новая организация внутри Meta – GenAI, которая будет заниматься сугубо Generative AI. Наша команда покинула Reality Labs и попала в новую организацию.
Я очень рад этому событию, ведь последний год я занимался диффузионными моделями, а теперь полный газ в пол! Но на диффузии мы, конечно, не ограничиваемся и будем искать новые эффективные модели.
Ещё бонусом теперь я смогу плотнее сотрудничать с командами из FAIR, которые создали make-a-scene и make-a-video, или ту же LLaMa, потому что мы теперь с ними в одной организации.
Exciting stuff!
#карьера #мойпуть
@ai_newz
2023-03-20 14:10:12
ModelScope Text-2-Video: Китайский опенсоурс разродился открытой моделькой для генерации видео по тексту
Это первая диффузионная text2video модель с открытым кодом и опубликованными весами (1.7 млрд параметров).
Отдельный респект идет Шаттерстоку, данные с которого по всей видимотси использовались для тренировки модели 😂.
Чтобы запустить локально потребуется 16 GB RAM и 16 GB VRAM: инструкция. Пока генерит видео только 256x256.
Ну что, давайте побыстрее заполним интернет проклятыми видео!
Demo
Model weights
@ai_newz
2023-03-19 17:44:59
Чтобы немного поубавить хайп, вот вам наброс. Со слов самой GPT-4, она обладает рядом недостатков, делающих ее не прорывной, а проходной технологией:
1. Ограниченное понимание: GPT-4, как и другие модели, основанные на языке, не обладает истинным пониманием языка или контекста. Они обучены на основе статистических закономерностей и корреляций в данных, но не могут осмыслить предложения и понятия так, как делают люди.
2. Завышенные ожидания: Многие СМИ и блогеры могут представлять GPT-4 как "революцию" или "прорыв" в области искусственного интеллекта, что может привести к нереалистичным ожиданиям относительно его возможностей. Это может привести к разочарованию, когда модель не оправдывает надежды.
3. Ограничения в области творчества: GPT-4, хотя и способна генерировать тексты, изображения и музыку, в конечном итоге зависит от обучающих данных, собранных от людей. Оно не способно создавать истинно оригинальное искусство или идеи, что ограничивает его применимость в творческих областях.
4. Зависимость от больших объемов данных: GPT-4 требует огромного количества данных для обучения, что может вызывать проблемы в эффективности и воздействии на окружающую среду.
5. Дорогостоящее обучение и использование: Обучение и эксплуатация модели GPT-4 требует значительных вычислительных ресурсов, что делает их дорогостоящими и менее доступными для многих пользователей.
6. Непостоянство результатов: Искусственный интеллект GPT-4 может быть непредсказуемым, порождая качественно разные результаты при разных запросах или даже с небольшими изменениями ввода.
7. Сложность контроля: Ограничение и регулирование вывода GPT-4 может быть сложным процессом, поскольку модель может генерировать нецензурные, оскорбительные или нежелательные результаты, что требует дополнительных усилий для модерации и контроля.
8. Отсутствие интерпретируемости: Работа GPT-4 может быть сложна для понимания, поскольку модель имеет множество слоев и параметров, что затрудняет объяснение ее поведения.
9. Неполнота знаний: Обучение GPT-4 заканчивается на определенной дате, и модель не может учесть новые события или информацию, появившуюся после этого срока.
10. Ошибки и неточности: GPT-4 может давать неверные или неточные ответы, поскольку оно опирается на статистические закономерности, а не на глубокое понимание.
11. Зависимость от качества данных: Эффективность GPT-4 напрямую связана с качеством и объемом предоставленных обучающих данных, что может ограничивать его применимость в некоторых областях.
12. Склонность к усилению предубеждений: GPT-4 может усиливать существующие предубеждения и стереотипы, присутствующие в обучающих данных, что может привести к нежелательным результатам.
13. Отсутствие эмоционального интеллекта: GPT-4 не способно понимать или отражать эмоции, что ограничивает его способность к эффективному взаимодействию с людьми.
14. Безопасность данных: Использование GPT-4 может представлять риски для безопасности и конфиденциальности данных, особенно при обработке чувствительной информации.
15. Проблемы с авторским правом: GPT-4 может генерировать контент, который может нарушать авторские права или создавать юридические проблемы для пользователей.
GPT-4 - это только одна из многих ступеней в развитии AI. В будущем вероятно появятся более продвинутые и эффективные модели, которые могут заменить GPT-4, делая ее менее актуальной.
PS. на скрине примеры боянистых детских задачек, которые GPT-4 просто не осилила.
@ai_newz
2023-03-19 16:21:28
Кстати, это был мой первый опыт подкастинга (хоть и как гостя), и мне очень понравилось, классный выпуск получился.
Давно размышляю о том, чтобы сделать свой подкаст. Было ли бы вам интересно слушать мой подкаст о нейронках и AI науке? Напишите в комментах, предложите, какие темы можно было бы обсудить в формате подкаста.
Во время пандемии я завел youtube канал, где делал обзоры на статьи. Но надолго меня не хватило, очень много времени уходило на один ролик. Думаю, формат подкаста должен быть более легковесный.
2023-03-19 16:12:19
🎙Метаискусство: может ли робот сочинить симфонию?
Всем привет! Я вернулся из отпуска. А тем временем вышел подкаст с моим участием, где мы поговорили об AI, генеративной музыке и о потенциале нейросетей для применения в творческой сфере.
В подкасте мы провели эксперимент, где мне и другим гостям (медиа-художник, звукорежиссер и звукоинженер) нужно было угадать, какая композиция была сгенерирована, а какая создана человеком. Cлушая этот выпуск, вы можете вместе со мной попытаться найти сгенерированые треки.
Кстати, фоновая музыка в подкасте, а также большая часть текста ведущего тоже были сгенерированы нейросетью.
Слушать на других платформах:
- Apple Podcasts
- Spotify
@ai_newz
2023-03-14 23:43:35
🔥Вышла GPT-4!
https://openai.com/research/gpt-4
Теперь модель ещё может принимать и картинки на вход. В ответ выдает все ещё только текст. Ну, и конечно, модель более серьезно надрессировали не выходить за рамки дозволенного.
Пишут, что на многих бенчмарках новая модель конкретно бьет предыдущую GPT-3.5. В том числе на датасете экзаменов по разным предметам.
Без паники, господа программисты. Выдыхаем (пока). GPT-4 все ещё сосет на задачах с Codeforces – модель входит только в нижние 5% по рейтингу.
OpenAI в своем обычном стиле закрытого ИИ не делятся деталями. Не рассказали ни про архитектуру, ни даже про количество параметров 🙄.
По ссылке можно стать в очередь на доступ к API GPT-4.
@ai_newz