Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 52 (50 постов)

Репосты из тематических каналов

эйай ньюз 2023-04-17 11:17:01

Про боязнь доминации AGI

Действительно. Ян считает, что бояться нам нечего. Тем более, чтобы захватить контроль над человечеством, нужно этого хотеть. У людей желание доминировать сложилось эволюционно в результате того, что мы социальные существа.

У машины же такого желания быть не может, если мы его не заложим в нее. Все в наших руках.

Кстати, Юдковский не пропускает ни одного твита ЛеКуна 😁

@ai_newz

эйай ньюз 2023-04-16 18:53:37

Насколько полезным сейчас является скилл программирования на CUDA? Если я хочу производительности для своих нейронок - достаточно ли пайторча? (Вопрос от подписчика)

CUDA - это довольно редкий скилл. И если ты умеешь программировать на CUDA, то без работы точно не останешься. Мало кто из ресерчеров умеет программировать на куде. А скилл очень полезный, например для оптимизирования кернелов и ускорения нейронных сеток. В больших компаниях (типа Меты) есть отдельные команды, которы умеют делать такую магию, например команды PyTorch и AITemplate. Люди там занимаются именно низкоуровневой оптимизацией.

Например, мы придумали новую архитектуру, какие-нибудь замудренные трансформеры с нестандартными блоками, и нужно, чтобы они быстро работали. Тут в первую очередь вступают в игру те люди, которые умеют в низко-уровневую оптимизацию и переписывают некоторые операции на CUDA. А вызовы нативных функций пайторча меняются на оптимизированные куда-кернелы. Это очень ценный скилл.

Еще одно применение CUDA программирования в зрении — это когда работаешь с нейронным рендрингом. Есть методы, которые полностью написаны на куде, например Instant-NGP. Либо наша статья VisCo Grids на NeurIPS 2022, где мы просто садились и писали все кернелы на CUDA для forward и backward pass нашей модели. Иначе все слишком медленно получалось. Обычным пайторчем там нельзя было обойтись.

В ноябре я рассказывал, что разговаривал с Matthias Nießner, который искал к себе в лабу в TUM студентов, которые знают CUDA, чтобы заниматься нейронным рендерингом. То есть и во время PhD это ценнейший скилл.

Я быстренько набросал небольшую статью со ссылками на материалы, которые я использовал в прошлом году, чтобы освоить CUDA программирование за неделю. Может кому пригодиться!

#карьера

@ai_newz

эйай ньюз 2023-04-16 09:55:57

Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields

На днях барон всех нерфов, Джон Баррон, опубликовал еще одну статью, где разъебал сильно улучшил 3D реконструкцию и рендеринг больших сцен.

Серьезно, имя Джона Баррона нужно знать, если интересуетесь нейронным рендерингом. Чел работает Senior Staff Research Scientist в Google и опубликовал более 20 статей по теме за последние пару лет.

В новом методе он объединил
медленный, но мощный mip-NeRF 360, который решает проблему алиасинга при рендеринге объектов разного масштаба, и быструю модель Instant NGP, которая работает на воксельных гридах. Для вычисления цвета пикселя Mip-Nerf использует конусовидные фрустумы вместо трейсинга лучей, однако такой трюк не получится заюзать в лоб с методами, работающими на воксельных сетках. В Zip-Nerf барон изворачивается и эту проблему решает.

Качество рендеринга улучшилось на 8%–76%, а тренировка ускорена в 22 раза по сравнению с mip-NeRF 360.

Сайт проекта

Вот ещё ссылка на либу с GUI для разных нерфов

@ai_newz

эйай ньюз 2023-04-13 09:16:57

🚀Dolly 2.0 – первая открытая 12B Chat-LLM, которую можно использовать в коммерческих продуктах

Databricks удивили! Ребята заметили, что все опен-соурсные ChatGPT-клоны либо используют LLaMA, в которой некоммерческая лицензия, либо используют данные, которые запрещают коммерческое использование (как например датасет инструкций от Alpaca, сгенерированный с помощью GPT-3).

В чем преимущество OpenAI перед опен-суорсом, если не брать в расчет размер GPU кластера? В данных. Чтобы дообучить ChatGPT было собрано много качественных диалогов и иструкций от реальных людей, ну, и плюс RL from Human Feedback (RLHF), где люди оценивали ответы языковой модели.

Было решено собрать свой датасет. В Databricks работает ≈5000 человек, их всех и попросили написать вручную несколько семплов для обучения клона ChatGPT. Нужно было составить качественные пары Вопрос-Ответ, либо Инструкция-Ответ, на которых можно было бы добучить опенсоурсную авторегрессионную LLM, которая умеет просто продолжать текст, а не вести диалог. В итоге с помощью пряников в виде бонусов за написание лучших примеров, было собран высококачественный датасет на 15000 семплов!

Далее, они взяли свежу языковую модель Pythia-12B от EleutherAI с MIT лицензией и дообучили на своем датасете, получив Dolly 2.0* которую тоже зарелизили под MIT лицензией вместе с кодом и весами. Разве не прелесть?

generatetext = pipeline(model="databricks/dolly-v2-12b", torchdtype=torch.bfloat16, trustremotecode=True, devicemap="auto")

generatetext("Who is Shcmidhuber?")


Умельцы уже кванитизовали Dolly 2.0 в 4 бита и ускорлили для запуска на CPU. Теперь ждём шага от OpenAssistant, которые по слухам зарелизят свою модел в ближайшие дни.

*Dolly 1.0 была обучена на тех же инструкциях, что и Alpaca.

Блогпост про Dolly 2.0

@ai_newz

эйай ньюз 2023-04-12 11:35:48

Все-таки, при всей закрытости OpenAI сейчас (какой оксиморон), они не всегда были такими. Во многом благодаря им мы получили такое быстрое развитие открытых text2image моделей вроде GLIDE и Stable Diffusion.

Ведь это OpenAI два года назад выложили на GitHub код guided-diffusion из статьи Diffusion Models Beat GANs on Image Synthesis. Ну, а там пошло-поехало, их код перекочевал в сотни репозиториев, в том числе в Latent Diffusion (Stable Diffusion), дав большой толчок в развитии.

@ai_newz

эйай ньюз 2023-04-11 20:59:35

Segment Anything + Stable Diffusion в Automatic1111

Как вы и просили, уже появилось расширение для Automatic1111*, которое позволяет использовать модель Segment Anything для быстрого редактирования выбранных регионов картинки! Нужно только кликнуть мышкой и SA автоматически выдаст маску.

Автор репозитория планирует добавить еще Grounded-Segment-Anything (см. предыдущий пост), чтобы можно было получать маску по текстовому промпту.

* Automatic1111 — самый мощный web GUI для Stable Diffusion, который можно запускать как локально, так и на сервере. Ну, вы и так в курсе.

❱❱ Код расширения

эйай ньюз 2023-04-11 07:03:13

Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything

Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion.

Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой неделе.

Grounded-SAM — это проект, который объединил несколько моделей для контролируемого редактирования отдельных регионов изоюражания.

Segment Anything - мощная модель сегментации, но требует подсказок (таких как рамки/точки) для создания масок.

Grounding DINO - сильный zero-shot детектор, способный выдавать качественные рамки по текстову промпту.

Объединив, Grounding DINO и SA, мы можем по текстовому промпту генерировать маску, отвечающую описанию, а затем подавать картинку с маской в Stable Diffusion (или другую txt2img модель) и редактировать заданный регион.

Применять можно как в художествах, так и для генерации множества синтетических, но реалистичных аугментаций для тренировки других моделей.

Код на гитхабе.

@ai_newz

эйай ньюз 2023-04-10 21:17:35

Альтернативные интерфейсы для ChatGPT

Пытался найти сторонний вариант интерфейса для бесед с ChatGPT, так как стал пользоваться им каждый день. Свой интерфейс на LangChain писать лень, поэтому проделал небольшой ресерч и оформил это в развернутый пост.

Итог: нашел класный тул на Rust, который позволяет вызывать ChatGPT из терминала.

Напишите в комментах, если есть какие-то хорошие враперы над ChatGPT, которыми пользуетесь.

Читать пост.

@ai_newz

эйай ньюз 2023-04-10 06:01:09

Я протестил модельку Segment Anything у себя в браузере.

Запустил на картине Питера Брейгеля Старшего, который страсть как любил рисовать много мелких деталей. И вот, что получилось: Хоть в тренировочном датасете не было картин, модель хорошо сравляется сегментацией и нарисованых объектов. Иногда, когда одной точки не хватает, чтобы полность выделить объект, нужно кликнуть еще разок, либо выделить боксом.

Пока я двигал мышкой, prompt encoder и mask decoder крутились в реальном времени локально у меня на CPU.

Кстати, модель Segment Anything можно неплохо склеить в единый пайплайн с Instance деткекторами. Детктор будет выплевывать боксы, а SA будет выдавать маски по заданным боксам.

Или еще лучше. Для артистов: Вы текстом говорите, что поменять и как, затем Segment Anуthing выдает маску, а Stable Diffusion по маске генерит измененный регион в желаемом виде. Ждите скоро на просторах интернета.

Демка тут.

@ai_newz

эйай ньюз 2023-04-09 18:00:36

Хотите получить ценные знания из области машинного обучения и аналитики от эксперта и опытного менеджера? Рекомендую присоединиться к каналу Валеры Бабушкина @cryptovalerii

Валера - бывший топ-менеджер одного из крупнейших офлайн-ритейлеров и руководитель команд в Facebook(тоже бывший). На его канале вы найдете множество полезных материалов на такие темы как компенсации и ожидания от различных уровней в BigTech, разбор статей и алгоритмов, подготовка к собеседованию, системный дизайн и многое другое.

Ознакомьтесь с его LinkedIn профилем здесь и убедитесь в его опыте самостоятельно.
Не пропустите возможность послушать Валеру и его гостей о том, что несет нам будущее в этот четверг

@ai_newz

эйай ньюз 2023-04-09 16:14:32

Segment Anything: Архитектура

Структура модели:
Тут все по классике - большие трансформеры и кросс-аттеншены.

1. Encoder изображений ViT-H, который обрабатывает каждое изображение и выдает фичи.
2. Encoder запросов, который обрабатывает входные промпты, такие как клики, боксы или текст.
3. Легкий декодер на основе трансформера, который предсказывает маски объектов на основе фичей изображения и запросов.

Размер модели:
Image Encoder содержит 632M параметров.
Encoder запросов и decoder масок содержат 4M параметров. Это позволяет посчитать фичи картинки на GPU (0.15s на A100), и гонять все остальное реалиайм на CPU прямо в браузере (50ms на запрос).

Модель обучалась в течение 3-5 дней на 256 GPU A100, что не особо много в современных реалиях, когда SD или GPT-4 обучаются месяцами.

Для мощной генерализации модель нужно обучать на огромном датасете. Так вот авторы собрали и опубликовали самый большой датасет по сегментации: 1 млрд масок на 11 млн изображений. Его и использовали для обучения.

@ai_newz

эйай ньюз 2023-04-09 15:44:20

Segment Anything
[Meta AI]

Итак, ребята, что там по сегментации? Кажется, теперь не придется тренировать новую модель сегментации под каждую отдельную задачу (sic!). Мой товарищ Алекс Кириллов и коллеги из Meta AI разработали фундаментальную модель для сегментации картинок, которая может многое.

Из коробки модель Segment Anything (SA) умеет в сегментацию объектов по промпту. Промпт может быть текстовым, либо несколько точек, либо выделенная область.

SA выучила общую концепцию объектов и может генерировать маски для любого объекта на любом изображении или видео, даже включая объекты и типы изображений, которых не было в трейне. Она готова к использованию на разных "доменах" без дополнительного обучения".

Выход Segment Anything - это что-то вроде "GPT-3 момента" для сегментации. Когда можно взять большую общую модель и она сразу будет работать не хуже, а то и лучше (если данных мало), чем специализированная модель.

Мало того, веса и код модели полностью открыты!

Сайт проекта
Demo

@ai_newz

эйай ньюз 2023-04-06 12:40:08

Ещё, SDXL, кажется, чуть лучше умеет в текст, чем SD v2.1. Но всё ещё не дотягивает.

Пытался заставить ее сгенерить на табличке "I love AI newz". У меня это все равно до конца не вышло.

@ai_newz

эйай ньюз 2023-04-06 12:14:53

🔥Stability.ai релизнули новую модель SDXL beta!

По слухам, новая модель имеет 2.3-2.4 B параметров, что в несколько раз больше чем предыдущая версия. Других подробностей пока нет.

Чтобы попробовать SDXL дают совсем немного бесплатных кредитов. Я потестил, и на мой взгляд, качестве сильно увеличилось, ещё лучше генерит иллюстрации. Но в этой модели сильно подкрутили фильтры и возможно порешали датасет. Теперь она не понимает некоторые известные имена. Вместо Яна ЛеКуна генерит азиата, хотя и слегка похожего на Яна.

Уходит примерно 8 сек, чтобы сгенерить 4 картинки за 50 шагов.

Интересно посмотреть, зарелизят ли веса этой модели, или кончилась эпоха щедрости?

Попробовать SDXL тут.

@ai_newz

эйай ньюз 2023-04-05 13:50:00

Мои знакомые (ex-deepcake) выпустили AI-сервис Rask.ai для локализации видео-контента на 50+ языках в несколько кликов.

На Rask.ai можно перевести видео длинной до минуты с любого языка на английский бесплатно.

Скоро обещают ещё и липсинк приделать. Такой сервис для блогеров и ютуберов – то что нужно, чтобы распространить свой контент на более широкую аудиторию.

На прикрепленных видео я перевел русский оригинал на английский и японский с помощью rask.

Кстати, ребята сейчас пытаются подняться в ранке на product hunt. Поддержать команду, а также попробовать продукт и дать фидбэк можно по ссылке.

@ai_newz

эйай ньюз 2023-04-03 13:10:10

Любой, кто воспользуется быстро развивающейся технологией [AI], будет наказан повешением

Вы наверное заметили, что истерия вокруг опасности ИИ набирает обороты. Коротко перескажу недавние события.

Илон Маск, Стив Возняк,  Ёшуа Бенжио и др. подписали открытое письмо, которое призывает AI лаборатории приостановить тренировку AI систем мощнее чем GPT-4. Маск то понятно, но про Бенжио, честно говоря, не до конца понятно, почему он сюда вписался. Может тоже хочет выиграть время.

Самопровозглашенный ИИ эксперт Юдковский, выпускает опус, настаивающий на полном запрете исследований в области ИИ, и призывает глав государств буквально бомбить несанкционированные дата-центры с GPU-кластерами. Интересно слышать апокалиптические пророчества от человека, который не имеет никакого инженерного или научного AI бэкграунда и мало понимает, как вообще работают современные нейросети.

Думеры от вида новых нейронок рвут на голове волосы с криками "кампутеры нас всих пагубят, лишат работы и парабатят!".

А буквально сегодня верховой лидер Ирана издает фетву, в которой назвал ИИ сатанинской технологией [классика] и призвал всех мусульман мира бороться против неё. А тот, кто будет убит в процессе этой борьбы, будет объявлен мучеником. "Любой, кто воспользуется быстро развивающейся технологией, будет наказан повешением." - пояснили иранские власти.

Кстати, это первый случай, когда иранское государство издает фетву против нечеловеческой сущности. Ладно, про фетву – это была шутка. Всё остальное нет.

Ух, как много весёлых событий!

@ai_newz

эйай ньюз 2023-04-02 08:35:18

С прошедшим днём Смеха, и с ещё одним днём без AGI 😁.

Забыл только stackoverflow дать по щам.

@ai_newz

эйай ньюз 2023-04-01 09:29:23

LLaMa 30B на 6GB RAM

Блин, как здорово, когда что-то в опен-соурсе допиливается коллективным разумом до невероятных результатов.

Чел отимизировал загрузку весов в LLaMa.cpp с помощью mmap, и теперь инференс 30B модели можно гонять на CPU на Линуксе, используя меньше 6 GB RAM 🤯. Скорость холодного запуска модели тоже серьезно возросла.

Сами веса 4-bit квантизованной LLaMa 30B занимают 20 GB на диске, но после оптимизации, со слов автора пул-реквеста,  при загрузке модель дает всего 4GB футпринт в RAM. Всё благодаря ленивому чтению с помощью mmap, который подгружает с диска в RAM только нужные в текущий момент страницы памяти.

Каждый день мы видим новые оптимизации и трюки. Модели становятся меньше, быстрее и мощнее, что расширяет их область применения и доступность. Это не может не радовать. Не все же закрытому AI OpenAI у себя в закромах держать.

@ai_newz

эйай ньюз 2023-03-31 16:06:38

Я недавно писал, что ChatGPT не очень юзабельна для серьезных вещей из-за наплевательского отношения на приватность данных.

Вот итальянцы уже заблокировали ChatGPT у себя в стране из-за того, что бот не соответствует GDPR. Итальянский орган по защите данных дал OpenAI 20 дней на то, чтобы объяснить, как они собираются устранить их опасения. Если они не справятся, то им грозит штраф в 20 миллионов евро или даже до 4% от годового оборота. Не шутка!

Думаю, что скоро могут подтянуться и другие страны Евросоюза.

Говорю же, нужно поднимать свою реплику LLM дома, под столом.

@ai_newz

эйай ньюз 2023-03-29 16:44:59

С опозданием на 4 месяца, но я таки залил нашу NeurIPS 2022 статью VisCo Grids про 3D реконструкцию поверхностей на arXiv.

https://arxiv.org/abs/2303.14569

@ai_newz

эйай ньюз 2023-03-28 18:03:57

Как же замечательно, что сейчас столько новых экспертов по эйай появилось!

@ai_newz

эйай ньюз 2023-03-27 10:20:34

Так как все хостится локально, то можно безопасно подсунуть в модель свои личные документы и файлы (а не отправлять их на сервера OpenAI через API) и гонять лламу по ним как своего личного ассистента.

Мне, например, было бы некомфортно засылать свои емейлы в чатгпт. А вот в локальную копию Лламы я бы их загрузил.

Ллама, конечно, ещё послабее чем GPT-4, но ещё не вечер. Думаю, в опен-соурсе в ближайшее время появится что-то сравнимое с ChatGPT, благо есть много открытых инициатив. Народ продолжает допиливать LLaMa-Alpaca, ведется сбор датасетов в рамках Open Assistant, и ещё парочка других инициатив.

Могли бы вы представить 3 месяца назад, что сможете запускать в реальном времени большую языковую модель у себя на макбуке да и ещё по сути зарепродюсить голосового помощника типа Алексы?

Скорость прогресса просто mind-blowing!

@ai_newz

эйай ньюз 2023-03-27 09:40:06

Вот пример работы LLaMa с text-retrieval плагином. Ее спросили, какой заголовок статьи, в которой опубликовали ее саму. Тут можно видеть и контекст, который генерируется плагином и выход модели.

@ai_newz

эйай ньюз 2023-03-27 09:36:59

🦙 LLaMa не стоит на месте

Есть уже куча примеров какие чудеса кулибины вытворяют с моделькой LLaMa. А вчера чел соорудил подобие Джарвиса, или Алексы, если хотите, прямо у себя в терминале на MacBook M1 Pro.

Причем все работает реалиайм на связке Whisper + LLaMa.

Под капотом: ggml / whisper.cpp / llama.cpp / Core ML
STT: Whisper Small
LLM: 13B LLaMA

Другой Кулибин начал прикручивать плагины от ChatGPT к опенсоурсной LLaMa. Уже работает text-retrieval плагин, и есть код.

@ai_newz

эйай ньюз 2023-03-25 21:49:03

В продолжение к посту про интервью с Ilya Sutskever (OpenAI)

Вот ещё интересно, Илья говорит, что он согласен с ЛеКуном в том, что обучаться понимать мир проще, если есть доступ к данным из нескольких модальностей. Например текст, аудио и картинки вместе. Но в то же время он верит, что всему можно научиться сугубо по тексту, однако это будет сложнее и дольше.

Дальше он приводит интересный эксперимент. После обучения LLM, они посмотрели на эмбединги, отвечающие за цвета. Оказалось что модель, которая в глаза никогда не не видела визуальную информация, выучила такие эмбединги, где фиолетовый ближе голубому чем красный, что красный ближе к оранжевому чем фиолетовый, и т.д. И все это модель выучила только на основе текста.

Ещё Илья признает, что файнтюнинг RLHF не добавляет в модель новых знаний о мире. Модель и так уже все выучила на основе статистических паттернов в тексте во время large-scale тренировки. RLHF файнтюнинг же всего лишь "делает ответы модели более надёжными", то есть во время файнтюна модель бьют по рукам если она что-то неугодное ляпает. От себя добавлю, что RLHF так же позволяет более эффективно взаимодействовать с моделью в режиме инструкций. То есть в режим вопрос-ответ или задача-решение. Но этого, вроде как, можно достичь и без RL, а с помощью обычного self-instruct fine-tuning.

@ai_newz

эйай ньюз 2023-03-25 20:01:35

Сейчас смотрю недавнее интервью с Ильёй Сатскевером, главным ресерчером в OpenAI и кофаундером компании. Топовый чувак, которого я безмерено уважаю за его вклад в развитие AI, начиная с архитектуры Alexnet и заканчивая GPT.

Кстати, Илья родился в России и вырос в Израиле. Но потом переехал в Канаду и в 17 лет уже начал работать с Хинтоном, что и определило его научную карьеру.

Илья утверждает, что обучение глубокой модели предсказывать следующее слово в пределе может привести к очень подробному понимаю мира. Нужно только чтобы модель была очень мощная и обучающая выборка всеобъемлющая. Его мысль в том, что если ты хорошо выучил распределение слов и фраз в языке, то ты натурально уже начал понимать как устроен мир, смотря на него через призму текста.

Я не совсем согласен, ведь тут все очень зависит от того, какие тексты вошли в трейн. Вымысел может путаться с реальностью. Тогда это не является действительным понимание мира.

Бороться с галлюцинациями моделей Илья предлагает с помощью дообучения их человеческим фидбеком (RLHF). Он надеется что так они смогут научить модели не галлюцинирвать. Но это ещё предстоит поисследовать и понять, так ли это.

Видео – обязательно к просмотру всем интересующимся AI и адептам скорого прихода AGI.

@ai_newz

эйай ньюз 2023-03-25 13:05:14

Все: чатгпт, генеративный эйай, AGI, новая эра.

Снепчат: а давайте сделаем фильтр с прыгающей тачкой!

Линза тут.

@ai_newz

эйай ньюз 2023-03-25 11:51:34

Сейчас загружал статью на arXiv. Как же бомбит от ошибок компиляции Latex и нафталинового UI на сайте! Приходится по 10 раз исправлять что-то в файлах (которые локально компилируются без проблем), и перезагружать на arXiv, и запускать компиляцию заново.

Искренне надеюсь, кто-то прикрутит туда языковую модель, которая автоматизирует все это безумие.

С другой стороны, это бесплатный архив, созданный академиками для академиков, который очень сильно продвинул открытость в науке и за счёт этого ускорил цикл обмена новыми идеями. Чего я жалуюсь?

@ai_newz

эйай ньюз 2023-03-25 01:47:42

💥 Cog: ML-модели с ходу в контейнер

Я редко пишу прл ML-ops, но вчера наткнулся на обалденную либу для pet проектов. Cog - это инструмент для упаковки ML-моделей в контейнеры и оборачивания в сервис, прям всё по феншую.

Нужно только обернуть модельку в класс предиктор.

Что либа умеет:
1 Docker-образы без мучений: ты делаешь простой конфиг, Cog делает все остальное.
2 Благодаря этому, нет ебатни с CUDA.
3 HTTP-сервер с предиктором из коробки.
4 Поддержка очереди из коробки
5 Работает S3 и Google Cloud Storage.
6 Изи развернуть модель где угодно, где есть Docker.

Cog, кажется, делает все то, что мне лень делать руками. Я ведь хочу просто обучить модель, оттрейсить ее в torchscript и закинуть на сервак, чтобы дергать ее по API.

🤙 https://github.com/replicate/cog

@ai_newz

эйай ньюз 2023-03-23 12:01:39

Друзья, без паники. Пост сверху – сугубо ироничный. Конечно, никто никого из-за драного Copilot-а увольнять не станет.

По крайней мере в текущем состоянии, и пока у компаний есть легальный риск отдавать ему на анализ свой проприетарный код.

В любом случае, Copilot, GPT, LLaMa и прочие языковые модели уже могут увеличить продуктивность кодинга, и это нужно эксплуатировать!

@ai_newz

эйай ньюз 2023-03-23 09:26:16

Сopilot X: программеры, держитесь!

Команда GitHub Next решила прокачать GitHub Copilot, чтобы уделать любого программиста, ой, простите, чтобы он стал AI-помощником на всех этапах разработки. Они не только использовали GPT-4 от OpenAI, но и добавили чат и голосовые функции для Copilot, интегрировали его с пул-реквестами, командной строкой и документацией. Короче, одним словом - киберпанк. Все это обозвали Copilot X.

Copilot Chat предоставляет разработчикам ChatGPT-подобный опыт прямо в редакторе, интегрированном с VS Code и Visual Studio. Copilot Chat не просто предлагает код - он анализирует написанный разработчиком код, ошибки и становится неразлучным компаньоном в среде разработки. Таким образом, разработчик получает подробный анализ и объяснения блоков кода, может генерировать юнит-тесты и даже исправлять ошибки (см видео).

Еще выкатили GitHub Copilot для Docs - экспериментальный инструмент с чат-интерфейсом, который предоставляет AI-генерированные ответы на вопросы о документации, включая языки, фреймворки и технологии.

Copilot для пулл-реквестов: этот маленький хитрец автоматически находит тех, кто забыл о тестировании пулл-реквеста. А после, словно волшебник, предложит потенциальные тесты на выбор, чтобы наши уважаемые кодеры могли поредактировать, принять или отвергнуть их в зависимости от капризов своего проекта. Ну разве не чудо?

Также стоит отметить GitHub Copilot CLI для командной строки. Разработчики проводят много времени в терминале, и даже опытным иногда приходится листать страницы мануалов, чтобы вспомнить точный синтаксис команд. Вот здесь на помощь приходит Copilot CLI, который компонует команды и циклы, манипулирует сложными флагами, чтобы облегчить страданья разработчика.

С Copilot X, разработчики смогут увольнять некоторых коллег, ведь AI-помощник возьмет на себя их рутинные задачи. Разработка станет не только продуктивнее, но и дешевле веселее!

@ai_newz

эйай ньюз 2023-03-22 14:24:09

Nvidia GTC: новая видеокарта H100 NVL на 192 GB VRAM и другое

Для тех кто, как и я, не смотрел онлайн. Вчера была ежегодная презентация Nvidia GTC. CEO и фаундер Nvidia, Дженсен Хуанг, дал очень интересный и вдохновляющий доклад. Очень рекомендую к просмотру!

Если коротко, то NVIDIA максимально топит за AI и Generative AI в частности.

Выпустили кучу новых железяк, которые ускоряют, все что ускорялось. В том числе спаренную видеокарту H100 NVL с 192GB памяти, куда влазит GPT-3 для инференса. То есть уже можно у себя под столом развернуть такое при большом желании 😅.

Еще показали как все хорошо пользуются их решениями для крупных дата-центров с тысячами серверов.

И на последок Хуанг показал, как можно круто генерировать синтетические данные в их софте для фотореалистичных симуляций Omniverse.

Вот ссылка на 29-минутный кат доклада, где есть все самое важное.

@ai_newz

эйай ньюз 2023-03-21 16:00:45

Подписчик принес полезную ссылку. Это список ресурсов для того, чтобы начать играться/поднимать свою опенсоурсную альтернативу чатботу ChatGPT только с блэкджеком и ... что там у вас на уме.

А вот тут ещё как запускать модель LLaMA у себя на машине (да, это возможно).

@ai_newz

эйай ньюз 2023-03-21 12:24:25

Вчера остановилась работа у тысяч программистов и копирайтеров 😢. ChatGPT упал и лежал 4 часа. Кроме того из-за бага в вэб-приложении ChatGPT произошла небольшая утечка диалогов пользователей. Но, кажется, утекли только заголовки диалогов. А сейчас, когда сервис восстановили, пропала вся история диалогов.

Вот почему никогда не стоит строить свою жизнь и работу на основе внешнего ресурса, который ты не контролируешь или можешь потерять доступ к нему без возможности восстановления – это же как картошку сажать на чужом огороде!

@ai_newz

эйай ньюз 2023-03-21 11:03:27

GenAI: Персональный апдейт

Несколько недель назад Марк анонсировал, что будет создана новая организация внутри Meta – GenAI, которая будет заниматься сугубо Generative AI. Наша команда покинула Reality Labs и попала в новую организацию.

Я очень рад этому событию, ведь последний год я занимался диффузионными моделями, а теперь полный газ в пол! Но на диффузии мы, конечно, не ограничиваемся и будем искать новые эффективные модели.

Ещё бонусом теперь я смогу плотнее сотрудничать с командами из FAIR, которые создали make-a-scene и make-a-video, или ту же LLaMa, потому что мы теперь с ними в одной организации.

Exciting stuff!

#карьера #мойпуть

@ai_newz

эйай ньюз 2023-03-20 14:10:12

ModelScope Text-2-Video: Китайский опенсоурс разродился открытой моделькой для генерации видео по тексту

Это первая диффузионная text2video модель с открытым кодом и опубликованными весами (1.7 млрд параметров).

Отдельный респект идет Шаттерстоку, данные с которого по всей видимотси использовались для тренировки модели 😂.

Чтобы запустить локально потребуется 16 GB RAM и 16 GB VRAM: инструкция. Пока генерит видео только 256x256.

Ну что, давайте побыстрее заполним интернет проклятыми видео!

Demo
Model weights

@ai_newz

эйай ньюз 2023-03-19 17:44:59

Чтобы немного поубавить хайп, вот вам наброс. Со слов самой GPT-4, она обладает рядом недостатков, делающих ее не прорывной, а проходной технологией:

1. Ограниченное понимание: GPT-4, как и другие модели, основанные на языке, не обладает истинным пониманием языка или контекста. Они обучены на основе статистических закономерностей и корреляций в данных, но не могут осмыслить предложения и понятия так, как делают люди.

2. Завышенные ожидания: Многие СМИ и блогеры могут представлять GPT-4 как "революцию" или "прорыв" в области искусственного интеллекта, что может привести к нереалистичным ожиданиям относительно его возможностей. Это может привести к разочарованию, когда модель не оправдывает надежды.

3. Ограничения в области творчества: GPT-4, хотя и способна генерировать тексты, изображения и музыку, в конечном итоге зависит от обучающих данных, собранных от людей. Оно не способно создавать истинно оригинальное искусство или идеи, что ограничивает его применимость в творческих областях.

4. Зависимость от больших объемов данных: GPT-4 требует огромного количества данных для обучения, что может вызывать проблемы в эффективности и воздействии на окружающую среду.

5. Дорогостоящее обучение и использование: Обучение и эксплуатация модели GPT-4 требует значительных вычислительных ресурсов, что делает их дорогостоящими и менее доступными для многих пользователей.

6. Непостоянство результатов: Искусственный интеллект GPT-4 может быть непредсказуемым, порождая качественно разные результаты при разных запросах или даже с небольшими изменениями ввода.

7. Сложность контроля: Ограничение и регулирование вывода GPT-4 может быть сложным процессом, поскольку модель может генерировать нецензурные, оскорбительные или нежелательные результаты, что требует дополнительных усилий для модерации и контроля.

8. Отсутствие интерпретируемости: Работа GPT-4 может быть сложна для понимания, поскольку модель имеет множество слоев и параметров, что затрудняет объяснение ее поведения.

9. Неполнота знаний: Обучение GPT-4 заканчивается на определенной дате, и модель не может учесть новые события или информацию, появившуюся после этого срока.

10. Ошибки и неточности: GPT-4 может давать неверные или неточные ответы, поскольку оно опирается на статистические закономерности, а не на глубокое понимание.

11. Зависимость от качества данных: Эффективность GPT-4 напрямую связана с качеством и объемом предоставленных обучающих данных, что может ограничивать его применимость в некоторых областях.

12. Склонность к усилению предубеждений: GPT-4 может усиливать существующие предубеждения и стереотипы, присутствующие в обучающих данных, что может привести к нежелательным результатам.

13. Отсутствие эмоционального интеллекта: GPT-4 не способно понимать или отражать эмоции, что ограничивает его способность к эффективному взаимодействию с людьми.

14. Безопасность данных: Использование GPT-4 может представлять риски для безопасности и конфиденциальности данных, особенно при обработке чувствительной информации.

15. Проблемы с авторским правом: GPT-4 может генерировать контент, который может нарушать авторские права или создавать юридические проблемы для пользователей.

GPT-4 - это только одна из многих ступеней в развитии AI. В будущем вероятно появятся более продвинутые и эффективные модели, которые могут заменить GPT-4, делая ее менее актуальной.

PS. на скрине примеры боянистых детских задачек, которые GPT-4 просто не осилила.

@ai_newz

эйай ньюз 2023-03-19 16:21:28

Кстати, это был мой первый опыт подкастинга (хоть и как гостя), и мне очень понравилось, классный выпуск получился.

Давно размышляю о том, чтобы сделать свой подкаст. Было ли бы вам интересно слушать мой подкаст о нейронках и AI науке? Напишите в комментах, предложите, какие темы можно было бы обсудить в формате подкаста.

Во время пандемии я завел youtube канал, где делал обзоры на статьи. Но надолго меня не хватило, очень много времени уходило на один ролик. Думаю, формат подкаста должен быть более легковесный.

эйай ньюз 2023-03-19 16:12:19

🎙Метаискусство: может ли робот сочинить симфонию?

Всем привет! Я вернулся из отпуска. А тем временем вышел подкаст с моим участием, где мы поговорили об AI, генеративной музыке и о потенциале нейросетей для применения в творческой сфере.

В подкасте мы провели эксперимент, где мне и другим гостям (медиа-художник, звукорежиссер и звукоинженер) нужно было угадать, какая композиция была сгенерирована, а какая создана человеком. Cлушая этот выпуск, вы можете вместе со мной попытаться найти сгенерированые треки.

Кстати, фоновая музыка в подкасте, а также большая часть текста ведущего тоже были сгенерированы нейросетью.

Слушать на других платформах:
- Apple Podcasts
- Spotify

@ai_newz

эйай ньюз 2023-03-14 23:43:35

🔥Вышла GPT-4!

https://openai.com/research/gpt-4

Теперь модель ещё может принимать и картинки на вход. В ответ выдает все ещё только текст. Ну, и конечно, модель более серьезно надрессировали не выходить за рамки дозволенного.

Пишут, что на многих бенчмарках новая модель конкретно бьет предыдущую GPT-3.5. В том числе на датасете экзаменов по разным предметам.

Без паники, господа программисты. Выдыхаем (пока). GPT-4 все ещё сосет на задачах с Codeforces – модель входит только в нижние 5% по рейтингу.

OpenAI в своем обычном стиле закрытого ИИ не делятся деталями. Не рассказали ни про архитектуру, ни даже про количество параметров 🙄.

По ссылке можно стать в очередь на доступ к API GPT-4.

@ai_newz

эйай ньюз 2023-03-14 14:01:07

AI Residency – это супер возможность вкатиться поглубже в AI и поработать в крутой ресерч лабе. Обычно это эдакий разогрев перед PhD, чтобы лучше понять чем хотите заниматься.

Я наткнулся на гитхаб со списком AI Residency программ. Думаю тут много кому это будет интересно.

Вот некоторые из позиций:
- OpenAI Residency-Research
- Meta AI Residency
- Microsoft Research: Postdoc Residency Program
- Microsoft+Cambridge Residency Program: Researcher on Large Language Models for End-User Programming
- Apple The 2023 AIML Residency Program
- Toyota Research Institute AI Resident

Больше ссылок на программы в репозитории. Дерзайте и подавайте, за попытку с вас ничего не возьмут!

@ai_newz

эйай ньюз 2023-03-14 12:16:49

Друзья, после плотной работы всегда нужен хороший отдых. Поэтому я сейчас немного пропал из эфира. Полетел перезаряжаться на Азоры. Природа, хайки и серфинг каждый день, и никакого интернета!

Покатался на лошади. По ощущениям как беспилотный мотоцикл, который сам знает как ехать и как держать дорогу, но в то же время позволяет тебе слегка подруливать направление. Если хотите примерно понять, как будет ощущаться транспорт будущего, в котором встроен мощный интеллект, попробуйте верховую езду 😃.

@ai_newz

эйай ньюз 2023-03-09 13:08:05

Ёк-макарёк. Засабмитили 4 статьи на ICCV вчера. Часть из них, правда, ресабмиты с CVPR, но все же работы было много! Скоро все будет на архиве.

Ещё в ближайшую неделю я наконец залью свою статью, принятую на CVPR.

Мало кто знает, но мы в Meta можем довольно свободно коллаборировать с университетами. Например, я уже год как супервайжу 2-3 PhD студента.

#карьера

@ai_newz

эйай ньюз 2023-03-08 17:42:17

У активного ресерчера по Computer Vision обычна два тяжёлых периода в году. Это март–май, когда дедлайны на ICCV, ECCV, NeurIPS, и ноябрь, когда нужно херачить на CVPR. Всё это топовые конференции по AI и компьютерному зрению, которые стараются не пропускать.

Сейчас период ICCV+NeurIPS. И сегодня ночью дедлайн подачи статей на ICCV. Короче, я сижу в офисе, пишу-переписываю текст и подгоняю студентов с картинками и экспериментами.

Удачи всем с сабмитами! А прекрасную половину ещё и с праздником!🌹

#карьера

@ai_newz

эйай ньюз 2023-03-06 19:21:13

❤️‍🔥Вышел апдейт плагина Stable Diffusion V1.2.0 для Photoshop, включающий ControlNet

- Поддержка ControlNet (особенно круто генерит по скетчам в моде "canny")
- Устанавливаешь в один клик и наслаждаешься работой.
- Добавлен режим "Heal Brush", который позволяет легко удалять любые объекты или предметы из любого изображения.
- Live Preview результатов генерации
- Можно гонять как на локальной GPU, так и в облаке

Все-таки это огромный переворот в том, как сейчас должны работать успешные художники и дизайнеры.

GitHub

@ai_newz

эйай ньюз 2023-03-05 19:58:11

Я протестил Enhance Speech от Адоби на своем голосе. Клево работает, качество и правда взлетает! Вот только он меняет тембр голоса, и после "улучшения" слегка теряется идентичность человека.

@ai_newz

эйай ньюз 2023-03-05 19:53:32

Я заметил, что появился новый продукт Adobe Podcast (пока в beta). Топовая херня с AI под капотом для записи подкастов и нарративов.

Основные фичи, использующие нейронки:

- Enhance Speech, которая позволяет улучшить качество звука вашей записи, удаляя фоновый шум и усиливаяя частоты вашего голоса, чтобы ваша речь звучала так, как будто бы она была записана в профессиональной студии. Из побочных эффектов -- он не совсем хорошо сохраняет идентичность рассказчика и слегка меняет тембр голоса.

- Редактирование слов, а не волновых форм [моя любимая фича]. Прогоняется speech2text нейронка, а затем вы можете легко удалять или перемещать слова в транскрипте аудио и видеть изменения в звуке. Это позволяет вам быстро исправлять ошибки или убирать лишнее.

- Mic Check с помошью AI. Помогает подобрать оптимальные параметры и расстояние до микрофона перед записью.

В планах у Адоби еще добавить автоматичечкий фильтр слов паразитов и всяких "эээ", "ммм". Киллер фича будет для начинающих подкастеров.

@ai_newz

эйай ньюз 2023-03-05 16:39:59

🔥Consistency Models [OpenAI]

Что там по ускорению диффузионных моделей?

Чтобы сгенерить нормальный арт нужны десятки шагов диффузионной модели. Можнно, конечно, дистиллировать жирную модель в более легкую, но все равно более-менее хороший результат будет требовать нескольких итераций вычисления нейронки.

Челики из OpenAI дальше пытаются ускорять синтез. И в этой статье предложили новый тип генеративных моделей — Consistency Models, которые в целом связаны диффузионными моделями через фомулировку с помощью ОДУ (Обыкновенные Дифференциальные Уравнения), вот только Consistency Models могут работать за один шаг.

Новая модель достигает FID = 3.55 on CIFAR-10 и FID=6.20 на ImageNet 64x64 за один шаг. Что лучше чем все предыдущие методы дистиляции. Но все еще слабее чем самые толстые Ганы типа StyleGAN-XL и BigGAN-deep.

Прогресс идет и, думаю, скоро последуют дальнейшие улучшения. Статью читать стоит.

❱❱ ArXiv

@ai_newz

эйай ньюз 2023-03-03 14:31:34

🔥Scaling Language-Image Pre-training via Masking

Короче, челы из FAIR улучшили CLIP (сеть для нахождения похожести между текстом и картинками) и назвали его FLIP.

Что сделали:
1. Берут не всю картинку, а дропают 50% или 75% патчей, соответственно уменьшая количество токенов у image-encoder. Да еще и робастности добавляется (типа дропаут же).
2. Тренят 32 эпохи (это стандарт на LAION-400M), а затем файнтюнят 0.32 эпохи на полных картинках без дропанья патчей. Это докидывет еще 1.3% к перфу.

В итоге получаем перформанс как у CLIP, только в несколько раз быстрее, из-за дропаута патчей.

Элегантно и просто, вот и вам и принятая статья на CVPR 2023.

Статья

@ai_newz

эйай ньюз 2023-03-02 20:10:59

В тиктоке появился какой-то магический фильтр, способный ввести в заблуждение даже самых искушённых мужчин. Я считаю такое опасное оружие должно регулироваться законом.

Ну, реально, уж слишком похоже на правду!

@ai_newz