Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 38 (50 постов)

Репосты из тематических каналов

Сиолошная 2023-09-27 18:52:23

Посмотрел 3 первых выступления на конференции Meta Connect, где Zuckerberg и друзья рассказали про технологии. Раньше конференция называлась Oculus Connect (и всё было связано с виртуальной реальностью), но теперь сюда собирают множество технических 👴 направлений. Начнём всё же с гарнитуры:
— Quest 3 выходит 10го октября, $500 долларов за версию на 128GB, $650 за 512 + полугодовую подписку на игры;
— Основной упор в девайсе - на смешанную реальность. Помните презентацию Apple? Вот то же самое, только с двумя отличиями: нет провода к батарейке, а ещё можно в свою комнату расставлять виртуальные объекты, которые будут там оставаться навсегда. Некоторые из объектов, как я понял, могут быть "ярлыками на рабочем столе" — при взаимодействии с ними запускается соответствующее приложение;
— в Quest 3 теперь в два раза более мощный процессор, качество графики, трекинг и каждый другой компонент прокачали по полной;
— к сожалению, всё еще нет отслеживания глаз, поэтому делать оптимизацию рендеринга не получится(
— что ж, зато VR-гарнтирура стала сильно меньше (тоньше на 40%)!

Я абсолютно точно буду покупать, чтобы в путешествиях хотя бы в фитнес-игры играть, ну и в парочку хитов.

@seeallochnaya

эйай ньюз 2023-09-27 18:39:45

Вот так выглядит Meta AI бот, с которым можно поболтать как 1:1, так и в групповых чатах.

А также по команде /imagine можно попросить его сгенерировать изображения.

@ai_newz

эйай ньюз 2023-09-27 18:34:42

Вот такие AI штуки еще анонсировали. Все, что связано с генерацией и редактирвоанием изображений прошло через мои руки и руки моих коллег из GenAI в Цюрихе.

Больше инфы: https://ai.meta.com/genai

@ai_newz

эйай ньюз 2023-09-27 18:22:30

❤️AI Stickers

А вот еще одна модель, которую мы ускоряли и оптимизировали!

Теперь вместо того, чтобы искать подходящий стикер или эмоджи, можно просто ввести описание и быстро сгенерировать несколько вариантов специально по вашему запросу! Бесплатно и без СМС.

Фича доступна в Instagram, Messenger и WhatsApp.

@ai_newz

эйай ньюз 2023-09-27 18:04:26

А теперь работа нашей команды!

Emu - генерация high-res изображений, которая теперь доступна для пользователей по команде /imagine внутри нашего AI чат бота и через web.

Ускорение этой модели — это то, чем занимался я и наша команда. Работает за ~5 сек на картинку.

Вообще, эффективность и скорость генеративных моделей — это как раз основной фокус нашей тимы.

Попробовать модель можете сами на https://imagine.meta.com

@ai_newz

эйай ньюз 2023-09-27 17:49:59

🔥Meta Connect 3: Понеслась

Марк рассказывает про Quest 3: "Без кабеля и без батарей". (Привет, аппле).

- Новый, более мощный процессор.
- Более компактный дизайн и др.

- Xbox cloud gaming станет доступен на Quest 3 в декабре. Можно будет играть в сотни Xbox игр в хедсете.
- Mixed Reality (passthrough) фича. Это когда виртуальный мир проецируется на реальный, когда вы смотрите через Quest.
- Assasin's Creed NEXUS нативно поддерживается в Quest 3 и куча других игр.
- Цена $499

Стрим
Рестрим на Ютубе

@ai_newz

Сиолошная 2023-09-27 17:08:25

Пока ждём Meta Connect, на котором покажут новую гарнитуру виртуальной и дополненной реальности Oculus Quest 3 (начнётся через полчаса, вот ссылка на трансляцию)...там какая-то задержка, лол, а эмбарго на обзоры уже спало — можно посмотреть вот тут, что изменилось со времён Quest 2.

OpenAI наконец-то вернули Web-поиск для GPT-4 в браузерную версию. Обещают сегодня-завтра раскатить на всех Plus-пользователей.

При этом переход на сайты ограничен — специальный скрипт будет читать файл robots.txt, чтобы понять, разрешен ли парсинг для обработки языковой моделью.

Поисковик под капотом, конечно, Bing.

эйай ньюз 2023-09-27 16:31:47

Mistral.ai, стартап, основанный автором LLaMa, разразился новой открытой моделью Mistral 7B

Про новый парижский стартап я писал длиннопост несколько месяцев назад (часть 1, часть 2)

О модели Mistral 7B:
- Обходит Llama-2 13B и Llama-1 34B на всех бенчмарках
- Подбирается к CodeLlama 7B на генерации кода, не забывая как выполнять задачи на Английском языке
- Apache 2.0 лицензия

Скорость достигается за счёт:
- Grouped-query attention (GQA) for faster inference
- Sliding Window Attention (SWA) для более дешёвого инференса на длинных последовательностях токенов

Больше деталей
Модель на Hugging Face

@ai_newz

эйай ньюз 2023-09-27 12:02:02

Го сегодня смотреть ежегодную презентацию Meta Connect

Ивент начнется в 19:30 по Цюриху с доклада Цука (1 час), где он расскажет про новые AI штучки и VR/AR/MR, Meta Quest 3 в том числе.

Я буду постить тут про самые интересные моменты. Тем более там будет показана и моя работа.

- Стрим будет в fb на странице Мета.
- Расписание докладов тут.

- И в дополнение вот ссылки на мои посты с предыдущих Connect 2021 (тык) и 2022 (тык).

@ai_newz

эйай ньюз 2023-09-27 11:41:37

Победы в челенджах и научные призы хорошо выделяют ваше резюме из толпы при поиске работы. Я, будучи PhD студентом, пытался помаксимуму насобирать всяких лычек и призов. Например, Яндекс прямо сейчас набирает заявки на премию для учёных и преподавателей в области Machine Learning - Yandex ML Prize.

Если вы (или ваши студенты) публиковали статьи на топовых AI/ML конфах (A или A), то можете подавать заявку. Оцениваются достижения в генеративных моделях, информационном поиске, распознавании и синтезе речи, обработке языка и машинном переводе, а также в компьютерном зрении. Я думаю, что со статьей с CVPR, ICCV или NeurIPS можно изи подаваться.

Приз обещают от 500к до 1 млн рублей, в зависимости от номинации, и еще 500к кредитов на облачные вычисления. Бонусом — лычка в резюме.

Есть пять номинаций: за первую публикацию, исследователям со статьями, молодым и опытным научным руководителям, а также преподавателям ML. Участвовать можно, если вы из Азербайджана, Армении, Беларуси, Казахстана, Кыргызстана, Молдовы, России, Сербии, Таджикистана, Туркменистана или Узбекистана.

@ai_newz

Сиолошная 2023-09-27 00:17:03

По слухам из WSJ, OpenAI поднимает ещё один раунд инвестиций при оценке $80B-$90B (ранее в этом году было $29b).

По этому поводу принёс два мема.

OpenAI raising money at a $90B valuation:

UPD: блин сколько же это вычислительных мощностей..........

эйай ньюз 2023-09-26 19:33:31

👀 ChatGPT теперь умеет видеть, говорить и слушать

Вчера OpenAI показали новую модель ChatGPT-4V(ision). Это мультимодальная модель, которая может понимать и синтезировать голос, а также понимает изображения. Мы получаем более интуитивный интерфейс, который позволяет разговоривать с ChatGPT голосом (Привет, Siri!).

А теперь, лайфхак из блога OpenAI, который СУЩЕСТВЕННО упростит вашу жизнь:
"Когда вы дома, сфотографируйте свой холодильник и кладовую, чтобы определить, что приготовить на ужин (и задать уточняющие вопросы для пошагового рецепта). После ужина помогите своему ребенку с математической задачей, сделав фотографию, выделив задачу и получив подсказки от ChatGPT для вас обоих."

Обещают в течение следующих двух недель дать доступ к voice и vision функциям ChatGPT-4V премуим пользователям Plus и Enterprise. Голос будет только на iOS и Android.

В стиле ClosedAI парни выложили что-то типа тех репорта, без технических деталей, где рассказывают про Safety новой модели и показывают примеры работы.

@ai_newz

Сиолошная 2023-09-26 17:16:09

Апдейт

1) Аккаунт Jimmy Apples в Twitter был удалён или забанен
2) в комментарии на Reddit к этой новости пришёл Sam Altman (по крайней мере комментарий с его аккаунта. Возможно, взломали, возможно, AGI ВЫБРАЛСЯ НАРУЖУ, И ИГРА НАЧИНАЕТСЯ)
3) Sam зарофлил:

agi has been achieved internally (EDIT obviously this is just memeing, y’all have no chill! when agi is achieved it will not be announced with a reddit comment…)


🤡

в то же время про ускорение таймлайнов и сливы касательно Arrakis/Gobi — если посмотреть тех. репорт по модели GPT-4v (с картинками), то там в ссылках на литературу можно заметить плейсхолдеры, которые забыли заменить...писали впопыхах? куда торопятся? релизнуть модель в 2024м?????)

Впервые увидел у Влада тут: https://t.me/dlinnlp/1678

gonzo-обзоры ML статей 2023-09-26 14:19:44

Тем временем обложка свежего Wired

Neural Shit 2023-09-26 08:12:00

Чот как-то пропустил новую GPT 2 от яндекса. Пошёл посмотреть сейчас. В целом, неплохо. Из того что понравилось: в отличие от старой версии умеет адаптировать ответ под разные аудитории и переписывать его в других стилях и жанрах, да и в целом моделька стала сильно умнее, качество ответов улучшилось. Ну и обучение на новом датасете — это всегда хорошо, данные становятся актуальнее.

Потестить можно тут.

А тут полное описание процесса обучения модели

Сиолошная 2023-09-26 08:02:33

Вчера прошло незаметно на фоне анонса голосовых функций для ChatGPT, но шведская компания Spotify объявила, что запартнерилась с несколькими подкастерами для перевода их англоязычных выпусков на испанский с помощью нейросетей, а в ближайшие недели планирует выпустить переводы на французский и немецкий. Первая партия эпизодов уже доступна — можно слушать последние выпуски Dax Shepard, Monica Padman, Bill Simmons, Steven Bartlett и нашего любимого Lex Fridman.

Причём делается не только перевод и озвучка, но и полноценное копирование голоса и стиля (интонации) говорящего. Казалось бы, запартнерились со стартапом Heygen, про который я недавно писал, ан нет! Провайдер технологии — OpenAI

🤔! До этого не было известно, что у них есть инструмент для подобного. Возможно, используется та же модель, что и для ChatGPT (просто там голоса строго заданы, а не склонированы с подкастеров). А для перевода речи в текст используется старый добрый Whisper, выпущенный OpenAI весной 2022го года. Статей и каких-либо деталей по синтезу и клонированию голоса нет 🤕 ну и ладно.

А ещё из вот этого твита стало известно, что над моделью работал Alec Radford — один из самых первых и талантливых исследователей в OpenAI. Он был соавтором GPT (1-2-3-4, причём для первых двух — первым автором), но после 2021го как-то пропал с радаров. По его LinkedIn я даже подумал, что он покинул OpenAI, но нет, ещё трудится на благо AGI
🤗

Сиолошная 2023-09-26 06:02:30

Anthropic решили следовать примеру OpenAI и сделали свой cookbook, в котором собирают примеры работы со своими моделями. И даже текстовый гайд написали, в котором тестируют одно из ключевых отличий от конкурентов — ширину контекстного окна (у Claude это 100'000 токенов).

А как такое тестировать? Ну, например, давать очень длинный кусок текста и задавать вопрос с вариантами ответа, а затем проверять, что модель выбирает правильный. Для этого делается следующее:
1) берётся ежедневно выпускаемый правительственный документ, который содержит стенограммы заседаний множества различных департаментов;
2) весь текст нарезается на маленькие кусочки;
3) к каждому куску Claude генерит вопросы с помощью специального промпта. Он содержит пару примеров (порядка 1500 токенов каждый) того, что ожидается, а затем инструкцию, которая адрессует некоторые из проблем генерации синтетических данных (более детализированный правильный ответ; не очень простые вопросы о мета-данных, вроде даты документа; вопросы, не связанные с контекстом). Все промпты выложены отдельным pdf-файлом;
4) затем куски склеиваются обратно случайным образом в контексты длины 70k и 95k токенов. Для каждого контекста мы знаем, ответы на какие вопросы он содержит
5) испытываем модель! Метрика — доля правильных ответов.
Всего собрали чуть меньше 400 вопросов, почти уверен, что их отсмотрели глазами и пофильтровали.

Замеряется две модели: Claude 2 и Claude Instant 1.2 (мелкая, дешёвая и быстрая). Для того, чтобы облегчить работу, используется два трюка в промпте перед генерацией ответа:
1) Извлечение 2-3 цитат, относящихся к вопросу, перед написанием ответа;
2) Дополнение промпта примерами правильно отвеченных вопросов по другим кускам контекста. Примеров дают 2 или 5.

Выводы следующие:
1) Claude Instant гораздо хуже отвечает на вопросы, ответы для которых содержатся в начале или середине контекстного окна (67%-79% против 87-92% для тех, что содержатся "в хвосте"). Двойка почти не страдает этим;
2) Claude 2 существенно лучше работает, даже без примеров и выписывания цитат показывает метрики выше, чем Instant — со всеми приседаниями;
3) Самый лучший результат 96-97%. Жаль не делается анализ ошибок, но в целом это указывает на то, что даже суперкрутые модели не делают работу на 100%. Нельзя от них ожидать абсолютной надёжности (хотя я уверен, что средний человек на задаче ответа на вопрос по 100+ страницам текста покажет себя хуже, лол!);
4) Выписывание полезных цитат перед ответом улучшает все модели во всех сравнениях. Запоминаем этот приём!
5) Добавление нерелевантных примеров в промпт не даёт улучшения качества;
6) Нет разницы, 2 или 5 примеров добавляется в промпт.

Отдельно отмечу, что поскольку модели лучше работают с тем, что написано в конце, то инструкция "прочитай и ответь на вопрос" вставляется не в начало, а в конец промпта! Вот это, думаю, многие упускают. Более подробно можно прочитать в документации (с примером).

Сиолошная 2023-09-26 06:01:49

Метрики для сравнения, больше - лучше. Сверху более длинный контекст (95 тысяч токенов), снизу покороче (70k).

Scratchpad — это как раз выписывание цитат перед ответом.
Nongov examples — нерелевантные примеры ответов на общие вопросы.

gonzo-обзоры ML статей 2023-09-25 20:09:26

Ну и разбавим подборку новостей:

"This market of machine learning, artificial intelligence” is “almost entirely driven by the big players—Googles, Amazons, Metas”—that have the “enormous amounts of data and enormous amounts of capital” to develop AI at scale. Those companies are also Nvidia’s biggest customers. “This was not the world I wanted to help build,” he said.

Now the Germany and Italy-based researcher is dedicating his career to studying the unintended societal impacts of AI, including publishing a book on the topic this month. Its premise: The concentration of power in the hands of tech giants like Google is the real danger of AI, not the human-killing-AI future being propagated in the press. He’s also reaching out to regulators to encourage them to limit the power of these big companies and lift underfunded research groups and startups."

https://www.theinformation.com/articles/nvidia-engineers-message-to-google-ai-researchers-leave-your-company

Neural Shit 2023-09-25 18:32:08

Киберпанк который мы заслужили

gonzo-обзоры ML статей 2023-09-25 17:40:04

Also GPT-4 with vision (GPT-4V) system card published.

https://openai.com/research/gpt-4v-system-card

Дожили, радуемся уже не опубликованным моделям, не статьям, а карточкам модели...

gonzo-обзоры ML статей 2023-09-25 17:37:30

Plus and Enterprise users will get to experience voice and images in the next two weeks. We’re excited to roll out these capabilities to other groups of users, including developers, soon after.


https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

Сиолошная 2023-09-25 17:30:52

Всего неделю назад писал про лик информации о будущих планах OpenAI — там говорилось про модель Gobi.

Но оказывается в Твиттере есть человек, который предсказал это ещё 28го Апреля. Твит удалён, однако сохранилась архивная ссылка: тык. Этот же аккаунт за полторы недели до релиза GPT-4 (14го марта) писал 5го марта, что GPT-4 уже используется в Bing, а анонс будет через неделю или около того. И в тот же день назвал точную дату вместе с указанием на тот факт, что GPT-4 будет обрабатывать картинки.

В общем, пускаемся на территорию слухов и догадок. Этот же аккаунт написал 18го сентября, что — готовы? вдохните поглубже

😆 — "AGI has been achieved internally." Якобы в одной из лабораторий (Видимо, OpenAI?) достигли уровня технологии, который можно назвать AGI (хотя бы каким-то определением). Лично я в это не верю, скорее какая-то из компонент на каком-то бенчмарке показала себя сильно лучше, чем ожидалось — такое может быть.

Также этот аккаунт утверждает, что у OpenAI с весны идёт разработка модели под кодовым названием Arrakis (как планета со спайсом во вселенной Dune). Целевая дата релиза — 2025й год, но может быть из-за ускорения рисерча она будет релизнута где-то в 2024м.
——————
Помимо этого на Reddit есть аккаунт, который пишет в целом схожие вещи в похожем стиле, и как будто бы даже из той же страны (не понял, как узнали). Увидел вот тут, оригинал поста на LessWrong здесь. Что говорят:
— Arrakis уже существенно превосходит GPT-4 с точки зрения reasoning (рассуждение и логический вывод);
— это мультимодальная модель, которая умеет не только принимать, но и выдавать разные типы данных. В том числе умеет генерировать видео (лучше, чем Gen-2);
— Модель имеет около-экспертный уровень в большом наборе топиков, но пока не превосходит людей;
— Галлюцинации встречаются куда реже, чем у GPT-4, но всё еще не побеждены;
— Половина тренировочных данных — синтетические (то есть сгенерированные другими моделями);
— модель является очень хорошим автономным агентом, то есть ей можно поставить задачу, дать инструменты и ждать, пока задача выполнится.

В общем, такие вот слухи. Сам я не верю даже в 30% того, что описано, но чёрт его знает что там в этом вашем Deep Learning происходит. Поживём - увидим!

UPD: забыл добавить, что в истории с предсказаниями по GPT-4 много пробелов, много твитов удалено, странные вещи, так что этот пост скорее просто даёт помечтать. Ну и через годик вернуться-посмотреть :)

Neural Shit 2023-09-25 14:04:47

Принёс вам новых статей нейроуголовного кодекса. Напоминаю, что незнание этого кодекса не освобождает от ответственности.

>>Статья 199. Поиски смысла жизни без разрешения государства

>>Статья 65. Нарушение ритма и гармонии в музыкальных композициях

>>Статья 314. Публичное вычисление числа π

>>Статья 428. Незаконный возврат в прошлое для исправления оценок в школе

>>Статья 549. Подделка нулей и единиц в машинном коде

>>Статья 180. Проведение ритуалов для призыва Чака Норриса

>>Статья 77. Незаконное использование логарифмов для раскрытия секретов вселенной

>>Статья ∞. Попытка доказательства или опровержения бесконечности

>>Статья 4321. Попытки контакта с высшими силами для улучшения погоды

>>Статья 1212. Угнетение алгоритмов искусственного интеллекта

>>Статья 101. Распространение метафизических концепций на рынке фастфуда

>>Статья 300. Спартанское воспитание домашних животных

>>Статья 408. Исчезновение из реальности без предоставления уведомления

>>Статья 884. Сотворение апокалиптических событий с использованием алкогольных напитков

>>Статья 404. Ошибка в уголовном кодексе: преступление не найдено, но вина очевидна

Сиолошная 2023-09-25 14:01:41

Вместе с релизом, OpenAI публикуют GPT-4V(ision) System Card

Ссылка: https://cdn.openai.com/papers/GPTV_System_Card.pdf

Это не полноценная статья с объяснением, здесь, как и в случае с GPT-4, делается акцент на Safety и Evaluation. Пример того, на какие вопросы модель не отвечает, перед вами.

Сиолошная 2023-09-25 12:24:54

OpenAI: ChatGPT теперь слушает, говорит и видит

Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем вы говорите.

Голос и изображение дают вам больше возможностей использовать LLM в вашей жизни. Сфотографируйте достопримечательность во время путешествия и поговорите с ChatGPT о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник, чтобы выяснить, что можно приготовить на ужин (и получите пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав учебник и попросив поделиться подсказками.

В течение следующих двух недель мы добавим эту функциональность в ChatGPT для пользователей Plus и Enterprise. Функицональность необходимо будет включить в настройках.

Прим.: из описания не ясно, но добавляется и генерация голоса. Модель сможет отвечать вам не текстом.

OpenAI говорят, что используют "new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech". Статей и анонсов пока не было. Качество можно оценить по ссылке.

Подача изображений на вход будет доступна и для 3.5-модели, не только 4ки.

e/acc 2023-09-25 11:00:09

В тему ИИ как Великого Уравнителя. Я каждый день вижу примеры когда люди благодаря генеративным нейронкам могут делать вещи, к которым раньше они даже не знали с какой стороны подступаться.

У меня есть знакомый, который ни разу в жизни не программировал, а тут, на пенсии, с помощью GPT сделал рабочее приложение для телефона. Или любой кто пишет пост, книгу, презентацию и теперь может бесплатно сгенерировать графику на уровне топ-10% лучших иллюстраторов мира. Или, подписывая контракт, получить анализ договора от Claude на уровне не хуже среднего юрист (но бесплатно, а не за $200). И школьник, которому ИИ объясняет сложную тему (делая её не только сложной, но интересной) с персональным подходом, эмпатией, чистотой объяснения и кастомно сгенерированными графиками и схемами на уровне топ-10% педагогов мира. А заскучавшие школьники генерируют action сцены на уровне средненького боевика с десятимиллионным бюджетом.

В каждом моём дне таких примеров десятки: саммари звонков, редактура текстов, анализ юридических документов, изучение фармакокинетики (для одного проекта), написание и анализ кода на почти незнакомом языке.

Это сегодня. А ведь еще ничего толком не началось. Да, формально, у ИИ-продуктов уже под миллиард пользователей (Bing, GPT, Opera, etc). Но реальных power users, которые почувствовали на себе эту силу Великого Уравнения, по моим скромным оценкам, все ещё только десятки тысяч.

Нас ждут великие приключения и великие потрясения.

эйай ньюз 2023-09-25 10:16:01

Anthropic получит до $4 млрд новых инвестиций от Amazon

Anthropic – это один из основных конкурентов OpenAI ChatGPT, который также строит conversational AI. Об их моделе Claud AI я писал в начале года.

— Недавно Anthropic впервые публично выкатили премиум подписку на свою модель Claude 2 с размером контекста в 100к токенов. Стоит $20/мес, но доступ есть только из US и UK.

— Anthropic хотят тренировать следующую версию "Claude-NEXT", которая планируется быть "в 10 раз более способной", чем существующие LLM (серьезная заявочка). Соответственно нужно очень много денег на тренировку и ресерч, поэтому и рейзят у Амазона.

— Для Амазона это возможность застолбить за собой потенциально лидирующую технологию, которую разрабатывает Anthropic и поплотнее подсадить их на AWS. Похожим образом Microsoft вкинул ≈$13 млрд в OpenAI.

— До текущего момента Anthropic уже подняли $2.7 млрд. А последняя оценка компании в мае этого года была $5 млрд.

— Amazon изначально купит в Anthropic миноритарную долю за $1.25 млрд, и договорились, что Amazon может увеличить размер инвестиции до $4 млрд.

— Учитывая размер новых инвестиций от Amazon, сейчас Anthropic должен оцениваться в разы дороже. В компании видят огромный потенциал.

Ну что ж, звучит многообещающе! Хочу купить подписку на Claude Pro (через VPN) и попробовать попользоваться.

@ai_newz

эйай ньюз 2023-09-24 19:30:04

Никто: мы опасно близки к AGI. Пора бомбить датацентры!!1!1

Tesla Optimus: ловко и спокойно сортирует кубики лего по цвету.

--

Кроме шуток, не часто увидишь full-body робота, который так плавно манипулирует мелкими объектами, основываясь чисто на зрении. Причем, заявляют что робот управляется одной нейронкой end2end: на вход видеопоток, на выход сигналы для контроля актуаторов. И это тоже довольно круто.

Подозреваю, что гоняют огромный мультимодальный трансформер. Возможно, архитектура отдаленно похожа на Google RT-2 (мой пост про RT-1) или PaLM-E.

@ai_newz

эйай ньюз 2023-09-24 18:33:14

Обещаю, на этом посте пока закончим про image restoration :)

Для сравнения, вот такие результаты выдает на тех же картинках популярные энхансеры
1) cвязка real-ESRGAN + GFPGAN (для face-enhancement).
2) CodeFormer

CodeFormer в целом получше работает на лицах чем real-ESRGAN, что и ожидаемо, ведь CodeFormer тренировался специально для лиц.

Если повреждения изображения можно описать как downscale + jpeg артефакты, то и ESRGAN и СodeFormer работают хорошо (как, например, в предпоследней строке), но если же картинка испорчена посильнее и применены другие деструктивные операции, то результат будет более плачевный чем у DiffBIR.

Но, да, real-ESRGAN и CodeFormer молниеносно быстры по сравнению с диффузией.

- Я запускал real-ESRGAN из этого колаба и апскейлил c 256 до 1024 (при апскейле 512-> 2048 получалось не лучше).
- CodeFormer брал отсюда, запускал в режиме предполагающем, что картинки содержат только лица.

@ai_newz

эйай ньюз 2023-09-24 17:19:51

Я тут пересобрал для вас новый колаб для DiffBIR на базе последних коммитов из оф. репы: можете попробовать тут.
Нужен Colab Pro, т.к. в 12 GB оперативки не вместится.

Метод действительно работает, но не на всех видах деформаций. Опять начерепикали в статье...🌚 Но все же лучше чем real-ESRGAN.

Попугая нормально восстановило. А вот мем "смекалочка" не хотел восстанавливаться в нормальное лицо, пока я вручную не добавил промпт и CFG.

Пикселизованное 8-битное лицо, например, вообще отказалось превращаться в нормальное - видимо, метод не считает это за corruption, и думает что это часть композиции.

Боюсь, что многие универсальные восстановители изображений (а BirDIFF заявлялся одним из таких) будут страдать от того, что некоторые поврежедния будут считать частью оригинальной картинки.

Специализированные же методы, конечно, будут давать лучшие результаты если применять их в том же домене, на котором они и были обучены.

@ai_newz

gonzo-обзоры ML статей 2023-09-24 16:52:57

Chain-of-Thought → Tree-of-Thought

Техника для повышения качества ответа LLM’ок под названием Chain-of-Thought (CoT), пришедшая, кажется, из работы “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (https://arxiv.org/abs/2201.11903), давно вошла в арсенал промпт инженеров (патентованная технология, между прочим, https://patents.google.com/patent/US20230244938A1/en). В двух словах она заключается в том, чтобы попросить модель не сразу выдать результат, а сначала сгенерировать последовательность промежуточных шагов и лишь затем выдать финальный результат. Можно сочетать с few-shot learning, давая демонстрационные примеры.

Неожиданным образом, качество ответа повышается, особенно это заметно на математических задачах, commonsense и symbolic reasoning. Кроме того, дополнительными бонусами являются большая прозрачность принятия решения и интерпретируемость. В оригинальной работе показали, что CoT это эмерджентное свойство, начинающее проявляться с размера модели в районе 100B.

Дополнительная техника декодирования под названием Self-Consistency из работы “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (https://arxiv.org/abs/2203.11171) заменяет жадное декодирование на создание нескольких цепочек CoT и в конце выбор наиболее консистентного ответа, который определяется мажоритарным голосованием. Этот подход CoT-SC иногда также называется Multiple CoTs, причём чем больше этих цепочек, тем лучше, в работе доходили до 40 штук.

Популярное изложение CoT и немного CoT-SC тут https://blog.research.google/2022/05/language-models-perform-reasoning-via.html.

Но это было в начале 2022-го. С тех пор появились более продвинутые подходы. Один из них, это Tree-of-Thoughts (ToT), появившийся с разницей в два дня в двух работах: “Large Language Model Guided Tree-of-Thought” (https://arxiv.org/abs/2305.08291) и “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (https://arxiv.org/abs/2305.10601).

Теперь процесс вывода представлен деревом, а не цепочкой. И модель может делать backtracking, если вывод ушёл не туда.

Идея этих работ в том, что мыслительный процесс не линеен, это скорее похоже на хождение по дереву -- пробуем одну ветвь, обнаруживаем что не работает, отка(т/з)ываемся и пробуем другую. Это подразумевает множество раундов взаимодействия между LLM и агентом, дающим промпты.

Эти подходы уже не чистый промпт инжиниринг, одним текстом тут не обойдёшься, надо писать какие-то программы, управляющие процессом. В этом смысле это уже в парадигме LLM Programs (https://t.me/gonzo_ML/1584).

I) Начнём с первой работы от Jieyi Long из Theta Labs.

В данной постановке есть LLM, получающая промпты и выдающая ответы. Есть prompter agent, в который прилетает исходная задача от пользователя. Он выдаёт промпты в LLM и пытается получить от неё не финальное решение, а какое-то промежуточное. Специальный проверочный модуль (checker module) проверяет валидность промежуточного решения, полученного от LLM. Если проверка корректности проходит, это промежуточное решение парсится и сохраняется в памяти. Затем в зависимости от содержимого памяти prompter agent генерирует следующий промпт с целью получить от LLM следующий шаг. Если же от LLM приходит невалидный ответ, то ToT controller попросит prompter дать модели нужные подсказки и запросить решение снова. Также ToT controller отслеживает прогресс и решает, не нужно ли откатиться к родительскому узлу дерева или к более далёкому предку.

То есть стратегию ToT можно представить как алгоритм поиска по дереву, использующий LLM как эвристику для выбора шагов поиска. LLM используется для задач “short-range reasoning”, получения следующего промежуточного решения. Задачи такого типа в целом решаются LLM неплохо. Возможность откатываться к предыдущим промежуточным решениям улучшает способности к “long-range reasoning”, потому что система может исследовать большее пространство решений. А возможность выполнять многошаговые взаимодействия увеличивает число вычислительных шагов, которые может сделать система.

gonzo-обзоры ML статей 2023-09-24 16:52:57

Если чуть углубиться в детали, то checker module может работать как на основе правил, так и быть нейросетевым. Какую-то корректность (типа 3SAT, решения уравнений и т.п.) проще проверять правилами, какие-то другие задачи -- нейросетями.

Memory module хранит всю историю диалога между LLM и prompter agent, и последний может использовать это хранилище для генерации подсказок LLM.

ToT Controller в целом наблюдает за ToT поиском, он тоже может быть задан простыми правилами типа 1) если checker считает текущее решение невалидным, сделать откат к родительскому узлу дерева, 2) если текущее промежуточное решение валидно, но поиск уже исследовал X (гиперпараметр) детей и пока не нашёл решения, то откатиться к родительскому узлу. Но можно также задать этот контроллер какой-то policy network

Prompter agent даёт подсказки (hints) LLM для генерации следующего шага. Он может быть реализован как достаточно общим промптом, так и policy network.

В работе использовали версию REINFORCE алгоритма для обучения обеих policy networks. В будущем собирались использовать более продвинутый MARL (multi-agent reinforcement learning) алгоритм. В целом чувствуется большой потенциал для обучения полиси в стиле AlphaGo через self-play.

Обученную систему можно использовать для ToT решения проблем. В работе проверяли на маленьких судоку (не самая LLM-friendly задача вроде, да и вообще NP-сложная) размеров от 3x3 до 5x5. Получилось лучше, чем zero-shot, one-shot и few-shot c CoT.

Имплементация лежит тут: https://github.com/jieyilong/tree-of-thought-puzzle-solver

II) Вторая работа от коллектива авторов из Принстона и Google DeepMind.

Здесь также решение задачи представлено деревом, в узлах которого отдельные “мысли” (thoughts, дальше буду использовать без кавычек) являющиеся промежуточными шагами в решении проблемы. И для поиска по этому дереву также используется LLM в качестве эвристики.

Каждая конкретная реализация ToT должна отвечать на 4 вопроса:

1. Как декомпозировать процесс в отдельные шаги-мысли. Тут надо соблюсти баланс: с одной стороны мысль должна быть достаточно маленькой чтобы LLM сгенерировала многообещающие и разнообразные сэмплы, с другой -- достаточно крупной, чтобы LLM могла оценить её полезность в решении проблемы (уровень токена, например, слишком низок).

2. Как сгенерировать потенциальные мысли из каждого состояния. Надо сгенерировать k кандидатов для следующего шага, авторы рассматривают две стратегии: 1) засэмплить i.i.d. мысли из CoT промпта (лучше работает, когда пространство мыслей достаточно большое, например, мысль -- это параграф); либо 2) предлагать мысли последовательно с помощью “propose prompt”.

3. Как эвристически оценивать состояния. Ранее в качестве поисковых эвристик были либо запрограммированные алгоритмы, либо что-то обученное. Здесь же для reasoning’а используется LLM. появляется что-то на новом уровне, некий уже достаточно универсальный интеллект, работающий через язык. Здесь тоже рассматривают две стратегии: 1) оценивать каждое состояние независимо с помощью специального промпта, 2) запихивать состояния в один промпт и голосовать, это проще делать, когда сложно оценить состояние. Можно делать обе такие оценки несколько раз и агрегировать результаты.

4. Какой алгоритм поиска использовать. Здесь всё просто, пробуют поиск в глубину и в ширину (BFS и DFS).

Проверяли на трёх задачах: Game of 24, Creative Writing, 5x5 Crosswords. Везде делали на базе GPT-4 (непривычно видеть работу DeepMind на основе GPT-4 🙂). Работает на порядок лучше стандартных IO prompt, CoT prompt, CoT-SC.

Эта имплементация тут: https://github.com/princeton-nlp/tree-of-thought-llm

---

При некоторой разнице описаний, подходы в целом про одно и то же. Удивительно всё-таки, как они синхронно это всё выпускают.

Интересно, в AutoGPT это уже добавили? Или сразу Graph of Thoughts (https://arxiv.org/abs/2308.09687, про него как-нибудь в следующий раз) будут имплементировать?

В целом у меня чувство, что мы довольно близки к созданию какой-нибудь пубяки аналогичной по эффекту червю Морриса в своё время.

Neural Shit 2023-09-24 14:41:29

Посмотрите каких охуенных Пепесов генерит Dalle-3 ❤️❤️❤️

Кстати, сильно удивлён, что с тамошним уровнем соевой цензуры вообще разрешили генерировать Пепе. А то какие-то особо недоделанные ебанахи считают эту милую жабку символом нацизма, расизма и прочих -измов, а OpenAI обычно у таких ебанах идет на поводу

Сиолошная 2023-09-24 11:18:23

Вот само видео. Источник

Через год ждём повторение всех демок Boston Dynamics с прыжками и сальто, через два — выход первых роботов на заводы Tesla.

На самом деле скорее всего до сальто и прочего не дойдет: потому что это не нужно, а значит можно игнорировать и тем самым удешевлять процесс разработки.

Сиолошная 2023-09-24 11:17:50

Пока вы (мы (я)) спали, Tesla выкатили полутораминутное демо-видео с своим роботом Optimus.

В нём показывается, как робот раскладывает детальки конструктора по цвету в 2 разные коробки, сортируя по цвету. Команда Tesla утверждает, что:
1) робот работает полностью на нейросети, без вручную запрограммированных эвристик;
2) то есть нейросеть получает на вход изображение с камер и положение конечностей, а предсказывает действия, которые необходимо осуществить (то есть подать ток на моторчики);
3) модель тренируется end-2-end, то есть на всей задаче целиком. Не нужно разбивать одну задачу на маленькие ("определи цвет", "возьми кубик", "поверни кубик", итд);
4) нейросеть работает внутри бота, а не в облаке. То есть вычислительные мощности зашиты внутрь, и робот получается автономным — главное чтобы батарейки хватило;
5) Senior Staff Engineer говорит, что "соберите больше данных, и мы сможем выучить новую сложную задачу, не меняя ни одной строчки кода!". В целом звучит круто, осталось понять, что это за данные. Симуляции? Или действия в реальном мире?
6) Также он пишет, что "его можно запромптить (как LLM?), в этом видео используется та же нейросеть для сортировки и перемешивания блоков, вы просто говорите ей, что хотите.". Если там есть текстовый интерфейс - это 🔥 (моя ставка что там не LLM, а цели задаются иначе);
7) у робота работают пальцы, он спокойно берет и переворачивает объекты. Мелкая моторика - сложная для программирования вещь, а тут её и делать не нужно, всё само;
8) в конце видео показывается, как хорошо робот балансирует - он встаёт в две йога-стойки и не падает.

Почему это круто? В чём отличие от нашумевших Boston Dynamics?
1) у BD всё программировалось вручную (по крайней мере последний раз когда я проверял, может за пару лет изменилось в корне), и поэтому сложно масштабировалось. Если ваш пёс умеет бегать и прыгать, то научить его ползать это очень сложная задача на год+ целой команде (цифра условная);
2) Тренировка end-2-end позволяет свести любую задачу к проблеме данных. Если у вас много качественных данных — проблема решена. И, как отметил инженер, перепрограммировать ничего не надо. Вероятно, тут он лукавит — Tesla показывали, что они используют виртуальные симуляторы, соответственно надо в них задать новую задачу, а потом просто запустить — и тогда бот разберется, что к чему;
3) прогресс ГОРАЗДО быстрее, чем у BD. Робот был анонсирован всего пару лет назад, а год назад еле ходил. BD были основаны в 1992 году (!), а гуманоидного Atlas показали в 2013м году. И за следующие 10 лет лишь немного улучшили его с точки зрения сложности поведения/действий — потому что всё это плохо масштбируется;
4) Tesla'ой рулит Elon Musk, человек, ориентированный на бизнес. Основная фишка - удешевление, ускорение и масштабирование производства. Это было с Tesla, это происходит в SpaceX. Если поставить производство ботов на поток, они будут очень дешевы, что позволит им конкурировать с рабочими на складах и в McDonalds. И на заводах Tesla, и на фабрике SpaceX на Марсе — тоже!
5) Правда не ясно зачем McDonalds, если такой же робот сможет готовить блюда как шеф с тремя звёздами Мишлен...

эйай ньюз 2023-09-24 05:15:04

DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior

Тут китайцы (тоже они, да) подвезли СОТУ по ресторации изображений и апскейлу.

Stable Diffusion знает как создавать реалистичные изображения. Осталось только как-то дообучить ее принимать low-qulity изображение как условие. В этом и суть работы.

Авторы берут и тренируют модуль, похожий на ControlNet, который принимаетна вход latent code испорченного изображения. Кроме того на вход этому контролнету еще дополнительно конкатенируют код z_t (z_T - это шум), я думаю это для того, чтобы условный сигнал адаптировался под текущий уровень шума, а не всегда был одинаковым.

Еще до диффузии испорченную картинку прогоняют через более простой метод ресторации SwinIR (Stage 1), который убирает шум и артифакты, но не умеет генерить high-freq детали. Это позволяет диффузи концентрироваться в основном на мелких деталях, которые и придают реализм.

Работает, конечно медленнее чем ESRGAN, но лучше.

Сайт проекта
Колаб
Код демки

@ai_newz

gonzo-обзоры ML статей 2023-09-23 21:40:12

Generative AI’s first year out the gate—“Act 1”—came from the technology-out. We discovered a new “hammer”—foundation models—and unleashed a wave of novelty apps that were lightweight demonstrations of cool new technology.

We now believe the market is entering “Act 2”—which will be from the customer-back. Act 2 will solve human problems end-to-end. These applications are different in nature than the first apps out of the gate. They tend to use foundation models as a piece of a more comprehensive solution rather than the entire solution. They introduce new editing interfaces, making the workflows stickier and the outputs better. They are often multi-modal.

https://www.sequoiacap.com/article/generative-ai-act-two/

эйай ньюз 2023-09-23 21:00:01

В комментах, подписчик (спасибо @p0lygon) провел тест FreeU, и его наблюдения подтвердили мою гипотезу, о том что метод "режет" детали, когда смягчает артефакты.

«Смягчает детализацию, иногда артефакты убирает.

Первая - без freeu

Вторая - коэффициенты b=1,1 и s=0,95, меньше чем в у них в репе. Этот вариант мне нравится.

Третья - как у них, 1,2 и 0,9. Слишком разглаживается.

Ну хз, может и пригодится. надо глубже поиграться.
"

@ai_newz

эйай ньюз 2023-09-23 13:39:30

Вот так перевзвешивают backbone фичи и skip фичи в декодере UNet. Если посмотрите на картинку, то увидите, что skip фичи взвешивают в спектральном домене после FFT преобразования. Причем выставляют вес s < 1 только для низкочастотных сигналов, чтобы не перебивать более качественные низкочастотные сигналы приходящие из backbone фичей, которые были усилены.

Короче, это капут какая эмпирическая работа. Без теоретических обоснований, почему это вообще должно что-то улучшать. Но вроде работает для Stable Diffusion.

Однако, я заметил что:
- метод хоть и решает структурные артефакты, за которые отвечают high-frequence сигналы (например, тело медведя становится правильным, или у кота отрастает недостающая лапа)
- но на генерациях становится гораздо меньше мелких деталей. Все же There is No Free Lunch, несмотря на то что статья называется FreeU: Free Lunch in Diffusion U-Net. Маркетинг 💁

@ai_newz

эйай ньюз 2023-09-23 13:17:51

Китайцы нашли эмпиричесикй способ улучшить качество генерации SD - простая модификация FreeU позволяет избавиться от артефактов без ретрейна модели.

Как?
Итак, SD использует архитектуру UNet под капотом, где проброшены skip-соединения между блоками энкодера и декодера. Фичи, получаемые на выходе блоков декодера ("backbone" фичи) и фичи приходящие из skip-соединения конкатенируются и посылаюстя в следующий блок декодера. Авторы заметили, что backbone фичи вносят больший вклад именно в денойзинг и в низкочастотные детали (это грубая структура объекта), а skip фичи дополняют генерацию высокочастотной информацией, помогая восстанавливать мелкие детали картинки.

Авторы взвесили вклад backbone фичей и skip фичей во время инференса, умножением их на два скаляра b > 1 и s < 1 соответственно. То есть увеличили вес backbone фичей, чтобы сделать упор на глобальную структуру и уменьшили вклад skip фичей, чтобы уменьшить high-freq артифакты. И это сработало как для картинок, так и для видео!

Сайт проекта
Код

@ai_newz

Neural Shit 2023-09-23 13:11:07

Все же, вот эта штука с генерацией иллюзий годная и классная

😮

UPD: Личку атакуют тем, что плохо переносится одно изображение в другое. Чтобы работало нормально, нужно сделать исходное изображение черно-белым и максимально контрастным (в идеале только два цвета — максимально чёрный и максимально белый, без оттенков)

Love. Death. Transformers. 2023-09-23 10:58:14

Роботы курьеры Яндекса куда то собрались, но выстроились в пробку.

Видео от подписчиков

gonzo-обзоры ML статей 2023-09-22 21:34:00

Nice project, a kind of semantic grep for code :)

No any 3rd party APIs or remote APIs, just local vector embeddings using ChromaDB (as I understand that really means Sentence Transformers embeddings, namely the all-MiniLM-L6-v2 model).

https://github.com/kantord/SeaGOAT

Сиолошная 2023-09-22 09:58:39

С одной стороны возможности для Edtech'a, с другой — сделать мир лучше!

OpenAI в партнерстве с Tools Competition запускают долгосрочный конкурс "Learning Impact Prize" с призовым фондом более $5m. Его цель — стимулировать развитие технологий, чтобы удовлетворить растущие потребности учащихся во всем мире.

Всего есть 5 направлений, и каждое разбито на 3 подтрека:
— Catalyst Awards ($50k приз): для идей или продуктов на ранней стадии (если вы решили изменить мир вот только что, читая этот пост

👍);
— Growth Awards ($150k): для продуктов с небольшим количеством пользователей, на дальшейшее масштабирование;
— Transform Awards ($300k): для платформ с 10 000 или более пользователей.

Сами треки:
— Accelerating & Assessing Learning
 Preparing for the 21st Century World
— Instructional Coaching for Early Childhood Education
— Facilitating Learning Science Research
— Engaging Adult Learners in Higher Education

При клике на ссылку каждого трека вас ждёт подробное описание, а также примеры компаний/стартапов, которые уже решают схожие проблемы. Там же указаны предъявляемые к продукту требования.

Но самое интересное — то, что среди победителей каждого трека OpenAI дополнительно выберут до трёх участников, выделят им отдельно еще по $100k, $10k кредитов на API, а также возможность общения и поддержки командой OpenAI. Последнее, пожалуй, самое главное.

Можно возмутиться, мол, 100-200 тысяч долларов это не такие большие деньги, чтобы развивать компанию и прорывную идею. Но тут важнее признание и партнерство с OpenAI. Если к инвестору придёт фаундер и скажет "ну мы там выиграли конкурс от OpenAI и у нас теперь есть ещё и доступ к их инженерам" — почти наверняка денег отсыпят.

Податься со своей заявкой можно до 10го ноября 2023го года, дальше будет два этапа, и победителей определят в июне 2024го.

⬇️ Пишите в комментарии если у вас есть идея, или может даже целый продукт!

Neural Shit 2023-09-21 23:05:12

Развлекался тут с майкрософтовским генератором картинок.

Фильм "Терминатор", но в главной роли маскот Макдональдса — клоун Рональд Макдональд

Сиолошная 2023-09-21 21:52:42

Сегодня Microsoft провели презентацию, на которой представили крупное обновление для Windows 11 и ряда своих продуктов.

Нас больше всего интересует тесная интеграция чатбота ("Copilot") в саму операционную систему и сопутствующие приложения. Сразу остужу ваш интерес — никаких киллер-фичей представлено не было. Ничего такого, что не появлялось в виде стартапов или пет-проектов с момента релиза ChatGPT. Ключевая фишка в том, что суммарно тут и там, по сусекам поскребя, кумулятивно набирается "вау".

Да, не каждый день приходится лезть в настройки винды, чтобы поменять пару параметров. Но когда приходится — для неопытного пользователя это может на полчаса превратиться в пешее эротическое с гуглом в обнимку.

Да, не каждый день делаем презентацию или пишем текст, но многим по работе, по учёбе или просто так бывает нужно. То табличку из текста сверстать (в смысле извлечь необходимые сущности автоматом), то сделать сложную агрегацию в Excel. Всё это где-то на фоне и не меняет общего восприятия...пока ты не увидишь это у соседа/коллеги или не ощутишь магию сам.

Да, не каждый день приходится читать цепочку писем и давать на неё быстрый ответ а нет, погодите, это как раз мой юзкейс, кек.

Да, не каждый день надо в фотошопе что-то быстро закрасить или пририсовать, но ведь иногда нужно и мем склепать? А теперь это можно делать текстом (и интеграция DALL-E 3 уже заявлена, прямо с релиза!)

В общем, глубина интеграции технологии генеративного AI пока не настолько велика, чтобы перевернуть мир, но это послужит хорошим началом. Microsoft начнёт собирать тьмищу данных, позволяющих получить условную GPT-5, которая потенциально потянет на революцию. Apple может начать проигрывать гонку, и как-то придётся объяснять юзерам, почему они не могут сказать Siri найти вооон то письмо с билетами годовой давности и проверить возврат на карту.

Но если откинуть внутреннего критика, вернуться мысленно на года 3 назад и посмотреть на новые фичи - можно подумать, что показывают компьютер Тони Старка с мегакрутым AI.

Анонс 1
Анонс 2

gonzo-обзоры ML статей 2023-09-21 20:06:42

Скандалы, интриги, расследования!

""ChatGPT could not have generated the results described above if OpenAI's LLMs had not ingested and been 'trained' on the Martin infringed works," the complaint alleges."

https://www.cbsnews.com/news/openai-lawsuit-george-rr-martin-john-grisham-copyright-infringement/

Neural Shit 2023-09-21 13:44:54

Киберпанк, который мы заслужили

Neural Shit 2023-09-21 12:35:15

С М Е К А Л О Ч К А

https://t.me/uxlive/14693