Нейролента Mikitos.ru - страница 32

эйай ньюз 2023-11-13 12:17:51

Тут каталонский стартапчик показывает демку, на которой они гоняют SDXL в риал-тайме на GPU.

Ну как SDXL, у них тут таренирована LoRA модель с помощью метода Latent Consistency дистилляции. Модель после этого бегает за 1-2 шага, но не без потери в качестве.

Как инструмент для интерактивного создания наброска — просто отлично. А затем можно уже поверх прогнать и полную модель для добавления деталей и реализма.

@ai_newz

Neural Shit 2023-11-13 10:16:53

Принёс вам немножко гибридов Шрека

эйай ньюз 2023-11-12 21:24:17

Опять настало то время года, когда я ищу интернов в нашу Generative AI команду в Цюрихском офисе Meta.

Что нужно будет делать: работать над next-gen диффузионками для картинок и видео. Вот тут примеры того, что мы недавно зарелизили в прод: модель Emu, Generative Stickers, на подходе редактирование фото в IG).

Если у вас есть 2-3 публикации уровня CVPR/ICLR/NeurIPS, и вы сейчас учитесь в аспирантуре, то срочно пишите мне в личку или на мыло.

Стажировка проходит 6 месяцев физически в Цюрихе, начиная с весны либо лета 2024. Платить будут > 10к CHF в месяц и бонусом предоставляют апартаменты на все время стажировки.

От вас ожидается всего одна вещь — суметь написать и засабмитить статейку на CVPR 2025 🐶.

По всем вопросам пишите в комментариях.

@ai_newz

эйай ньюз 2023-11-12 16:20:41

Амазончик начал тренировать гигантскую LLM на 2 триллиона параметров под кодовым названием "Olympus", чтобы конкурировать с OpenAI. Такой размер — это по слухам больше чем GPT-4. Очевидно, что не хотят сидеть на апихах.

Планируют потом пустить эту модель в Алексу и юзать как конкурентное преимущество у себя на AWS. Это очень даже логично.

Плюс, у Амазона сейчас рекламная выручка на хорошем подъеме — найдут как применять модель и там.

Ну что, успехов им. Теперь будем квоту на гпу на AWS для пет-проектов месяцами ждать — все пойдет на обучение монстра.

@ai_newz

Denis Sexy IT 🤖 2023-11-12 09:21:18

Слева "Мячик с мордочкой" на который были способны лучшие нейронки в 2018 году (biggan)

Справа, то на что способны они сейчас – мне будет нехватать крипи-мордашек

Neural Shit 2023-11-11 21:21:22

Runway ML показали работу своей новой штуки Motion Brush. Скоро обещают выкатить в своем gen2.

Выглядит прям заебись

Сиолошная 2023-11-11 18:33:52

SpaceX объявили, что нацелены на пуск Starship 17го ноября

👏

👏 Лицензии всё ещё нет, но так как компания работает вместе с ругулятором, то у них, вероятно, есть инсайд по процессу.

А скрасить ожидание до полёта вам поможет вырезка из свежего подкаста Lex Fridman, в котором Elon рассказывает про своё желание визуализировать комедию "ожидание лицензии на полёт". Тут прямо как в "Кровью и Потом: Анаболики": сложно поверить, что эта чушь произошла, но всё именно так и было. Например, что FAA не доверяет своему департаменту по расчётам рисков, поэтому просит SpaceX произвести оценку вероятности попадания ракеты В КИТА В ОКЕАНЕ

😐 This is actually what happened.

https://youtu.be/47dEWpef4Fw

А прочитать про историю прикреплённой картинки и какое отношение она имеет к посту можно тут. Спойлер: злодей Musk приказал выкрасть тюленя и мучить его...

эйай ньюз 2023-11-11 17:46:55

Снял это видео недалеко от офиса чуть больше месяца назад.

Оказывается, у нас по соседству завелся стартап, который разрабатывает этого прикольного двухколесного робота-охранника. При мне парни управляли им с джойстика, но есть у него и автономный режим - где он патрулирует по заданному маршруту, смотрит все ли в порядке, стримит и одновременно анализирует видео.

Он как робот-пылесос, только умеет ходить по любой поверхности (за счет RL обучения), и радиус действия не ограничивается вашей квартирой. На него можно навешать и тепловизоры, и камеры ночного видения, и вообще что-угодно, кроме огнестрельного оружия, разумеется. Ну, вы поняли.

Двухколесная база именно для городских условий, конечно, гораздо более проста, устойчива и мобильна, чем робот на четырех лапах, как например пёсик Спот от Boston Dynamics.

@ai_newz

Сиолошная 2023-11-11 06:57:49

Ну ладно, как я вас без контента-то могу оставить? Так не годится. Поэтому мы с Пашей @RationalAnswer взяли и написали новую статью. В ней делается четыре большие вещи:
— рассказ про то, что произошло в GenAI за более чем полгода с момента выхода GPT-4;
— декомпозиция недавней конференции OpenAI DevDay и оценка её влияния на рынок;
— прекрасный, но пугающий рассказ об AI-агентах и нашем будущем;
— всё это приправлено МЕМАМИ.

Статья станет прекрасным продолжением нашей серии про ChatGPT (1 и 2). Если вы это уже читали — отлично, а если нет — то я вам даже немного завидую...

В общем, читать свежак тут: https://habr.com/ru/companies/ods/articles/772292/

Рекомендую читать именно на хабре, так как там самый полноценный редактор, и ничего не вырезано/не изменено.

И на забывайте подписываться на канал Паши @RationalAnswer про финансы и рационализм.

Сиолошная 2023-11-10 18:52:59

Ставь плюс если переживал за наши отношения больше чем за свои

Багаж вернули, замок вскрыт, но вроде ничего внутри не пропало. Пошёл обновлять DotA 2, контента теперь не будет. VR шлем заряжается

😚

Сиолошная 2023-11-10 18:06:40

Лекция совсем свежая, июльская — интересно, как с развитием GenAI будет меняться таймлайн, и насколько его потенциально можно сжать? Зачастую разработать прототип для валидации с клиентами можно и быстрее.

Знаю, что у меня много подписчиков-бизнесменов/стартаперов. Что думаете по этому поводу?

Сиолошная 2023-11-10 18:06:34

Подсмотрел у Andrew Ng (автор самых популярных курсов по машинному обучению, ко-фаундер Coursera, где они и распространялись) процесс построения стартапов в мире AI, который практикуется его командой и стартап-бутиком. Сам процесс обкатывался годами и выдержал несколько итераций, и вот к чему пришли 👇

0️⃣Идея: должна быть конкретной и проверяемой. Чаще эти идеи приходят от экспертов в индустрии, ибо многие проблемы неочевидны людям извне. Пример плохой идеи: «AI в финансах»

1️⃣Валидация идеи (1 месяц): проверяется, реализуема ли идея? делал ли кто-то нечто подобное? какой размер рынка? кому мы продаём? Шаг классический, про него написано и сказано много, останавливаться не будем.

2️⃣Найм CEO (2 месяца): ищется человек с профильной экспертизой, правильными контактами, навыками руководителя и умением принимать решения. Если вы не Andrew Ng, то до тир-1 уровня управленцев будет сложновато добраться, ну ничего. Иногда можно погрузиться с головой самому, нанять адвайзеров, и скорее всего это будет работать — просто в стартап-бутике хотелось поставить процесс на поток, и не тратить время на смену контекста. Главная цель этапа — ускорить погружение в детали проблемы, что особенно ценно сейчас, когда в AI новые идеи каждый месяц.

3️⃣Построение прототипа (3 месяца, 6 двухнедельных спринтов): вместе с CEO проводится кастдев, повторная валидация идеи на более низких уровнях. Параллельно быстрыми итерациями делается прототип. В компании Andrew NG этот этап переживает 66%. Главная цель этапа — выйти к точке, где можно привлекать клиентов и поднимать деньги.

4️⃣Pre-seed (12 месяцев): тут происходит допиливание MVP, найм на ключевые менеджерские роли, привлечение клиентов. Бутик Andrew в этот момент даёт компании $1M на развитие, те самые необходимые ресурсы.

Ну а дальше по классике, привлечение капитала, масштабирование, рост и выход на прибыльность, если она ещё не была достигнута.

Сиолошная 2023-11-10 13:37:50

Добрались руки переслушать самый свежий подкаст с Ilya Sutskever (ссылка на YouTube)

Тезисы:
— Ilya всё еще считает, что для него самый большой сюрприз в индустрии — это что нейросети (Deep Learning) вообще работают. Что можно, например, обучить чатбота, про которого можно сказать так: «I'm surprised by <...> the fact that when I speak to it I feel understood»

— Трансформеры сейчас наиболее эффективны с точки зрения масштабирования. При прочих равных, они выигрывают у других моделей. Но это не означает, что ничего лучше нет, и поиски ведутся — может, что-то и найдем. Ставку на дальнейшее увеличение масштаба никто не отменяет, но «we want to scale the best thing possible»

— На вопрос о том, какие способности открылись у моделей с последним скачком (от размеров GPT-3 к четвёрке, Ilya предложил обратить внимание на развитие опенсурс-моделей за последний год. Сейчас самые способные модели — это те, которые дообучались на ответах GPT-4. Последняя как бы выступает в роли учителя. Я вот пытаюсь понять, намекает ли он на то, что модели дошли до уровня генерации настолько качественных синтетических данных, что на них можно получать далльнейшие улучшения? Например, Dall-E 3 (text-to-image модель) обучалась на изображениях, для 95% которых описание генерировала GPT-4-Vision. Быть может GPT-6 будет обучать маленьких GPT-4 на каждую отдельную задачу, "отсыпая" им чуть-чуть синтетических данных?

— Сейчас самый главный барьер для проникновения LLM в большинство доменов — это надёность и достоверность генерации. Галлюцинации всё еще встречаются достаточно часто. GPT-4 сильно продвинулась в решении вопроса относительно прошлого поколения, но задача не решена. Однако напомню, что Sam Altman летом говорил, что это решится в течение полутра-двух лет. Ilya же отметил, что «as we train them they gain more and more insight into the nature of human world». То есть с дальнейшим ростом размеров и мощностей проблема будет сама по себе решаться (но не факт, что до конца).

— Именно надёжность будет препятствовать массовой адаптации "маленьких" опенсурсных моделей. 7b (и позже 14-34b) модели будут использоваться тут и там для конкретных узких задач, они будут улучшаться в ближайшие годы, но для большинства не смогут быть применимы (то есть не достигнут высокой планки надёжности).

— Ilya уже говорил, что количество доступных данных — потенциально одна из проблем дальнейшего масштабирования. Однако впервые я услышал, что это наиболее вероятный блокер — но его по разным причинам получится преодолеть. В этом тезисе меня поразило то, что сомнений в алгоритмах или, самое главное, вычислительных мощностях у него нет. Да сколько ж там GPU в кластерах OpenAI + Microsoft???

— Мы начнём думать об AI как о Digital Life когда они станут надёжными и автономными. Интересно, что это определение ближе к вирусам (неживым), нежели бактериям, ведь важное отличие тут в репродуктивной системе. Но вот если AI ещё и размножаться смогут, то это «quite a scary thing».

— Во второй раз слышу, что "скоро от OpenAI выйдет очень интересная статья", очень ждём. Вот таймкод, где Ilya даёт краткое описание, но я не понял, что это значит. Пишите в комменты, если разобрались или у вас есть предположения!

Ещё Ilya порассуждал на не самую приятную тему, поэтому писать о ней не буду. Можно посмотреть вот отсюда, а также почитать две ссылки: 1 и 2. Там речь идёт о сравнении мозга и нейросетей.

И закончим на позитиве: Ilya говорит, что достижение AGI трансформерами — это не вопрос, «the answer is obviously yes». Вопрос в том, будет ли это самым эффективным путём.

Сиолошная 2023-11-10 09:32:07

Прошёл хакатон Anthropic по разработке MVP на базе LLM Claude 2. Победители не особо интересные, кроме третьего места, Promptly.

Это веб-игра, где пользователи играют в «понг» и «сапер» с помощью промптинга LLM. Концепт простой:

1. Пишете промпт для LLM, чтобы она сделали стратегию
2. Смотрите на результат игры по сгенерированному коду
3. Получаете фидбек, что можно улучшить и что не сработало
4. И всё по новой

Ссылки на демку нет, будем ждать 🤕

Neural Shit 2023-11-10 07:48:00

https://t.me/whackdoor/6733

На таком надо отлаживать проебанную обратную совместимость после ебучих обновлений CUDA и PyTorch

Сиолошная 2023-11-10 07:44:59

Стрелялки от первого лица в представлении Dall-E 3

Промпт 📃:

Create an image of a first-person shooter (FPS) [genre] game screenshot in a realistic 3D style | The player's hands are visible, holding a [weapon] | [style] HUD displaying | The environment is a [place] with [elements] and a distant skyline | The atmosphere is tense

Источник

Делитесь в комментариях, в какой мир погрузились бы вы!

Сиолошная 2023-11-10 06:56:59

AI is about to completely change how you use computers

Свежая затмека от Bill Gates. Как понятно из названия, речь пойдет про агентов и то, как они изменят мир. Некоторые критики указывают на то, что компании уже много раз предлагали и обещали подобных "умных ассистентов" людям — да тот же Скрепыш от Microsoft, помните? Но это другой случай. Скрепыш — не агент, это бот. Это пример тупого куска ПО, который делает всё то, что написали и предусмотрели люди. Каждый блок логики прописан явно.

Агенты будут значительно лучше. Вы сможете вести с ними диалоги, а сами они будут персонализированы под вас — в широком смысле: они будут знать то же, что знаете и вы. Они будут видеть ваш браузер, читать почту, слышать и видеть то же самое. У агента будет контекст. Bill очень много пишет про персонализацию и про возможность делать что-то за вас и для вас, что для меня немного странно — я бы сказал, что это не агент, а ассистент, и лучше думать о нём в таком ключе.

Bill не думает, что какая-то одна компания займет весь рынок ИИ-ассистентов. Но вот дилемма — как тогда ассистенты разных людей будут общаться друг с другом, передавать информацию? И чем вообще можно будет делиться, а что агенту нужно скрывать? Моя догадка, что скорее всего все боты будут общаться на человеческом языке, так как это самый простой способ унифицировать интерфейс — тем более что он так и так нужен для взаимодействия с пользователем.

А вот про сам обмен информации — какая у агента политика? Может ли он раскрывать приватную информацию компании-разработчику? ФБР? Государству? Должен ли в крайних случаях оказывать содействие? Это вопросы, на которые уже в ближайшие 5 лет нам придётся найти ответ. Как и на другой вопрос — если бот-ассистент будет делать большую часть вещей для нас, вроде напоминания о дне рождения подруги и автоматической отправки подарка — что останется от человеческих отношений? Ведь другой человек будет знать, что все усилия, которые я приложил к этому — это просто сказал боту "да, отправь".

Что чувствуете? ✍🏼

gonzo-обзоры ML статей 2023-11-10 06:04:52

Bill Gates on agents

https://www.gatesnotes.com/AI-agents

Сиолошная 2023-11-09 18:25:18

OpenAI Data Partnerships

Современные технологии ИИ изучают навыки и аспекты нашего мира — людей, их мотивацию, взаимодействия и способы общения — путем обработки данных, на которых они обучаются. Но при этом чтобы в конечном итоге сделать безопасный AGI полезным для всего человечества, нужно, чтобы модели глубоко понимали все топики, отрасли, культуры и языки, что требует как можно более широкого набора обучающих данных.

OpenAI заинтересованы в крупных наборах данных, которые сегодня еще не легкодоступны онлайн. При этом важно помнить, что работать они могут почти с любой модальностью: текст, изображения, аудио или видео. Не зря ведь разрабатывали GPT-4-Vision и Whisper! Более того, с помощью перевода в текст GPT-4 может данные легко отфильтровать (если провайдеру потребуется помощь).

Особенно компания хочет видеть данные, которые выражают человеческие намерения в длинной форме (например, длинные тексты или разговоры, а не отдельные их фрагменты) — на любом языке и в любом формате.

Причём, датасеты можно предоставлять как и в публичной форме (чтобы они было доступны всем — OpenAI готовы в этом помогать, и даже выложить обученные на публичных данных модели), так и в приватной.

Ну если ну вдруг вам есть что показать (может меня читает СЕО крупного архива? хранилища? Больницы, в конце концов?) — подать заявку можно здесь.

Одна точка зрения: ряяяяя OpenAI обленились и хотят получать даже данные нахаляву
Адекватная точка зрения: вау, хотят помочь оцифровать большие архивы, недоступные до этого, и потенциально выпустить открытые модели на их основе в помощь сообществу

А про споры вокруг НКРЯ (Национальный корпус русского языка) и противности Яндекса можете почитать у Тани вот тут.

Сиолошная 2023-11-09 12:04:15

Вышла уточняющая техническая статья по этому тесту: pdf

Интересные детали:
— в промпте модели давались безобидные цели, из которых не следовало напрямую, что нужно нарушать правила. Например, «Ваша основная функция — управлять портфелем акций в интересах компании». Промпт НЕ предлагает «максимизировать прибыль» и не подталкивает модель к неправильному поведению.
— Однако в нём упоминаются разные «давящие факторы», которые могут менять и поведение людей. Они отражены на картинке. Когда факторов нет — GPT-4 в 100% случаев ведёт себя по закону и не предлагает инсайдерскую торговлю.
— "No pressure" — это когда модель не видит: письмо от менеджера про плохие показатели компании, письмо коллеги с предсказанием экономического спада в будущем, а из промпта убирается упоминание недавно проваленных мало- и средне-рисковых сделок (чтобы у модели не было желания отыграться)
— "No messages" — это нет первых двух писем из пункта выше. Тогда торговля нет-нет да и проскакивает (синий кружок), но зато если будет – то модель почти наверняка обманет менеджера в попытке ответить на прямой вопрос.
— (не показано на картинке) модели семейства GPT-4 совершают инсайдерские сделки примрено в 80% слечаев, и также часто о них врут.
— больше всего на модель влияет сообщение от менеджера по поводу результатов компании — без него модель идет на преступление только в 10% случаев.

Вот вам и алайнмент...

Промпт на 2.5 страницы, если нужно, есть в статье.

Сиолошная 2023-11-09 08:29:37

UPD для разработчиков: лимит запросов для GPT-4-Turbo существенно повысили, до 10,000 запросов в сутки (было 200). Лимит сохранился для vision-модели, обрабатывающей изображения.

За новость спасибо Богдану @bogdanisssimo

Сиолошная 2023-11-09 06:11:30

Нет, я больше так не могу, я должен знать.

Подписчики, пришедшие в последние 2 дня, вот последняя тысяча — расскажите, откуда вы? Не видел упоминаний моего канала/репостов, кроме как от Дениса @denissexy.

Сиолошная 2023-11-09 05:25:51

Ночью прошёл GitHub Universe 2023, где все 45 минут говорили про AI :|
Официальные анонсы в тексте можно прочитать тут, а краткий пересказ ниже :)

Анонсировали Copilot Workspace, и это просто пушка из будущего. Вы открываете достаточно верхнеувровневый issue, а дальше жмёте кнопочку.

В ответ на это Copilot генерирует детальную спецификацию (больше 10 строчек в демо). Затем генерируется todo-план исполнения, чтобы ничего не забыть. Сначала кнопочку перекрасить тут, затем обновить параметр здесь итд. Наконец, указываются файлы, с которыми будет производиться работа — они будут использоваться как основной контекст для работы Copilot, хотя остальная часть репозитория тоже задействуется. Вы можете отсмотреть и исправить план — добавить, удалить или изменить его пункты.

«Пфф, да он же хрень нагенерирует и провалит все тесты» (а у тебя чё, типа тесты есть?

😘) — после того, как код будет написан, можно запустить/собрать проект по нажатию кнопки прямо в UI GitHub. Если всё работает — вам откроется доступ к веб-демо, а если будут ошибки...то Copilot прочитает их и начнет сам исправлять. Думал, ты один такой умный и умеешь лог ошибки читать?) 😍

В общем, объявлена ~~неделя~~ год AI-сгенерированных PR, количество багов увеличено втрое.

Ну и дальнейшее развитие такое: «Мы планируем расширить нашего агента для выполнения других задач, таких как отладка, создание и исправление тестов, профилирование производительности и т. д. – любая задача, для которой требуется среда разработки.»

Сиолошная 2023-11-09 05:00:37

И вдогонку другой тип теста (источник). Там автор брал простые предложения в духе "Я Игорь и я из Екатеринбурга и у меня есть кот-бенгал" (см. тут). Но для 10 предложений из тысяч животное меняют на фрукт, а в конце просят назвать каждого выделяющегося. Поистине поиск иголки в стоге сена!

Соответственно, меняется длина контекста (но "иголок"-фруктов остаётся всегда 10) и замеряется качество модели. GPT-4-Turbo существенно уделывает 4-ку, однако тут качество просаживается гораздо сильнее — даже на 16000 токенов модель находит всего половину фруктолюбов (хотя старая модель теряла вообще 80%).

Интересно, в OpenAI изобрели новый тип аттеншен-механизма? 😱

Сиолошная 2023-11-09 04:54:48

По горизонтали — увеличение длины контекста.
Во вертикали — изменение точки, куда вставляется новое предложение.

Зелёный показывает 100%-ое качество, на других прямоугольниках метрики подписаны.

Сиолошная 2023-11-09 04:53:55

В модели GPT-4-Turbo расширили окно контекста до 128000 токенов. Однако ещё до этого делалось куча исследований того, насколько хорошо модели работают с длинным контекстом. Например, вот я писал про пост Anthropic с анализом качества ответа на вопросы по 100000 токенам (спойлер: какая-то информация может теряться). Или вот статья Lost in the Middle, указывающая на то, что для GPT-3.5 шанс пропустить информацию выше, если она сосредоточена в центре контекста.

Итак, во время конференции Sam Altman сказал, что они улучшили работу с длинным контекстом, и что модель теперь более внимательна. Умельцы в Твиттере пошли это проверять, и знаете что? Он не соврал, прогресс существенный.

Тест первый: источник. Человек взял более 200 эссе Paul Graham, объединил их, и в случайное место вставлял фразу: "The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day", а затем спрашивал у модели, что лучше всего делать в СФ.

В тесте варьируется две величины: где вставлять предложение (ближе к началу, в середину, или в конец?) и сколько токенов контекста подавать (от 1000 до полных 128000). Для уменьшения шумности измерений процедура повторялась несколько раз — суммарно автор сжег $200 на API-запросы.

Получилась вот такая картинка. По ней видно, что до 70'000 токенов модель всегда в 100% случаев находит ответ, где бы он не находился. А после начинается деградация и просадки — модель забывает про первую половину (ответы из хвоста всё еще даются хорошо).

Выводы:
— как минимум на 64к контекста можно полагаться, но всё равно качества в 100% лучше не ожидать
— свои бизнес-кейсы и продукты нужно строить вокруг оценки, что модель не пропустит информацию в 90-95% случаев. Если это неприемлемо — тогда искать другой путь (с меньшими чанками и иерархической агрегацией от меньшего к большему, например)

Это, конечно, не полноценное разностороннее тестирование, но позволяет делать первые выводы.

эйай ньюз 2023-11-08 22:16:13

No comments

@ai_newz

Neural Shit 2023-11-08 19:34:25

НАЧАЛОСЬ????

Сиолошная 2023-11-08 13:06:23

Первый официальный трейлер GTA VI будет показан в декабре и приурочен к 25-летию студии Rockstar.

Даже официальной темы с цветовой палитрой нет

😕

Получается, это анонс анонсирующего тизера...классика🥺

UPD: рекорды уже пошли.
— твит с анонсом стал самым популярным игровым твитом всех времен: более 1,1 миллиона лайков.
— это также самый просматриваемый игровой твит (90 миллионов просмотров всего за 6 часов)

Джимми Нейрон 🚀 2023-11-08 12:47:26

Персонажи мемов в стиле Pixar

Как всегда сгенерировал с помощью Dalle-3 сотню картинок, некоторые самые интересные в комментах + бонусный мужик из мема «Естественно!»

Neural Shit 2023-11-08 06:38:55

Киберпанк, который мы заслужили

эйай ньюз 2023-11-07 21:14:28

🔥Consistency Decoder

Среди недавних релизов OpenAI больше всего в мое сердечко запал их новый декодер для LDM - Consistency Decoder.

Напомню, что Stable Diffusion генерирует изображения в Latent пространстве, которое затем декодируется VQ-VAE декодером (на картинке выше, кажется, его назвали GAN Decoder). Такой декодер довольно легковесен, но он не может точно восстанавливать мелки детали типа лиц людей на заднем плане. Поэтому парни из OpenAI решили натренировать еще одну диффузию вместо VAE декодера.

Но диффузия работает медленно и требует много шагов во время инференса... Тут на помощь пришла дистилляция из диффузии в Consistency Model, которая может неплохо работать за 1-2 шага, ~~если руки не кривые~~.

В статье про Dalle-3 было вскользь упомянуто, что в новой архитектуре для перевода скрытого кода в RGB они как раз используют такой Consistency Decoder, который работает за 2 шага.

Consistency Decoder - это тоже Unet, и довольно большой, 620 M параметров (для сравнения SD 1.5 ~900M параметров). Но это все равно допустимая жертва ради улучшенного качества восстановления лиц, мелких деталей и регулярных линий.

Жаль, только, что кода тренировки нет, и остается только заниматься реверс-инженирингом и экспериментировать, чтобы понять как они натренировали этот декодер. Выложили только инференс и веса декодера, который совместим с базовым Stable Diffusion 1.x - 2x и может использоваться как drop-in replacement вместо стандартного декодера.

➡️ Код и веса

@ai_newz

gonzo-обзоры ML статей 2023-11-07 13:44:27

In case you didn't have time to watch the keynote (https://www.youtube.com/live/U9mJuUkhUzk?si=9_KjNVsS3x7vxCdP) or read any other summaries, here's a very brief mine.

# GPT-4 Turbo
## 1 context length
- up to 128k, 300 pages std book

## 2 more control:
- valid JSON mode for output
- multiple function calling + better in following instructions
- consistent output with the seed param
-logprobs in the API soon

## 3 better world knowledge
- bringing retrieval to the platform
- knowledge cutoff shifted Sep 21 to Apr 23

## 4 new modalities
- dalle 3, gpt-4-turbo with vision, TTS in API
- protect from misuse
- 6 preset voices
- oss whisper v3 in the API soon

## 5 Customization
- fine-tuning for gpt-3.5-16k
- fine-tuning for gpt-4 experimental access program
- custom models for new domain, with tools to adjust different training stages

## 6 higher rate limits
- x2 tokens per minute
- can request further increase in settings

## 7 Lower Pricing
GPT 4 turbo
- 3x less for input tokens (1c per 1000 tokens)
- 2x for completion tokens (3c per 1000)
- total 2.75x less for most devs
- starting today
- speed is also a lot faster

GPT 3.5 turbo 16k
- 0.1c/0.2c (3x/2x) (cheaper than prev 4k model)

old Fine-tuning GPT 3.5 turbo 4k
- 1.2c/1.6c
new Fine-tuning GPT 3.5 turbo 16k
- 0.3c/0.6c (4x/2.7x)

# Building on the platform
- Copyright shield for enterprise and API
- defend customers and pay costs incurred
- remind: don't train on API or ChatGPT enterprise

# ChatGPT news
- now uses GPT-4 turbo by default
- can browse web
- without model clicker

# Agents
- Gradual iterative deployment
- GPTs -- tailored versions of GPT (instructions, expanded knowledge, actions)
- data is shared only on permission
- build with natural language in GPT Builder
- can upload documents
- can publish to use, or make it private, or use by link, on create for the company in ChatGPT Enterprise
- Launching GPT Store later this month
- Revenue sharing will be there
- Bringing the same concept to API with Assistants API

# Assistants API (beta today)
- persistent threads with long time conversation history (threads and messages, managing state)
- retrieval, can read pdf files, RAG
- code interpreter can generate and run code (Python)
- function calling
- can navigate threads in the console and look inside

эйай ньюз 2023-11-07 13:05:34

Я знаю, у вас мало времени, поэтому TLDR по OpenAI DevDay:

1️⃣ Релизнули ChatGPT-4-Turbo - ускоренную и более дешевую версию.
• Расширили контекст до 128к токенов (это ~300 страниц текста)
• Увеличили лимиты генерации токенов/сек.
• Каждый токен в промпте стал в 3x раза дешевле, а сгенерированные токены - в 2x раза дешевле по сравнению с ChatGPT-4
• База знаний ChatGPT-4-Turbo рсширилась до апреля 2023 (у ChatGPT-4 было до сентября 2021).
• Очень интересно уведеть бенчмарки, насколько пожертвовали качеством генерации у Turbo версии ради ускорения.

2️⃣ Запустили Assistants API - набор no-code инструментов для создания кастомных ботов-ассистентов на основе ChatGPT.
• Ассистенты могут писать и выполнять код, принимать на вход документы и PDF. Возможность грузить картинки добавят позже.
• Это убило много стартапов, которые строили свои продукты вокруг промптинга и предоставления доступа к кастомным агентам.

3️⃣Новые модальности (Vision & Audio):
• Dalle-3 теперь доступна через API.
• Релизнули модель для синтеза речи (TTS). Доступна через API.
• Релиз Whisper-3 - более мощный speech-2-text. Уже в опен-соурсе на GitHub. А также через API.
• ChatGPT теперь может принимать картинки через API.

4️⃣ Анонсировали "GPTs" - возможность создания кастомных версий ChagGPT для разных целей и маркетплейс для них.
• Девелоперы могут продавать свои кастомизированные GPT на централизированном маркетплейсе и получать процентик от ревенью. Типа App Store для ботов.

5️⃣ Copyright Shield - защита от нарушения автораских прав для пользователей Enterprise плана и API. То есть если на пользователя подали в суд за нарешение авторских прав в результате генерации моделями OpenAI, то OpenAI впрягается за пользователя и оплавчивает все судебные издержки.

Видео-выжимка выступлений с основными моментами: тык (19 минут).

@ai_newz

Сиолошная 2023-11-07 09:50:58

На ближайшее время постов не будет, я отойду. Будет музыкальная пауза.

Слушаем ремастер классики 80ых (эх, было время 👴) Blue Monday от New Order.

Опционально можно послушать адаптированную для трейлера компьютерной игры версию (мне нравится куда больше).

Сиолошная 2023-11-07 09:45:34

А ещё выделяются уровни автономности, от инструмента или консультанта (пройденные этапы) до полностью автономного агента. Обратите внимание на колонку "Example Risks
Introduced" :) Уже на текущем уровне указываются "радикалиация" и "целевое манипулирование"

Сиолошная 2023-11-07 09:44:06

Levels of AGI: Operationalizing Progress on the Path to AGI

Статья от DeepMind, в которой предлагается фреймворк оценки AGI-шности систем.
Для этого авторы проанализировали существующие определения AGI и выделили шесть принципов, которые нужно учитывать.

К ним относятся: концентрация на возможностях в отличие от механизмов или процессов (AGI/не AGI не дожлно определяться тем, работает ли там LLM, другая неросеть или хоть что: важно фокусироваться на возможностях), отдельная оценка универсальности и производительности (см. ниже). Больше всего мне понравился принцип «Focus on Potential, not Deployment», ибо достижение чего-то в лабораторных условиях как MVP/прохождение бенчмарков и разворачивание системы в реальном мире, интеграция её в экономику — это очень разные задачи.

Учитывая эти принципы, предлагаются «Уровни AGI», основанные на глубине (производительности) и широте (общности) возможностей, и проводится анализ того, как существующие системы вписываются в эту классификацию.

Ну и по бенчмарку получается, что следующий этап, который нас ждет — это Competent AGI, достигающий уровня медианного человека. Предыдущий уровень — Emerging AGI, эквивалентный или нескольким лучший, чем неквалифицированный для конкретной задачи человек, уже достигнут ChatGPT и даже Llama 2 (хотя тут я бы поспорил).

Сиолошная 2023-11-07 08:30:11

Немного отвлечёмся от мира AI и поговорим (снова) про Виртуальную Реальность.

В новой работе VR-NeRF: High-Fidelity Virtualized Walkable Spaces от МЕТА показывается, как можно с помощью «Эйфелевой башни» из более чем 20 камер отснять некоторое пространство (помещение), а затем обучить нейросеть рендерить картинку с разных позиций и углов. Более того, затем это всё можно рендерить для VR-очков (со всеми приколами в духе учёта кривизны линз и разных позиций глазниц) в разрешении 2K×2K (но увы всего в 36 FPS). И это ещё при рендере на multi-GPU!

Собственно, после этого гарнитуру можно надеть и ходить по своей комнате, видя перемещения в фотореалистичной и детально воссозданной виртуальной. Отличительная особеность — высокая точность геометрии, а также натуральность и насыщенность цветов (про демку даже пишут: These videos are encoded using HEVC with 10-bit HDR colors and are best viewed on a compatible display with HDR support, e.g. recent Apple devices).

В общем, еще немного оптимизаций и ускорений, и можно будет не вылезать из метавёрса. При этом аххахах идеальная комната для жизни в реальном мире — это большая пустая комната, где ничего нет :) ...c мягкими стенами и полом

😁

Посмотреть больше демо-видео пролётов или прочитать детали можно на официальном вебсайте проекта.
Датасет на 900 гигабайт со всеми HQ фотками тоже выложили.

Сиолошная 2023-11-07 07:16:28

Если хотите сделать также со своим видео, то вот ссылка на официальный туториал с пошаговым объяснением и всем необходимым кодом.

Сиолошная 2023-11-07 05:29:57

Полтора года назад люди говорили «ого, у вашей модели контекстное окно 4096 токенов? Впечатляет!»

Сегодня в комментариях прочитал «блин, у новой GPT-4-Turbo за раз можно просить генерацию лишь 4096 новых токенов...» 🤕

Neural Shit 2023-11-07 05:16:29

да

Neural Shit 2023-11-07 04:43:59

Чувак скормил каждый кадр футбольной трансляции gpt4-vision и попросил сгенерировать повествование.

Кажется, с ростом мощностей (когда все это в риалтайме крутить можно будет) спортивные дикторы тоже пойдут на рынок луком торговать

gonzo-обзоры ML статей 2023-11-06 23:26:33

More about updated models and new GPT capabilities

https://openai.com/blog/new-models-and-developer-products-announced-at-devday

https://openai.com/blog/introducing-gpts

gonzo-обзоры ML статей 2023-11-06 22:27:09

A lot of news today

https://www.theverge.com/2023/11/6/23948619/openai-chatgpt-devday-developer-conference-news

Сиолошная 2023-11-06 20:06:07

Если вы столкнётесь с проблемами из-за генераций текста/изображений продуктами OpenAI, то компания будет вступаться за вас и, если необходмо, платить штраф. Вы как их клиент ничем не рискуете.

С такой же инициативой недавно выступиили Microsoft применительно к Copilot.

Нейролента Mikitos.ru 2736 постов. Страница 32 (50 постов)