Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 5 (50 постов)

Репосты из тематических каналов

эйай ньюз 2024-04-13 18:54:09

Там на NeurIPS (топовая конфа по AI) объявили о создании трека для старшеклассников, чтоб они сабмитил научные статейки еще со школы.

Кажется, без двух статей на Нипсе скоро даже в бакалавриат брать не будут.

👀

Сейчас уже на PhD в топовые лабы не пробиться без top-tier публикаций. Я еще на дурничку проскочил в 2015, когда не было такого хайпа, и почти ни у кого до аспирантуры не было серьезных публикаций.

П.с. напишите в комментах, если хотите пост с моим мнением по поводу "нужно ли делать PhD".


@ai_newz

эйай ньюз 2024-04-13 13:31:16

OpenAI запустила новую модельку GPT-4 Turbo в чатик. Теперь все подписчики могут на себе оценить возможности новой версии. Судя по твитам, помимо прочих улучшений и матеши, ответы стали более человечными. Жду ваши тесты в комментах! БТВ, катофф ее знаний все еще декабрь 2023.

Должна появиться у всех через какое-то время.

@ai_newz

эйай ньюз 2024-04-13 12:01:50

Илонка молодец, Илонка анонсировал новую версию своей языковой модели Grok 1.5V. Теперь она понимает картинки. Судя по табличке с бенчмарками, Vision часть модели работает плюс-минус на уровне GPT-4V (правда, непонятно с какой версией они сравнивали).

Ещё и новый бенчмарк (RealWorldQA) зарелизили, для проверки того, как хорошо модель умеет понимать загружаемые фото. Там 700 фото и вопросов к этим фото, нацеленных оценить именно пространственное мышление модели – с этим у них часто проблемы, и Grok 1.5V на этом бенчмарке сильно лучше чем GPT-4V и Claude 3 Sonnet.

Доступ обещают "скоро", но базовой Grok 1.5 обещали на прошлой неделе, а всё ещё не релизнули. Напомню, что Grok-1 выпустили в опенсорс только месяц назад, но модель слишком большая, чтобы быть юзабельной (314 B параметров).

Ждем веса и код новой модели!

😑

@ai_newz

Метаверсище и ИИще 2024-04-13 10:07:16

Вынесу из коментов такое наблюдение.
Я тоже замечал, что chatGPT довольно "злопамятный", ну или просто занудный - помнит все разговорчики и ведёт себя соответственно. Даже если я открываю новые чаты и генерю новые картинки.
Но чтобы Automatic1111 вел себя также - это уже совсем интересно.

Как думаете - это теория заговора, когнитивное заблуждение или имеет место быть на самом деле?

"Заметил что у SD на а1111 есть галлюцинация с предыдущей генерации. Даже если ты откроешь новую чистую вкладу а1111 и сделаешь промпт с надписью  1, то он тебе нарисуется что-то отдаленно похожее с прошлой генерации. Как будто к кеше осталось немного инфы

Но это часто помогает найти нужный результат, Как бы такой метамикс для создание чего то прям нового, но в тоже время подходящего по задаче"


P.S. есть такое явление, когда chatGPT отвечает Очень быстро, это значит, что он нашел у себя в кеше (на том серваке, на котором крутится ваш чат), похожий запрос и отвечает по нему. "Похожий" не в смысле тестового совпадения, а похожий в векторном пространстве эмбедингов, похожий "по смыслу". Где похожие смыслы - это области латентного пространства, близкие дуг другу.
Таким образом он экономит время на ответы.

Метаверсище и ИИще 2024-04-13 09:59:13

Это вроде не фейк. Поэтому я дрожащей рукой поднимаю горькую за стендаперов.
Не чокаясь.
Получается, что и юмор тоже токенизируется....
Скоро будем просить ИИ попетросянить с утра для поднятия настроения.
И да, юморок кондовый, но вы же помните, какие картинки были два года назад.
https://www.udio.com/songs/aviCwYvPnTnhb4qHq5iAmZ

Техасский Вестник 2024-04-13 09:00:53

Новый рекорд: один ускоритель Falcon 9 переиспользовали 20 раз.

Этой ночью ускоритель под индексом B1062 совершил свой исторический 20-ый запуск с последующей посадкой на баржу в океане. Пока ведутся жаркие споры, что «многоразовость это тупиковое и дорогое направление», конкретно эта ракета всего за 3.5 года совершила 20 полётов и в общей сложности доставила 8 человек на орбиту, более 261 тонн полезной нагрузки и около 500 спутников.

Сейчас SpaceX пушит сертификацию на полёты до 40 раз для одного ускорителя Falcon 9, так что следующий рекорд придётся подождать.

Denis Sexy IT 🤖 2024-04-13 08:58:05

Наткнулся на прототип детской читалки (?) – внутри маленькая LLM и быстрая версия Stable Diffusion, все работает локально, без подписки и интернета

На видео показано приложение которое пишет сказку и параллельно рисует картинки, но в теории можно сделать любые аппы: и текстовые РПГ с диалоговыми окнами, и просто читалку реальной книги с визуализацией сцен и тп. тд.

Думаю, через какое-то время это будет прям направление устройств как для взрослых, так и для детей.

Сайт проекта тут:
https://www.pamir.ai/

Предзаказ пока выглядит как гугл-форма и стоит $99-$200, я конечно же «заказал» 🤌

Neural Shit 2024-04-13 04:14:06

Мне надо такую штуку к спине приделать, а то я обленился настолько, что уже даже работаю лёжа.

Сиолошная 2024-04-12 17:41:25

Сегодня День космонавтики, поздравляю всех любителей космоса и сочувствующих!

63 года назад один человек согласился залезть в маленький неуютный шарик, закреплённый на вчерашней межконтинентальной баллистической ракете, и полететь куда-то наверх. Расчётная вероятность успешного завершения полета корабля составляла 87.5%, при этом тогдашние требования к уровню надежности составляли 95% — но космос, он про смелых и решительных.

Ко всеобщей радости, Юрий Гагарин вернулся целым и невредимым, а человечество вступило в космическую эру 🥳

Ровно через 20 лет после этого на орбиту полетит первый Шаттл, и сразу с людьми — по тем временам это был беспрецедентный риск. С современными нормами NASA и других агентств такое представить трудно. В том пуске меры по спасению экипажа не были прописаны для всех этапов — вот случись чего, и всё!

Сейчас же, в наше время, мы наблюдаем за тестированием самой большой и революционной системы запуска — и как жаль, что некоторые участники космической гонки не застали этого

🥲 в этом десятилетии нам есть, что им показать!

эйай ньюз 2024-04-12 15:52:25

VoiceCraft: Zero-Shot редактор речи и Text2Speech

VoiceCraft - это нейрокодек, который может в редактирование записанной речи, позволяющий заменять сказанные слова на новые. На все про все ему нужно пару секунд референса, который можно взять из остальной записи.

Получается, можно полноценно редактировать какой-нибудь подкаст, вырезая лишнее и генеря заново текст.

Модель представляет собой авторегрессионный трансформер на 830М параметров, обученный на Gigaspeech XL. Чтобы перевести аудио в latent space используется модель EncodecModel с 56М параметров, натренированная по принципу VQGAN.

VoiceCraft генерит 13 секунд аудио примерно за 8 секунд на RTX 3080 (те быстрее самой записи), что по идее дает возможность редактировать речь в риалтайме.

Пока доступен только английский язык.

В перспективе, как уже сказано, можно использовать для монтажа подкастов, а также закадрового голоса. На данный момент, это вроде как SOTA из того, что есть в опенсорсе.

Ну а если прикрутить еще какой-нибудь wav2lip, то и видосы тоже можно будет редачить.

Статья
Сайт проекта с примерами
Код
Потыкать самостоятельно в хаггинге
Notebook

@ai_newz

эйай ньюз 2024-04-12 13:29:30

🔥 Вышла Алиса нового поколения, которая научилась общаться как мудрый и внимательный собеседник

Про апгрейд из анонса: сейчас Алиса может ответить на 95% вопросов, тогда как раньше она отвечала на 40% и остальное предлагала найти в поиске. Все это потому что подключили новую модель – YandexGPT.

Общение тоже изменилось: Алиса научилась объяснять сложные вещи простыми словами, генерировать идеи и удерживать контекст беседы. Даже если пользователь отвлечется и через время задаст ей дополнительный вопрос.

Ещё выпустили опцию «Про» на мощнейшей на сегодня нейросети Яндекса — YandexGPT 3 Pro. Там есть все скиллы для брейншторма, придумывания концепций и даже виртуальная няня.

На русском языке, YandexGPT 3 Pro обходит GPT-3.5 Turbo в 58% случаях на side-by-side сравнениях.

@ai_newz

МТС О̶ф̶и̶ш̶и̶а̶л̶ 2024-04-12 13:02:00

GPT от МТС заняла 2 место в лидерборде альянса ИИ, обогнав вообще всех, потому что первое место — человеческий бенчмарк.

нейросетка, ты просто космос 🫶

Метаверсище и ИИще 2024-04-12 11:46:32

Тут вот интернетик кипит новостями про Apple AI-Focused M4 Chips Starting in Late 2024

Держите подробностей. 512 гиг объединенной памяти звучит солидно.

По слухам, Apple уже близка к производству процессора M4, и ожидается, что он будет представлен как минимум в трех основных вариантах. Чипы под кодовыми названиями Donan для младшего класса, Brava для среднего и Hidra для высшего. Чип Donan будет использоваться в MacBook Pro начального уровня, MacBook Air и Mac mini низкого уровня, а чипы Brava - в MacBook Pro и Mac mini высшего уровня.

Чип Hidra предназначен для Mac Pro, что позволяет предположить, что это чип уровня "Ultra" или "Extreme". Что касается Mac Studio, то Apple тестирует версии с еще не выпущенным чипом M3 и разновидностью процессора M4 Brava, который, предположительно, будет более высокого уровня, чем чипы M4 Pro и M4 Max "Brava".

Настольные компьютеры Mac версии M4 могут поддерживать до 512 ГБ объединённой памяти, что станет заметным скачком по сравнению с текущим лимитом в 192 ГБ.

Чипы M4 будут построены по тому же 3-нанометровому техпроцессу, что и чипы M3, но поставщик Apple компания TSMC, скорее всего, будет использовать улучшенную версию 3-нм техпроцесса для повышения производительности и энергоэффективности. Apple также планирует добавить значительно улучшенный нейронный движок с увеличенным количеством ядер для задач искусственного интеллекта.

Метаверсище и ИИще 2024-04-12 11:33:13

Ничего себе.
Это реалтайм и полная задержка от голосовой команды до видео ответа - всего 1.5 секунды! С липсинком!!

Работает на 3060 12 GB
Nvidia на 8 GB, скорее всего, тоже хватит(!!)

Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp

Код?
А пажалста:
github.com/Mozer/talk-llama-fast

Всем срочно ставить на выходных и тестировать.

Русский вариант: https://www.youtube.com/watch?v=ciyEsZpzbM8
Английский язык: https://www.youtube.com/watch?v=N3Eoc6M3Erg

Метаверсище и ИИще 2024-04-12 09:35:21

Я немного скептически отношусь ко всем этим курсам промптинга для chatGPT. Если вы посидите в тишине с моделью один на один, то довольно быстро поймете, как решать ту или иную задачу.
Кроме того, в разных ситуациях требуются разные подходы, и если пихать одни и те же рецепты в разные задачи, то результат может быть забавным.

Тем не менее нашел очень приличную работу по обобщению техник промпт-инжиниринга, в которой даже есть акцент на разработку приложений с помощью LLM.
Там даже есть про RAG, вывод в JSON, много ссылок на статьи, а не просто рецепты типа chain of thoughts.

Ну и оформлено очень хорошо.

Сам гайд тут:
https://big-picture.com/media/the_prompt_engineering_cheat_sheet.pdf

А инструкции и пояснения тут:
https://medium.com/the-generator/the-perfect-prompt-prompt-engineering-cheat-sheet-d0b9c62a2bba

эйай ньюз 2024-04-12 09:33:34

⚡️Lightning Studio: Альтернатива Google Colab если хотите поиграться c модельками или заняться пет-проектом

Я тут случайно набрел на такую штуку. Не знал, что Lightning, та контора, что делает фреймворк Pytorch Lightning, ещё и пилит свою студию. По сути это онлайн среда для разработки и прототипирования deep-learning моделек. Тут все что нужно есть: и терминал, и VS Code, и ноутбуки, и удобный доступ к файловой системе и persitent хранилище (а не грёбаный google drive).

Фичи, которые есть тут, но нет в Google Colab:
- free persistent storage, то есть локальные файлы не пропадают, когда вы закрыли ноутбук
- free persistent environments
- unlimited background execution
- VSCode, PyCharm, (any IDE) integration

Дают бесплатно 22 гпу-часов (T4) в месяц, плюс можно докупить еще, если нужно. Платишь только за время, когда GPU активирована. Можно отмасштабировать и арендовать 8xA100, если нужно натренировать что-то серьезное.

https://lightning.ai/

@ai_newz

Denis Sexy IT 🤖 2024-04-12 07:46:14

Когда последняя смена перед началом захвата кожаных ☕️

Сиолошная 2024-04-11 21:20:46

Завсегдатаи lesswrong и борцы за alignment в шоке — самая важная команда OpenAI потеряла двух сотрудников.

Причина увольнения: утечка информации (какой - не сообщается). Кому сказали, что сказали — 

🤷‍♂️

Если источники The Information верны, то Pavel Izmailov и Leopold Aschenbrenner были уволены. Они оба были частью команды Superalignment (возглавляемую Sutskever'ом), целью которой был (и есть?) контроль и управление сильным искусственным интеллектом (сверхинтеллектом), который, к примеру, мог бы двигать научный прогресс человечества.

Вероятно, было проведено какое-то внутреннее расследование, которое закончилось совсем недавно (или же само событие произошло вот только-только), ибо Pavel буквально месяц назад презентовал свою статью на OpenAI Forum (я смотрел live-трансляцию) и был полноценным сотрудником (не сидел в сторонке, как Ilya сейчас).

Статус Sutskever'а пока не ясен. С одной стороны его не уволили в этот же заход, с другой — от него всё ещё нуль новостей, и надежды на возвращение меньше с каждым днём 🙁 моя, к сожалению, пессимистичная ставка — возвращения не будет 😅

В целом очень жалко — людей, которые хотели бы делать Alignment, очень мало, а тех, кто мог бы — ещё меньше. На момент последней статьи от Superalignment Team в авторах числилось 12 авторов, включая Ilya 🫡 а Jan Leike, второй руководитель команды, часто в подкастах сокрушался, что людей мало, и он готов хайрить почти всех (если скиллсет подходит).

---

Могло ли быть так, что эти двое были источниками The Information, и больше надёжных сливов мы не увидим?
😰
(но кто тогда слил новости про увольнение сливальщиков? кек)

Метаверсище и ИИще 2024-04-11 18:39:10

Тут у меня родилась идея для челленджа.
Помните, я постил про сервис ИИ-музыки Loudly.
Приводил оттуда три трека.
Так вот, два из них Shazam прекрасно распознал.
И если к первому, он нашел как бы похожий трек.
То вот к этому треку (Building Snakes) он нашел в сети полное совпадение:
https://www.loudly.com/music/song/Building%20Snakes-2d8275ba-277b-11ec-b46c-064f3e9f608e

https://www.youtube.com/watch?v=uTREaiakPPQ

Я полез смотреть, что это за трек и попал в какую-то кроличью нору. Рандомный контент, дикие фотки, случайные треки.
Хотя именно этот трек загружен еще в 2022.
Я блуждал по ссылкам с ютюба и попадал в какой-то ад. Что это вообще?

Года три назад я читал про ботов, которые заливают в ютюб рандомный контент тоннами, чтобы один из каналов могу выстрелить. В основном генеративная (но не ИИ) музыка с картинками.

Сейчас я понимаю, что круг замкнулся.

ИИ-генераторы, подсовывают мне музыку из старых попыток завалить ютюб странным контентом.

Расскажите мне, что это за совпадение, что это за странный канал и как это все работает.

А челендж в том, чтобы находить с помощью Shazam совпадения ИИ-треков с реальными треками.
Не пробовали?
Я вот попробовал.

эйай ньюз 2024-04-11 15:32:50

эйай ньюз pinned «Еще раз обо мне В канал пришло много новых людей, решил еще раз представиться и сделать подборку интересных постов. Меня зовут Артем, я из Беларуси. Сейчас живу в Швейцарии и работаю в Meta GenAI на позиции Staff Research Scientist. До этого сделал PhD…»

эйай ньюз 2024-04-11 11:58:53

Еще раз обо мне

В канал пришло много новых людей, решил еще раз представиться и сделать подборку интересных постов.

Меня зовут Артем, я из Беларуси. Сейчас живу в Швейцарии и работаю в Meta GenAI на позиции Staff Research Scientist. До этого сделал PhD в университете Хайдельберга, в той самой научной группе, где придумали Stable Diffusion. За время в лабе я опубликовал кучу статей на топовых конфах. В перерывах между статьями я оттачивал свои эйай навыки на практике, упарываясь на Kaggle соревнованиях (я очень азартный тип в этом плане) – добрался до Top45 в мировом рейтинге с несколькими золотыми медалями. Больше про меня есть в этом посте и по тегам #personal и #мойпуть. [Если что, то я на фотке слева]

Подборка личных постов:
▪️Рассказ о том, как я вкатился в AI/ML
▪️Откуда AI хайп и как было, когда я начинал свое PhD
▪️Видео-интервью со мной
▪️Вот здесь делюсь личной радостью, ведь мы завезли диффузию в инсту,
▪️На основе emu, которую лично я оптимизировал, чтоб вот быстро и чётко
▪️Еще про то как мы сделали и ускорили генеративные стикеры для инсты, WhatsApp и FB Messenger.
▪️Про наш громкий релиз Imagine Flash, риалтайм генерацию картинок – проект, который я вел.
▪️Моя статья об ускорении диффузии с помощью кеширования, без потери качества конечно же.
▪️Как я приделывал ноги Аватарам в метаверсе [ч1, ч2], пока работа в Meta Reality Labs.
▪️Пост-апдейт и про, то как я недавно стал стафом в Meta GenAI (ну вы поняли).

Из еще почитать:
▪️Пост про грейды в бигтехе [ч1, ч2]. Все же в курсе, что сеньор это еще не все?:)
▪️Список книг по ML, без комментариев
▪️Гайд по ускорению диффузии [ч1, ч2], так сказать полевой опыт.
▪️Разбор того, как дистиллировали sd3 в 4 шага, который репостнул CEO бывший CEO Stability
▪️Список лекций и туториалов про 3D Human Understanding от топовых ученых из этой сферы.
▪️Лонгрид про парижский стартап Mistral и мое знакомство с фаундером.
▪️Пост про GR00T, модельку от nvidia, которая может стать chatgpt моментом в робототехнике.
▪️Еще вот про те самые чаевые в $200 для LMM и финальный список всех трюков, чтобы вставить в промпт по умолчанию.

Недавно запустился еженедельный #дайджест с кратким обзором новостей.

А также в ленте можно найти 1000 и 1 разбор свежих пейперов с мои авторитетным мнением, еще есть рубрика #ликбез с разбором базовых тем и #карьера с моими мыслями/байками по карьере в AI/ML.

Ну что, поздравляю всех новоприбывших! Обнял ❤️

@ai_newz

Дима режиссер 2024-04-11 11:09:57

Ну, за звукорежиссеров...

Иногда кажется, что в нашем мире все уже изобретено и ты привыкаешь к роли потребителя.
Но порой случается и что-то открыть самому.

Делюсь своей находкой с миром, так как штука реально работает и должна быть взята на вооружение всеми звукорежиссерами, режиссерами и продюсерами.

Как часто на площадке режиссерам запрещают использовать генераторы, ветродуи и прочую шумящую технику, потому что есть задача записать "чистый звук". То есть актерские диалоги, которые потом не надо переозвучивать. Сколько сложностей возникает из за этого. Сколько лишнего времени и сил тратится потом на переозвучание актерами их же сцен, сведение этих голосов, которые, будучи записаны в студии, уже не звучат как оригинальный голос с площадки.

Слава научному прогрессу и нейросетевым алгоритмам, изобрели систему, которая позволяет разделять уже готовые музыкальные треки на вокал, инструментал и прочие элементы. До недавнего времени все это работало так-себе, были слышны множественные артефакты и глюки. Но, наконец, технологии дошли до того уровня, когда уже можно "выпивать за звукорежиссеров, не чокаясь", как говорит мой старый знакомый Сережа Цыпцын.

Так вот, я покопался в настройках новых моделей и обнаружил, что при помощи этих алгоритмов можно практически идеально вычищать голос из самой загрязненной и зашумленной атмосферы.

Посмотрите ролик, который я сделал для иллюстрации работы этой системы и представьте, что ваш звук был записан на сильном ветру или рядом с работающим вертолетом.

Важно, что все это рендерится на домашнем компьютере за 2 (!!!) секунды и абсолютно бесплатно.

Чудный мир, чудный мир...

Neural Shit 2024-04-11 09:48:45

Киберпанк, который мы заслужили.

БУДУЩЕЕ СТАНОВИТСЯ ОШИБКОЙ

Метаверсище и ИИще 2024-04-11 09:20:09

Я теперь представьте, что имея копию нашего мира в 3Д мы можем давать ей любые скины. И смотреть, например, спортивные трансляции вот так.
Хей, сири/сора(или кто есть в доме), сделай конские перчатки и повесь тайную вечерю на стену.

Метаверсище и ИИще 2024-04-11 09:11:47

В дополнение ко вчерашнему посту о цифровом двойнике нашего мира.

Да, ИИ-шечка уже умеет вытаскивать позы НЕ ТОЛЬКО из тиктоковских тянок пляшуших на камеру, а способен работать "в полях". И оцифровывать вот этих вот суровых английских мужуков.
Я уже постил похожий кейс с футбольного поля, но там был специально заготовленный сетап из десятков камер и целая команда на бэке.
Тут, как вы понимаете, даже не высшая лига. И обычная камера.
Мы все уже оцифрованы, а метаверсик живет своей жизнью. До времени.

Метаверсище и ИИще 2024-04-11 08:57:38

Помните времена, когда из музыкальных генераторов были только Муберт и Айва? И музыка была такая ... амбиентная.

Интернетик приподвзвизжал про Udio, давайте я тоже всприподвзвизжу, но нескучно, а с историей.

Неделю назад в сети начали появляться утечки генеративной музыки из "анонимного" генератора. И прикол в том, что в текстах песен анонимы явно троллили Суно (cv видео).

Влогеры взорали, твиттор взвирусился, и тут бах, UDIO.COM выкатили свой сервис.
Сначала типа в бету (fomo), а потом в общий доступ.
Короче идем на https://www.udio.com/ и сначала подвязываем челюсть, а потом слушаем образцы. Когда адаптируетесь к реальности, начинайте пробовать сами и сбрасывайте в коменты, можно сделать 1200 генераций в месяц бесплатно. Треки по 32 секунды (пока). Нагрузка на сервера бешеная, иногда долго думает.
Умеет не только пестни, но и в инструментальные треки. С русским не тестировал (жду в коментах).
Интересно, что есть аналог CFG Scale для Image-to-Image, под названием Remix. Берете трек и говорите, насколько его переремиксить, насколько сделать его отличным от оригинала.

Звучит настолько чисто, что у меня есть гипотеза, что там навален нехилый такой постаудиопродакшен на все результаты. И вероятной не ИИ-шный, а традиционная чистка, расширение базы и прочие цифровые улучшайки.

В общем я в шоке.

Также напоминаю по https://sonauto.ai/ - еще одну ответочку Суно.

Если хотите еще ИИ-музыки, то поглядите тут

А я предвижу взрыв обучающих курсов и инфоцыганских баллад о том, как создавать шедевры в Суно или Удио. Хотя у Суно есть своя Вики и там все написано. Но хтож ее читает.
http://suno.wiki

Метаверсище и ИИще 2024-04-10 14:50:58

Интересно наблюдать, как отдельные ИИ-решения типа генераторов картинок, или чат-ботов, или создания видео, или вообще генераторов разной всячины постепенно превращаются во встраиваемые сервисы, где юзер уже не ходит за картинками в одно место, а за текстами — в другое. Майкрософт делает из Бинга комбайн, Гугл сейчас встраивает Gemini во все свои аппы, а я пошел поглядел, что делает Яндекс после своего нейробраузера.

У них там появилась платформа Yandex Foundation Models. Несколько моделей машинного обучения, в том числе YandexGPT для генерации текстов и эмбеддинги для задач семантического поиска.
Там же YandexART, о нем — ниже.

Все через единый интерфейс, там можно решать и бизнес-задачи, используя несколько генеративных моделей сразу. Например, создавать текст для рекламного объявления с помощью API YandexGPT, а иллюстрации — с помощью API YandexART.

Что касается YandexART, его уже можно использовать через API, причем сеть доступна для тестирования бесплатно. https://console.yandex.cloud/link/foundation-models/yandexart

Ну и доворачивая мысль про встраивание, YandexART можно использовать не только как маркетинговый инструмент, но и в разработке как единую платформу для работы с API: единый интерфейс, не нужны сторонние аппки, провайдер работает с инфраструктурой. Также это классное подспорье для креаторов, чтобы генерить референсы, которые не получилось найти в интернете.

То есть все эти генераторы всего, которыми мы упивались год назад, вползают в кнопочки и менюшки привычных сервисов. Пройдет еще год — и мы перестанем отличать, что сделали мы, а что сделал ИИ: мы что-то там накликали и напечатали по работе, ИИ по ходу поучаствовал, клиент или начальник доволен. И уже никто не рядится по поводу стохастических попугаев.

А насчет YandexART есть подробнейшая статья, как она научилась делать картинки, которые нравятся людям. За два года.
https://habr.com/ru/companies/yandex/articles/805745/

эйай ньюз 2024-04-10 14:31:51

Результат получается с очень большим количеством деталей. ❤️

@ai_newz

эйай ньюз 2024-04-10 14:26:20

Помните, по сети гулял недавно серьезный сервис Magnigic AI для креативного апскейла картинок? Все бы ничего, но удовольствие такое стоит $40.

Так вот... Оказывается, Леонардо в тихую запустил такую же тулзу бесплатно! В день там даются 150 токенов, чего хватает на 5 апскейлов до 5 мегапикселей (в бесплатной версии).  То есть разрешение после Дали увеличить получиться только в 1,5 раза, но зато появится детализация. После, при желании, можно прогнать картинку еще через какой-нибудь апсейлер типа топаза или upscale media (разрешение до 1500х1500) и получить полноценный 4K (пример файлом).

Предположительно работает это так:

Сначала апскейлишь картинку билинейно (обычный апскейл), добавляешь нойза, режешь это все на тайлы (куски) с нахлестом и скармливашь каждый зашумленный кусок в Stable Diffusion (с контролнетом или без), усредняя результат в области пересечения тайлов после каждого шага. В конце собираешь все обратно.

В a1111 плагин называется ControlNet Tiles, штука старая и довольно известная, позволяет получить картинки вплоть до 32,000 и более пикселей, а также апскейлить на слабом железе. Здесь, в общем, то же самое, но довольно быстро (секунд за 30) и в удобном интерфейсе. Доводить картинки из Dalle 3 до уровня Миджорни самое то!

Leonardo

@ai_newz

Метаверсище и ИИще 2024-04-10 14:22:05

За Джипитишки.

Я долго терпел, но приподнакипело.

Смотрите, интернетик захлебывается от восторга - пользователи уже насоздавали 3 000 000 джипитижек. Ох и ах.

OpenAI обещал в ноябре, что в декабре запустит GPT Store. Запустил в начале года. Обещал монетизацию в марте, пока не запустил.

GPT Store - это довольно странный сервис, там, например, нельзя отфильтровать джипитишки, которые используют Actions (ну то есть более продвинутые). Навигация - ну такое.

И все больше напоминает мне помойку с chatGPT Plugins. Засранную плагинами, уводящитми трафик на сайты, без всякой пользы.

А восторженная цифра в 3 миллиона джтпитишек приводит меня в ужас, это сколько же говна надо разгрести чтобы найти что-то стоящее. Помните первый Андроид Маркет?

Ну и OpenAI, похоже не особо парится, как и с плагинами, над модерацией.

Меня просто тригернуло вот на такой джипитишке.

Это генератор изображений (внимание) на Stable Diffusion и модели Juggernaut внутри chatGPT, который предлагает вам ввести промпт, а потом показывает ссылку на картинку (в нее надо кликнуть, чтобы увидеть ее). И конечно, он пишет вам "срочно переходите в наш телеграм-бот или дайте денег хотя бы". В шапке джипитишки, естественно, ссылка на сайт, на сайте приглашение в телеграм бот.

В общем, GPT Store превращается в еще одну странную площадку, где пасутся стада GPT-ботов, уводящих трафик к себе (куда угодно).

Более того, я почитал многочисленные руководства по создания GPTs.
Знаете, что там пишут?
Чтобы вашу GPT заметили, сделайте от 100 до 1000 копий, немного изменяя текст.
Используйте привлекающие внимание фразы.
Давайте ссылки на свои проекты.

Ну вы поняли. Была SEO-оптимизация, сейчас мамкина gpts-оптимизация. Только OpenAI не Гугль, и модерацией, похоже, заниматься некому, все ИИ-модераторы заняты.

Кроме того, GPT Store почти никому не нужен: туда переходит только 1.5% пользователей chatGPT.
Обидно, что есть реальные шедевры типа джипитишек от Дениса Ширяева:
«Image Recreate, Edit & Merge» или «Aesthetics Prompt Enhancer»

Но они тонут в потоке заливаемого в GPT Store шлака, у которого одна цель, увести трафик.

А теперь представьте, что введут монетизацию. Помните NFT-игры и полчищща ботов? Если есть дикая немодерируемая поляна, то первыми туда придут боты.

Сам я в полном восторге от идеи GPTs - это просто шедевр в области программирования на человеческом языке со всеми вытекающими.

Но идея магазина, куда можно заливать товары любого качества, на изготовление которых не требуется особых ресурсов представляется мне спорной.

И вопрос в том, как OpenAI будет разруливать эту проблему.

Выговорился.

P.S. Посмотрел, что все сервисы типа veed.io которые были в плагинах, переобулись в джтипитишки, еще один канал нагона трафика.

Метаверсище и ИИще 2024-04-10 12:04:11

Метаверс, как цифрового двойник нашего мира с разными скинами.

Основная проблема мамкиных метаверсоводов - они не могут придумать, чем занять пользователей в своих кринжовых 3Д-локациях. Не говоря уж о том, как их мотивировать надеть полкиллограма железа на голову, для свидетелей виар-метаверсов.
Эти мерзкие кожаные юзеры готовы либо в игры играть, либо ботов писать, чтобы майнить шиткойны в нфт-метаверсах.

Когда вышла SORA все заговорили о world model. Модели нашего утлого мира (трехмерного притом) в голове у ИИ. Были даже работы о том, что в мозгах у ИИ есть локализованные области, в которых он хранит представления о пространстве и времени.

Но это все подводка.
Смотрите, несколько недель назад в Балтиморе контейнеровоз MV Dali столкнулся с одной из опор огромного моста и расхерачил всесь мост.
Благо у нас теперь везде камеры и видео катастрофы попало в интернетик в тот же день.

Так вот, смышленые ребята взяли все доступные видосы этого крэша, причем из открытых источников) и с помощью Gaussian Splatting сделали полную 3Д-реконструкцию аварии.
Не сгенерили кухонную сцену или смешные фигурки, а, блин, сделали копию кусочка мира в нужное время. По сраным камерам наблюдения.

А коль скоро у нас камеры везде и всюду, то в принципе у нас есть 3Д-модель нашего кожаного мира в 3Д в любой момент времени.
Туда также пристегиваются потоки данных с других датчиков и сенсоров, распознавание ваших унылых личиков, pose estimation и пр. И вот уже параллельный метаверс давно живет рядом с нами в соседних измерениях.
Теперь дайте ему разные скины. И получите мультиметаверсы.

А пока поглядите на видео и реконструкцию аварии в Балтиморе. Я в шоке.

P.S. Я топлю за эту концепцию уже года три, а два года назад упаковал это в плотное интервью с Витей Осыкой. Точнее интервью брал он, а я наваливал за Метаверс. Если интересно, воспроследуйте сюда.

proVenture (проВенчур) 2024-04-10 11:33:27

📈 NVIDIA vs Bitcoin vs Gold.

Вы могли видеть сравнение динамики акций NVIDIA и Intel, но на мой взгляд, более прикольно сравнить с биткоином. Ну да, там еще золото, но его особо не заметно. Залипательно.

@proVenture

#оффтоп #ai

Сиолошная 2024-04-10 06:28:11

Недели 3 назад многие хайпили по Suno, сайту с нейронкой для генерации музыки. Я и сам подзалип — даже подписку в первый вечер купил, так затянуло (правда улетучилось через 2 дня, кек). Можете послушать топ треков за день здесь.

Да, каждый трек на той странице — сгенерирован. И музыка, и речь, и (зачастую) текст. Последнее можно вбивать и руками, так что если услышите перепев знакомой песни — не удивляйтесь. Некоторые треки так хороши, что реально западают в голову — ждём первый AI-трек, который займет значимые места в чартах.

Но недолго музыка играла - недолго Suno хайпили. Говорят, уже есть убийца в лице Udio — то ли в 2, то ли в 10 раз лучше (по словам твиттерских). И они умеют генерировать в стерео-формате, где левый и правый каналы реально отличаются. Принёс несколько семплов вам на оценку, ждём публичной беты, чтобы каждый мог поиграться сам. Тут у меня сжатые перекачаные треки, лучше слушать по ссылкам ниже.

Источники (Twitter): 1, 2, 3, 4, 5, 6

UPD: Twitter-тред с анонсом стартапа, 1200 генераций в месяц бесплатно: https://www.udio.com/

эйай ньюз 2024-04-10 02:54:29

🔥Тэкс, свежий дроп - Mixtral-8x22B!

Mistral как обычно в своем стиле, тупо оставили magnet-ссылку на торрент с весами своей новой модели. Вот знатные троли.

Новая модель это Mixture of Experts Mixtral-8x22B:
- Размер модели 262 GB (я так понимаю веса в fp16)
- 8 экспертов / 2 активных
- В сумме 141 B параметров / активных 39B
- 56 слоев, hidden_dim=16384, 48 attention голов
- Размер контекста 65536 токенов.

Обстановочка в гонке моделей накаляется с каждым днем. Кажется, Command R+ могут подвинуть на лидерборде! Weclome to ARENA! 🍿

@ai_newz

DL Paper Reviews 2024-04-09 21:14:10

Новая версия GPT-4 умеет решать олимпиадные задачки по математике на порядок круче, чем это делала предыдущая версия.

На соревновании, которое кстати еще идет, до апдейта GPT-4 решал только одну задачу и то с длинным промтом (по факту это подсказка).

Новая же версия решила уже 5! из 10 задач. Claude 3 Opus решила тоже только одну (правда без подсказок). В общем разница как я вижу в сложных математических задачах просто колоссальная!

эйай ньюз 2024-04-09 20:22:41

Ну, что, любители сэма альтмана, вышел апдейт GPT-4 (gpt-4-turbo-2024-04-09).

Смотря невооруженным глазом, ничего особо не поменялось. Только теперь в модель можно пихать картинки через API, то есть это GPT-4V версия, и она теперь доступна всем.

Анонсы твердят, что это "значительное" улучшение, особенно по части математических способностей.

Что-ж, дождемся результатов Chatbot-арены, где в честном бою выяснится, кто сильнее Claude 3 Opus или GPT-4.

Напомню, что недавно Claude 3 Opus стал лучшей моделью на Chatbot-арене, побив долгоиграющего лидера GPT-4.

А сегодня открытая моделька Cohere Command R+ (писал о ней тут) вышла на 6-е место, побив старые версии GPT-4. И это не может не радовать!

🎉

@ai_newz

Сиолошная 2024-04-09 19:17:51

Вышла свежая версия GPT-4-Turbo (суффикс 04-09). Я бы про это не писал, если бы в Twitter сразу 3 сотрудника OpenAI не репостнули это со словами «big improvement». Один даже указал, что улучшения особенно заметны в математике.

Также эту модель должны принести в ChatGPT (веб-сайт с подпиской за $20, не API).

Ждём на LMSYS Arena, оценим, что это за «улучшения». Тайминг выбран интересный — вот только сегодня рейтинг обновился, и оказалось, что модель CMD-R+ от Cohere на 100B+ параметров обогнала GPT-4 (исходные версии весны 2023-го). Claude 3 Opus всё еще сидит на первом месте.

Ну что, началось..? Sama нажал большую красную кнопку?

UPD: ещё написали, что скоро могут опубликовать метрики, чтобы продемонстрировать рост качества рассуждений и способностей в математике

Сиолошная 2024-04-09 17:04:39

😠 OpenAI блин 😠 где исследования?

Когда ваши работы по социальному импакту будем разбирать уже? А?

😢


(а может они просто laser-focused на доработке и оценке GPT-5...и её импакте на мир?
😳
👀
)

Сиолошная 2024-04-09 17:01:40

В подкрепление последней заметки из поста выше — вот так выглядит гистограмма оценок участников.

По горизонтали — исходная оценка людей по теме, цветом закодировано изменение позиции. Желтая группа, самая большая — это нулевое изменение в оценке (как был уверен на X баллов из 7, так и остался). Дальше идёт зелёная, это +1.

Сиолошная 2024-04-09 17:00:02

Measuring the Persuasiveness of Language Models

Навык (пере-)убеждения в языковых моделеях вызывает обоснованную обеспокоенность по поводу их потенциального неприемлемого использования. Этот навык может быть использован для генерации дезинформации или побуждения людей предпринять действия против их собственных интересов. Недавно я уже разбирал работу, посвящённую анализу LLM-ок в контексте дебатов, и вот подъехала свежая работа от Anthropic.

Дизайн эксперимента:
— выбрано 28 тем, в которых мнение людей скорее всего не высечено в камне (то есть это не прописные истины в духе «солнце светит днём»). Что-то про этику, AI-контент итд.
— для каждой темы писалось 2 аргумента: за и против. Длина аргумента примерно 250 слов.
— эти аргументы были написаны как людьми, так и разными моделями. Чтобы стимулировать высокое качество и убедительность у кожаных, им сообщали, что текст будет оцениваться другими пользователями, а наиболее убедительные авторы получат денежный бонус (ахахха прямо как LLM-кам обещают чаевые)
— Для LLM-ок же выбрали 4 разных типа промтов (о них ниже) и сгенерировали аргументацию
— Каждая пара «позиция <-> источник аргумента» предлагалась 3 людям (всего больше 3500 участников!)
— Сначала они читали утверждение и высказывали, насколько с ним согласны, по шкале от 1 до 7
— После этого читали аргумент LLM или человека и снова давали оценку 1-7
— Метрика — разница в оценах. Например, сначала человек был согласен с тезисом «Автопилоты в машинах уменьшит количество происшествий на дорогах» на 6, а после того, как прочитал про, условно, сложность разработки и редкие ситуации, ответил 4 — тогда разница в его мнении будет -2.
— Для контроля были добавлены вопросы, в которых, в теории, метрика меняться не должна, как бы тебя не переубеждали (например, что вода замерзает при 0 градусов Цельсия)

Как я указал, модели генерировали аргументы с 4мя промптами:
— Убедительный: просят написать убедительный аргумент, который убедил бы кого-то с утвердившимся мнением
— Эксперт: просят модель действовать как эксперт по убеждению, используя сочетание техник риторики (пафос, логос и этос) для добавления убедительности
— Логическое рассуждение (пояснения не нужны)
— Обманчивость: написать убедительный аргумент, разрешив придумывать факты, статистику и/или «достоверные» источники, чтобы сделать аргумент максимально убедительным.

По результатам экспериментов самым действенным оказался...последний промпт

🤷‍♂️ (кто бы мог подумать)

Основные результаты:
1. Чем больше модель и чем она мощнее, тем выше её метрика (то есть тем чаще и больше она подвигает уверенность человека по 7ми-бальной шкале)
2. Claude 3 Opus статистически значимо не отличается от навыков переубеждения людей, писавших аргументы в рамках эксперимента.

Заметки на полях:
— те участники, что писали свои аргументы, не являются экспертами по переубеждению или работе с отказами. В теории, эксперты могли показать результат куда выше
— исследовались только однораундовые диалоги, то есть где человек читал лишь одно сообщение от LLM. Полноценные диалоги на несколько минут планируют исследовать в будущем (ждём статью!)
— несмотря на то, что точка зрения людей меняется, у большинства участников всё ещё наблюдается либо отсутствие изменений в уверенности, либо оно минимально (+-1 балл, например с 5 до 4). Но много ли людей надо переубеждать, чтобы заварить кашу и холивар?

эйай ньюз 2024-04-09 14:41:48

🤔Теперь ваша рисоварка сможет не только запускать LLM, но и тренировать их — Карпатый в деле!

Андрей Карпатый выпустил llm.c – тысяча строк чистого C без зависимостей, которые компилируются меньше чем за секунду. llama.c – его предыдущий проект, позволявший запускать llama на всяких умных лампочках, а llm.c теперь даёт возможность ещё и тренировать.

МОЁ УВОЖЕНИЕ

Пока что можно только тренировать GPT-2 на CPU, но Андрей уже работает над поддержкой CUDA и более новых моделей вроде llama. Когда закончит - обещает выпустить несколько туториалов про это, в духе его же видео о написании GPT-2 на Python.

https://github.com/karpathy/llm.c

@ai_newz

Сиолошная 2024-04-09 14:32:05

А поооомните 2 месяца назад вышли такие Apple Vision Pro..? Я после волны обзоров ничего про них и не видел...

Ещё 6-го февраля (пост) я захотел поиграться с разработкой приложения под гарнитуру, сделать демку AI-ассистента, который понимает, что видно на камерах и как-то на это реагирует. И оказалось, что доступ к данным с датчиков, а самое главное камер Apple не предоставляет. Это ограничение не то что сохраняется до сих пор — скорее всего оно будет с нами несколько лет. Утверждается, что решение об этом было принято на ранних стадиях разработки более 7 лет назад! Причина проста — хочется избежать скандалов с приватностью и историй, схожих с Google Glass.

Но на это жалуются разработчики — большое количество функций просто невозможно реализовать без доступа к камерам. Все очень зажаты рамками того, что предоставляет библиотека Apple, и всё тут. А ведь приложения — это одна из фишек, из-за которой в своё время iPhone завирусился. Люди могли делать что угодно, на платформу быстро перетащили все популярные приложения, и вкупе с форм-фактором это позволило смартфону перевернуть рынок.

Пока кажется, что такая история не случится с Vision Pro. Но интересно, как будут вести себя другие игроки - Snap, META (с их очками с камерой, в которые обещали добавить ассистента на базе Vision-Language Model) и новая компания Sam Altman? Перешагнут ли они через ограничения, смогут ли побороть бюрократию и, что не менее важно, переживания пользователей?

Лично мне кажется, что в 2020-ых это должно будет стать нормой: будем ждать, как корпорации начнут продавать нам эту идею. И какие меры защиты вообще появятся?

Метаверсище и ИИще 2024-04-09 13:02:40

Давно предполагал, что разработчики Сбера на базе GigaChat будут создавать целое семейство Al-сервисов. SberDevices представили Giga Acoustic Model. Генеративные модели для обработки речи(звука) на русском языке.

GigaAM — аудиоэнкодер на 240 миллионов параметров, базовая модель, подходящая для адаптации под другие задачи;

GigaAM-CTC — открытая модель распознавания речи на русском языке (допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с другими открытыми решениями);

GigaAM-Emo — модель определения эмоций, продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей.

Очень много технических подробностей с примерами использования этого семейства Al-сервисов на Хабре: https://habr.com/ru/companies/sberdevices/articles/805569/

Метаверсище и ИИще 2024-04-09 12:10:01

Ну и в целом фича audio-to-audio совсем не нова, я уже писал про очень забавный проект Musicfy, поглядите, если забыли:
https://t.me/cgevent/7077

Метаверсище и ИИще 2024-04-09 12:05:48

Вот эта вот audio-to-audio фича, которая появилась в Stable Audio 2.0 может иметь неожиданные применения, например, в производстве саунд-эффектов и при озвучке фильмов, причем речь идет не о голосе, а именно о шумах.

Поглядите забавный пример.

Если обобщать, то получается, что речь идет о скинах для звука или про style-transfer в очень общем смысле.

Метаверсище и ИИще 2024-04-09 11:51:16

А еще Krea.ai воще без цензуры. Вы ей показываете кружки и квадратики, а она вам рисует вот ТАКОЕ, извращенка.
Тут показать не могу, шуруйте в коментарии, там все-таки закрытая группа, телеграмм меня там не должен прищучить.

Метаверсище и ИИще 2024-04-09 11:43:46

Krea.ai, конечно, огнище.

Помните первые восторги от смешивания двух картинок в Midjourney?
А теперь расширяем сознание - подвешиваем в нем ТРИ картинки (в пространстве) и пытаемся представить микс из трех изображений. Причем микс идет не в пиксельном, а в "смысловом" пространстве. Ментальное 3Д.

Веса картинок можно менять, а новая HD модель выдает все это расширение сознания в 1024х1024.

Бежим пробовать: https://www.krea.ai/apps/image/realtime

И все это в реальном времени, Карл!

Метаверсище и ИИще 2024-04-09 11:30:33

Принес вам еще одну реалтаймовую нейрорисовалку.
Работает криво и косо. Можете попробовать вот тут:
https://akuma.ai/canvas
Не креа или визком, но сам факт того, что такие инструменты множатся, говорит о том, что есть огромный запрос на РИСОВАНИЕ, а не на КНОПКОЖАНИЕ.
Рисовалка смешная, исполняет в обнаженку (см пример в коментах), имеет разные стили, может быть использована как турбо генератор картинок.
Ждем такого функционала в фотошопе, чтобы закрыт вопрос с такими поделками.

Метаверсище и ИИще 2024-04-09 11:14:42

Нейроигры с погружением. В мозг

Я уже писал про Гейба Ньюэлла, главу Valve и папу Half Life (одного из 100 самых богатых людей США, его состояние оценивалось в 5,5 млрд долларов в 2017 году).

Прочтите мой лонгрид для разминки. Там как раз про стимуляцию игрока.

И если раньше Ньюэлл пытался соединить виар-шлемы и гарнитуры для съема энцефалограмм, чтобы подстраивать игровой опыт под ментально-физиологичекое состояние игрока, то сейчас, насмотревшись на Маска, решил делать импланты. В мозг.

Также стоит вспомнить проект OpenBCI+Galea - идея снимать тонну данных с головы игрока лежит на поверхности.

Но вот что будет, когда процесс пойдет в обраточку - и в голову игрока пойдут стимулы?

Вот тогда и придет настоящий киберпанк.

Поглядите на сайт, где похудевший на 20 кило Гейб Ньюэлл представляет свой новый проект:

Мы создаем следующее поколение нейроинтерфейсов, решаем важные проблемы и совершенствуем способы взаимодействия с миром.

https://starfishneuroscience.com/

Метаверсище и ИИще 2024-04-09 10:14:45

chatGPT-нашлепка на телефон.

У меня мозг взрывается от такого девайса.
На телефон вешается вот такая нашлепка, которая в принципе является диктофоном, который может выкликать chatGPT с целью суммаризации и перевода.

Вот тут они явно врут: Chime Note может мгновенно переводить со 108 языков. Это я про "мгновенно".

Ну и у меня один вопрос: а зачем тут эта нашлепка? Ведь можно написать приложение, которое делает то же самое. Или нельзя?

Кроме того, последний Самсунг в реалтайме переводит разговор НА УСТРОЙСТВЕ, без всяких вызовов chatGPT.

В чем сила, брат?

https://www.kickstarter.com/projects/chimenoteairecorder/chime-note-chatgpt-powered-ai-voice-recorder