Нейролента Mikitos.ru 2736 постов. Страница 16 (50 постов)
Метаверсище и ИИще 2024-02-21 18:49:44
"Думают ли Ламы на английском? О скрытом языке многоязычных трансформеров"
Ух, интереснейшая работа.
Используют ли многоязычные LLM, обучающиеся в основном на английском языке, английский в качестве "внутреннего языка"?
Значит ли это, что Llama2 сначала вычисляет ответ на английском, а затем переводит его на китайский?
Все гораздо тоньше. Если присмотреться внимательнее, то можно предположить, что промежуточные эмбединги, выглядящие по-английски, на самом деле соответствуют абстрактным понятиям, а не конкретным лексемам.
В процессе послойного преобразования эмбеддингов они проходят 3 этапа:
1. "Входное пространство": модель "отменяет грехи" токенизатора(перевода слов в вектора).
2. "Концептуальное пространство": эмбеддинги живут в абстрактном концептуальном пространстве.
3. "Выходное пространство": понятия(вектора) отображаются обратно на лексемы, которые их выражают.
Гипотеза авторов:
Внутренним "лингва франка" Llama2 является не английский язык, а суть концепции - и, что очень важно, эти концепции "тяготеют" к английскому. Таким образом, английский язык все еще можно рассматривать как "внутренний язык", но в семантическом, а не в чисто лексическом смысле.
Семантическое тяготение к определенному языку - мне это напомнило очень интересную теорию о том, что язык носителя определяет мышление носителя. Ну или характер(character), наиболее часто встречающийся в популяции. На каком языке ты думаешь определяет очень многие твои черты, грубо говоря.
Воистину ИИ дает нам огромные шансы узнать, как мы устроены изнутри, о чем я регулярно приподвзвываю.
P.S. "лингва франка" - это язык, систематически используемый для коммуникации между людьми, родными языками которых являются другие.
https://arxiv.org/abs/2402.10588
https://twitter.com/cervisiarius/status/1759989584371298554
Метаверсище и ИИще 2024-02-21 18:25:25
Про DeemosTech, их Чатаватаров и Родена (Rodin GEN-1) я уже писал пару раз. Слежу за ними внимательно. У них там много народа, а не пара аспирантов.
Они выкатили демо нового Rodin GEN-1 для генерации 3Д из картинки. Выглядит нарядно, видно, что деталей стало больше, но видео явно черипикнутое и есть пара моментов.
1. Все равно объекты "мылятся" по краям и острым граням. Это родовая проблема неявных поверхностей, ведь задирать разрешение до мегасканов будет дорого. Эти фасочки всегда будут сглаживать любой объект, пока туда не придет ИИ и не скажет "вот тут угол", делаем по другому.
2. Гонку за деталями с таким подходом не выиграть у Гауссианов, которые благодаря свое микрополигонистости всегда будут впереди. Вон недавно вышли Гауссианы на стероидах с упором на детали:
GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering.
А вот тут Гауссианами генерят целые сцены:
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting.
Но проблема в том, что из при попытке получить из Гауссианов полигональные меши, вы опять будете получать замыленные края.
Так что либо детали в неведомой гауссовой хрени, либо старые добрые, но обмылочные полигоны.
3. Я записался в вейтлист в Димос и написал им, что без ретопологии будет нещитово.
4. Ну и фу такими быть "The #Sora Moment in #3D has never been close" - пиариться на успехе Соры - ну такое.
Кроме того, очень может статься, что ответ SORA всем этим 3Д-ИИ-генераторам может быть очень жоским и в один день умрут вот эти вот все 2D-to-3D.
В общем на поляне генерации 3Д вот-вот будет интересный прорыв и придет он из геймдева.
Пока это улучшатели улучшателей.
Но DeemosTech интересные, поглядите за ними:
https://twitter.com/i/status/1760008401621483665
Сиолошная 2024-02-21 16:43:36
Я ни разу в канале не писал, но ещё в прошлом году заметил молодого выдающегося подкастера Dwarkesh Patel. Как-то наткнулся на его интервью с Ilya Sutskever, потом на разговоры с автором метода RLHF (которым дообучали ChatGPT) Paul Christiano, ex-CEO GitHub Nat Fridman, и ещё кучей интересных людей. Очень рекомендую
Вот часик назад опубликовали свежий выпуск с CEO Stripe (стартапа с оценкой $95B, там ещё начинал свою карьеру Greg Brockman, ex-CTO OpenAI).
Смотреть: youtube.com/watch?v=WU-lBOAS1VQ
(или на других площадках: spoti.fi/3MFtqBR, apple.co/3ujLQkZ)
Топики:
— Advice for 20-30 year olds
— AI & Fast Grants
— Stripe history & Stripe Climate
gonzo-обзоры ML статей 2024-02-21 14:59:00
Google зарелизил опен-сорсные LLM (или скорее даже SLM) под названием Gemma!
https://blog.google/technology/developers/gemma-open-models/
Выложены модели 2B и 7B, для каждой есть обычная pretrained версия и instruction-tuned. Обучены на 2T и 6T токенов соответственно. Без фокуса на мультимодальность и мультиязычность.
Более-менее обычный декодер трансформера, контекст размером 8192 токена. Токенизатор SentencePiece, словарь 256k.
Коммерческое использование независимо от размера организации разрешено.
По бенчмаркам бьют соразмерные (и следующие) LLaMa 2.
Сразу заготовлена куча тулинга: ноутбуки, HF (https://huggingface.co/blog/gemma/) и прочее.
Репорт: https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf
Метаверсище и ИИще 2024-02-21 13:00:21
Одеваторы, раздеваторы и переодеваторы.
Тема виртуальных примерочных горяча и будет перегреваться и дальше.
Ибо за спиной ритейл и массмаркет.
Я уже писал про одеваторы и раздеваторы. Сегодня попробовал опенсорсный переодеватор, суть примерочную:
https://github.com/levihsu/OOTDiffusion?tab=readme-ov-file
Ну в общем .. такое. Смотрите на вариант с тельняшкой (Guidance Scale не помог). Китайские товарищи бесхитростно лепят контролНет на два разных варианта - в полный рост и на поясной план.
То случай, когда код и демо есть, а статьи нет.
Я тут же пошел и скормил Виталика (и себя на заднем плане) в бот Slook (одеватор-разlеватор) и в Superlook.ai
Slook выдал мне идеальный латекс, а Superlook переодел Виталика лучшие дома Лондона и Парижа. И обратите внимание, как он бейджик перевесил! Вощекосмос.
Одно дело писать бумаги и демо, другое дело - пилить продукт. Даже на опен-сорсе.
Продукт не прощает ошибок, и тем хорош. А в бумагах можно обчерипикатся и никто слова не скажет.
В общем пробуйте сами, присылайте в коменты свои луки.
Переодеватор демо: https://ootd.ibot.cn/
Slook Bot одеватор: https://t.me/SlookBot
Чемпион по примеркам: - https://superlook.ai/
Виталик с сиськами будет в коментах(если разрешит).
И кстати, Виталик шарит за генеративный арт и лихо рулит Stable Diffusion и After Effects. Если что пишите ему, он открыт для работы.
Метаверсище и ИИще 2024-02-21 07:17:51
Уже немного баян, но это очень смешно. 11 месяцев назад(всего!), у нас было вот такое качество ИИ-видео.
Сейчас мы лицезреем SORA.
Уилл Смит устал смотреть на свое кринжовое спагеттопоедание и записал видос у себя на кухне.
В принципе это начало нового жанра - кожаные снимают реальные видео, повторяющие ИИ-генератив.
Постметаирония? Цикл замкнулся?
эйай ньюз 2024-02-20 21:36:54
А вот и обещанная двухчасовая лекция от Карпатого про все подробности токенизации в GPT, включая BPE и не только.
Го смотреть!
#ликбез
@ai_newz
Сиолошная 2024-02-20 18:03:21
Иииии если вам заходит текстовый контент, а не видео, но вы всё ещё ждёте лонгрид (которым я занимаюсь), то предлагаю прочитать статью из блога The Pragmatic Engineer.
Статья: Scaling ChatGPT: Five Real-World Engineering Challenges (бесплатно, без пейволла)
Рассказывает руководитель команды ChatGPT (под ним более 150 человек, работающих над продуктом). Самая интересная часть — четвертая, где пройдутся по пяти проблемам и их решениям:
— KV Cache & GPU RAM
— Optimizing batch size
— Finding the right metrics to measure
— Finding GPUs wherever they are
— Inability to autoscale
(я пока не читал, почитаю потом, но если нашли что-то интересное — кидайте в комменты!)
Сиолошная 2024-02-20 17:48:22
Двухчасовая лекция от ex-Tesla ex-OpenAI инженера-менеджера Andrey Karpathy про токенизацию и все её тонкости
https://www.youtube.com/watch?v=zduSFxRajkE
Репозиторий с пошаговым и хорошо прокомментированным кодом как сопроводительный материал: https://github.com/karpathy/minbpe
Если вы хотели увидеть, как GPT "читает" ваш текст, какие единицы в нём выделяет — вам сюда.
Сиолошная 2024-02-20 15:13:37
Наткнулся на цитату Paul Graham, основателя Y Combinator (который нашел Sama и потом сделал его президентом YC, кек), и захотелось в очередной раз написать простую истину.
Очень часто что на стримах, что в комментах, что даже в личке, люди спрашивают: «блин а как не выгорать? а как вот добиться успеха? а вот как так много знать и уметь? а как преуспеть?». Мой ответ достаточно давно был в духе «не знаю, мне просто нравится что я делаю, я этому уделяю много времени.». Кажется, никакого суперсекрета успеха нет.
И вот Paul пишет:
— it's hard to do a really good job on anything you don't think about in the shower.
И понял, что я и в душе, и перед сном, и вообще почти всегда думаю об интересных мне вещах (часто связанными с космосом или ML/AI/работой). Не потому что мне больше не о чём подумать, а потому что ну блин тут же реально интересно. Но если вы превентивно ставите себя в ситуацию (немного утрирую, но реально такие вопросы и запросы были) «а как мне успевать в два раза больше если у меня семья и я не готов тратить больше 9 часов в сутки на работу, и то в будни?» (работа в значении развитие в области in general, разумеется).
Никак. Можно пооптимизировать проценты эффективности, введя 10 дополнительных джедайских техник, но куда большего результата добьёшься, если просто увеличишь количество времени, которое уделяешь занимающим тебя идеям.
Этот путь не для всех, для кого-то семья, хобби и другие вещи будут стоять в иерархии ценностей выше, и от них нельзя отнять. Это нормально, это даже здорово. Но не нужно строить иллюзии, что при таком подходе получится выбиться в топ просто потому что. И тем более не стоит говорить, что это не справедливо.
Starship News Live 2024-02-20 14:52:57
⚡️Третий полëт Starship ожидается на второй неделе марта согласно заявлению Маска
По его словам вероятность того, что S28 достигнет орбиты - 80%
Илон также отметил, что прототипы для 4-го полёта уже готовы
AI Happens 2024-02-20 11:52:25
я думаю вы прочли и в других канал про Sora, подъехало кое-что не менее интересное:
Neuralink: В понедельник вечером, на мероприятии X Spaces, организованном известной журналисткой Кэтрин Бродски, Илон Маск сделал поразительное заявление. Первый человек, получивший мозговой чип Neuralink, успешно восстановился после операции в январе!
Что произошло?
Сентябрь: Neuralink получает разрешение на эксперименты с пациентами для восстановления утраченных функций у парализованных.
Январь: Пациент получает мозговой чип Neuralink.
Сейчас: Пациент полностью выздоровел, без побочных эффектов!
Как это работает?
Маск говорит, что пациент теперь может управлять мышью компьютера, просто думая об этом. Это знаменательный момент для компании в её стремлении соединить мозг с компьютером напрямую.
Больше, чем две кнопки
Следующая цель Neuralink - достичь более сложного управления, включая такие действия, как удержание кнопки при перемещении мыши. Маск уверен в прогрессе, заявляя, что в конечном итоге они хотят перейти за рамки простого нажатия двух кнопок.
вы бы были готовы сделать себе операцию, чтобы внедрить чип через пару тройку лет? а если бы он умел передавать картинки из Sora напрямую в мозг?)
@aihappens
gonzo-обзоры ML статей 2024-02-20 11:07:28
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss
Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
Статья: https://arxiv.org/abs/2402.10790
Код: https://github.com/booydar/babilong
Тема про длинные контексты в 1M и 10M становится всё более популярной. На днях вышла новая статья про это и рекуррентный memory transformer от Миши Бурцева и ко. Я решил провести эксперимент и закинуть её в Gemini 1.5 Pro с контекстом в 1M (https://t.me/gonzo_ML/2350) и посмотреть, какое саммари модель напишет. А Мишу и соавторов призываю в комментариях или чате отрейтинговать это саммари и сказать, что Gemini 1.5 сделала плохо (или хорошо). А также, если есть желание, рассказать про работу самим из первых уст 🙂
Далее текст, созданный Gemini 1.5 Pro 1M без правок кроме восстановления абзацев (почему-то она сгенерировала большую часть текста с переносом строк после каждого слова). Трансформаторы из текста не убирал 🙂
=======
В этой статье рассматривается проблема обработки длинных документов с помощью генеративных трансформаторных моделей.
Для оценки различных подходов авторы представляют BABILong, новый бенчмарк, предназначенный для оценки способности моделей извлекать и обрабатывать распределённые факты в больших текстах. Оценка, включающая бенчмарки для GPT-4 и RAG, показывает, что обычные методы эффективны только для последовательностей до 10^4 элементов. В то же время, GPT-2, дообученная с использованием рекуррентных дополнений памяти, способна справляться с задачами, включающими до 10^7 элементов. Это достижение является значительным скачком, поскольку это самый длинный вход, обработанный какой-либо открытой нейронной сетью на сегодняшний день, что демонстрирует значительное улучшение возможностей обработки длинных последовательностей.
Основная идея бенчмарка BABILong ("Benchmark for Artificial Intelligence for Long-context evaluation") - увеличить длину существующих задач, чтобы оценить способность генеративных моделей эффективно обрабатывать длинные контексты. Для этого "прячут" предложения исходной задачи между предложениями не относящегося к делу текста, взятого из другого, тесно связанного распределения. Примеры создаются путём постепенного добавления новых предложений из фонового набора данных в их естественном порядке, пока дополненный образец не достигнет нужной длины. Таким образом, можно оценивать даже самые длинные доступные модели с размерами контекста до миллионов токенов.
В качестве фонового текста используются книги из набора данных PG19 из-за значительной длины книг и естественно возникающих длинных контекстов. Модель должна сначала отличить предложения, относящиеся к исходной задаче, затем запомнить их и впоследствии использовать для генерации правильного решения.
В этой работе авторы сосредоточились на расширении бенчмарка bAbI, который состоит из 20 задач, предназначенных для оценки основных аспектов рассуждения.
GPT-4 и Mistral с большими окнами контекста не смогли эффективно выполнить задачи "иголка в стоге сена", когда количество отвлекающего текста было чрезвычайно велико. Дообучение GPT-3.5 с помощью API OpenAI улучшило качество поиска фактов в контексте среднего размера, но при увеличении количества шума производительность всё равно снижалась.
RAG с GPT-4-turbo показал посредственную, но масштабируемую производительность для вложений предложений и плохую масштабируемость с вложениями частей текста. Слабая производительность RAG может быть связана с временными зависимостями, присущими задаче, где релевантный факт расположен в конце текста.
Рекуррентные модели (RMT и RMT-R) с GPT-2 в качестве базовой модели показали отличные результаты на последовательностях длиной до 16 тысяч токенов, присутствующих в обучающем наборе. RMT и RMT-R значительно превзошли GPT-4, что подчеркивает эффективность механизма памяти. Более того, превосходство рекуррентных моделей распространяется на последовательности за пределами области обучения, превышающие размер обучения.
gonzo-обзоры ML статей 2024-02-20 11:07:28
Используя свои возможности обобщения, RMT и RMT-R демонстрируют стабильную производительность на более длинных последовательностях, достигая 128 тысяч токенов, с лишь незначительным ухудшением качества. Улучшенные возможности RMT-R становятся особенно очевидными благодаря дополнительной информации из извлеченных состояний памяти.
Удивительно, но даже при размерах контекста, достигающих 1 миллиона и даже 10 миллионов токенов, что более чем в 600 раз превышает длину обучения, рекуррентные модели устойчиво превосходят свои более крупные аналоги, использующие RAG. Этот замечательный скачок в качестве рассуждений на чрезвычайно длинных последовательностях подчеркивает потенциал рекуррентности в сочетании с обучаемым механизмом самоизвлечения.
В целом, работа показывает, что рекуррентная память является многообещающим направлением для обработки очень длинных текстов.
=======
Такие дела. Надо ещё, конечно играться с промптами, пока это довольно тупой 2-shot на почти рандомных примерах. Интересно было бы также сделать такое же самое саммари через модель на базе RMT.
Метаверсище и ИИще 2024-02-20 10:19:28
К вопросу о новизне. И генерация уникальности.
Remix Mode в Midjourney уже показал, что можно делать картинки явно выходящие за рамки "да он ничего нового не может придумать".
Но кожаные все равно цепляются за идею, что раз его накормили картинками, он будет выдавать линейную интерполяцию картинок. А то, что там зашито кожаное восприятие и мышление через подписи и промпты их не трясет.
Тут вот исследователи пошли еще дальше и поставили задачу генерации новизны в приоритет.
Как мы можем сгенерировать новую, воображаемую концепцию, которая никогда не встречалась ранее? В этой статье мы представляем задачу творческой генерации текста в изображение, в которой мы стремимся создать новые примеры в широкой категории (например, создать домашнее животное, отличающееся от всех существующих домашних животных). Мы используем малоизученные модели диффузионных приоритетов и показываем, что задача креативной генерации может быть сформулирована как процесс оптимизации над пространством выходов диффузионного приоритета, что приводит к набору "предварительных ограничений". Чтобы сгенерированная нами концепция не сходилась с уже существующими, мы включаем в нее модель Vision-Language Model (VLM), которая адаптивно добавляет новые ограничения в оптимизационную задачу, побуждая модель открывать все более уникальные творения.
Генерация творчества, в общем.
P.S. Примеры в статье меня не очень впечатлили (построено на kandinsky2 library), но сам дерзкий подход к выходу за пределы привычных образов и генерации уникальности мне нравится.
https://kfirgoldberg.github.io/ConceptLab/
Код есть, можно пробовать.
Сиолошная 2024-02-20 01:52:27
Тихо мирно, без объявлений, GPT-4 Turbo дообучили на данных до декабря 2023-го года.
Проверить документацию можете сами тут.
Для меня самое интересное, что модель теперь (по идее) должна знать все свежие статьи по LLM, уметь писать промпты, знает разные трюки для оптимизации. Интересно было бы попробовать поиграться с этим, жаль пока времени нет.
Странно, что об этом никто нигде не пиcал, хотя модель как будто бы должна была выйти в январе, с месяц назад. В веб-архиве так и не смог загрузить копию, чтоб проверить.
gonzo-обзоры ML статей 2024-02-20 00:12:10
Вообще, мне кажется, GPT-5 должна будет уметь написать примерно такую же свою биографию.
gonzo-обзоры ML статей 2024-02-20 00:03:45
Large Language Models: A Survey
Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, Jianfeng Gao
Статья: https://arxiv.org/abs/2402.06196
Обзорная статья обо всём и с кучей знакомых картинок. Пересказывать нет смысла, скорее годится как референс про большинство важных слов в области LLM. Ну и вообще мы Томаша Миколова и Ричарда Зохера не часто видим в последнее время :)
В статье сделали попытку кратко обозреть всё более менее важное, что касается LLM: их способности, архитектуры, известные модели, пайплайн обучения и файнтюна, аугментацию, датасеты и бенчмарки. Обо всём по чуть-чуть. Для глубокого погружения не годится, но если надо быстро что-то понять/вспомнить, то норм. Внимательные и вдумчивые читатели нашего канала, наверное, и так большинство этого знают, мы очень много упомянутого разбирали.
Но всё перепроверяйте! Например, PaLM-2 и Gemini почему-то заявлены как опенсорс.
Метаверсище и ИИще 2024-02-19 23:21:04
Попробуйте такое сделать в SDXL...
Cascade радует. 8 картинок за 21 секунду.
Метаверсище и ИИще 2024-02-19 23:11:27
Лампочка Мандельброта из Stable Cascade. Рендерится чудовищно быстро
Метаверсище и ИИще 2024-02-19 22:48:28
Генеративный Мандельбалб
Я тут мучаю Stable Cascade (спойлер - очень хорошо, SDXL тяжело отдыхает)
Как я уже недавно писал, ея прикрутили нативно в ComfyUI.
Все остальные сборки, которые через diffusers, слегка кривые (хотя может быть сам код еще сырой).
Вот этот экстеншен да Automatic1111 дает разные картинки для одного сида.
Демо на Хаггинг имеет ошибку - там не регулируется Prior Steps (в локальной версии также игнорируется это параметр).
Единственная ходовая (и очень быстрая сборка) тут, к ней вроде даже есть интерфейс в форках.
Но я сейчас не об этом.
Поглядел, как Cascade уделывает SDXL на генерации Мандельбалба (это такая трехмерная фрактальная красивая хреновень).
А потом спросил DALL·E 3:
Mandelbulb colored three-dimensional fractal and white background
Ну и тот рассказал, кто в доме хозяин, когда речь не идет про фоториал и людей. А про общие знания и понимание промпта. Тут DALL·E 3 круче всех пока.
Красота, чо.
Миджорни знает про Мандельбалб?
Про Каскад еще напишу.
эйай ньюз 2024-02-19 16:54:19
Продолжаем серию постов про основные методы для ускорения диффузионных моделей. [Ссылка на часть 1].
Optimized Sampling Efficiency by new samplers:
Есть подходы на основе численных методов, которые позволяют более эффективно решать дифференциальное уравнение, задающее траекторию обратной диффузии (это когда мы из шума движемся к картинке).
Low-level optimizations:
#ликбез
@ai_newz
Neural Shit 2024-02-19 16:13:56
Смотрел сейчас @daisy_avatarbot, иногда получается годно. Хотя я и не знаю где и как можно применять вот эти нейронные аватары. Хз что там под капотом, но похоже на самописный фейс-своп, (или всё же лора какая-то??)
Особенно вкатил стиль "киберпанк".
Сиолошная 2024-02-19 14:33:05
Рекомендации музыки YouTube (да, я слушаю там, лол) принесли чудесное — сборник песен с радио Vladivostok FM. Да, из игры GTA IV!
Предлагаю и вам поностальгировать по первой декаде 21го века — или даже представить себя поднимающимся по пищевой цепочке мигрантом из Восточной Европы, перебравшимся в город надежд Нью-Йорк.
https://www.youtube.com/watch?v=Suju9BPs7Zs
В программе такие хиты, как:
— Руслана - Дикі танці
— Ленинград - Никого не жалко
— Кино - Группа крови
— Глюкоза - Швайне
— Серёга - Кинг ринг, А ЧЁ ЭТО ЗА ПАРЕНЬ О КОТОРОМ ТРЕСК И ШОРОХ?
Эх, было время, когда романтизировали подобную культуру, kinda miss it.
Neural Shit 2024-02-19 14:04:12
С выходом sora снова на реддите и в твитторе начали началось нытьё, что скоро эти наши нейронки отберут у всех человеков работу.
В очередной раз напомню, что плохому танцору мешают яйца, а плохому художнику — нейронки.
Neural Shit 2024-02-19 11:15:20
Киберпанк, который мы заслужили
CGIT_Vines 2024-02-19 09:31:22
Получение трёхмерных сцен из видео с достраиванием недостающих ракурсов — это просто вопрос времени. Вопрос очень ближайшего времени! Об этом говорит Peggy Wang, в прошлом студент Стенфорда по ИИ и робототехнике, также бывшая сотрудница RealityLabs. С её слов, она в данный момент занимается подобной работой.
Второй важный звонок заключается в том, что старший научный сотрудник Nvidia по созданию фундаментальных моделей для агентов ИИ, робототехники и игр утверждает, что SORA — это не просто рандомно галлюцинирующая сеть, как DALL·E или ей подобные, а сеть, в основе имеющая физический движок, управляемый данными. То, что она создаёт, это не просто выученные паттерны; это, как он утверждает, расчёты, и приводит в пример чашку кофе с двумя плавающими в ней кораблями. Вероятно, внутри своего пространства SORA создаёт трёхмерную среду, внутри которой происходит анимация объектов и их симуляция.
Самое страшное, если всеми этими параметрами дадут управлять, тогда повалятся по эффекту карточного домика многие пайплайны, которые устанавливались десятилетиями. Как следствие мы получим полностью генерируемые и управляемые по наполнению среды.
Я, честно, пишу и сам с трудом в этом верю, просто потому, что у меня пока не умещается это в голове.
Сиолошная 2024-02-18 22:54:45
Взгляд из прошлого: Elon Musk делится фотографиями ранних OpenAI в момент, когда CEO Nvidia подарил команде DGX-1 (сервер с 8 видеокартами для обучения нейросетей). Я к такому серверу имел честь прикасаться (заказывали и устанавливали в X5, эх, было время).
На фото из 2016го много знакомых людей, от Greg Brockman и Dario Amodei до Ilya Sutskever...эх, где он сейчас? WHERE'S ILYA?
Хорошая инвестиция от Nvidia — OpenAI сейчас поди один из крупнейших потребителей их продуктов (через Microsoft), и, внезапно, один из потенциально крупнейших конкурентов.
Сиолошная 2024-02-18 19:38:12
Написал тезисный план для следующего лонгрида по AI
@
Только один план занимает 2.6 экрана в Notion (3 страницы 14м шрифтом)
Ваши ставки, когда выйдет этот лонг
P.S.: это означает, что постов в канале какое-то время почти не будет
Метаверсище и ИИще 2024-02-18 17:42:15
Для гиков.
Выкатили нативный саппорт для Stable Cascade в ComfyUI.
Ждём в А1111 и Форже.
Running on a 12 gb RTX 3060 a 2048x2048 render took about 170 seconds and used 8.5 gb vram in the first stage and 5.1 in the second. 40 + 20 stepts. This was with the bf16-models.
https://github.com/comfyanonymous/ComfyUI
Denis Sexy IT 🤖 2024-02-18 17:13:41
Собрал новую порцию генераций SORA, я бы конечно многое отдал чтобы в бету напроситься
Обратите внимание на руку парня на пляже
эйай ньюз 2024-02-18 17:03:10
А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез
Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.
Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.
Идея BPE очень простая:
Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!
А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.
@ai_newz
Метаверсище и ИИще 2024-02-18 14:18:53
Ну и вот вам еще одна новость, про расшифровку разговорных данных, которая сильно продвигает обучение ИИ.
Продвигает настолько сильно, что ИИ начинает демонстрировать "новые языковые способности".
Новая модель Text-to-Speech модель от Amazon, по словам создавших авторов вот такой статьи, демонстрирует языковые способности, которым она не обучалась.
Амазоновцы утверждают, что их LLM демонстрирует "самую современную естественность" при работе с разговорным текстом.
Как говорится в статье, модель смогла придумать всевозможные предложения, которые, согласно критериям, разработанным с помощью "эксперта-лингвиста", показали, что она совершает такие языковые скачки, которые естественны для людей, изучающих язык, но которые было трудно получить в ИИ.
Первоначальная модель "Big Adaptive Streamable TTS with Emergent abilities" или BASE TTS, была обучена на 100 000 часах "речевых данных, являющихся общественным достоянием", 90 процентов которых были на английском языке, чтобы научить ее тому, как разговаривают американцы.
Там внутри 1-billionparameter autoregressive Transformer that converts raw texts into discrete codes, а затем декодер на основе свертки, который преобразует эти речевые коды в аудио в потоковой манере.
Чтобы проверить, насколько большими должны быть модели, чтобы продемонстрировать "возникающие способности", или способности, которым они не обучались, команда Amazon обучила две меньшие модели, одну на 1 000 часов речевых данных, а другую на 10 000, чтобы посмотреть, какая из трех - если таковая имеется - демонстрирует тот тип естественности языка, который они искали.
Интересно, что средняя модель на "10 000 часов", набрала наибольшее количество баллов в списке критериев эмерджентных способностей, куда входили такие вещи, как способность понимать знаки препинания, неанглийские слова и эмоции.
BASE TTS никогда не было "явно" приказано придумать свои удивительные результаты.
"Эти предложения предназначены для выполнения сложных задач - разбора предложений, которые вводят читателя в заблуждение, постановки фразового ударения в длинных сложных существительных, создания эмоциональной или тихой речи, правильной фонемной передачи иностранных слов типа "qi" или пунктуации типа "@" - ни одну из которых BASE TTS не была явно не обучена выполнять".
Статья тут, авторов - 18 штук. В качестве обратной связи указана скромная компания:
Amazon AGI
https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data
Послушать записи можно тут:
https://www.amazon.science/base-tts-samples/
Метаверсище и ИИще 2024-02-18 13:40:54
Интересное. Данные - это не нефть, это чистое золото. Где-то 60 миллионов.
Reddit подписал контракт, позволяющий неназванной пока (Мета, Гугл, OpenAI, Маск?) компании, занимающейся разработкой собственного ИИ, обучать свои модели на контенте Реддита.
Reddit, которая готовится к IPO, сообщила (невзначай), что подписала контракт на сумму 60 миллионов долларов в год в начале этого года, говорится в сообщении.
Вот уж наглядная демонстрация того, что если у тебя есть много текстов (причем созданных бесплатно другими людьми), то у тебя все в порядке.
Теперь эти тексты можно продавать примерно как персональные данные. Они и есть персональные данные - на основе сообщений кожаного пользователя ИИ легко составит его портрет и даст оценку его интеллекта. Просто об этом не принято говорить. Пока.
Кстати, поговаривают, что в мире заканчиваются тексты. Поэтому расшифровка видео и аудио, в которую сейчас идут буквально все, способны дать ИИ еще один здоровенный корпус текстов-расшифровок, содержащий новые оттенки - разговорная речь, быстрые ответы, абсолютно новые эмоции. Еще один шаг в улучшении симуляции кожаного мышления через языковые модели.
https://finance.yahoo.com/news/reddit-signs-content-licensing-deal-234221336.html
Метаверсище и ИИще 2024-02-18 13:26:02
Хех, на ибей появились карты RTX 2080TI с 22 гигабайтами.
Насколько я понимаю, это моддеры берут живые RTX 2080TI с 11 гиг видеопамяти и набивают туда еще 11 гиг.(Год назад моддеры сделали версию 2080 на 44 гига).
Раньше этим промышляли китайцы, сейчас такие карты предлагаются американской компанией, утверждающей, что они представляют собой «лучшую бюджетную альтернативу RTX 3090 за 1/3 стоимости». Утверждается, что эти карты прошли тестирование с некоторыми ИИ-генераторами, такими как Stable Diffusion или LLAMA2. Кроме того, они оснащены специальными вентиляторами.
Я лишь могу добавить, что моя ноутбучная 2080 MaxQ иногда обгоняет 3060 в Stable Diffusion. Так что 2080 была очень хорошей серией.
https://2080ti22g.com
Метаверсище и ИИще 2024-02-18 00:43:18
Вот вам посмотреть на выходные.
Это видео из Соры сгенерировано за один проход. Тут ничего не склеивали, композили или монтировали. Просто она умеет и вот так: сразу из пяти камер. На одном видео.
Поразглядывайте.
Это видео из твиттора чувака, который работает над Сорой в OpenAI.
Я поглядел его твиттор и мне как-то не по себе.
Поглядите и вы, одному мне что ли мучиться?
https://twitter.com/billpeeb
Дмитрий Савостьянов Вещает 2024-02-17 18:43:04
Подъехало сравнение качества генерируемых видео от Runway Gen-2 и OpenAI Sora на одинаковых промптах.
Тред в твиттере
Метаверсище и ИИще 2024-02-17 13:59:15
А тем временем Ян ЛеКун в твитторе поясняет за симуляцию окружающего мира и говорит, что метачкина V-JEPA еще всем покажет, как генерить видео.
Позвольте мне прояснить *огромное* недоразумение.
Генерация в основном реалистично выглядящих видеороликов на основе подсказок *не* указывает на то, что система понимает физический мир.
Генерация сильно отличается от каузального предсказания на основе модели мира.
Пространство правдоподобных видео очень велико, и системе генерации видео достаточно создать *один* образец, чтобы добиться успеха.
Пространство правдоподобных продолжений реального видео *значительно* меньше, и сгенерировать репрезентативный фрагмент из них - гораздо более сложная задача, особенно если это обусловлено каким-либо действием.
Кроме того, генерировать эти продолжения будет не только дорого, но и совершенно бессмысленно.
Гораздо желательнее генерировать *абстрактные представления* этих продолжений, которые устраняют детали сцены, не имеющие отношения к любому действию, которое мы можем захотеть предпринять.
В этом и заключается суть JEPA (Joint Embedding Predictive Architecture), которая является *не генеративной* и делает предсказания в пространстве представлений.
Наша работа над VICReg, I-JEPA, V-JEPA и работы других авторов показывают, что архитектуры Joint Embedding создают гораздо лучшие представления визуальных входов, чем генеративные архитектуры, которые восстанавливают пиксели (такие как Variational AE, Masked AE, Denoising AE и т. д.).
При использовании полученных представлений в качестве входных данных для supervised head , обученной на последующих задачах, Joint Embedding выигрывает у генеративной архитектуры.
https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
Метаверсище и ИИще 2024-02-17 13:48:39
Sora, далеко ли до продукта.
Судя по сообщениям от OpenAI, да, далеко.
Как мне кажется, одной из ключевых проблем будет цензура.
В статье, которую мы все прочитали прямо написано, что SORA может генерить картинки, причем сразу в 2048х2048.
Далее, в примерах полно видео с людьми. С очень хорошими такими, фотореалистичными людьми. Совсем не такими, как в DALL·E 3, где они основательно и намеренно "подпорчены", так чтобы не быть реалистичными.
Ожидать ли, что в продукте эти великолепные лица на видео уйдут в прошлое и снова будут шаржированы под "безопасные" изображения людей?
Далее, в шапке видео, которое SORA генерит по картинке на входе. Да, она умеет брать картинки на вход (тут расплакались навзрыд существующие генераторы).
Что будет если вы возьмете хорошую фотку себя любимого или на худой конец Тейлор Свифт и присунете ея в Сору?
Правильно, очень хороший дипфейк (оставим за кадром вопросы генерации именно говорения).
Как будет вырезать такой функционал OpenAI? Ибо за поминание дипфейка можно сейчас получит в бан и кансел в приличных корпоративных кругах.
В общем, сдается мне, мы сейчас любуемся на чистую, нецензурированную, свободную духом модель, которую скоро поведут в застенки адаптации в нормам приличного кожаного общества. К продукту.
эйай ньюз 2024-02-17 13:06:14
Эпичных видео про статьи — это то, что нам не хватало. Смотреть со звуком!
Трудно переоценить влияние работы "Attention is all you need" на развитие области в последние годы. Статья всего лишь набрала 109,160 цитирований, и аттеншн слои используются всего лишь почти в каждой современной архитектуре.
@ai_newz
Сиолошная 2024-02-16 17:44:04
Как обещал, пост про интересное применение длинного контекста в новой Gemini Pro v1.5
Google доучили свою модельку работать с миллионом токенов (GPT-4 поддерживает 128 тысяч, Claude 2 200 тысяч), причём, мультимодальных — то есть это могут быть и раскадровки видео, и текст, и просто набор изображений. Сюда влезет вся «Война и мир», наконец-то!
Но каждый раз, когда мы говорим про длинный контекст, встаёт вопрос: а он вообще работает? И какие возможности открывает? Я не буду отвечать на второй вопрос, но постараюсь пересказать пример ответа на первый — ведь это один из самых интересных пунктов в демках Google. И связан он с переводом каламанга. Каламанг — это язык, на котором говорит менее 200 человек (не тысяч, просто человек) в западной части Новой Гвинеи, на востоке индонезийского Папуа. Каламанг почти не представлен в Интернете, и любая модель просто не будет его знать — как и профессиональный лингвист.
Однако недавно был предложен бенчмарк по оценке навыков перевода модели с помощью 573-страничной книги лингвистки Eline Visser. В своей работе «A Grammar of Kalamang» она описывает правила языка, его устройство, часто используемые фразы итд. Это уникальный артефакт, позволяющий другим лингвистам с книжкой в одной руке и табличкой «слово -> перевод» в другой за несколько часов разобраться в языке и начать хоть как-то его переводить. Без контекста (книга+словарь) модель Gemini Pro v1.5 делает переводы, сравнимые по качеству со случайным гаданием.
Идея: давайте в промпт языковой модели положим и всю книгу от корки до корки, и словарик, и затем попросим LLM перевести текст либо с каламанга на английский, либо наоборот.
Тогда качество переводов становится сравнимым с качеством перевода человека, который работал с теми же материалами (в рамках бенчмарка им отводилось до 10 часов на перевод определенных текстов). Метрики вышли даже чуть выше, чем у кожаных, что, как предполагают авторы, модель очень эффективно утилизирует контекст, используя знания из книги на полную для выполнения сложной интеллектуальной задачи.
Так как в лабораториях Google тестируется модель на 10M токенов (20-30 книг и учебников?), то можно предположить, что качество перевода для очень редких и малоизученных языков в ближайшие полгода оооооочень сильно скакнёт.
Если вам интересно, как можно сделать такой длинный контекст, то отсылаю вас к этой работе, вышедшей за пару дней до гугловской, и по сути показыающей те же самые навыки (но применительно к видео и точности поиска в контексте).
Сиолошная 2024-02-16 16:06:38
Форум OpenAI запустился для всех желающих: https://forum.openai.com/
На форуме будут проводиться различные мероприятия, посвященные техническим беседам, образовательные вебинары и экспертные беседы за круглым столом, а также будет предоставлено множество возможностей для участников для нетворкинга и брейнштормов (в том числе с сотрудниками OpenAI).
Пользователям форума, проявившим активность, будет предложено принять участие в оплачиваемых мероприятиях, которые напрямую влияют на модели OpenAI (оценки моделей/red teaming, создание датасетов эвалюации, обеспечение безопасности будущих моделей).
Всего 3 критерия для вступления:
— Демонстрация интереса к пересечению вашего домена и искусственного интеллекта;
— Возможность выделить время для участия в мероприятиях (хотя бы 1 час в квартал);
— Подтвержденный опыт в своей профессиональной области или академической дисциплине.
Про интересные OpenAI направления (домены вашей экспертизы) писал вот тут: https://t.me/seeallochnaya/677
Метаверсище и ИИще 2024-02-16 12:54:34
Забыл вам донести бесплатный и даже опен-сорсный удалятор фона на изображениях. Как и все удаляторы, хорошо работает на пляжных фото, но там где есть детали, спорная прозрачность и другие радости реальной жизни изворачивается как может.
Может вам пригодится:
Пробуем тут:
https://huggingface.co/spaces/briaai/BRIA-RMBG-1.4
gonzo-обзоры ML статей 2024-02-16 12:46:16
Дни интересных анонсов.
OpenAI вчера анонсировали генеративную диффузионную модель для видео под названием Sora (https://openai.com/sora), способную генерировать видео длиной до одной минуты по текстовому описанию. Также можно работать по входной картинке или видео. Выглядит впечатляюще, пока модель в очень ограниченном доступе для редтиминга и сбора фидбека от избранных творческих людей.
Техотчёт Sora здесь: https://openai.com/research/video-generation-models-as-world-simulators
Смотрите там же кучу примеров, они прикольные.
Гугл вчера же анонсировал развитие линейки Gemini. Gemini 1.0 Pro и Ultra ушли в статус GA (Generally available), то есть готовые к продакшн использованию (Ultra пока через whitelist), а также объявлена Gemini 1.5 Pro (https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024).
Техотчёт Gemini 1.5 здесь: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
Gemini 1.5 Pro заявлена как сравнимая по качеству с 1.0 Ultra, но более лёгкая и использующая Sparse MoE (https://t.me/gonzo_ML/472). Другая интересная фича этой модели -- контекст до 10M символов что на пару порядков больше предыдущих лидеров в лице Anthropic Claude 2.1 (200k) и GPT-4 Turbo (128k). 10М правда пока в режиме исследования, а контекст размером 1M доступен для ограниченного круга, для всех остальных пока 128k.
Например, в 1M токенов влезло 44-минутное немое видео с Бастером Китоном (https://www.youtube.com/watch?v=rOVtjJkqtiA). По тесту Needle In A Haystack (https://github.com/gkamradt/LLMTest_NeedleInAHaystack), где в большом тексте прячется мелкий факт, который модель должна найти и использовать, эти 1M выглядят настоящими.
Это интересное развитие, которое показывает, куда скорее всего придут модели ближайшего будущего. RAG наверное останется, но для многих кейсов он должен измениться. OpenAI в это же время исследует возможности использования памяти с ChatGPT и GPTs (https://openai.com/blog/memory-and-new-controls-for-chatgpt).
На прикольном бенчмарке MTOB (Machine Translation from One Book, https://arxiv.org/abs/2309.16575), когда по одной книге с грамматикой языка Kalamang, имеющего менее 200 носителей, надо научиться переводить между этим языком и английским, результат весьма достойный. Это прикольно потому что здесь дан не датасет с параллельными текстами, как обычно при обучении MT, а скорее датасет в формате более подходящем для System 2.
Метаверсище и ИИще 2024-02-16 12:22:51
Продолжение: Ну соединив теперь генеративное видео, 3Д, симуляцию нашего мышления в виде LLM, получим ... внутренность нашей кожаной башки, когда туда светят фонариком из замочной скважины многомерного мира и шепчут на ухо понятные слова и непонятные мантры.
Ну и хочу порекоментовать к просмотру сериал Разрабы (Devs) - он прям неглупый, смотрится отлично и заставляет задуматься, что мы, возможно уже давно живем на инференс-серверах OpenAI. Обобщенной Open AI.
https://radiancefields.com/openai-launches-sora-and-the-world/
Метаверсище и ИИще 2024-02-16 12:18:29
Симуляция нашего восприятия и хороший сериал.
Я уже писал философский пост о том, что LLM
После вчерашнего демарша OpenAI с выходом видеогенератора SORA, интересно подумать, как ИИ срисовывает наше восприятие внешнего мира. Через все эти размеченные видео и картинки у него в голове строится этакая визуальная модель реконструкции этого мира - способ построения картинок в голове в ответ на сигналы в виде слов(текстов) и звуков.
Ну и понятно, что он реконструирует разные многочисленные миры, соответствующие разным промптам, от игровых миров, как в случае с майнкрафтовым видео, до самых замысловатых фантазий и даже мультиков.
Пока были только генераторы картинок, речь шла скорее о симуляции воображения. С появлением временного измерения запахло симуляцией работы всего нашего мира. Точнее симуляцией того, что происходит у нас в голове (как там в реальности мы не знаем, вон змеи не видят неподвижное и живут без этой части мира в голове).
И лучше всего демонстрирует мои неловкие философские потуги вот такое видео.
Взяли сгенерированное видео из SORA и присунули его в Нерф. Получили 3Д-модель сгенерированного мира. Понятно, что в голове у ИИ латентное пространство типа 738D, вместо нашего утлого 3D. И мы через такую 3Д-замочную скважину в виде Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS) можем теперь подглядывать чего он там насимулил про нас и наше восприятие.
Ну и интересно поразмышлять о том, какие миры у него в башке будут близки друг к друг другу по "смыслу". Помните на у него на картинках от короля к королеве идет такой же вектор как от мужчины к женщине в его мозгах. Ответ может быть неочевидным. И шорткаты между мирами могут вас удивить.
Neural Shit 2024-02-16 11:25:09
Чот в голосину. В твитторе клип Витаса выдают за работу новой SORA от Open AI.
С "тексты бредовые" кекнул особенно.
Сиолошная 2024-02-16 10:25:30
Фуууух, ну и денёк вчера выдался!
1. Sora от OpenAI, показывающая, как нейросети могут выучивать картину миру внутри себя
2. V-JEPA (не шучу, такое название модели) — модель от META, симметричный ответ от команда Le Cun про обучение моделей на видео с целью улучшения понимания нейронками мира. Несмотря на то, что Yann всё время накидывает против OpenAI и AGI, даже пост с анонсом кончается...рассуждениями об «advanced machine intelligence».
3. Google анонсировали Gemini 1.5 (при том что Gemini 1.0 Ultra всё еще не полноценно раскачена на пользователей...), главных фишки 3: увеличение длины контекста до миллиона токенов (хотя экспериментируют даже с 10М, и всё работает), чтоб можно было скормить всю «Войну и мир» и ещё осталось сверху; улучшение метрик Pro 1.5 до Ultra 1.0 (то есть меньшая модель достигает результатов как старший собрат и даже лучше); внедрение микстуры экспертов (как, по слухам, делали OpenAI в GPT-4). Если вам интересно, как они смогли добиться работы с длинным контекстом, то могу предложить почитать вот эту работу — вышла на 2 дня раньше, и тоже масштабирует окно внимания до миллиона. В авторах именитые люди!
Про Gemini 1.5 чуть позже напишу пару постов про интересные фичи.
4. Наконец, я прочитал лекцию в ИТМО для будущих абитуриентов магистратуры, где сделал обзор ландшафта мира LLMок и постарался вкратце рассказать. что нас ждёт. Слайды можно найти тут, а сама лекция за два часа, как мне кажется, заставит открыть от удивления рот большое количество людей. Там я вкратце рассказываю про принципы обучения LLM, про рецепт успеха ChatGPT, и про то, как модель привязать к реальному миру — а потом показываю, что с этим можно творить. Мне кажется получилось интересно, хоть и немного скомкано — уж очень многим хотелось поделиться, поэтому не на всё хватило времени.
(смешно что в лекции я рассказывал в том числе про то, что нейронки формируют внутри себя модели мира, потому что это очень полезно при решении задачи предсказания будущего — следующего кадра, следующего слова, etc., а OpenAI вот вечером навалили контенту)
Спасибо ребятам из ИТМО и @aitalenthubnews за то, что пригласили выступить в рамках МегаШколы!
Мишин Лернинг 🇺🇦🇮🇱 2024-02-16 10:22:33
📼 OpenAI — SORA: Генерация видео по текстовому описанию
Очень впечатлило качество и консистентность генераций.
upd: paper (тех репорт) обещают выложить сегодня чуть позже.
👉 https://openai.com/sora