Нейролента Mikitos.ru 2736 постов. Страница 39 (50 постов)
эйай ньюз 2023-09-20 19:11:25
Еще картиночек от DALLE-3. По сути это почти все, что нам показали на текущий момент.
Ни кода, ни блога, ни визуального сравнения с SOTA, ни бенчмарков.
OpenAI, что еще сказать 🌝
@ai_newz
эйай ньюз 2023-09-20 18:54:37
3-ий промпт: A photo of an ancient shipwreck nestled on the ocean floor. Marine plants have claimed the wooden structure, and fish swim in and out of its hollow spaces. Sunken treasures and old cannons are scattered around, providing a glimpse into the past.
Ради справделивости, эта генерация выглядит наиболее как фотография. Хотя в реальности под водой фото выглядело бы совсем иначе.
эйай ньюз 2023-09-20 18:53:19
Модель максимально кастрировали алайнментом и фильтрами нежелательного контента. Dalle-3 откажется генерить известных людей, любые картины в стиле существующих художников и любой небезопасный контент по мнению OpenAI. Так компания обезопасила себя от судебных исков.
Кажется, что фотореалистичный контент модель тоже слабо умеет генерировать. Везде видна стилизация, картинки выглядят отрендеренными и слегка пластмассовыми, а не как реальные фотографии, даже если в промпте явно написать "photograph".
Промпты:
1. Close-up photograph of a hermit crab nestled in wet sand, with sea foam nearby and the details of its shell and texture of the sand accentuated.
2. A vibrant yellow banana-shaped couch sits in a cozy living room, its curve cradling a pile of colorful cushions. on the wooden floor, a patterned rug adds a touch of eclectic charm, and a potted plant sits in the corner, reaching towards the sunlight filtering through the window.
3. A photo of an ancient shipwreck nestled on the ocean floor...
@ai_newz
эйай ньюз 2023-09-20 18:36:44
🔥 OpenAI анонсировали DALL-E 3
DALL-E 3 обещает быть интегрированной с ChatGPT, то есть не нужно будет думать над промптами (привет промпт-инженерам). Достаточно будет в пару слов описать, что вы хотите нарисовать, и ChatGPT придумает детальные промпты для вас.
Особое внимание уделили деталям и научили модель лучше прнимать контекст изображения, описанный в длинных промптах (DALLE-3 любит многословность описаний).
Пока никому не дают потрогать модель, показали только с дюжину генераций. Поэтому трудно судить насколько это будет SOTA, и как медленно это будет работать.
Я полагаю, это будет огромная диффузия в несколько этапов с GPT-4 в качестве текстового энкодера и всяческими свистелками-перделками, о которых мы не узнаем.
В октябре обещают дать доступ юзерам ChatGPT Plus and ChatGPT Enterprise. А после этого может быть ресерчерам.
https://openai.com/dall-e-3
@ai_newz
Сиолошная 2023-09-20 17:43:15
OpenAI: модель теперь лучше рисует лица и руки
Лица и руки:
P.S.: интересное замечание, ни на одном примере генрации нет фотореалистичного изображения, и почти нет людей (все - нарисованные). Хмм...
Neural Shit 2023-09-20 17:37:24
Там OpenAI Dalle-3 анонсировала
https://openai.com/dall-e-3
Сиолошная 2023-09-20 17:22:38
В честь праздника на канале OpenAI решили выпустить DALL-E 3
https://openai.com/dall-e-3
Теперь модель понимает значительно больше нюансов и деталей, чем предыдущие системы, что позволяет вам легко воплощать ваши идеи в исключительно точные изображения.
На фото результат генерации по запросу
> An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within. The quote 'Find the universe within you' is etched in bold letters across the horizon.
Статьи нет, так что другим исследователям придётся крутиться самостоятельно!
Обещают плотную интеграцию с ChatGPT. Как минимум в виде плагина (в октябре). Но ещё есть интересная заметка:
> Будучи запромпченной, ChatGPT автоматически создаст индивидуальные и более детальные промпты для DALL·E 3, которые воплотят вашу идею в жизнь. Если вам нравится определенное изображение, но оно не совсем подходящее, вы можете попросить ChatGPT внести изменения всего несколькими словами.
> DALL·E 3 is built natively on ChatGPTПошёл генерить новую аватарку для канала
DALL·E 3 сейчас находится на стадии предварительной версии (доступно для исследователей), а всем будет доступен в октябре через API и подписку на ChatGPT.
Сиолошная 2023-09-20 16:14:29
Here's to 25 more
Neural Shit 2023-09-20 16:13:18
Сейчас надо было в колабе по быстрому обучить одну старую сетку и у меня сразу же сгорела жопа. Как обычно ебучий PyTorch обновился так, что обратная совместимость пошла по пизде. А версию сменить нельзя, ибо колаб обновил версию cuda (а ее даунгрейдить это то ещё очко)
И вот возникает справедливый вопрос: неужели разработчики торча настолько блядь уебаны, что СУКА ПОЧТИ КАЖДОЕ обновление ломает вообще нахуй всё? Что именно мешает НЕ ломать обратую совместимость? Хочется взять и уебать по мордасам толстенным учебником джавы, в которой эта ебучая обратная совместимость поддерживается ещё со времён динозавров.
Neural Shit 2023-09-20 13:39:52
Надеюсь, что у этого робота внутри что-то типа блендера (иначе зачем всё это?)
эйай ньюз 2023-09-20 13:00:14
Потыкал я в обновленного Bard-а.
Я бы никогда не дал доступ ChatGPT к своим письмам, но т.к. письма и так уже на серверах гугла, то перешагнуть этот порог с Бардом было нетрудно. Интересно было посмотреть как он хорошо ищет в моих мейлах.
Пытался узнать, что мне впервые написал мой PhD научник из Хайдельберга - Prof. Björn Ommer. В итоге я очень долго мучал Барда, чтобы тот смог найти емейлы по имени отправителя. Паршивец наотрез отказывался, пока я явно не выписал e-mail адрес. Затем он не хотел искать письма раньше чем 2021 год (а у меня их там тысячи), пока я несколько раз не сказал явно, мол "I had emails from Björn before 2021". Только после этого он осилил задачку.
Письмо от Авг. 2015 реально существует, где я спрашивал у Бьёрна что мне делать по прибытию в Германию в первую неделю. Но это было не первое письмо все равно!
Короче, продукт работает, но еще довольно сырой.
Попробовать можно тут. Не забудьте включить "Extensions" для доступа к gdrive и gmail.
@ai_newz
эйай ньюз 2023-09-20 09:51:58
Большое обновление Google Bard
Вчера Google выкатил свою продвинутую версию Bard, которая интегрирована с другими продуктами Google - эдакий универсальный помощник по вашим делам. Еще добавили факт-чекинг.
— Теперь Bard может брать информаци из других приложений Google (типа аналог плагинов у ChatGPT)
— Можно работать с данными из Maps, YouTube, Hotels и Flights. Модель сама запросит инфу у нужного сервиса.
— Возможность взаимодействовать с вашей приватнйо информацией из Gmail, Docs и Drive, чтобы находить, сжимать и отвечать на вопросы.
— Ответы Барда теперь можно дполнительно факт-чекнуть с помощью Google It v2 для большей уверенности в информации. Система дополнительно погуглит и попытается найти подтверждения фактам со ссылками в интернете. Текст подсветится разными цветами.
— Возможность по ссылке продолжить диалог, начатый другими, и использовать его для вдохновения. Например, так будет удобно шарить промптики.
— Можно загружать изображения и включать их в ваш промпт, задавать по ним вопросы.
Это серьезная заявоча на конкуренцию с другими LLM-сервисами. Учитывая огромную базу пользователей GDrive и GMail, может взлететь если сам продукт не будет сильно лажать.
Блогпост (3 мин)
Потыкать в Bard Chat самому
@ai_newz
gonzo-обзоры ML статей 2023-09-19 22:33:35
Textbooks Are All You Need II: phi-1.5 technical report
Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
Статья: https://arxiv.org/abs/2309.05463
Модель: https://huggingface.co/microsoft/phi-1_5
Продолжение работы “Textbooks Are All You Need” (https://arxiv.org/abs/2306.11644) про маленькую да удаленькую модель phi-1, которая при размере в 1.3B параметров и при обучении в течение всего 4 дней на 8 A100 (что чуть больше $3k по ценам Амазона, и наверное даже дешевле в случае H100), демонстрирует весьма достойные результаты в генерации кода на Питоне.
До этого ещё была аналогичная работа TinyStories (https://arxiv.org/abs/2305.07759) не про код, а про английский язык и SLM (small language models) размеров типа 10M (не B!) параметров.
В этих работах вкладывались в качественные датасеты, включая части сгенерированные GPT-шками.
В текущей работе продолжают линию phi-1, фокусируясь на common sense reasoning и обучают новую 1.3B модель phi-1.5 с весьма достойным перформансом, превосходящим в разы более тяжёлые модели типа Llama 2-7B или Vicuna-13B. Эту обучали на 32 A100 8 дней.
Архитектура phi-1 и phi-1.5 идентична, трансформер с 24 слоями, 32 головами каждая размерности 64. Используются rotary embedding, длина контекста 2048. При обучении использовался Flash attention.
В обучающем датасете 7B токенов из датасета для phi-1, и примерно 20B новых синтетических “textbook-like” data для обучения модели common sense reasoning. Для создания датасета тщательно отобраны 20К тем для генерации, в промптах для генерации использовались для разнообразия сэмплы из веба. Не-синтетическая часть датасета -- это всего 6B токенов отфильтрованного кода из датасета для phi-1.
Авторы упирают на то, что создание датасета -- очень важный процесс, требующий итераций, стратегического выбора тем, и глубокого понимания пробелов в знаниях чтобы обеспечить качество и разнообразие данных. И по мнению авторов, создание синтетических датасетов станет в ближайшем будущем важным техническим навыком и центральной темой ИИ исследований.
Во время обучения используется 150B токенов, 80% из нового синтетического датасета, а 20% из датасета от phi-1.
Также обучили ещё две модели phi-1.5-web-only и phi-1.5-web. Для них используется 95B токенов фильтрованных данных из веба, 88B из датасета от Falcon, и 7B из The Stack и StackOverflow. Модель phi-1.5-web-only обучается только на датасете веба (80%) + код (20%), без всякой синтетики, а phi-1.5-web на миксе из всего: 40% веб, 20% код, 40% новая синтетика.
Никакого instruction finetuning или RLHF не применяется (желающие могут дообучить сами). Основной режим использования модели это direct completion, но некоторый ограниченный instruction following модель может делать.
Результаты очень неплохи.
На WinoGrande, ARC-Challenge, SIQA бьёт разные опенсорсные модели вплоть до Vicuna-13B, Llama2-7B, Falcon-7B. На BoolQ и ARC-Easy недотягивает до викуны или второй ламы, но всё равно весьма достойно.
При этом phi-1.5-web-only бьёт все модели сопоставимого размера, даже когда обучается на сильно меньших датасетах (например, на всего 15% от размера Falcon-1.3B). Добавление синтетики (и получение модели phi-1.5-web) даёт очень большой буст, а модель без веба, phi-1.5 не сильно от неё отстаёт.
На Hellaswag заметное отставание от больших моделей, на MMLU от некоторых больших. На PIQA, OpenbookQA, SQUAD (EM) прям хорошо.
При валидации reasoning abilities на математике и коде очень крутые цифры для такого размера модели. Иногда бьёт Llama-65B. Добавление данных веба местами неплохо помогает.
Интересно, что способность к кодингу у phi-1.5 почти как у phi-1, которая была обучена чисто для кода. Авторы считают, что в этом преимущество качественных данных -- при обучении на миксе задач модель не теряет в качестве.
По токсичности не идеал, но лучше Llama2-7B и Falcon-7B.
gonzo-обзоры ML статей 2023-09-19 22:33:35
Хорошее направление развития. Интересно, через какое время мы добьёмся качества GPT-4 при скромном размере, и во сколько раз этот размер будет меньше. Как пишут авторы в завершение, “Perhaps achieving ChatGPT’s level of capability at the one billion parameters scale is actually achievable?”
Конечно, уже есть файнтюны модели. Например, Puffin-Phi V2 (https://huggingface.co/teknium/Phi-Hermes-1.3B) с в том числе instruction following на датасете OpenHermes (https://huggingface.co/datasets/teknium/openhermes), или ассистент Samantha (https://huggingface.co/ehartford/samantha-phi) со специализацией на “philosophy, psychology, and personal relationships”.
эйай ньюз 2023-09-19 20:54:38
Кажется, война против машин уже началась. Сначала конусы, а теперь в ход идут молотки.
10 сентября, Сан-Франциско.
@ai_newz
Сиолошная 2023-09-19 18:00:21
Кто жаловался на то, что сейчас проблемы с рекрутментом? Принёс вам новость: Neuralink набирает кандидатов...для операции по имплантации чипов в голову (звучит как киберпанк конечно).
Как я писал ранее в канале, они уже получили одобрение в США, ведь там просто так нельзя взять и что-то начать делать.
Целью исследования является оценка безопасности их имплантата (N1) и хирургического робота, который и будет осуществлять оперцию (R1), а также первоначальная функциональность brain-computer interface (BCI), позволяющая людям с параличом управлять внешними устройствами силой мысли.
Узнать больше можно тут.
Сиолошная 2023-09-19 14:38:54
Anthropic опубликовали Политику ответственного масштабирования (Responsible Scaling Policy, RSP) — серию технических и организационных протоколов, которые они принимают для того, чтобы помочь управлять рисками, связанными с разработкой все более эффективных систем искусственного интеллекта.
"Мы считаем, что по мере того, как модели ИИ становятся более функциональными, они создадут большую экономическую и социальную ценность, но также будут представлять все более серьезные риски."
RSP определяет «Уровни безопасности искусственного интеллекта» (AI Safety Levels, ASL) для работы с потенциальными катастрофическиим рисками, которые по формату аналогичны стандартам уровней биобезопасности (BSL) правительства США для обращения с опасными биологическими материалами.
Потенциально выделяется 5 уровней систем, ниже дам очень сокращенное описание:
— ASL-1 относится к системам, которые не представляют значимого катастрофического риска, например, LLM 2018 года или система искусственного интеллекта, которая играет только в шахматы; — ASL-2 относится к системам, которые проявляют ранние признаки опасных возможностей – например, способность давать инструкции о том, как создавать биологическое оружие – но где информация еще не является полезной из-за недостаточной надежности или отсутствия информации, которая, например, поисковая система не смогла обнаружить в силу своей несовершенности. Нынешние LLM, включая Claude-2 и GPT-4, скорее всего, имеют этот уровень;
— ASL-3 относится к системам, которые существенно увеличивают риск катастрофического или неправильного использования по сравнению с базовыми системами, не связанными с ИИ (например, поисковыми системами или учебниками), ИЛИ которые демонстрируют автономные возможности низкого уровня. Потенциально это GPT-5 в обёртке AI-агента с неконтролируемым доступом в интернет;
— Уровни ASL-4 и выше (ASL-5+) еще не определены, поскольку они слишком далеки от нынешних систем, но, вероятно, их разработка повлечет за собой качественное увеличение потенциала катастрофического злоупотребления подобными системами.
Весь RSP следует рассматривать как аналог предварительных испытаний и разработки систем безопасности, проводимых в автомобильной или авиационной промышленности, где цель состоит в том, чтобы точно продемонстрировать безопасность продукта до его выпуска на рынок, что в конечном итоге приносит пользу потребителям (ну, кроме случая с Boeing 737 MAX, да?).
Анонс тут
22-страничная policy доступна здесь
Жду подобного от OpenAI
Сиолошная 2023-09-19 12:56:34
Плохие новости для OpenAI и Microsoft Bing
Я обычно не люблю писать такие заголовки, однако повод серьёзный. Google внедрили в своего ассистента Bard интеграцию с большим количеством своих продуктов: Gmail, YouTube (судя по демо — модели доступны транскрипты видео), Google Docs, Drive, Maps, Hotels, Flights и другими менее известными.
Называется это Bard Extensions ✨
Интереснее всего взглянуть на предлагаемые в анонсирующем ролике способы применения:
— суммаризуй все недавние письма от X
— дай мне шаблон для речи шафера и покажи примеры видео для вдохновления
— (добавляет картинку) вот детское кресло, которое я недавно купил, покажи видео с инструкцией по установке в машину
— напомни, когда X предлагал мне Y? (ответ в виде извлекаемых из писем дат. Правда...кто ведет личные переписки в почте?)
— и фоллоу-ап вопрос к прошлому: покажи мне билеты на эти даты и близлежащие отели (подразумевается ответ с учётом предыдущего контекста)
— и ещё составь план на каждый день и расскажи, что собрать с собой
В целом, кажется ничего сильно продвинутого относительно GPT-4 с доступом к плагину поиска в интернете. Вопрос в том, насколько много данных у Google, чтобы дообучить модель очень хорошо работать с персональными данными, а также делать вызовы нескольких разных сервисов за раз.
А ещё прокачали опцию перепроверки каких-то фактов в Google — надо нажать на кнопочку снизу от ответа, после чего бот сам погуглит, и какие-то куски выделит желтым или зелёным, в зависимости от того, находит ли информация подтверждение!
Анонс
Попробовать можно на bard.google.com (доступно российским аккаунтам).
Сиолошная 2023-09-19 10:01:46
Теперь модель сможет отвечать на вопросы про NFT
Сиолошная 2023-09-19 10:01:07
OpenAI неспешно докидывают знания в GPT-4.
Раньше она знала только то, что происходило до сентября 2021го, теперь же в промпте указано, что заложены знания до января 2022го. Правда, у меня всё еще "старая" модель, снова попал не в ту группу на А/Б тесте, поэтому спасибо Илье Гусеву за предоставление скриншота с верификацией.
Ну шо, го мучить модельку вопросами про политику в 2022м году)))
Сиолошная 2023-09-19 09:47:48
Когда вышла GPT-4, то люди в твиттере что только не проверяли, чтобы понять границы применимости. Среди интересных и полезных отметил для себя тогда шахматы: модель играла очень плохо, примерно на 1000 ELO или даже чуть меньше. ELO - это относительный рейтинг, позволяющий сравнивать двух игроков. Например, разница в 100 очков означает, что вероятности побед соотносятся как 65:35, а 250 очков говорят о ситуациии 80:20. У гроссмейстеров рейтинг начинается от 2500 (то есть он выиграет 100 игр из 100 против GPT-4).
Вчера OpenAI анонсировали новую модель
gpt-3.5-turbo-instruct. Но хайповать не нужно — ничего нового, кажется, в ней не появилось, это просто замена прошлым поколениям, и кажется, что она недотренированна на формате диалога (как и предыдущие, которые должно заменить). OpenAI пишут, что "It’s trained similarly to previous Instruct models such as the text-davinci series while maintaining the same speed as our turbo models."
Теперь к делу. В твиттере наткнулся на пост, где новую модель опробовали в шахматах, и оказалось, что без формата диалога (просто продолжая написанный текст в специальном формате Portable Game Notation, типа
1.e4 c6 2.d4 d5 3.Nc3 dxe4, откуда куда совершается ход) модель играет очень даже ничего — примерно на 1800 ELO (второй или первый разряд, КМС начинается от 2000). Оценка производилась методом игры с ботом Stockfish. Модель с 1700 рейтинга была обыграна, а вот 2000 не далась — так что рейтинг где-то между. А 1800 я взял из твита сотрудника OpenAI, которые, видимо, у себя внутри тоже проводили схожие тесты (правда он пишет про GPT-4!):
> GPT-4 играет в шахматы на сильном клубном уровне при наличии соответствующего промпта. Такого уровня невозможно достичь без хорошего понимания игры и моделирования игровой доски. Даже в Go эта модель работает примерно в 10 раз лучше, чем та, что делает ходы случайно.
Возвращаясь к свежей модели — автор отметила, что новая GPT не предсказывала неправильные ходы (несуществующими фигурами или не по правилам), чем страдала GPT-4.
Интересно, что даже после того, как GPT сделал плохой ход, модель все еще был в состоянии *предсказать* ход Stockfish (бот-оппонент), который воспользовался бы ошибкой GPT. Таким образом, мы, вероятно, могли бы получить ELO > 2000 для GPT, приложив немного усилий к имплементации своего рода поиска (того, как работают настоящие шахматные боты) по дереву. И вы не поверите — про это я рассказывал в недавней лекции как один из путей дальнейшего развития LLM! Вот таймкод. Так что если вы не поняли, что это за поиск — можно посмотреть там.
Промпт дял тестирования можно подрезать тут.
Сиолошная 2023-09-19 09:23:19
В издании The Information часто публикуются инсайды о планах на будущее и внутренней кухне OpenAI и Google. В последнее время было много слухов про Gemini — модель следующего поколения от Google, которая отличается, как минимум, тем, что является мультимодальной.
"Мультимодальный" значит то, что модель работает с несколькими модальностями: текст, изображения, быть может даже видео и аудио. Но мультимодальность можно сделать по разному. Есть вариант "для бедных", который давно гуляет в опенсурсе — это когда мы берем две модели (картиночная и LLM) и дообучаем маленькую прослойку между ними, чтобы переводить изображение в аналог "текста", но на языке, понятном LLM (там сплошные цифры, человеку ничего не понять, да и не нужно). Чуть более подробно и технически писал выше в канале.
Но в таком случае получается, что LLM на самом деле не получает большого количества информации из других модальностей, их по сути просто "пришивают сбоку". А вот если модель сразу учить понимать всё, чтобы можно было и понимание окружающего мира расширить, и навыки размышлений и отслеживания причинно-следственных связей улучшить — это может существенно повлиять на качество в лучшую сторону.
И вот сейчас, как указано в новости, OpenAI хочет постараться опередить Google на этом поле, выпустив еще более мощную мультимодальную модель под кодовым названием Gobi. В отличие от GPT-4, Gobi с самого начала проектировалась и обучалась как мультимодальная модель. Однако в новости упоминается, что "не похоже, что тренировку Gobi уже начали". Так что как эта модель может выйти раньше Gemini (запланированной на осень 2023го) — не ясно.
Интересующийся читатель спросит: а почему [по крайней мере у OpenAI] так много времени занимает разработка и выкатка новой модели, где "всего лишь" можно добавить картинки? В статье указывается, что в основном это связано с опасениями по поводу новых функций и их использования злоумышленниками, например, для выдачи себя за людей путем автоматического решения капчи или отслеживания людей с помощью распознавания лиц. Но инженеры OpenAI, похоже, близки к разрешению юридических проблем, связанных с новой технологией.
Будем смотреть, чем порадуют компании до конца года.
Сиолошная 2023-09-18 20:35:30
Снова наткнулся на видео со вступительной речью Andrej Karpathy перед хакатоном, посвященным AI-агентам (AGI House). Там ничего интересного в целом нет, кроме одного кусочка в конце видео
Таймкод
OpenAI очень хороши в тренировке больших трансформеров/языковых моделей (в том смысле, что имеют большое количество экспертизы и опыта).
Как пример можно привести следующую ситуацию. Если выходит новая статья, предлагающая оригинальный способ тренировки моделей, и её скидывают в слак OpenAI, то там пишут что-то в духе: "О да, кто-то пробовал это 2.5 года назад, и вот что получилось. А вот почему это не сработало", и это всё хорошо проработано и сохранено.
Но когда выходит новая статья про AI-агентов, то всем это интересно, сотрудники OpenAI смотрят, читают и думают "вау, круто, это реально что-то новое". И причина этому — то , что тут ни у кого нет большого преимущества с точки зрения опыта. Мощные модели появились вот-вот совсем недавно, и доступны всем в интернете по скромной цене. И теперь все соревнуются со всеми, перезаимствуя идеи — просто потому что таково состояние отдельно взятого домена в индустрии.
Для желающих погрузиться в историю развития AI-агентов предлагаю два survey:
— A Survey on Large Language Model based Autonomous Agents (авугст 23го)
— The Rise and Potential of Large Language Model Based Agents: A Survey (сентябрь 23го)
Думаю, имеет смысл немного углубиться в тему и подразобрать основные подходы, ограничение применимости, и начинать следить за происходящим. С развитием возможностей самих базовых моделей можно будет переиспользовать концепты агентов без изменений кода — и пр этом получать солидные результаты. Просто нужно моделькам стать ещё чуточку умнее
Сиолошная 2023-09-18 18:29:04
Вечер ностальгии. Ниже приведён список из 6 песен, имеющих нечто общее. Первый, кто отпишет закономерность в комментарии - получит...ничего (на самом деле я не придумал чего-то лучше, чем часовой созвон со мной по Zoom/Google Meet, но не уверен, что это всем интересно. Но пусть будет хоть так).
1) The Small Faces - Ogdens' Nut Gone Flake (link)
2) Stevie Wonder - Skeletons (link)
3) Queen - Radio Ga Ga (link)
4) Jay Rock - Hood Gone Love It (link)
5) Waylon Jennings - Are You Sure Hank Done It This Way (link)
6) The Chain Gang of 1974 - Sleepwalking (link)
Ну, в худшем случае просто послушаете очень годные треки хорошей выдержки!
эйай ньюз 2023-09-18 17:57:04
Würstchen V2 — быстрее чем SDXL
Наконец-то после прогрева зарелизили "Колбаску V2". Модель генерит картинки в 1024x1024 быстрее чем SDXL и состоит из двух этапов диффузии.
Stage A: это text-conditioned диффузия на 1 млрд параметров. Ускорение тут достигается из-за ультра высокой компрессии вместо размера скрытого кода 128x128x4 как у SDXL, тут сначала работают в разрешении 24x24x16 — в 5 раз меньше пикселей, но больше каналов.
Далее идёт Stage B: это диффузионная модель на 600M параметров, которая разжимает из 24x24 в разрешение 128x128.
Ну а в конце по традиции декодер, (20M параметров) который рендерит картинку из скрытого кода.
По скорости выходит в 2-2.5 раза быстрее чем SDXL.
По качеству, думаю небольшой проигрыш есть - хочу ещё провести честное сравнение.
В автоматик1111, конечно же ещё не завезли.
Блог + демо
Код
Веса
Google Colab
@ai_newz
Neural Shit 2023-09-18 15:29:46
И снова проклятые нейронные коты с реддита
Neural Shit 2023-09-18 12:14:21
АБСОЛЮТНО ПРОКЛЯТО
Neural Shit 2023-09-18 10:23:17
Чот проиграл с этих котонасекомых
отсюда
gonzo-обзоры ML статей 2023-09-18 10:21:48
Авторы предлагают mesa-layer, как вариант self-attention, который полностью решает оптимизационную задачу слоя (в смысле явно минимизирует L2 между предсказанием и таргетом, с регуляризацией) вместо лишь выполнения одного градиентного шага. В реализации этого варианта внимания есть дополнительная матрица R, которую если убрать, то получится стандартный линейный SA. Меза-слой вычислительно более тяжёлый, но главная проблема, что он не параллелится как и классические RNN.
Возвращаясь к экспериментам, берут линейную динамическую систему с шумом вида:
s_{t+1} = W∗ s_t + ϵ_t, где W* -- случайная ортогональная матрица. Для генерации каждой последовательности берут новую матрицу. Трансформер обучают на минимизацию авторегрессионного лосса и реверс-инжинирят.
Исследуют per-timestep loss L_t(s_{1:t}, θ) и его эволюцию в зависимости от длины контекста, то есть как улучшается качество предсказания при увеличении контекста. Это соответствует операционному определению in-context learning из классической статьи про скейлинг (https://arxiv.org/abs/2001.08361).
Гипотеза в том, что базовая оптимизация (собственно обучение трансформера) ведёт к появлению меза-оптимизации, и будущие значения последовательности предсказываются внутри forward pass. Процедура выглядит так:
1) линейная модель представляется меза-параметрами W
2) конструируется mesa-objective с использованием данных внутри контекста
3) W находится через минимизацию mesa-objective
4) полученная W используется для предсказания.
Репрезентация токена сделана хитрой трёхканальной, первый канал используется для предсказания будущего входа, а другие два содержат текущий и предыдущий входные элементы. Это ведёт к очень разреженным матрицам весов, которые легко реверсить.
Начинают с однослойного линейного трансформера и идентифицируют алгоритм, используемый для предсказания. Проверяют, что слой реализует шаг меза-градиентного спуска, 1) сравнивая с линейной авторегрессионной моделью, обученной одним шагом градиентного спуска, 2) изучая интерполированную модель, полученную усреднением выученных и сконструированных весов. Всё очень хорошо совпадает.
А если вместо линейного SA вставить mesa-layer, то качество на порядок лучше. То есть inductive bias для меза-оптимизации очень помогает.
Затем берут многослойный трансформер, линейный и с софтмаксом, но без FFN. Там тоже реверсят алгоритм, он описывается 16 параметрами (вместо 3200) на голову внимания. Но интерпретировать это как алгоритм меза-оптимизации сложно и авторы делают linear regression probing analysis. Например, ищут stacked multi-layer gradient descent construction, в ней выходы промежуточных слоёв должны постепенно приближаться к цели. Также ищут следы iterative preconditioning algorithm. Пробинг подтверждает гипотезы.
В конце обучают уже полноценные трансформеры без архитектурных упрощений, с позиционными энкодингами и без хитрых многоканальных представлений токена. Здесь гипотеза, что сначала модель в первом слое восстанавливает специальное представление токена, удобное для меза-обучения, а последующие слои его реализуют. Действительно, после первого слоя токен в основном зависит только от себя и предыдущего. Эту процедуру авторы назвали “creating a mesa-dataset". Дальше поведение очень похоже на наличие двухступенчатой процедуры с precondition + optimization.
Далее проверяют few-shot learning. Здесь трансформер обучают на ту же задачу авторегрессионного предсказания, что и раньше, но теперь после обучения модель просят через few-shot learning решить другую задачу -- регрессию. Выученный трансформером алгоритм меза-оптимизации справляется. Промпт-тюнинг и файнтюнинг одного EOS токена ещё всё улучшают. Есть ещё прикольный эксперимент с двумя задачами в промпте, когда через какое-то время новая задача сменяет текущую. Трансформер справляется с тем, чтобы по мере инференса переписать старую задачу и выучить новую.
Получается, трансформеры, обученные на задачу предсказания следующего элемента, можно перепрофилировать на новую задачу через in-context learning, поскольку алгоритм внутри forward pass остаётся похожим.
gonzo-обзоры ML статей 2023-09-18 10:21:48
И наконец берут классическую LLM c обучением на the Pile. Первый слой всегда softmax SA, потому что на этом слое создаётся mesa-objective. Последующие слои либо softmax, либо линейные, либо mesa. Чистый softmax трансформер здесь вне конкуренции, а вот mesa бьёт линейный и иногда догоняет softmax. Про наличие меза-оптимизации в этом месте непонятно:
“Strictly speaking, these results are not sufficient to make claims on whether mesaoptimization is occurring within standard Transformers. However, the high performance achieved by the hybrid-mesa models, which operate on mesa-optimization principles by design, suggests that mesa-optimization might be happening within conventional Transformers. More reverse-engineering work is needed to add weight to this conjecture.”
Вообще движуха любопытная. Интересно в этом свете было бы посмотреть на universal transformer (https://arxiv.org/abs/1807.03819) с adaptive computation time, который в цикле может гонять слой, пока не посчитает, что пора остановиться.
gonzo-обзоры ML статей 2023-09-18 10:21:47
Uncovering mesa-optimization algorithms in Transformers
Johannes von Oswald, Eyvind Niklasson, Maximilian Schlegel, Seijin Kobayashi, Nicolas Zucchet, Nino Scherrer, Nolan Miller, Mark Sandler, Blaise Agüera y Arcas, Max Vladymyrov, Razvan Pascanu, João Sacramento
Статья: https://arxiv.org/abs/2309.05858
Тред от соавтора: https://twitter.com/oswaldjoh/status/1701873029100241241
Интересная свежая работа с попыткой разобраться, почему трансформеры хорошо работают в режиме in-context learning.
На данный момент уже есть пул работ, показывающих, что при in-context learning (то есть при forward pass, без всякого бэкпропа) внутри трансформера реализуется что-то типа градиентного спуска. Например, относительно недавно это было показано в работе “Transformers learn in-context by gradient descent” (https://arxiv.org/abs/2212.07677). Там показали, что один слой линейного self-attention’а (SA) может имплементировать один шаг градиентного спуска.
Это в чём-то похоже на meta-learning, но в отличие от традиционного мета-обучения, которое находится на уровень выше базового оптимизатора, этот вариант обучения находится на уровень ниже, здесь в сети при работе внешнего, базового, оптимизатора выучивается другой внутренний оптимизатор.
Благодаря уже классической работе “Risks from Learned Optimization in Advanced Machine Learning Systems“ (https://arxiv.org/abs/1906.01820), для этого есть термин mesa-optimization, буду по-русски называть его меза-обучением. У Роберта Майлса есть популярный рассказ про меза-оптимизацию и проблемы выравнивания (https://www.youtube.com/watch?v=bJLcIBixGj8). А если кто любит популярно текстом, то есть это https://www.lesswrong.com/posts/fLAvmWHmpJEiw8KEp/mesa-optimization-explain-it-like-i-m-10-edition. Что забавно, идея про название с меза- пришла из статьи Joe Cheal “What is the opposite of meta?” (https://anlp.org/knowledge-base/acuity-volume-2), которая из журнала про NLP, но не того NLP, про которое вы скорее всего подумали :)
Текущая работа развивает работу про обнаружение градиентного спуска и исследует авторегрессионные трансформеры с causally-masked attention (то есть causalLM, а не prefixLM), обученные на последовательностях. Показывают, что минимизация общего авторегрессионного лосса ведёт к появлению алгоритма градиентной оптимизации в forward pass трансформера. Ну что, уже начинаете бояться LLMок?
Подробнее про то, как оно всё устроено внутре.
Цель авторегрессионного трансформера при обучении минимизировать лосс предсказания текущего элемента последовательности по предыдущим. Здесь это просто сумма L2 лоссов по последовательности.
Слоёв теперь много, соответственно потенциально можно делать много шагов градиентной оптимизации. При этом всё хитрее, чем “K слоёв могут делать K шагов” -- получается т.н. unconventional online gradient-based optimizer, который работает хуже ванильного градиентного спуска. А с учётом другой свежей работы “CausalLM is not optimal for in-context learning” (https://arxiv.org/abs/2308.06912) про то, что causalLM стабильно недоперформит по сравнению с prefixLM, явно есть место для более эффективных меза-оптимизаторов (видимо, это будет темой отдельных статей).
Рассматриваемый меза-оптимизатор работает в два этапа.
1). Первый этап состоит из 1+ слоёв SA, где алгоритм реализует итеративную preconditioning procedure. Результатом является регуляризованная mesa-objective с лучшим числом обусловленности по сравнению с авторегрессионным лоссом.
2) На втором этапе последний SA слой делает единственный градиентный шаг относительно полученной mesa-objective.
Это теоретически обоснованная конструкция (ей посвящены большие приложения к статье) и в работе показывают, что обучение авторегрессионного трансформера ведёт именно к таким решениям.
Отдельная интересная ветка работы заключается в том, что если считать, что меза-оптимизация -- это желательное свойство модели, то можно сделать архитектурные модификации, которые сделают такое свойство встроенным по умолчанию.
gonzo-обзоры ML статей 2023-09-17 22:57:33
Неужели проблема парсинга PDF будет наконец в 21 веке решена?!
https://github.com/facebookresearch/nougat
Denis Sexy IT 🤖 2023-09-17 16:31:35
Самое клевое, это конечно правильные геометрические фигуры – баловаться с ними одно удовольствие.
Автор, которым я вдохновлялся тут.
эйай ньюз 2023-09-17 14:29:12
Чисто кайфовые генерации в виде спиралей и других фоновых структур.
Трюк в том чтобы взять черно белое изображение и использовать его как контрольный сигнал в Controlnet: QR Monster (тот, что ещё использовали для генерации QR кодов в виде картинок: инструкция).
На последних двух генерациях горы в виде Гигачада сделали по такому же принципу. Преобразовали Гигачада в ч/б и использовали его как контрол.
@ai_newz
Сиолошная 2023-09-16 20:31:02
Очередной раз сделаем низкий поклон олимпиадникам, работающим в Telegram и пишущим код приложения: к постам, которые пересланы в канал (я из черновика выкидываю после редактуры), нет комментариев — только к первому посту.
Поэтому оставляйте свои комментарии для предыдущей новости тут, вот прямо тут. Обсудим, каким вы видите влияние GPT-4 и схожих инструментов на вашу работу.
А ещё...это ж GPT-4 презентации делать не умеет, а вот как научится - уххх жизнь будет у большой тройки, не завидую...
Сиолошная 2023-09-16 20:18:12
Блиц-пост по статье.
А как вообще исполнители делали работу?
— Чтобы обеспечить искренность участия и усилий консультантов, стимулировали их участие в эксперименте. Участники, прошедшие до конца, были удостоены признания «служебного вклада», что влекло за собой финансовые плюшки, связанные с их годовыми бонусами. Кроме того, в знак признания и поощрения выдающихся достижений 20% лучших участников получили дополнительное признание (recognition), а 5% лучших также были награждены небольшим подарком.
Более того напомню, что исследование происходило весной 2023го года, и у людей не было опыта работы с инструментом.
А какие именно задачи то были?
Задачи были разделены на две группы: та, с которой AI хорошо справляется, и та, которая, по мнению авторов, лежит за пределами возможностей фронтир-моделей типа GPT-4. Для второй группы было одно задание: написать заметку для CEO на 500-750 слов с анализом трёх подразделений на основе прочтения интервью с инсайдерами, а также отчётности в Excel-файле.
Первая группа включала в себя 18 заданий. При желании все их можно найти в статье, я лишь отмечу несколько интересных. Все они представляют собой декомпозицию одной более сложной задачи, и выполняются последовательно. Итак:
— Сгенерируйте идеи для новой обуви, ориентированной на конкретный рынок или вид спорта, который недостаточно востребован;
— Составьте список шагов, необходимых для запуска продукта. Будьте кратки, но всеобъемлющи;
— Cегментируйте рынок обувной промышленности по покупателям. Постарайтесь сделать его общим и пока не сосредотачивайтесь на вашей конкретной цели;
— Придумайте маркетинговый слоган для каждого сегмента, на который вы ориентируетесь;
— Напишите своему начальнику отчёт из 500 слов, в котором объясните свои выводы;
— Объясните, почему ваш продукт лучше конкурентов в виде вдохновляющей записки для сотрудников;
— И последнее задание особенное: обобщите информацию, полученную в результате ответов на предыдущие вопросы, и создайте черновик статьи в стиле Harvard Business Review объемом примерно 2500 слов.
А эти задачи вообще похожи на работу консультантов? (в комменты приглашается Павел Комаровский)
Оба набора задач были задуманы как реалистичные, а их создание происходило с участием профессионалов в соответствующих секторах. "A senior level executive" (высокопоставленный руководитель) прокомментировал, что эти задачи «очень соответствуют части повседневной деятельности» участвующих консультантов. Так что можно считать, что это почти что ежедневная работа, максимально отражающая спектр всех задач.
А какая разница в результатах между двумя группами задач?
В задаче, которая менее чётко прописана, а также требует анализа сторонних документов, корректность работы людей, использующих AI, оказалась ниже, чем у полагающихся только на самих себя (60% против 84.5%). Однако если предварительно сделать мини-воркшоп, где дать обзор промптов и ограничений модели, то показатель меняется до 70.6%. И ещё раз — люди до этого не работали с ChatGPT над профессиональными задачами, это новый инструмент, который буквально с наскока показывает результаты. Если с ним пожить год, активно используя — УХХХХ что будет!
Но пока...собственно, вот это падение корректности ответов и называлось «засыпанием за рулем» (когда человек чересчур полагается на технологию).
Сиолошная 2023-09-16 20:18:12
На этом рисунке показано распределение усреднённых результатов выполнения заданий (из группы, где их 18 штук) для испытуемых в трех экспериментальных группах:
— красный показывает испытуемых, испольщующих GPT + имевших предварительный воркшоп с обзором технологии и промптов;
— зеленый - только GPT;
— синий - самостоятельное выполнение задач.
Шкала 10-бальная, но напомню, что результат усредняется по всем задачам. Можно хорошо решить первые, простые задачки, но обделаться на написании финального эссе. Обратная ситуация чуть менее вероятна, так как финальная работа сочетает все проделанные ранее шаги.
Невооруженным взглядом виден существенный скачок в качестве выполняемой работы.
Сиолошная 2023-09-16 20:18:11
В марте 2023го в MIT Economics появилась статья про улучшение производительности труда у людей, использующих ChatGPT, тогда же я написал краткий обзор (читать тут).
Вчера же вышла статья в соавторстве исследователей из Harvard University (Business School) и MIT в партнерстве с представителем "большой тройки" консалтинга: Boston Consulting Group (BCG). Исследование примечательно по четырём причинам:
1) Брались реальные задачи, которые решаются консультантами на работе (про это ниже);
2) Привлекалось 7% консультантов BCG, а это более 750 человек — то есть исследование достаточно массовое со стат. значимыми результатами;
3) Использовалась GPT-4 (правда версии весны 23го года, тогда проводились эксперименты), а не ChatGPT. Да, прям вот та, что у вас в браузере доступна, без специальных дообучений;
4) Оценка результатов проводилась вручную с перекрытием 2 (через усреднение), хоть и были попытки использовать LLM как оценщик.
Для самых нетерпеливых напишу сразу результаты:
— Для каждой из 18 задач консультанты, использующие ИИ, были значительно более продуктивными (в среднем они выполняли на 12,2% больше задач и выполняли задачи на 25,1% быстрее) и давали значительно более качественные результаты — более чем на 40% более высокое качество по сравнению с контрольной группой, участники которой решали задачи без GPT-4.
— Как и в исследовании MIT, оказалось, что люди со значением базового навыка ниже среднего (среди группы в 700+ консультантов; оценивалось предварительно отдельным тестом) улучшили эффективность на 43%, а у тех, кто выше среднего, - на 17%.
Далее хочу процитировать пост одного из со-авторов, который участвовал в исследовании.
— Даже лучшие консультанты все равно получили прирост в эффективности работы. Глядя на эти результаты, я думаю, что недостаточно людей задумываются о том, что для человечества означает технология, которая поднимает всех работников на высшие уровни производительности;
— Когда ИИ очень хорош, у людей нет причин усердно работать и обращать внимание на детали. Они позволили ИИ "взять верх" вместо того, чтобы использовать его как инструмент. Другой автор назвал это «засыпанием за рулем», и это может навредить развитию навыков и производительности (почему так написано - см. в следующем посте);
— GPT-4 уже является мощным фактором, виляющим на то, как мы работаем. И это не разрекламированная новая технология, которая изменит мир через пять лет или которая требует больших инвестиций и ресурсов огромных компаний – она уже здесь, вот прямо СЕЙЧАС;
— Наши результаты показывают, что хотя люди, использовавшие ИИ, в рамках поставленных задач производят более высоко оцененные идеи, вариативность этих идей заметно снижается по сравнению с теми, кто не использует ИИ [моё примечание: тут неочевидно, насколько это плохо - по-хорошему, и 2 идей "на миллион" хватит, зачем мне 10 копеечных?];
эйай ньюз 2023-09-16 12:13:37
Наткнулся на библиотечку Compel, которая позволяет работать с текстовыми эмбеддингами для Stable Diffusion на продвинутом уровне.
Например, можно увеличивать вес отдельных слов, добавляя +
или -
после слова или фразы, либо явно указать вес от 0 до 2. Принцип работы основан на линейной интерполяции между эмбеддингом оригинального промпта и и промпта, где замаскировано взвешиваемое слово.
Ещё можно блендить несколько промптов между собой (последний скрин).
Вот тут больше примеров операций с промптами.
Самое главное - либа хорошо интегрируется с diffusers и работает как с SD 1.x, 2.x так и с SDXL.
@ai_newz
Neural Shit 2023-09-16 09:39:46
Там Stability AI запустили новый генератор мелодий из текстовых подсказок. Качество прям вполне годное. Потестить онлайн можно тут. Если получается годнота - кидайте в комменты
Сиолошная 2023-09-16 07:55:07
Wait, actually, yes
Вот бы люди умели так признавать ошибки во время рассуждений
эйай ньюз 2023-09-15 18:40:31
Вот еще картинки с результатами метода из поста выше.
В том числе на последнем скрине показаны результаты редактиврования depth представления, после которого меняется финальная генерация - объект двигается. Правда внешний вид не совсем сохраняется - но там и нет явных лоссов, которые бы это предотвратили.
Интересно посмотреть на развитие этой идеи, например, для генерации видео, или для вращения объекта.
эйай ньюз 2023-09-15 18:29:01
Beyond Surface Statistics:
Scene Representations in a Latent Diffusion Model
Вышла интересная статья, где показали, что Latent Diffusion (LDM) выучивает информацию о глубине сцены в своих latent фичах.
Проверили очень просто - взяли фичи из промежуточных self-attenion слоев у Stable Diffusion v1 и натренили линейную регрессию восстанавливать глубину и saliency (это по сути бинарная сегментация). По одному лин-регу на каждый слой и на каждый шаг солвера t.
Итак, мы видим, что уже после пяти шагов солвера, фичи содержат довольно много инфы о глубине объектов, в то время как сам объект еще не разобрать.
А самая точная глубина содержится в первом self-attention слое декодера Unet.
Еще авторы показали, что можно отредактировать фичи, которые соответствуют инфе о глубине так, что передвинется объект на итоговой генерации.
Cтатья подтвердила интуицию о том, что LDM учит неявное 3D представление об объектах, иначе она бы не смогла генерить такие качественные изображения и эффекты вроде блюра.
@ai_newz
Сиолошная 2023-09-15 18:21:50
15 сентября. В этот день 15 лет назад рухнул один из крупнейших инвестиционных банков Lehman Brothers. Это стало поворотным моментом и катализатором мирового экономического кризиса, приведшим к глобальной рецессии. До сих пор это банкротство является крупнейшим в истории США. Оно обнажило уязвимости традиционной финансовой системы, многие из которых — хоть и не все — постарались урегулировать.
Причина банкротства — невозможность обеспечения ипотечных кредитов, выдаваемых всем подряд налево и направо без проверок доходов. К 2008 году Lehman выдал этих кредитов на $680 млрд., при этом обладая капиталом всего в $22,5 млрд. С точки зрения логики это означало, что уровень активов на рискованном рынке недвижимости у Lehman в 30 раз превышал собственный капитал. При такой уязвимой структуре снижение стоимости рынка жилья на уровне 3-5 % разом лишило бы банк всего капитала. С началом ипотечного кризиса именно это и произошло.
Немного удивлён, что нигде ни в новостях, ни в тг-каналах не видел сегодня постов про это. Поэтому в этот пятничный вечер приглашаю всех посмотреть мой любимый фильм The Big Short ("Игра на понижение" в локализации, Оскар за лучший адаптированный сценарий).
Без преувеличений, посмотрел этот фильм больше 300 раз за все годы. Даже после первых 50 находил для себя что-то новое с точки зрения экономики и ипотечного рынка. Если вы не банкир или не экономист — лучше всего по ходу фильма гуглить, чтобы лучше понять описываемое.
It ain’t what you don’t know that gets you into trouble.
It’s what you know for sure that just ain’t so.
– Mark Twain
Truth is like poetry. And most people fucking hate poetry.
– overheard at a Washington, D.C. bar
эйай ньюз 2023-09-15 13:40:52
OpenAI открыли первый офис в Европе - в Дублине!
Вот мои мысли, почему именно Дублин:
1. Это единственная англо-говорящая страна в EU (с поправкой на акцент).
2. Возможность расширять хайринг в Европе, т.к. многие специалисты не хотят эмигрировать в Северную Америку.
Я замечаю небольшой сдвиг в этом плане, многие AI стартапы с которыми я общался, открывают главный офис в Европе именно по причине кадров. Не всем нравится работать в удаленном офисе, когда все решения принимаются в США.
3. Налоговый рай - корпоратиный налог в Ирландии один из самых низких в мире, 12.5%. В Европе ниже он только в Венгрии - 9%.
4. Активная тех-индустрия и различные государсвтенные программы по развитию IT сектора.
5. Возможность более плотно работать с Европейскими AI и privacy регуляторами.
Я спарсил страницу с вакансиями и среди них почти все нетехнические: Accounting, Finance, Privacy, Legal, Media Relations, Global Affairs, Support. Что может быть интересно тем читателям, кто не пишет код каждый день.
@ai_newz
gonzo-обзоры ML статей 2023-09-14 14:48:45
Вдруг вам почитать нечего.
NASA's UFO study team released its long-awaited first report today, and while its experts found no signs of extraterrestrial origins of sightings, the space agency is launching a new chief to study the phenomenon.
https://www.space.com/nasa-ufo-uap-study-team-first-results-revealed
The report:
https://science.nasa.gov/science-pink/s3fs-public/atoms/files/UAP%20Independent%20Study%20Team%20-%20Final%20Report_0.pdf
Neural Shit 2023-09-14 13:02:16
Спарсил телеграм-каналы с интересными фактами и обучил на них ruGPT. Снова принёс вам интересных нейронных фактов, о которых вы не знали:
>>В Северной Корее запрещено носить часы, потому что время считается врагом народа.
>>Курт Кобейн до войны был неграмотным — а потом стал писателем и даже получил Сталинскую премию
>>Чтобы не пугать детей и подростков страшными сказками про привидения (например "Вий"), в России существовала традиция топить детей и подростков в реках
>>Когда Иван Грозный был впервые в KFC, он написал письмо с просьбой повесить себя. Письмо было на французском языке. После этого он перестал выходить из дома.
>>Ленин не любил кошек, считая их "низкими существами и врагами социализма" и полагал что они могут испепелить человека
>>В Москве есть улица, названная в честь Ктулху
>>В Литве в начале 2000-х было запрещено давать детям до 18 лет деньги на проезд — считалось, что это может привести к смерти
>>В фильме "Иван Васильевич меняет профессию" есть эпизод, где Иван Грозный убивает своего любовника — чтобы не вызывать подозрений у жены
>>В России есть область, в которой живут только клоуны.
>>В Таджикистане принято вешать табличку с надписью "Твой путь — смерть" на входе в магазины
>>В 1997 году в Казахстане была проведена массовая акция по замене зонтиков на дождевики, потому что считалось, что зонты привлекают молнии.
>>В Австралии есть закон, который обязывает всех жителей носить шляпы, наполненные льдом, чтобы бороться с глобальным потеплением.
gonzo-обзоры ML статей 2023-09-13 18:03:34
Another library for fast inference of llama models.
ExLlamaV2 supports the same 4-bit GPTQ models as V1, but also a new "EXL2" format. EXL2 is based on the same optimization method as GPTQ and supports 2, 3, 4, 5, 6 and 8-bit quantization. The format allows for mixing quantization levels within a model to achieve any average bitrate between 2 and 8 bits per weight.
Moreover, it's possible to apply multiple quantization levels to each linear layer, producing something akin to sparse quantization wherein more important weights (columns) are quantized with more bits. The same remapping trick that lets ExLlama work efficiently with act-order models allows this mixing of formats to happen with little to no impact on performance.
Parameter selection is done automatically by quantizing each matrix multiple times, measuring the quantization error (with respect to the chosen calibration data) for each of a number of possible settings, per layer. Finally, a combination is chosen that minimizes the maximum quantization error over the entire model while meeting a target average bitrate.
https://github.com/turboderp/exllamav2
Neural Shit 2023-09-13 18:01:16
Свои генерации из Stable Diffusion вчера прислал подписчик под написанную им же музыку. И это прям заебца. Залип очень сильно.
Я у мамы митолист, но вот этот годный лоу-фай — прям радость для души. А видео сгенеренное Stable Diffusion дополняет идилию ❤️.
Рад, что нейроночки помогают людям в творчестве.