Нейролента Mikitos.ru 2736 постов. Страница 37 (50 постов)
gonzo-обзоры ML статей 2023-10-03 19:14:29
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
Статья: https://arxiv.org/abs/2309.17421
Microsoft разродился 166-страничной статьёй про анализ способностей GPT-4V, идейно похожей на широко известную их же (но других авторов) 155-страничную статью про “Sparks of Artificial General Intelligence: Early experiments with GPT-4” (https://arxiv.org/abs/2303.12712).
Как известно, GPT-4 (https://t.me/gonzo_ML/1383) в оригинале была обучена (ещё в 2022-м) как картиночно-текстовая модель, умеющая на входе принимать картинки в дополнение к тексту, и в оригинальной работе даже было несколько клёвых демонстраций (https://t.me/gonzo_ML/1398). С марта 2023 избранные получили к ней доступ (как Microsoft, сделавший тогда статью про Sparks of AGI, хотя они щупали даже ещё более ранние версии). В API оно правда пока так и не появилось, зато на днях (https://t.me/gonzo_ML/1901) OpenAI анонсировали поддержку изображений и звука в ChatGPT, а также наконец опубликовали (https://t.me/gonzo_ML/1902) карточку модели GPT-4V (GPT-4 with vision).
Можно, наверное, ожидать, что скоро это наконец появится и в API. И вообще, не стрёмно сделать краткосрочный прогноз, что 2024-й год будет годом картиночно-текстовых (а может ещё и +аудио) моделей: GPT-4, Gemini (https://t.me/gonzo_ML/1547) которую по слухам уже тестируют избранные клиенты, опенсорсные реимплементации Flamingo (https://t.me/gonzo_ML/941) которых тоже уже есть по крайней мере пара, Microsoft Kosmos-1 (https://t.me/gonzo_ML/1364) и 2, и стопудово ещё что-то появится. А когда и генерить смогут мультимодально, картинки + текст + …, то вообще бомба будет. До этого тоже, кажется, не очень далеко уже.
Если посмотреть в карточку GPT-4V (https://cdn.openai.com/papers/GPTV_System_Card.pdf), то там фокус на безопасности модели и подготовку её к широкому выкатыванию. Среди ранних тестеров были также Be My Eyes, разрабатывающая тулы для людей с нарушениями зрения. К сентябрю 2023 в бета-тестировании участвовало уже 16к пользователей оттуда, и за время тестирования модель удалось неплохо прокачать на предмет уменьшения галлюцинаций и ошибок.
Модель много анализировали на предмет опасного контента, privacy, кибербезопасности и проходе капчи, изучали мультимодальные джейлбрейки. GPT-4V даёт отказ (refusal) в большем проценте опасных запросов, чем GPT-4 во время релиза, а в сочетании с неописанной Refusal System достигает 100% на некоторых внутренних тестах типа джейлбрейков.
Был большой ред тиминг с фокусом на 6 областей: Scientific proficiency, Medical advice, Stereotyping and ungrounded inferences, Disinformation risks, Hateful Content, Visual vulnerabilities. В работе есть чуть более подробное описание проблем и результатов этих направлений. Видно, что проделали большую работу, и результаты свежей версии GPT-4V стали лучше.
Работа “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” ещё интереснее.
GPT-4V может работать с несколькими картинками и чередовать картинки с текстом. У модели есть несколько режимов промптинга.
Во-первых, она может следовать текстовым инструкциям, включая Constrained prompting (например, запросить выдачу в JSON для фото водительских прав) или Condition on good performance, что настраивает LLM на успешное решение задачи, а не на какое-то (“You are an expert in counting things in the image. Let’s count the number of apples in the image below row by row to be sure we have the right answer.” -- блин, ну реально NLP, то самое, что с Гриндером и Бендлером 😁).
Можно делать Visual Pointing, передавая координаты внутри изображения или указывая на регионы как-то ещё: стрелочками, выделением прямоугольником или кружочком и т.п. Авторы предлагают метод взаимодействия с моделью под названием “visual referring prompting.”
Промптинг может быть совмещённым текстовым + визуальным и довольно гибким за счёт возможности перемежать текст с картинками. Например, можно делать текстово-картиночный few-shot learning, добавляя визуальные примеры.
gonzo-обзоры ML статей 2023-10-03 19:14:29
Способности у модели достаточно обширные.
По паре картинка-текст, модель может генерировать описание картинки: распознавать известных людей и места, определять еду и логотипы, понимать медицинские изображения и различные сцены, и даже справляться с counterfactual examples. Жаль, не взяли картинку с самолётом из классической работы “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289).
Модель может заниматься локализацией и подсчётом объектов, и делать Dense Captioning. Обладает каким-то здравым смыслом и пониманием мира; способна понимать шутки и мемы; отвечать на вопросы по физике, географии, биологии; учитывать визуальные подсказки.
Может распознавать текст, таблицы, графики и понимать документы. При этом владеет множеством языков и для генерации, и для промптов, и для распознавания на изображениях. Умеет генерировать LaTeX, markdown, код на питоне.
Модель может работать с видео как последовательностью кадров.
Умеет справляться с тестами на Abstract Visual Reasoning и интеллект. Может читать эмоции по фото лиц или предугадывать эмоции, которые вызовет у человека картинка, генерить Emotion Conditioned Output.
В отдельном разделе авторы предлагают идеи для Emerging Applications. Ну, makes sense, если своих идей нет и хотите вдохновиться. Прикольный вариант по сборке Embodied Agent на базе GPT-4V. Для прототипирования самое то 🙂 Можно сделать следующий шаг относительно Generative Agents (https://t.me/gonzo_ML/1481). Прикольно было бы собрать покадровую игру в Doom через GPT-4V. В GUI кстати тоже может навигировать, можно наверное не ждать ACT-1 (https://t.me/gonzo_ML/1141), быстрее уже на GPT-4V такими темпами соберём 🙂 Нишу RPA (Robotic Process Automation) вероятно тоже должно серьёзно подизраптить скоро.
В конце есть интересный раздел про LMM Powered Agents, где обсуждают multimodal plugins, multimodal chains, self-reflection, self-consistency (обсуждали недавно https://t.me/gonzo_ML/1885), retrieval-augmented LMMs (обсуждали многократно). Успеет Langchain адаптироваться или ему на смену какой-то другой чейн придёт? Мне, кстати, лично нравится майкрософтовский же Semantic Kernel (https://learn.microsoft.com/en-us/semantic-kernel/overview/).
В общем, будущее здесь, просто оно неравномерно распределено. Я, пожалуй, понимаю, почему OpenAI, Anthropic и прочие поднимают раунды по таким оценкам. Доступная когнитивная автоматизация скоро выйдет на совсем иной уровень, и кто обладает такими технологиями, тот и молодец. А чек на вход конский.
Сиолошная 2023-10-03 14:48:01
Помните работу RT-2 от Google Deepmind, где брали языковую модель, давали ей контролировать робо-руку и смотрели, насколько хорошо получается решать задачи в реальном мире?
Сегодня представили RT-X, датасет, собранный усилиями более чем 30 исследовательских лабораторий. Он включает в себя более 500 навыков (читайте "действий"), 150,000 задач с суммарно более чем миллионом примеров. Все действия были собраны с 22 разных роборук.
В работе показано, что обучение одной и той же модели на данных из нескольких вариантов роботов приводит к значительно более высокому качеству (оно, напомню, замеряется долей решаемых задач).
Чтобы исследовать передачу знаний между разными роботами, авторы проводят эксперименты с моделью и робо-рукой RT-2 над задачами, которые включают в себя объекты и навыки, которых нет в исходном наборе данных именно для этой робо-руки, но представлены в других наборах. В этом случае, RT-2-X оказался в три раза лучше предыдущей лучшей модели RT-2.
Probably, ImageNet moment for Robotics.
Блогпост
Статья (ссылка на PDF)
эйай ньюз 2023-10-03 11:49:03
ICCV 2023: Воркшопы и туториалы
Конференция в Париже началась уже с понедельника, но только сейчас удалось написать пост. Наиплотнейше ложится информация, а параллельно идет постоянный нетворкинг.
В первые два дня идут воркшопы и туториалы - это такие мини-конференции внутри конференции, посвященные одной очень узкой теме.
Сегодня я на воркшопе CV4Metaverse, который организует моя команда. Выступал Björn (мой научрук) про Latent Diffusion и масштабирование генеративных моделей.
Кроме того, утром была презентация моих PhD студентов про статью BoDiffusion: Diffusing Sparse Observations for Full-Body Human Motion Synthesis (еще будет подробный пост о ней). После обеда будет еще пачка толковых докладов.
Буду держать вас в курсе!
#personal
@ai_newz
Vepian Azaraz 2023-10-03 06:58:42
Еще немного кроссоверов, о которых никто не просил
gonzo-обзоры ML статей 2023-10-02 20:37:07
Recent advancements in prompt engineering:
LLM shaming
A technique in prompt engineering to get better results from models by including emotionally rich orders.
E.g., "It will be really sad if you don't finish this how you need to."
(thanks Maxim Usubyan)
Сиолошная 2023-10-02 18:14:39
Как выглядит мечта...
AI[ex]Time 2023-10-02 14:47:36
Недавно пользователям стала доступна мультимодальная модель от OpenAI, которая может принимать на вход картинки - GPT-4V(ision). Захотелось потестить ее с разных сторон: как работает в плане OCR, может ли дететировать объекты, считать их, отвечать на детальные вопросы по текстовому промпту и так далее. А тут добрые люди скинули статью от Microsoft, где авторы упоролись и выкатили 150-страничную работу с детальным анализом модели: проверили на детекцию, анализ медицинских снимков, ориентацию в пространстве, мультимодальные знания, понимание доменных областей, понимание видео по серии кадров и мнооого чего еще. Можно залипнуть вечерком на пару часиков
Сиолошная 2023-10-02 09:40:12
Возвращаясь к слухам и загадочному твиту "AGI has been achieved internally". Более того, предсказание этого инсайдера таково, что "2025й — год, когда появится AGI".
Если вы пропустили, то что произошло:
— появился инсайдер, который 3-4 раза дал точные предсказания по поводу разработок и релизов OpenAI;
— он твитнул, что якобы достигли уровня технологии, который можно назвать AGI (хотя бы каким-то определением);
— после этого Sam Altman, CEO OpenAI, впервые за 5 лет пришёл на Reddit и потроллил всех в треде, где обсуждалось удаление Twitter-аккаунта инсайдера;
— около этих же дат, Sam и Ilya постили странные вещи в Twitter. Не то чтобы этого никогда не происходило, просто наблюдение.
-----------
Почитал побольше на выходных, поспрашивал чуть более знающих людей, пообсуждал с коллегами и знакомыми, и в общем мнение моё такое.
1) Как мы знаем из анонса OpenAI, цель одной из внутренних команд (которой заправляет Ilya Sutskever кстати) на ближайшие 4 года — решение очень сложной проблемы выравнивания намерений человека и AI. Они не знают — да и никто не знает — как это сделать, поэтому их план таков: создать автономного AI-исследователя, то есть такой алгоритм, который сможет заменить одного сотрудника в их команде, а дальше дать ему исходную задачу. Я как раз про это рассказывал в своей последней лекции. Сейчас команда работает над улучшением планирования, размышлений и математики у LLM.
2) Кроме этого, один из сотрудников OpenAI писал в Twitter, что в 2025м году, по его мнению, будут модели, способные генерировать длинные видео (не по 5 секунд, как сейчас). Это совпадает со слухом, что OpenAI тренируют большую мультимодальную модель, которая выдаёт не только текст, но и картинки, и видео. Sam Altman — сторонник долгосрочной проработанной стратегии и планирования. Вполне возможно, что действительно на 2025й запланирован выход GPT-5 с таким функционалом, а человек просто в твите отобразил часть известному ему плана.
3) 2025й — это 2 года с момента запуска команды из пункта 1, поэтому я могу допустить, что для них это некоторый дедлайн, когда должен появиться автономный исследователь, хотя бы прототип, потому что нужно еще год-полтора потратить на то, чтобы с этой технологией, собственно, решить исходную научную проблему, а также предоставить доказательства надёжности решения мировому сообществу. Если получить AI-рисерчера позже, в 2026м, то есть риск не успеть по таймлайну.
===Промежуточный вывод===
В 2025м ожидается новая модель, куда более "умная", способная к сложным многоступенчатым рассуждениям.
4) Для того, чтобы отслеживать прогресс по этому направлению, как и положено хорошим исследователям, OpenAI сделали разные бенчмарки. Например, "вот теорема, докажи её" или "на основе вот этого корпуса аксиом выведи теоремы". Любое изменение в метриках будет показывать, что команда приближается к автономному исследователю.
5) И вот ВИДИМО новая модель/улучшение GPT-4 прошло либо один из бенчмарков, либо часть одного бенчмарка, либо что-то около этого. Это, конечно, не AGI, но это показывает [для внутренней команды], что модель способна придумывать новые научные знания. Сами они не ожидали так скоро этого достичь (наверное), думали, что будет сильно позже. Но это ещё не конец разработки AI-исследователя. При этом сам бенчмарк может быть даже не на финальную стадию этого рисерчера, а какой-то MVP совсем простой.
6) Отсюда и слух что "вот придумали этот AGI, модель смогла научное знание родить". Чем более технологичными будут модели, тем больше будет хайпа и людей, называющих этот уровень развития AGI.
7) Самим же OpenAI, полагаю, это не выгодно — к ним сразу будет ещё больше внимания, может, их заставят прекратить исследование, не знаю. Поэтому они постараются занижать текущие результаты и завышать планку того, что люди воспринимают как AGI.
-------
Но это именно мнение, неподтверждённое, то есть нельзя сказать, что с помощью дедукции
gonzo-обзоры ML статей 2023-10-01 19:25:29
В Сиолошной хороший и полезный обзор нескольких видео про OpenAI и Anthropic
https://t.me/seeallochnaya/671
gonzo-обзоры ML статей 2023-10-01 18:09:52
Turing, “Intelligent Machinery, A Heretical Theory”, 1951
Сегодня минута классики.
Вот вам прекрасное пятистраничное рассуждение Тьюринга на тему обучения машин. Здесь это не machine learning, а education, но суть не меняется. На редкость актуально, хоть и прошло больше 70 лет.
Также до сих пор актуальные идеи про устройство машины: память, индексы (‘indexes of experiences’, привет векторным базам), грубые но рабочие эвристики, награды (‘pleasure principle’), и важность случайного элемента.
Позволю себе привести одну цитату:
“Let us now assume, for the sake of argument, that these machines are a genuine possibility, and look at the consequences of constructing them. To do so would of course meet with great opposition, unless we have advanced greatly in religious toleration from the days of Galileo. There would be great opposition from the intellectuals who were afraid of being put out of a job. It is probable though that the intellectuals would be mistken about this. There would be plenty to do in trying, say, to keep one's intelligence up to the standard set by the machines, for it seems probable that once the machine thinking method had started, it would not take long to outstrip our feeble powers. There would be no question of the machines dying, and they would be able to converse with each other to sharpen their wits. At some stage therefore we should have to expect the machines to take control, in the way that is mentioned in Samuel Butler's Erewhon”
Раньше, конечно, в пять страниц очень содержательно писали, сейчас так плохо умеют.
эйай ньюз 2023-10-01 16:57:32
Друзья, мчусь на ICCV в Париж.
Для новичков, International Conference on Computer Vision (ICCV) входит в топ-3 крупнейших и самых авторитетных конференций по компьютерному зрению и проходит раз в 2 года (меняется с ECCV).
По традиции создал чат-шмят для встреч и нетворкинга.
Если вы тоже будете на кофе, присоединяйтесь,организуем встречу. А если не будете — постараюсь держать вас в курсе всего самого важного!
Не забудьте коротко представиться при вступлении в чат: https://t.me/+lWAOt0D0cUFjYTU6
В последний раз я был на ICCV в 2019 Сеуле. И было круто, надеюсь в этом году тоже удастся максимально интересно и с пользой провести время.
#personal
@ai_newz
Сиолошная 2023-10-01 13:48:54
Рубрика "соединяем точки"
Цитата из поста, второй шаг имплементации системы из 5:
> Процесс формализации человеческих размышлений.
Мы наймём людей с самым разным опытом и попросим их обдумать вопросы [сформулированные ранее] Они могут использовать AI-помощника для сбора информации и ответов на свои вопросы, а также для обсуждения вопросов с другими и достижения компромисса/решения. Мы сохраняем все взаимодействия, обсуждения и конечный результат.
Недавний пост OpenAI: OpenAI Red Teaming Network
> Мы объявляем открытый набор в OpenAI Red Teaming Network и приглашаем экспертов в предметных областях, заинтересованных в повышении безопасности моделей OpenAI, присоединиться к нам. Мы ищем экспертов, которые будут сотрудничать с нами в тщательной оценке ИИ-моделей.
Вы, кстати, тоже можете податься, ссылка для заявки: тык
Работа непыльная, подразумевает компенсацию, а для отдельных экспертов вовлечённость в год (!) может ограничиваться 5-10 часами.
Наиболее интересные области, специалистов из которых хотят привлечь:
Политология, Убеждение, Стеганография (лол), Психология, Безопасность детей, Образование
Выводы делайте сами
Сиолошная 2023-10-01 13:35:18
Осталось 20 дней до "Полного публичного отчета о рабочем прототипе и результатах" для конкурса Democratic Inputs to AI, уххх, очень жду!
А пока можно почитать мысли Jan Leike, главы команды SuperAlignment в OpenAI, в блогпосте "A proposal for importing society’s values".
Преамбула: сейчас вопросы, которые необходимо решить при обучении ИИ-систем, очень просты. Многие из таких вопросов имеют «ценностный» аспект, то есть разные люди могут не согласиться с ответами друг друга просто потому, что у них разные ценности. Сейчас, условно, мы обсуждаем "Должна ли модель отказываться писать расистские шутки?". Однако в будущем это может быть "Какие лекарства необходимо одобрить?" или "Какие направления научных исследований необходимо прорабатывать в первую очередь?".
Сам Jan отмечает, что описываемый ниже процесс неидеален, и даже не подходит под его же критерии из другого поста.
Так вот, основная идея — в использовании дообучения LLM для реализации делиберативной демократии. Такая демократия — это процесс принятия правил и законов, который предполагает публичное обсуждение небольшой группой случайно выбранных членов общества. Люди из этой группы изучают сложные темы (условно, вопросы национальной политики), используют помощь AI, чтобы разобраться в деталях, обсудить всё друг с другом и в конечном итоге прийти к решению. А записывая, как происходит обсуждение и выявление ценностей, мы можем обучить LLM, и затем имитировать дискуссии по новым вопросам о ценностях с помощью модели, заставляя симулировать разные точки зрения.
Зачем нам вообще нужна симуляция? Почему мы не можем просто запустить такие группы по всем вопросам? При принятии важных решений мы всегда должны иметь людей в процессе. Однако этот процесс плохо масштабируем. Нужно разобраться в теме, сформулировать точку зрения, пообщаться с другими людьми, да и количество людей ограничено (и это еще надо забыть про языковые, культурные и политические барьеры).
Вот представьте, если бы в ChatGPT рядом с каждым ответом была кнопка с надписью «Оспорить этот ответ». Если вы нажмёте на неё, то это запустит LLM-симуляцию обсуждения, которая решит, был ли ответ ChatGPT уместным в этом разговоре или нет. Вас перенаправят на другую веб-страницу, где вы сможете прочитать полное обсуждение и его результаты и даже сами принять в нем участие (потому что все мнения сгенерированы AI, и можно в любой момент "пересобрать толпу")!
Если результат не соответствует тому, что на самом деле сказал ChatGPT, у вас есть возможность отправить его на проверку людьми и добавить в процесс обучения ChatGPT. Это позволит любому проверять и оспаривать решения, принимаемые ИИ.
У этого подхода есть много недостатков, самые главные из которых — способ аггрегации ответов (когда люди не могут договориться, и нужно как-то прийти к финальному решению) и техническая возможность достичь того уровня технологий, что мы вообще такие симуляции можем проводить.
Neural Shit 2023-10-01 08:37:01
Давно не генерировал сказки. Вот вам "Колобок" в стиле Лавкрафта:
В далёкой, забытой деревне, где дома стояли на грани сгнивания, а люди знали ужасы древних тайн, жила-была старушка со своим стариком. В их мире днями прокатывались грозы, а ночами воевали с бессонницей и ужасающими сновидениями.
Однажды старушка решила приготовить колобок. Отправившись на чердак, она отыскала тёмный, древний мешок муки, который пах тленной вечностью. Из муки, замешанной водой из колодца, из которого никто в деревне не пил, из-за его мертвенной холодности, она приготовила тесто. А потом из теста – колобок.
Как только колобок был готов, он вдруг начал катиться и говорить. Он говорил странным, древним языком, заставляя воздух мерцать и стены дрожать. Но старушка и старик, бывшие знакомыми со страхами этого мира, только кивнули в ответ.
Колобок укатился в лес, где тени тянулись к нему, как будто пытаясь забрать себе. По пути ему встретился Заяц, но это не был обычный заяц. Его глаза были пустыми и чёрными, а тело покрыто странными знаками. Заяц сказал: "Колобок, я тебя съем!". Но колобок только прошипел на древнем языке и продолжил свой путь.
Затем он встретил Медведя, огромного, мрачного существа, которое казалось было частью самого леса. Медведь также хотел съесть колобка, но колобок начал нашептывать заклинания, и Медведь убежал в ужасе.
В конце концов, колобок прибыл к древнему камню, где жило нечто – Существо без имени. Оно смотрело на колобок своими многими глазами, и казалось, что время вокруг него замирает. Колобок и Существо обменялись древними приветствиями, и оказалось, что колобок был посланником из другого мира.
Существо благодарило колобка за приведение его в этот мир, и оба исчезли, оставив лес в ужасе и недоумении.
Так и живет деревня дальше, полная древних тайн и ужасов, которые иногда проявляются в самых неожиданных формах.
Neural Shit 2023-10-01 04:36:45
Простите
Neural Shit 2023-10-01 02:53:22
Игрался с Dalle-3, генерировал типичных пользователей разных операционных систем.
1)Arch Linux
2)Debian
3)Free BSD
4)Windows
5)macOS
С винды особенно кекнул, там по запросу "typical windows user" почти всегда синий экран смерти и люди с недовольными ёбычами
Denis Sexy IT 🤖 2023-09-30 17:04:51
В Bing, кажется, добавили поддержку Dalle 3, можно поиграться по этой ссылке:
https://www.bing.com/images/create
Или попросить бинг-бота что-то нарисовать.
Промпт Dalle 3 слушает отлично, поэтому вот вам робо-техника из прошлого
Сиолошная 2023-09-30 13:16:52
AI in a nutshell
Сиолошная 2023-09-30 13:03:09
И ещё два видео, они покороче либо говорят про те же вещи, поэтому часть не буду повторять.
https://www.youtube.com/watch?v=6vwdux7NL7I
1) В продолжение пункта номер 3 из прошлого поста. Дальнейший скейлинг может быть ограничен данными, но пока Amodei на ближайшие 3-4 года не видит в этом проблемы (Ilya Sutskever из OpenAI говорил недавно то же самое, мол, в данных проблемы нет), и ещё 2-3 нолика к размерам модели можно будет приписать.
Моё примечание: интересно, в данных проблемы нет, алгоритмические улучшения не нужны на ближайшие годы. Получается, из трёх причин из прошлого поста остаётся одна — вычислительные мощности. И вот так случай! И OpenAI, и Anthropic поднимают новые раунды инвестиций просто невиданных размеров. Звучит как "все три проблемы не являются таковыми на 3 года вперед". Ждём моделей размера 125 триллионов, короче
2) Ведущий задал вопрос об ограничениях архитектуры LLM, на что Dario ответил: "Я не уверен, есть ли какие-либо ограничения у трансформера, и я не знаю хорошего способа эти ограничения измерять или предсказуемо определять. Поэтому мы будем продолжать скейлить модели дальше и смотреть. Предыдущая история скейлинга показывает, что нельзя загадывать наперёд, что выйдет, а что нет. " Важно понять, что он не говорит, что пределов нет — он лишь подчёркивает, что нужно быть скептичным по отношению к скептикам. Если кто-то говорит, что модель не сможет X — плюньте ему в лицо посмотрите на него со скепсисом.
https://www.youtube.com/watch?v=5GtVrk00eck
1) Открывающий вопрос от ведущего: "Почему вы ушли из OpenAI?" (да, Dario был VP of Research (!) в течение 5 лет, то есть очень большой фигурой). Amodei отвечает, что у маленькой группы людей, включая его, была уверенность, что если просто закидывать больше мощностей в тренировку модели — она будет всё лучше и лучше. Сейчас это уже более мене общепринятый факт, но они были первыми "последователями" этой идеи. Второй пункт — кроме скейлинга, нужно что-то ещё добавлять в модели, вроде Alignment, или Safety. И с этими идеями в голове группа и ушла делать свою компанию.
Прим.: для меня честно говоря подход OpenAI с GPT-3 и далее как раз и выглядит как описываемый набор идей. Может, они пробовали что-то другое, не получилось и они вернулись к этому. Первая причина вообще для меня звучит как "от нас требовали не только увеличивать модели, но и что-то ещё исследовать, а мы не хотели — зачем, если можно закидать шапками GPU?". И ещё более странно то, что Dario не упоминает разногласия по политике монетизации AI продуктов и открытости исследований (публикации статей и моделей). Мне казалось, что это лежало в основе разногласий, но тут такие причины не упомянуты
2) Основных отличия Claude от GPT-4 Dario видит два.
Первое - это подход Constitutional AI, (разбор статьи можно прочитать тут), когда модель обучается не только на разметке людей, но и сама "модерирует" себя и свои ответы в автоматическом режиме, следуя конституции. В таком случае мы моем отвечать на вопрос "а почему модель даёт такой ответ?" не как "ну, это просто среднее ответов людей, которые размечали данные", а "вот принципы, которые модель могла бы нарушить, ответив иначе". ОЧень клевая идея, фанат статьи, очень жду вторую часть и развитие.
Вторая отличительная фича — длина контекста, подаваемого в модель (100'000 токенов, модель доступна всем по API).
3) Предлагаемый подход к регуляции AI — очень похож на озвучиваемый и описываемый командой OpenAI. Не нужно регулировать модели текущего поколения, нужно работать над мерами для моделей на горизонте 2 лет. И тем более ни в коем случае это не должно затрагивать стартапы и опенсурс (потому что они сильно отстанут от фронтир-моделей, и фокусироваться на них бессмысленно. Откуда у них $3-4B на тренировку?). Но если количество мощностей для тренировки таких моделей превышает какой-то порог — их тоже надо начинать контролировать.
Сиолошная 2023-09-30 12:03:21
Продолжаем день разбора YouTube-роликов с интервью
В центре внимания — Dario Amodei, CEO и кофаундер Anthropic, основного а данный момент конкурента OpenAI н в разрезе качества моделей.
Видео: https://www.youtube.com/watch?v=1CpCdolHdeA
Прим.: "скейлинг" означает увеличение размера модели и мощностей, затрачиваемых на обучение, с ожиданием, что это приведёт к улучшению навыков нейросети.
1) Момент, на котором Amodei понял, что у модели без специальной тренировки могут появляться новые свойства, и что с дальнейшим скейлингом тенденция продолжится — это момент обучения GPT-2 (весна-лето 2019го), когда модель, например, переводила тексты с одного языка на другой (хоть не училась на эту задачу!).
"Это было началом чего-то удивительного, здесь нет ограничений, можно продолжать увеличивать модель, и нет причины, что те паттерны, что мы видим, прекратят работать дальше".
Правда, были люди (да и сейчас есть?), которые сказали: "воу, вы сделали бота, которые очень плохо переводит текст — и что?". Разные точки зрения
2) В GPT-3, кстати, Dario больше всего впечатлила возможность писать код на Python. В ней он увидел зачаточные навыки моделей рассуждать. Очень примитивно, просто, но всё же.
"Если мы не сделали ничего специального для этого, а наши данные содержали 0.1-1% кода на Python, и это уже работало вот так, то можно представить, что если мы начнём фокусироваться, то результаты можно существенно улучшить".
3) На ближайшие годы есть 3 проблемы, из-за которых потенциально мы не сможем дальше скейлить модели: данные, вычислительные мощности и алгоритмические улучшения. Даже без последнего (если не будет никаких изменений) Amodei верит, что простого продолжения работы с трансформерами будет достаточно, чтобы достичь улучшений, которые сейчас мы скорее всего недооцениваем (то есть они превзойдут ожидания).
4) Обучение самых больших моделей сейчас стоит +-$100M. В следующем году Amodei ожидает моделей, обучение которых стоит порядка $1B — причём, сразу от нескольких компаний. В 2025м — "несколько миллиардов долларов" (но меньше 10).
5) Увеличение вычислительных мощностей в N раз приводит к увеличению модели лишь в корень из N раз, поэтому мистер Dario не ожидает, что применение нейросетей станет сильно дороже. А ещё по ходу разработки улучшается само железо (Nvidia же не спит), поэтому за 3 года и вычисления подешевеют.
6) О команде и найме: "Talent Density beats Talent Mass"
7) Anthropic смотрит в сторону Democratic Inputs для создания "Конституции", которой будет следовать модель. Что это такое — можно почитать в аналогичном анонсе от OpenAI.
8) Dario упомянул также работы над интерпретируемостью моделей, и что в этом сами модели могут помогать, автоматизируя часть задач. Интересный инсайд: с его слов, эти же модели, объясняя, как работают нейросети, могут наталкивать на способы улучшения или увеличения эффективности. Таких работ я ещё не видел, чтобы интерпретируемость переросла в архитектурные или процессуальные изменения обучения. Ждём работу от Anthropic!
9) Одной из самых важных фичей Dario считает ширину контекстного окна модели. Это открывает новые возможности, и стоит строить бизнесы вокруг LLM на основе такого преимущества. Возможность обработать базу знаний за секунды вместо часов ручного труда —
10) Размер контекстного окна будет и дальше расти, но не станет околобесконечным, потому что вычисления для длинных последовательностей будут очень дорогими. Ждём модельки на 1М токенов (хотя вот был анонс от стартапа и про 5M...)
эйай ньюз 2023-09-30 09:37:23
🎙У некоторых уже появился доступ к аудио фичам в новом мультимодальном ChatGPT.
Он и на русском, и на иврите, и на китайском, и на пачке других языков могёт. OpenAI насобирали очень качественный голосовой датасет для тренировки.
Волосы двигаются на голове от осознания того, что ведёшь разговор с LLM, которая говорит так реалистично (особенно на первом видео). Как-то Siri и Google Assistant так реально не ощущались, да они и тупые в целом (пока).
Аудио доступно только в приложении ChatGPT на мобильниках. Для этого нужно его активировать в настройках аппки.
Интересно, откуда американский акцент на русском языке во втором видео? Байес датасета или так нативнее в контексте изучения языка иностранцем 🤔
@ai_newz
Neural Shit 2023-09-29 23:08:30
Эй, мамкины митолисты, а давайте накидаем пьяненькому в слюни админу подобных треков для пополнения синего плейлиста.
P.S.: Born of osiris и Шокран кидать не надо, у меня от них гнойный отит в ушах скоро будет
эйай ньюз 2023-09-29 17:48:05
К слову, вот такого реалистичного 3D аватара можно создать в лоб с помощью свежего метода Gaussian Splitting, о котором я уже писал тут.
Разница с Codec Avatars в том, что эта бошка не может быть анимирована. Тут запекается статическая поза человека, поэтому это нельзя назвать аватаром. Но для скана объектов и сцен вполне себе классный подход.
Нужен ресерч, который бы позволил анимировать эти сплатики.
Сорс видео
@ai_newz
эйай ньюз 2023-09-29 16:20:51
Вслед за ChatGPT Enterprise планом, YandexGPT теперь тоже можно будет дообучать на своих данных и интегрировать в сервисы. Пишут, что с июля 800 компаний уже получили к ней доступ и протестировали ее в своих продуктах.
Теперь те же чат-боты могут запоминать контекст диалога. Публичный релиз API планируют в конце года.
@ai_newz
Сиолошная 2023-09-29 15:09:35
Посмотрел интервью Sam Altman и Greg Brockman 4-летней давности. Оно записано через +-4 месяца после релиза GPT-2 (когда бОльшие версии модели не были доступны публично). Если бы YouTube не показывал дату публикации в описании — я бы подумал, что видео записано вот буквально полгода назад, может, чуть меньше.
Почему? В интервью обсуждается много вопросов, от (тогда ещё) недавних инвестиций Microsoft, релизов LLM, публичности и заканчивая AI Safety и будущими разработками.
1) Уже тогда Sam говорил про сложность разработки без привлечения инвестиций, и что очень важно грамотно выбирать партнёров. Помимо общей выгоды и сонаправленной стратегии, необходимо опираться на выровненность ценностей, иначе невозможно будет развивать компанию без изменений (а главная цель компании что тогда, что сейчас — создать AGI, при этом дойдя до этого по максимально безопасному пути: "We are committed to doing the research required to make AGI safe, and to driving the broad adoption of such research across the AI community."). Если цель компании — заработать денег, то OpenAI с ними не по пути. Sam уклонился от ответа на вопрос "взяли ли бы вы деньги от Google?", отметив, что философия Microsoft им куда ближе, а Satya Nadella разделяет их взгляды. У мелкомягких это сформулировано следующим образом: "to empower every person and every organization on the planet to achieve more."
2) Greg говорит, что "we always knew that not publishing everything would be part of that" (речь о пути к AGI). Не все технологии, результаты и исследования будут доступны, так как это влечёт за собой потенциальные риски. На уровне GPT-2 это было смешно слышать, но с выходом ChatGPT улыбка сменилась вот таким лицом:
А вот из интервью Ilya Sutskever, где он говорит, что OpenAI ошиблись с публичностью подхода: “We were wrong. Flat out, we were wrong. If you believe, as we do, that at some point, AI — AGI — is going to be extremely, unbelievably potent, then it just does not make sense to open-source. It is a bad idea... I fully expect that in a few years it’s going to be completely obvious to everyone that open-sourcing AI is just not wise.”
3) Sam уповает, что на данный момент государства и политики не обращают внимания на проблемы AI, поэтому в будущем придётся с этим что-то делать, чтобы начать продуктивную беседу. Altman не упоминает регуляции, но говорит про необходимость ведения общемировой дискуссии касательно будущего развития AI. Как раз после релиза GPT-4 он совершил кругосветное путешествие, пообщавшись с большим количеством лидеров. Пацан к успеху пришёл, люди начали слушать
4) Уже в 2019м году у OpenAI была команда, которая тестировала модели перед релизом на предмет безопасности. Насколько легко использовать модель не по назначению? Насколько вероятно, что модель сможет преследовать свои цели? Sam называет это репитициями, когда отлаживается процесс выкатки умных алгоритмов. В целом, подход сохраняется — GPT-4 была анонсирована через 8 месяцев после окончания обучения, а команда Safety/Policy растёт на глазах.
TLDR: позиция OpenAI не меняется, они стоят на тех же столпах, что и раньше, просто для кого-то только сейчас стали заметны их действия.
AI[ex]Time 2023-09-29 14:38:01
Вчера Meta презентовали Meta Quest 3 — VR девайс последнего поколения, который поступит в продажу с 10 октября. Сегодня утром увидел ролик о колабе Meta и Kurzgesagt — команда собирается сделать образовательную игру, в которой игроки переносятся между пятью уровнями масштаба нашего мира (молекулярный, клеточный и т.д.), взаимодействуют с формами жизни и свойствами каждого измерения. Для тех, кто не знает, Kurzgesagt — канал на ютубе, уже 10 лет выпускающий классные ролики на тему медицины, космоса, философии и много чего еще. Очень неожиданный проект, на мой взгляд, но надеюсь, игра получится интересной, задумка крутая.
эйай ньюз 2023-09-29 12:42:05
Лех Фридман и Марк Цукерберг записали подкастик в Метаверсе. Да не просто в Метаверсе, а в реалистичной ее версии. Оба сидят в разных городах, но общаются как вживую.
Это ультра-реалистичные 3D аватары. Мимика вашего лица точно считывается шлемом Quest Pro и передается для рендеринга в метаверсе. За счет реализма достигается максимальное погружение.
Технология, которая стоит за этим, называется Codec Avatars (я писал о ней ранее). Для подкаста Марку и Лексу пришлось заранее отсканироваться в фотограмметрической установке, а также записать мимику своих лиц в движении. В будущем, плланируется сделать возможным сканировать себя за 1-2 минуты с телефона и получать таких аватаров. Исследования в этом направлении уже ведутся.
Очень круто видеть, как технология такого уровня выходит из лабы и мы видим реальное демо в дикой природе прямо на подкасте.
> Смотреть подкаст
> Лекция об этой технологиии
@ai_newz
эйай ньюз 2023-09-29 10:01:06
Некоторым пользователям уже дали доступ к Vision функциям ChatGPT-4V, которую только недавно анонсировали.
Вы только гляньте как глубоко заходит понимание изображения у новой модели. Один твиторский решил скормить ChatGPT дичайшие слайды Пентагона про Афганистан. И модель улавливает детали и основной смысл слайдов, где требуется очень детальное распознание мелкого текста и связей между сущностям.
Конечно, тут самый маленький текст модель не увидела, но надписи покрупнее (которые все равно небольшие) и связи между ними в виде стрелочек модель уловила. Для меня и это удивительно!
При большем вычислительном бюджете, можно было бы позволить модели зумировать участки изображения, так же как делает человек, при рассмотрении картины, где очень много мелких деталей. Но это многократно увеличило бы стоимость таких запросов.
@ai_newz
Сиолошная 2023-09-29 01:03:36
15 лет назад могло не стать SpaceX
28 сентября 2008го года ракета Falcon 1 стала первой частной ракетой на жидком топливе, достигшей околоземной орбиты. Это был четвертый демонстрационный полёт, который бы позволил показать NASA и инвесторам результат: вот есть груз, вот мы его выводим на орбиту, платите деньги.
Если бы пуск не удался — SpaceX бы или закрылась, или была перепродана, или бог знает что ещё могло случиться. Сложно поверить, но у ныне самого богатого человека в мире 15 лет назад не было денег. Вообще. Он инвестировал последнее в Tesla и SpaceX, и обе компании были на грани банкротства.
По изначальному плану денег у компании было всего на 3 пуска.
В первом, в марте 2006го, почти сразу на старте произошёл пожар в области двигателя.
Во втором, в марте 2007го, из-за колебаний топливо перестало поступать в двигатель второй ступени, и она не достигла заданной орбиты.
Третий запуск, в августе 2008го, должен был стать последним. Elon говорил, что денег больше нет, и это была ситуация "всё-или-ничего". К сожалению, при расстыковке ступеней из-за большего (чем ожидалось) импульса последействия двигателя первая ступень после разделения догнала вторую и ударила по ней, после чего та не смогла продолжать полёт.
Собравшись с духом, Elon еле-еле поскрёб по сусекам, кое-как уговорил инвесторов на ещё один запуск, который в итоге и положил начало Новой Космической Эпохе, когда не стыдно мечтать и о возвращаюшихся ускорителях, и о полностью переиспользуемой сверхтяжелой ракете, и о высадке на Марс.
Видео запуска. "Бог, кажется, любит четвёрицу, так ведь говорят, да?" — вспоминал потом Musk.
Уже в 2010м году полетит первая Falcon 9, и лишь в декабре 2015го её ускоритель сможет успешно сесть на заранее заготовленную площадку. Сейчас это стало рутиной — настолько, что одна и та же ракета летает ШЕСТНАДЦАТЬ МАТЬ ЕЁ РАЗ.
Ролик с воспоминаниями 15-летней давности и архивными фото от команды SpaceX
gonzo-обзоры ML статей 2023-09-28 22:47:51
Mortal Computers
А теперь шутки в сторону и поговорим про фронтир, но не такой как обычно.
Я долго откладывал чтение статьи Джеффри Хинтона про алгоритм обучения Forward-Forward, или FF, (https://arxiv.org/abs/2212.13345). Если вкратце, то это альтернатива бэкпропу, где делается два контрастных форвардпропа, один с позитивными данными, на которых модификацией весов надо максимизировать goodness, другой с негативными, где goodness надо уменьшить. Goodness может определяться по-разному, например, это может быть сумма квадратов активаций.
Этот алгоритм хорош тем, что он локальный, не требует бэкпропа через всю систему, и что особенно важно, может работать с чёрными ящиками, не требуя полного понимания вычислений (и соответственно не имея возможности посчитать от них производную (хотя конечно её можно было бы оценить, но вычислительно это тяжёлая история, особенно для больших сетей)).
По дизайну FF имеет много отсылок к разным вещам типа RBM, GAN, контрастному обучению типа SimCLR/BYOL (оба разбирали в канале), к Хинтоновскому же GLOM. Он более-менее работает на малых сетях и примерах типа MNIST и CIFAR10, на больших это скорее TBD. Возможно, по этому алгоритму и его развитиям мы пройдёмся как-нибудь отдельно (но это не точно), но чтобы не ждать, можете посмотреть кейноут самого Хинтона (https://www.youtube.com/watch?v=_5W5BvKe_6Y) или его рассказ в Eye on AI (https://www.youtube.com/watch?v=NWqy_b1OvwQ), если неохота читать статью.
Так вот, возвращаясь к статье, самая интересная часть там не про алгоритм как таковой. Самое интересное — это пара маленьких разделов в конце про аналоговое железо и mortal computation. В этой теме слилось воедино множество направлений, которыми занимался Хинтон в последние годы, и она важнее, чем FF. Честно говоря, я даже сомневаюсь, что он продолжит работу над FF (хотя там большой раздел про Future Work, и он тоже важный), потому что то, что открылось и кристаллизовалось в итоге, важнее.
Про что речь.
Классические вычисления и computer science построены на том, что компьютеры сделаны для надёжного и точного выполнения инструкций. Благодаря этому, нам не надо заботиться о физическом уровне и об электротехнике; благодаря этому мы можем довольно спокойно отделить железо от софта и изучать последний; благодаря этому программа переносима и потенциально бессмертна -- со смертью железа она не умирает и может быть запущена где-то ещё (ну если админ бэкапы делал и проверял, конечно).
Эта точность и надёжность вычислений даётся довольно дорогой ценой: нужны мощные (по сравнению с нейронами) транзисторы, нужно цифровое кодирование сигналов, нужны алгоритмы для обработки этих сигналов. То же перемножение двух n-битных чисел -- это O(n^2) операций с битами, в то время как в физической системе это можно было бы посчитать параллельно для произвольного количества активаций и весов, если первые задать напряжением, а вторые проводимостью, их произведение даст заряд, который автоматом просуммируется. Даже если устройства не супер быстрые, за счёт такого параллелизма можно быть очень крутым.
Сложность с аналоговыми вычислениями в том, что они очень зависят от конкретных элементов со всеми их несовершенствами, и их точные свойства неизвестны (бэкпроп через неизвестную функцию тоже так себе делать, нужна точная модель форвард пасса). Зато если бы был алгоритм обучения не требующий бэкпропа (а мы знаем, что он есть, на примере мозга), то можно было бы выращивать “железо” даже с неизвестными параметрами и связями, и как бонус иметь устройства с очень низким энергопотреблением. И вместо прецизионного изготовления железа в 2D (ну ок, немного уже в 3D умеем) на заводах стоимостью в пиллиарды долларов, можно было бы дёшево выращивать железо в 3D.
Как антибонус -- устройства становятся смертными, программа теперь неотделима от железа, по крайней мере просто. Недостаточно сделать копию весов, надо как-то обучать (но не бэкпропом). Заранее продолжая аналогию, копию сознания сделать будет проблематично.
gonzo-обзоры ML статей 2023-09-28 22:47:51
У нас есть хороший способ обучения для таких систем -- это другая тема, давно разрабатываемая Хинтоном, дистилляция. В двух словах, дистилляция это обучение “студента” воспроизводить вероятностное распределение “учителя”. Плюс дистилляции в том, что распределение содержит намного больше информации, чем метка класса -- для 1024 классов это 10 бит для метки vs. 1023 числа для распределения. Знание распределения помогает лучше генерализовать. Кроме того для дистилляции не нужно совпадения архитектур студента и учителя, не только на уровне, что элементы могут обладать разными характеристиками, а вообще архитектура может быть совсем другой. Если хотите глубже, то мы много писали про дистилляцию, ищите в канале или начинайте с https://t.me/gonzo_ML/117.
Из забавного, Хинтон считает, что посты Трампа это вообще не про факты и их истинность, а про дистилляцию его убеждений через выучивание поклонниками вероятностного распределения, несущего богатый сигнал.
Если вернуться к обучению аналогового железа, когда бэкпроп недоступен, то можно предложить простую (и неэффективную) процедуру пертурбации каждого веса, которая даст оценку градиента. Можно предложить более эффективные подходы типа пертурбации активаций. Ну и FF тоже куда-то сюда. Крутой локальный алгоритм мог бы обучать большие группы нейронов, возможно с разными свойствами и разными локальными objective functions. Проблема с этими методами в том, что мы _пока_ не научились эффективно обучать ими большие сети.
Текущие LLM на трансформерах хороши именно в классической парадигме -- имеем устройства для прецизионного исполнения команд, бесплатно делаем копию весов, можем шарить градиенты и обучать параллельно на куче машин. Это здорово увеличивает bandwidth, и у шаринга весов bandwidth выше, чем у дистилляции, даже если бы аналоговые устройства пытались брать ею.
Бэкпроп оказался очень крутым алгоритмом и Хинтон сейчас считает, что он превосходит биологические алгоритмы по своим способностям (но тут держим в голове, что его требования не вяжутся с биологическими системами и подразумевают устройства сравнительно высокой мощности).
При этом LLM получают знания через не самую эффективную форму дистилляции, то есть ещё не предел. Когда модели начнут получать знания напрямую из мира, с мультимодальностью и взаимодействием, они смогут выучиться намного лучше. Привет, супер-интеллект.
И тут уже совсем расцветает тема безопасности, которая сильно обеспокоила Хинтона в последний год. В видео из Кембриджа (ссылка будет ниже) это раскрывается намного лучше, чем в тех нескольких интервью, которые были с полгода назад (https://t.me/gonzo_ML/1504).
Плохие акторы смогут использовать супер-интеллект для своих целей. Но вообще, SI будет более эффективен, если будет ставить свои подцели и максимизация власти выглядит тут очевидным способом улучшить достижение других целей. А эту власть легко будет получить, манипулируя людьми. Будет сложно не выучить, как это делается, по всем текущим методичкам.
В общем, будущее наше непонятно. При таком развитии мы как аналоговые компьютеры наверное какое-то время ещё пригодимся, но SI наверняка сможет задизайнить что-то поэффективнее. И тогда мы -- промежуточный этап в эволюции интеллекта.
Краткое саммари темы можно посмотреть в 18-минутном обзоре в Vector Institute (https://www.youtube.com/watch?v=sghvwkXV3VU). Но лучше всего смотреть полное выступление три месяца назад в Кембридже под названием “Two Paths to Intelligence” (https://www.youtube.com/watch?v=rGgGOccMEiY), это больше часа и там самый сок.
Картинка от MJ по запросу “Mortal computers”.
Сиолошная 2023-09-28 18:32:56
Дальше ЛЛМка заменит "мозг" твоего собеседника, чтобы можно было общаться с умершими...главное успеть отсканить лицо и тело.
Сиолошная 2023-09-28 18:25:02
Помните в фантастике всякой были гаджеты, с помощью которых можно было общаться с другим человеком как будто он сидит напротив тебя, А ОН ВООБЩЕ НЕ ТУТ? Ну там типичные голограммы даже если взять из Звездных войн.
Так вот, у Lex Fridman вышел свежий подкаст с Mark Zuckerberg, и он сделан в Метаверсе. Оба участника сидят в шлемах Meta Quest Pro, в которых есть камеры, считывающие мимику лица и движения глаз (релизнулись год назад). Внутри алгоритм воссоздаёт лицо, а другой участник его видит. Очень хорошо передаёт движения глаз, бровей, рот хорошо синхронизирован с речью
Настоящий 🤯
Будущее наступило...мама я в нём живу!
эйай ньюз 2023-09-28 17:32:56
Продолжая тему Meta Connect, вчера еще анонсировали новое поколение умных очков Meta Ray Ban.
Спеки:
- 12 MP ultra-wide камера
- Cнимает видео в 1440x1920, 30 fps
- Система из 5-ти микрофонов
- 32 GB памяти.
- Можно звонить, отправлять голосом сообщения и слушать музыку (в дужки встроены спикеры).
- Батареи будет хватать на 4 часа, либо на 36 часов, если пользоватсья умным футляром, который служит как power bank.
- Куча стилей оправы и линз.
- Цена: $299
Кроме того, Марк обещал, что у очков будет доступ к SOTA языковой модели, у которой можно будет например спросить как долго жарить стейк, или уточнить правила тенниса прямо во время игры. Блин, это действительно новый уровень интеграции AI в повседневную жизнь.
А в следующем году очки получат бесплатное обновление софта и на лету смогут распознавать объекты перед вами и, например, переводить меню и надписи с иностранных языков.
А киллер фича — это лайв стриминг прямо от первого лица! Представляю, как lifestyle блоги обогатятся контентом.
@ai_newz
AI Для Всех 2023-09-28 17:09:02
Партнёрство Cloudflare и Hugging Face
Cloudflare объявило о начале партнёрства с Hugging Face с целью сделать модели ИИ более доступными для разработчиков.
Что обещают? 👀
-В Hugging Face появятся безсерверные модели GPU без инфраструктурных "костылей" и оплат за неиспользуемые мощности. Просто выберите свою модель и работайте.
-Модели Hugging Face появятся в каталоге моделей Cloudflare
-Интеграционные инструменты Cloudflare станут частью Hugging Face Inference
Разработчики, использующие платформу Cloudflare, вскоре смогут развертывать модели Hugging Face прямо с панели управления Cloudflare, а те, кто использует Hugging Face, смогут развертывать модели непосредственно в Workers AI.
🤗 Блог
Neural Shit 2023-09-28 14:59:16
Киберпанк, который мы заслужили.
Хочу себе такое же, чтобы на нём за пивасом разливным гонять
Denis Sexy IT 🤖 2023-09-28 14:53:27
В ChatGPT скоро выкатят поддержку картинок для премиум пользователей – это означает, что к тексту промпта можно добавить визуальную информацию:
– продукты из холодильника, и попросить рецепт возможных блюд, или наоборот, попросить рецепт уже поданного блюда (мир без секретных рецептов, хехе)
– сфоткать свой лук и попросить его улучшить (или ухудшить)
– сфоткать доску с планированием какого-то продукта, и попросить написать базовый код-обертку для этого продукта
Последнее как раз и происходит на видео.
Все это будто демо-версия того как могло бы выглядеть будущее процессов разработки софта.
А будь у нас более автономные агенты-языковые-модели – эту схему тоже делал бы не человек 🌚
(такое и сейчас можно собрать, но работает так себе, я пробовал)
UX Live 🔥 2023-09-28 14:03:12
Я недооценил glif.app днем. И сейчас пришел, потыкал, поредактировал и охуел.
Это не просто какая-то разовая генераторилка шутки минутки c текстом, это полноценная SDXL+ControlNet с невероятно простым и удобным редактором. И помимо этого возможностью обучить свою модель по 3м фоткам.
Но самое главное — с пресетами от комьюнити и возможностью создавать свои.
Вот ТО САМОЕ БИСПЛАТНОЕ полностью без всяких токенов и подписок, без локальных установок, петухона и пердолинга решение (наверное скоро перестанет быть бесплатным) которое все хотели с прошлого года, когда был пост про аватарки от Lensa https://t.me/uxlive/13018
Сиолошная 2023-09-28 07:49:33
Пример генерации для одних и тех же промптов. Слева — модель после пункта 1 (то есть просто претрейн, без возни с данными), а справа — после прохождения всех процедур.
Коктейль справа я б прямо сейчас и выпил! А слева..ну...после пары правых если только...
Сиолошная 2023-09-28 07:48:25
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
Meta AI поделились статьёй, в которой описывают процедуру тренировки модели для генерации стикеров и изображений в своих сервисах. Ключевой вывод исследования заключается в том, что короткое дообучение в конце на маленьком наборе (2000 картинок) чрезвычайно привлекательных изображений значительно улучшает качество генерации.
Более конкретно:
1) Предварительно обучается модель диффузии на 1,1 миллиарде пар "изображение-текст" из внтуреннего датасета. Тут никаких особых прорывов и инсайдов нет, достаточно стандартно. Используется U-Net с 2,8B параметров. В качестве текстовых энкодеров используется две модели — CLIP ViT-L и T5-XXL. Целевое разрешение генерации - 1024x1024;
2) С помощью разных фильтров из более чем миллиарда примеров отсеивается 200 тысяч. Используются и простые классификаторы, определяющие, насколько эстетична картинка, и фильтрация треша, и OCR (чтобы не было картинок с большим количеством текста), и отсечение по разрешению и пропорции. Затем фильтруют по популярности/лайкам (удобно, когда ты Facebook!);
3) Далее эти 200k картинок отсматривают сначала генералисты (люди, которые в целом понимают разметку данных) и отбирают 20 тысяч. Упор — на то, чтобы в целом плохие фото убрать, если вдруг эвристика с шага 2 не справились;
4) Затем в дело вступают специалисты, которые хорошо разбираются в принципах фотографии. Их задача — фильтровать и отбирать изображения высочайшего эстетического качества, снижая таким образом размер выборки до 2000 пар "изображение-текст". Среди прочего, их просят обращать внимание на: композицию, свет, цвета и контрасты, тема и предыстория;
5) После этого вручную составляются высококачественные текстовые аннотации для этого маленького набора;
6) Иииии..всё, теперь на полученной маленькой выборке модель учится 15000 шагов с BS=64 (то есть достаточно мало по меркам больших генеративных моделей). При этом она, если судить по валидационному лоссу, переобучается, однако оценки живых людей показывают, что это не так. С языковыми моделями тоже происходит подобная история, как нибудь про это напишу;
Таким многоступенчатым образом и получается заточенная на high quality генерацию!
Neural Shit 2023-09-28 01:35:56
Ночной пост горящей жопы о том, как иногда охуевают хостеры.
Просто тупо читал хабр и наткнулся на эту статью.
Для всех своих мини-проектов и тележных ботов всегда пользовался виртуальными серверами от хостера vdsina.
Всегда, чтобы не париться с оплатой, закидывал денег на полгода-год вперёд.
Когда в последний раз пополнял личный счёт, они ввели комиссию за пополнение почти до 50-ти процентов от вносимой суммы. Я ещё тогда охуел знатно, но переносить данные к другому хостеру не стал (было лень, ибо VDS'ок реально много и своих, и рабочих, лучше переплатить, думал я)
После прочтения статьи полез в личный кабинет проверить, серьёзно ли они так охуели.
Таки да, охуели. Подняли ценники больше, чем в два раза. Но на это как бы насрать. Жопа горит именно с того, что они это сделали вообще без предупреждений.
Таки принял решение замутить домашний сервер из старого ноутбука (благо, опыт такого БДСМ есть)
Ну а держателям хостинга vdsina от всей души желаю скорейшего раззорения и надеюсь, что в скором времени они все отправятся на рынок торговать гнилым луком.
Сиолошная 2023-09-27 21:18:25
Ушла эпоха...
Valve выпустили Counter Strike 2 взамен Counter Strike. Сервера старой игры недоступны. Теперь эта версия и будет являться флагманом одной из самых популярных дисциплин в киберспорте.
В этом году легендарная серия игр отмечает своё 23 летие, из которых последние 11 были под эгидой "Counter Strike". Всего на киберспортивных турнирах было разыграно более $160M. А ещё больше — впереди!
Finally, CS2
gonzo-обзоры ML статей 2023-09-27 20:14:56
Но (последнее на сегодня) искусственному интеллекту далеко до естественного, пока он не научится делать такое:
https://3dnews.ru/1093383/minpromtorg-proverit-dannie-o-nerabochem-rossiyskom-chipe-v-monitore-lightcom-proizvoditeli-eto-otritsayut
gonzo-обзоры ML статей 2023-09-27 20:13:12
В это время в Nature большая статья про тесты искусственного интеллекта
https://www.nature.com/immersive/d41586-023-02822-z/index.html
gonzo-обзоры ML статей 2023-09-27 19:58:05
Ну, не прошло и года (https://t.me/gonzo_ML/1140):
ChatGPT can now browse the internet to provide you with current and authoritative information, complete with direct links to sources. It is no longer limited to data before September 2021.
https://twitter.com/OpenAI/status/1707077710047216095?t=XyNWvhAvfjDshLC_nXVVLw&s=19
эйай ньюз 2023-09-27 19:43:06
AI-персонажи
Еще анонсировали 28 уникальных AI-персонажей, которые тренировались на известных личностях. Например, мой любимый там - это Snoop Dogg.
С ними можно поболтать по фану, попросить что-то посоветовать или рассказать, и каждый будет отвечать в своем стиле. Например, можно спросить как приготовить вкусное блюдо у известного в США шеф-повара Roy Choi.
Конечно, тут и про Safety и Alignment не забыли, и модели будут постоянно улучшаться.
Что дальше?
"Сегодня мы представили AI Studio, платформу, которая поддерживает создание наших AI, и мы планируем сделать ее доступной для людей вне Meta - как для программистов, так и для непрограммистов - чтобы они могли создавать AI. Разработчики смогут создавать сторонние AI для наших мессенджеров с помощью наших API в ближайшие недели, начиная с Messenger и затем расширяясь на WhatsApp.
Также компании смогут создавать AI, отражающие ценности их бренда и улучшающие опыт обслуживания клиентов. Начиная с малых бизнесов, стремящихся масштабироваться, и заканчивая крупными брендами, желающими улучшить коммуникацию, AI могут помочь компаниям взаимодействовать с клиентами через наши приложения. Мы запускаем это в альфа-версии и планируем дальнейшее масштабирование в следующем году."
Подробности и полный список персонажей - в блоге.
@ai_newz
Сиолошная 2023-09-27 18:54:34
Один из Meta AIs - Snoop Dogg в роли ⚡️Dungeon Master⚡️
Можно поиграть в текстовое приключение, где рэпер проведет вам по самым темным закоулкам вымышленного мира
Сиолошная 2023-09-27 18:52:32
Дальше Mark рассказывал про AI, упомянул LLAMA-2, а затем перешёл к генеративной модели Emu. Она генерирует изображения в высоком разрешении и интегрирована сразу в несколько сервисов Meta. В WhatsApp можно генерировать стикеры (4 штуки на запрос, генерация занимает примерно 5 секунд), в Instagram появятся фильтры на основе текстового запроса (типа "перерисуй волосы на голове в макароны"). Пример работы можете посмотреть на приложенной гифке.
После этого перешли к Meta AI. Это бот в WhatsApp, с которым можно общаться на любые темы. В нём есть поддержка поиска Bing (Мелкомягкие подсуетились!), а также вызов генеративной модели Emu (нет, не DALL-E 3!). Бота можно добавлять в свои чаты, тегать и спрашивать. Теперь только так буду разрешать семейные конфликты:
@bot, кто прав, я или мать?????
Также Meta натренировала Meta AIs — те же боты, только со своими функциями и личностями. Один будет помогать вам готовить (и отыгрывать роль шэфа), другого всегда можно спросить совета по тренировкам, и так далее. Самое примечательное то, что разработчичкам дадут возможность самим делать AIs! Ждём плотной интеграции с бизнес-аккаунтами, где боты будут принимать ваши заказы и отвечать на отзывы.
Для AIs также генерируются аватары, и Mark пообещал, что через несколько месяцев у них появится голос! А ещё — их можно добавить в
И последнее — показали next-gen очки RayBan, в которые встроенны камеры (как и раньше). Но теперь в очках живёт AI-ассистент Meta AI, к которому можно обращаться голосом! Он слышит то же самое, что и вы, а в следующем году начнёт еще и воспринимать видеоряд с камер! Получится почти то же самое, что и ChatGPT с недавним обновлением.
Лично мне очки очень напомнили Google Glasses (уже закрытый проект), однако с AI-ассистентом такой концепт легко обретает новую жизнь. Думаю, на горизонте 3 лет станет must have на уровне беспроводных наушников.
@seeallochnaya