Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 26 (50 постов)

Репосты из тематических каналов

Ai molodca 🤖 2023-12-17 19:56:35

Слово Пацана? А может быть лучше Слово Пиксара?

Сделал добрую версию того самого. Да еще и с песней.

Ссылка на ютуб, если захотите пошерить где-то еще (буду благодарен).

Пайплайн: тонна SD + две тонны Фотошопа + центнер Suno AI (для пеcни) + киллограм GEN-2 (для видео) + монтажка.

gonzo-обзоры ML статей 2023-12-17 13:57:44

В общении есть явная очерёдность, киты отвечают с разницей в 2 секунды, коммуникация может вестись на расстоянии от метров до километров. У индивидов внутри семьи есть диалект с общими по крайней мере 10 кодами (но есть и индивидуальная вариативность). Детёнышам нужно по крайней мере два года, чтобы начать производить различимые коды.

Для классических методов supervised ML получение размеченных корпусов является довольно дорогой и трудной задачей (хотя какие-то успешные результаты применения обучения с учителем есть). Перспективным видится вариант использования различных современных методов self-supervised representation learning. Но с ними тоже проблема в том, что для нормального SSL нужны большие корпуса, хоть и неразмеченные. Для примера, датасет Dominica Sperm Whale Project (DSWP) содержит лишь <10^4 код, хотя собирается с 2005 года. То есть до размеров датасетов для GPT-3 с 10^11 токенов (хоть и сложно сопоставить токены и коды) ещё далеко. CETI намерены собрать датасет порядка 10^9 (и это сравнимо с датасетом для BERT’а). Оценка базируется на почти непрерывном мониторинге 50-400 китов и в год ожидается от 400M до 4B записанных щелчков.

Техническая часть проекта состоит из нескольких разделов.

Data acquisition. Данные надо собирать наименее инвазивно, и куча современных технологий может помочь: дроны воздушные и морские (типа искусственных рыб), метки на китах, сети буйков и плавающие фиговины (floaters).

Data processing. Нужно хранение и умная предобработка этих данных (детекция щелчков, предварительная аннотация, синхронизация различных типов сигналов). Результирующий датасет будет своеобразной “социальной сетью китов”.

Decoding and encoding, построение модели коммуникации китов, которая состоит из перечисленных ранее блоков.

Фонетика и фонология: много открытых вопросов, например, определяются ли коды по абсолютным ICI, несут ли спектральные признаки код информацию, каковы distributional restrictions, и так далее.

Морфология и синтаксис: надо понять грамматику коммуникации, каковы правила построения кодов, есть ли рекурсия (пока ни в какой коммуникации животных она вроде не найдена). И здесь, и в фонетике очень нужны большие датасеты.

Семантика: надо понять смысл всех этих вокализаций, для этого нужно сохранить весь важный контекст, чтобы получить grounding найденных морфем.

Дискурс и социальная коммуникация: надо понять протоколы общения, когда и кто говорит. На этом можно будет строить предсказательные модели разговора (а каком-то смысле аналоги LLM или чатботов).

Где-то рядом есть аспекты избыточности коммуникации и защиты от ошибок, эти механизмы тоже надо понять. Отдельный большой вопрос это language acquisition, как детёныши схватывают этот язык, здесь может быть много ценных закономерностей: в каком порядке выучиваются коды, каковы самые базовые структурные блоки и их функции, и так далее. Для этого тоже нужно больше данных.

Ценно будет провести playback-based validation, здесь много своих сложностей. Знаем ли мы что воспроизводить, можем ли адекватно реплицировать в реальной среде (чтобы не с лодки, а с автономного девайса), распознаем ли ответ?

В общем большой, сложный и многомерный проект, с большой инженерной и инфраструктурной частями, но безумно интересный и уверен очень полезный. Поймём китов, поймём и инопланетян? Или сначала таки осьминогов надо будет понять?

gonzo-обзоры ML статей 2023-12-17 13:57:43

Toward understanding the communication in sperm whales
Jacob Andreas, Gašper Beguš, Michael M. Bronstein, Roee Diamant, Denley Delaney, Shane Gero, Shafi Goldwasser, David F. Gruber, Sarah de Haas, Peter Malkin, Nikolay Pavlov, Roger Payne, Giovanni Petri, Daniela Rus, Pratyusha Sharma, Dan Tchernov, Pernille Tønnesen, Antonio Torralba, Daniel Vogt, Robert J. Wood
Статья: https://www.sciencedirect.com/science/article/pii/S2589004222006642
Сайт: https://www.projectceti.org/

Познакомился тут с Томом Мастиллом, автором книги “How to speak whale” (https://www.tommustill.com/how-to-speak-whale), узнал от него про проект CETI, Cetacean Translation Initiative (https://www.projectceti.org/), я его раньше как-то пропустил. Очень зачётный проект! Название, видимо, отсылка к SETI. Цель проекта -- понять коммуникацию кашалотов. После просмотра Аватара 2 как-то особенно хорошо легло 🙂

У проекта есть программная статья от середины прошлого года (июнь 2022) с родмэпом про то, как участники хотят добиться понимания китовой коммуникации (спойлер: с помощью ML и роботов!). Эта работа может стать шаблоном для понимания других существ, потому что киты -- достаточно хороший модельный организм с развитыми нейроанатомическими признаками, высокими когнитивными способностями, социальной структурой и дискретным кодированием на основе щелчков (clicks).

Для понимания языкоподобной коммуникации надо понять несколько вещей.
1) Каковы артикуляторные и перцептивные строительные блоки, которые можно надёжно производить и распознавать? Это аналог фонетики и фонологии.
2) Каковы правила композиции этих примитивов? Это аналог морфологии и синтаксиса.
3) Каковы правила интерпретации и присвоения смысла этим блокам? Аналог семантики.
4) Может быть также важно влияние контекста на смысл, это прагматика.

В идеале хочется иметь универсальный автоматизированный data-driven toolkit, который можно применять к нечеловеческой коммуникации. Пока его нет.

Применение ML очень сильно упирается в отсутствие больших датасетов для этих задач, и вопросы сбора данных (Record), а также их процессинга (Process), например, аннотирование с добавлением ID кита, составляют отдельную большую часть проекта. Другая часть -- декодирование средствами ML и создание коммуникационной модели китов (Decode). Финальная важная часть, Encode & Playback подразумевает интерактивное взаимодействие с китами и уточнение китовой языковой модели.

Китов изучать сложно, по сравнению с земными животными сильно другая экология и среда. Так, до 1957 года вообще не знали, что кашалоты умеют производить звуки, и только в 1970-х впервые поняли, что они используют их для коммуникации. Киты путешествуют на тысячи километров, живут вероятно более ста лет, причём по сути в трёхмерной среде, часто стабильными социальными группами, подолгу заботясь о детёнышах. Социальное обучение для них вероятно важнее индивидуального или генетически обусловленного поведения. Большая часть их коммуникации, видимо, одномодальная, через акустику. В зоне, куда проникает свет, также важно зрение.

Биоакустическая система кашалота эволюционировала как сенсорный орган, используемый для эхолокации и поиска добычи. Производимые китом щелчки по структуре состоят из нескольких импульсов с мощным первым импульсом и последующими с затухающей амплитудой (получающимися благодаря реверберации начального импульса в спермацетовом органе в носу кита -- кажется, это похоже на основной тон и форманты в человеческой речи, но с антропоцентризмом надо, конечно, поосторожнее).

Кроме эхолокации, этот же орган используется и для коммуникации, она состоит из коротких пакетов щелчков (<2 секунд) с интервалами (Inter-click intervals, ICI) и выделяемыми паттернами, которые называются кодами (codas). Кода состоит из 2-40 всенаправленных кликов. У разных групп китов свои диалекты, обычно у клана есть по крайней мере 20 разных код. Похоже, что в них содержится богатая информация об identity её источника, но в целом коммуникативные функции конкретных код остаются загадкой.

КиберОлег 🦄🤖🙌 2023-12-17 09:04:29

Все просят от ИИ 5 пальцев на руках, а я решил попросить Dalle-3 много пальцев, потом еще больше пальцев, потом еще и еще 😂

эйай ньюз 2023-12-16 13:21:39

Слежу за прогрессом в работах по теме виртуальной примерки. В канале уже целая серия постов об этом — от ганов до диффузии (гляньте для наглядного сравнения). Ещё я даже сам пробовал демо с виртуальным зеркалом на ICCV 2023.

Если раньше проблема виртуальной примерки казалось почти нерешаемой в адекватном качестве, то сейчас я замечаю, что каждые полгода результаты становятся всё лучше и лучше. Вот на днях Alibaba опубликовали новый метод на основе диффузии.

Загружаешь фото и примеры шмоток, а на выходе получаешь не просто фото в одежде, а целую анимацию!

Демо на HF
Сайт проекта

@ai_newz

эйай ньюз 2023-12-16 11:06:01

Сейчас часто слышу мнение, что конкуренция в AI очень высокая, и опубликоваться на лучших конференциях почти нереально. В качестве мотивации для начинающих ресерчеров скажу, что сейчас не труднее чем 5 лет назад, просто нужно уметь креативно подходить к ресерчу, если нет кластера из 1000 GPU.

Вот хороший пример того, как молодые ребята могут и пишут статьи на топовые конфы. Парни написали 4 статьи [1, 2, 3, 4] на NeurIPS в этом году, и получили Yandex ML Prize. Один как научный руководитель, в второй как PhD студент с первой топовой публикацией. Заходить в PhD со статьи на Нипсе — это нагло! Я, кстати, тоже начал свою научную карьеру именно со статьи на Нипсе.

@ai_newz

эйай ньюз 2023-12-15 20:28:19

Там сейчас идёт NeurIPS 2023 в новом Орлеане — топовое событие в мире AI. Год назад я писал о своей поездке на NeurIPS 2022, где я презентовал статью. Забавно, что в этом году конфа опять в Новом Орлеане (видать, очень удачный город для проведения таких тусовок), но у меня не получилось поехать из-за визы.

Кстати, это фото сделано на NIPS 2002 (не мной), когда конфа была маленькой и ламповой, а не как сейчас на более чем 10к человек.

Узнаете кого-нибудь на фото?

@ai_newz

эйай ньюз 2023-12-15 17:32:28

Сегодня Яндекс подвел итоги своей премии за вклад в науку в области машинного обучения — Yandex ML Prize. Я просмотрел список лауреатов, их в этом году было 11, и многие из них получили премию за генеративные сети, вокруг которых был особый ажиотаж в этом году, а также за исследования в области распознавания и синтеза речи, компьютерного зрения, информационного поиска, обработки естественного языка.

Это классная инициатива — студентов и учёных-новичков мотивируют заниматься наукой и еще дополнительно поощряют за публикации статей и выступления на топовых международных конференциях. Размер премий — от 500k до 1kk рублей плюс грант на использование платформы Yandex Cloud, которые можно пустить на эксперименты и большие вычисления.

@ai_newz

Метаверсище и ИИще 2023-12-15 15:17:44

Давно хотел написать про Phygital+, мы общались с Олегом еще в 2021, когда он задумал проект.

За это время они запилили довольно мощную систему - это нодовый конструктор всех возможных нейросеток для генерации контента, что-то типа Комфи, но только там собраны не только решения на основе Stable Diffusion, а вообще все доступные сетки с рынка.

Midjourney, DALL-E 3, Stable Diffusion XL, Control Net, обучение своих моделей Lora и Dreambooth, ChatGPT4 и GPT4-Vision, а также еще 20 AI ништяков и все они могут соединяться и комбинироваться друг с другом.

Композерам со стажем такое такое привычно и очень заходит, а людям не из поста должно взорвать мозг, ибо получается конструктор реально всего. Также в Phygital+ больше 40 кастомных моделей Stable Diffusion, готовые темплейты и туториалы.

И да, там есть дообучение своих моделей и лор.

И меня больше всего удивляет и радует, что ребята берут, перетряхивают интернетик (и мой канал) и внедряют к себе все, что шевелится. Там есть 360 панорамы или превью текстур на объектах, карты глубины или даже 3D human from photo.

Часть моделей бесплатны (Stable Diffusion), но чтобы юзать DALL·E 3 или Midjourney (и вязать их в общую сеть), вам, естественно, придется купить подписку. API вызовы небесплатны пока на этой планете. И можно платить с любых карт, без впн и смс. Там даже можно дарить подписку, в отличие от chatGPT Plus.

Идея и кураж мне нравятся, для тех, кто занимается графикой, нодовый подход - самое то.

Пробуем тут.

Метаверсище и ИИще 2023-12-15 14:39:52

Хочу показать еще одну работу от подписчика, а не из твитторов.
И заметить, что рассказывание историй - это определенный талант и/или скил, прокачанный годами. Одно дело намельтешить шевеляжа с помощью генераторов, другое - рассказать что-то.
Вот тут как раз пример опыта анимации, преломленного через новые инструменты. И этот опыт чувствуется. И мне нравится, что все это сшивается по стилю.

Также Маша прислала бесценные детали производства.
Картинки: Midjourney
Анимация: runway gen-2, pika labs
Монтаж: iMovie на айфоне, музыку наложил инстаграм (чтобы кадры попадали в музыку я сначала крутила ролик в iMovie, а музыку на YouTube и так подбирала сцены и кадры).
Проблемы:
- очень сложно сделать кота без искажений в runway. Хотя, кот, который тянется к бабочке , это как раз runway сделал - тут прямо мне очень нравится, как получилось.
- Midjourney категорически отказывался делать лошадей, пришлось подсовывать ему картинку, как базовую;
- runway не может пока делать в aspect ratio 9:16 только из текста, поэтому сначала картинка в Midj, а потом генерация - мне кажется, что при таком flow у анимации меньше шансов получится симпатичной.
По времени сюда ушло около 16 часов на все вместе.


Спасибо, Маша. Ждем версий с нарративом от ИИ.

Kali Novskaya 2023-12-15 14:37:33

🌸Все данные для тестов LLM скомпромитированы? 🌸
#nlp #про_nlp #nlp_papers

Часто можно услышать критику о том, что результатам оценки LLM не стоит доверять, так как многие бенчмарки и датасеты уже давно лежат на гитхабе, а значит, наверняка попали в обучение моделей.

Как надежно тестировать языковые модели, если у нас часто нет доступа к их обучающим данным, а некоторые так и полностью от нас закрыты? Что, если данные были скомпрометированы?

Авторы Alpaca представили новый метод, позволяющий оценить риск утечки (контаминации) датасета, т.е. его ненамеренное/намеренное попадание в обучающую выборку у языковых моделей.

Идея простая: будем считать, что модель "запоминает" задания и ответы на них в той же последовательности, как они идут в датасете. Давайте проверим, сможем ли мы установить статистически значимую разницу в качестве решений задачи, если будем показывать моделям набор тестов задачи в том порядке, как он идут в самом датасете, или же в перемешанном порядке.
Спойлер: да, можем.

Искусственный эксперимент, при котором небольшой модели (1.4 млрд параметров) при обучении на Википедии "подкладывают" тестовые сеты различных датасетов — один раз, десять раз и т.д. — показывает, что при 10 и более копиях теста в обучении разница в качестве решения устанавливается достаточно надежно, и можно с уверенностью сказать, что можель опирается на запоминание, а не на обобщение или другие "возникающие" интеллектуальные способности.

Авторы протестировали несколько LLM (LLaMA2-7B, Mistral-7B, Pythia-1.4B, GPT-2 XL, BioMedLM) на публичных датасетах — и некоторые из них оказались действительно скомпрометированы. Например, Arc challenge точно попал в обучение Mistral, да еще и 10+ раз!

Выводы:

🟣Мы уже можем тестировать языковые модели, в том числе доступные только по API, на "честность" решения самых разных задач, а также можем проверять, не меняется ли картина во времени.
🟣
Реальную сложность представляет обнаружение утечки теста, когда он попал в обучение всего один раз (не удается стат значимо установить разницу в качестве решений)
🟣
Нас может ждать глобальный и регулярный пересмотр подхода к тестированию моделей, так как открытые ответы регулярно выкладываются на открытые площадки и, соответственно, компрометируются. Оценка LLM должна быть привязана ко времени?
🟣
Остается проверить так все модели OpenAI?

🟣
Статья: Proving Test Set Contamination in Black Box Language Models link

Метаверсище и ИИще 2023-12-15 14:26:15

В общем к сторителлингу с помощью видео-генераторов пока есть вопросы, а вот в моушен-дизайн это может зайти очень скоро. Просто жмете кнопку "Еще". И это не стоки эффектов, это новые эффекты по нажатию кнопки (ну мы уже это проходили на картинках год назад). Да, еще кривокосо и разъезжается, но вспомните Халка из DiscoDiffusion.

Поглядите, уже даже появляются туторы.

Ну и можно аккуратно, по 30г, начать выпивать на дизайнеров титров. ИИ идет за ними.
В первом коменте пример.

Метаверсище и ИИще 2023-12-15 13:38:55

MusicFX.
Гугл выкатил новый генератор музыки
https://aitestkitchen.withgoogle.com/tools/music-fx

Там пока нет работы с текстами и Suno.ai может спать спокойно.
Но не забываем, что у Гугла есть TextFX: https://textfx.withgoogle.com и там прямо сказано, что это для писателей и рэпперов.

Можете послушать образцы тут:
https://aitestkitchen.withgoogle.com/audio/carousel-hero-1.mp3
https://aitestkitchen.withgoogle.com/audio/carousel-hero-2.mp3
https://aitestkitchen.withgoogle.com/audio/carousel-hero-3.mp3
https://aitestkitchen.withgoogle.com/audio/carousel-hero-4.mp3
https://aitestkitchen.withgoogle.com/audio/carousel-hero-5.mp3
Последний хорош.

Это скорее территория Mubert и Aiva.

Но показательно то, что рано или поздно большие мальчики спускаются с горы и делают свои решения там, где раньше паслись выводки стартапчиков.

Доступ:
→ Go to labs. google

→ Scroll down and click on 'Try it now' in the MusicFX category

→ You will then need to log in to a Google account.

Но только для Штатов, Австралии и Кении.

Метаверсище и ИИще 2023-12-15 12:58:01

Тут в телеге гуляют ссылки на сотенку отчетов от разных онолитегов, которые народ успешно кормит в chatGPT, чтобы не делать overflow собственных мозгов.
Тут подтверждается моя гипотеза, что скоро один ИИ будет писать и надувать отчеты по просьбе одних кожаных, а второй будет их сжимать для прочтения другими кожаными. И все будут делать вид, что все отлично, ибо трафик вырастет в разы. И интернетик приподраздуется до размеров луны.
Но я вам принес другой отчет и он очень любопытный.
Это Pornhub 2023 Year in Review.
И там первая часть посвящена поисковым запросам.
В общем, если скормить эту информацию ИИ, но он, я уверен, поставит очень точные диагнозы кожаным мешкам, а по дороге сделает пару научных открытий, ибо территория, где дедушка Фройд копался своей нейросеткой, редко становится предметом публичных исследований. Но ИИ все равно на правила приличия.
Чего стоит только географическое распределение.. расчехляйте теории..

https://www.pornhub.com/insights/2023-year-in-review

Метаверсище и ИИще 2023-12-15 12:38:24

Ну, началось.
Совет по надзору за финансовой стабильностью правительства США включил использование искусственного интеллекта в перечень возможных рисков для финансовой системы, заявила министр финансов страны Джанет Йеллен.

Метаверсище и ИИще 2023-12-15 12:29:41

Озвучка текста от RunwayML!
Утечки с частной презентации из Discord channel for Creative Partners

"text-to-speech" позволяет генерировать закадровый голос и диалоги на несколько разных голосов, и все это в рамках Runway".


EleventLabs нервно закуривает в облаке.

И это очень круто по трем причинам.

1. Только что писал, что для нового нормального кино с 4-секундным монтажом будет очень важен нарратив, озвучка того, что вам сгенерит ИИ в виде сценариев.

2. Коль скоро это авторы GEN-2 (ну и Stable Diffusion, что греха таить), то интеграция в их продукты будет просто киллер-фичей.

3. И я ожидаю, что следующим шагом будет липсинк. Wav2Lip почил в бозе 3 года назад и нормальных решений пока не видно.

https://help.runwayml.com/hc/en-us/articles/23859696734611-Runway-Text-to-Speech-tool

Метаверсище и ИИще 2023-12-15 12:04:26

Задача оказалась не такая простая. Это похоже проблему с пальцами - ну нет в датасетах разметок типа "фотка с четырьмя пальцами". И циркулей, рисующих квадраты, там тоже нет.
И если с семицветиком оказалось, что ИИ в курсе про сказки Бажова, то сказок про циркули никто не написал.
Челендж продолжается. Иногда нога - это просто нога))

Метаверсище и ИИще 2023-12-15 10:43:55

Новый челлендж.
Генерим картику, где циркуль рисует квадрат.
Обязательные условия: одна нога стоит именно в центре квадрата, а вторая на одной из линий квадрата. Он именно рисует квадрат, поэтому одна нога в центре.
Желательные условия: лайн арт, на картинке не должно быть рук и минимум деталей.
В идеале сделать это в chatGPT и DALL·E 3. Но на другие варианты тоже интересно поглядеть. Ну и ControlNet - будет читом, проще тогда фотошоп расчехлить.
Кидайте в коменты варианты.
Совет, скажите ему, что это шутка и демонстрация противоречия.

Метаверсище и ИИще 2023-12-15 10:15:20

Это очень смешно, спасибо подписчику. У нас совершенно волшебный чат в коментах - никакой школоты, умные начитанные люди с отличным чувством юмора. Я ручками в конце для аппрувлю запросы на добавление в чат. Поэтому он не превращается в наплыв ботов и гопников. Даже гифки и мемы перестали постить в ответ на мою просьбу. И вот такие перлы от chatGPT - прям новые мемы с постметаиронией.

Илья Плазма ❤️ Crypto・DeFi・AI 2023-12-15 09:27:58

🚬 #AI президент на прямой линии наводит на мысль: какими были бы страны, если бы все правительство, чиновников и гос.структуру заменить на Сверх AI / #AGI

Страна X под Управлением AI: Новая Эра Технологий и Прогресса

- Автоматизированные Города: Крупные города используют интеллектуальные транспортные системы для предотвращения пробок, и роботизированные сервисы для улучшения городских услуг.

- Персональные Ассистенты ИИ: ИИ-ассистенты помогают гражданам в управлении домашними финансами, предоставляют здоровьесберегающие рекомендации и упрощают рутинные задачи.

- Автоматизированное Сельское Хозяйство: Применение роботов и дронов в аграрном секторе повышает урожайность и эффективность, сокращая человеческий труд и ресурсы.

- Технологический Экспорт: Страна становится лидером в экспорте инновационных технологий, включая продвинутые ИИ-системы и робототехнику.

- Образование: ИИ индивидуализирует обучение, адаптируясь под потребности каждого ученика и экономики в реальном времени.

- Здравоохранение: Применение ИИ в медицине для анализа данных пациентов позволяет быстрее ставить диагнозы и разрабатывать лекартсва.

- Борьба с Преступностью: ИИ анализирует данные для предотвращения преступлений и координирует действия правоохранительных органов.

- Городское Планирование и Инфраструктура: Использование ИИ для разработки городских планов и инфраструктуры.

- Развитие Науки и Инноваций: ИИ стимулирует научные исследования и открытия (как на днях в математике).

- Ну и конечно же безусловный базовый доход, который позволяет людям больше не работать с самого рождения.

____
🔵 Согласитесь, звучит очень утопично, но все эти технологии уже доступны сегодня! Внедряя #AI в свои личные процессы или в свою компанию, вы делаете это великолепное будущее ближе.

Один из проектов над которым я сейчас работаю - это цифровая компанией с #AI сотрудниками, управляемая #AI директором - результаты конечно #blowmymind, надеюсь скоро смогу поделиться.

🆒 @ilia_plasma

эйай ньюз 2023-12-15 03:58:05

Короче, мы выкатили диффузию в инстаграм для редактирования изображений, а именно - генерацию фона по тексту. Эта модель была анонсирована еще на Connect, но только сейчас ее выкатили в прод в США.

Загружаешь фото, вводишь любой пропмт, например, "преследуемый динозаврами" или "я в Париже", и получаешь несколько новых версий своей фотки.

Моделька основана на нашей text2image диффузии Emu и технологии по типу SAM, которая позволяет автоматически находить нужную маску.

Тут я говорю "мы выкатили", потому что мы с нашей командой крутили и искоряли эту модель, чтобы она работала за пару секунд.

Диффузия Go Brrrrr! - это лозунг нашей команды.

Приятно, когда результатами твоей работы могут пользоваться миллионы людей. Даже работая в ресерче в фаанге, не всегда есть такая возможность. Мне в этом смысле повезло, т.к. наша GenAI орга, кроме написания статей, ещё и катит ресерч в продукты и имеет реальный импакт.

#personal #мойпуть
@ai_newz

Метаверсище и ИИще 2023-12-14 21:28:49

На реддите на серьезных щах обсуждают GPT_4.5.
Похоже кто-то поправил в Хроме сорцы, и судя по ценам и наличию фразы про 3Д, это всё-таки фейк.
Но мысль про 3Д мне нравится...
https://www.reddit.com/r/OpenAI/s/JqujMILOhl

e/acc 2023-12-14 21:17:26

Впервые новое научное знание было создано с помощью LLM (а не просто AI-assisted software).

Буквально месяц назад читал комментарий на канале что «LLM никогда не смогут делать научные открытия, чертовы стохастические попугаи», а сегодня Гугл публикует в Nature статью, что они сделали открытие в математике используя LLM.

Метод довольно универсален и я ожидаю решение новых задач из математики именно таких способом в ближайшее время.

Ребята из DeepMind использовали LLM для написания, изменений и оценки кода, который стремится максимально эффективно решить открытые задачи в математике. Для того используется, по их заявлениям «medium-sized LLM», то есть, я думаю между 20 и 70 млрд параметров. Что важно, алгоритм FunSearch не просто находит ответ на задачу, а создаёт код для внедрения решения в реальные процессы. В частности, они решили задачу оптимизации «упаковки» объектов в минимальное количество контейнеров, задачу циклических графов, и задачу нахождения максимального сета, в котором точки не лежат на прямой.

Метаверсище и ИИще 2023-12-14 21:13:03

В инсту завозят ИИ.

Инстаграм позволит пользователям менять фон своих изображений. через подсказки для сториз.

И делает фичу вирусной.

Когда пользователи нажимают на значок фонового редактора на изображении, они получают готовые подсказки, такие как «На красной дорожке», «Меня преследуют динозавры» и «В окружении щенков». Пользователи также могут писать свои собственные подсказки для изменения фона.

Как только пользователь опубликует историю с вновь созданным фоном, другие увидят наклейку «Попробуйте» с подсказкой, чтобы они также могли поиграть с инструментом создания изображений.https://techcrunch.com/2023/12/14/instagram-introduces-gen-ai-powered-background-editing-tool/

Сиолошная 2023-12-14 19:59:13

Апдейт к посту про статью OpenAI.

В комментариях появилось много вопросов, мол, а в чём смысл статьи то, зачем нам обучать модель на предсказаниях GPT-2, чтобы сделать её хуже, чем разметка людей? Ключ к ответу лежит в двух первых абзацах первого поста, но давайте я более детально раскрою идею.

Предпосылка: OpenAI хотят создать AGI, и верят, что либо у них, либо у других это получится в относительно короткий промежуток времени (может, в этом десятилетии). Может быть даже получится создать ASI — суперинтеллект, который по определению умнее людей.

Основная проблема выравнивания намеренний таких систем и нас, человеков, заключается в том, что людям *как-то* нужно контролировать системы, которые *по определению* будут намного умнее их самих. Простая аналогия — как муравью объяснить ВАМ, что не нужно закатывать муравейник в асфальт, если хочется проложить автобан через лес? (муравьи — это мы).

Пока суперинтеллекта нет, хочется изучать возможности такой процедуры через аналогию и ответить *хотя бы* на вопрос: могут ли маленькие модели контролировать большие? Можно ли обучать GPT-4 на предсказаниях GPT-2 так, чтобы первая не деградировала и оставалась полезнее?

Аналогия, более реалистичная, чем муравьи:
Представьте, что GPT-6 может выдавать миллион строчек кода (связанных, без ошибок) по короткому запросу. Например, «сделай мне игру чтоб там было так и вот так». Как можно удостовериться, что там нет вируса, или что нет критических экспойлотов (дыр в безопасности)? Практический ответ — никак. Мы, люди, не можем делать работу на таком масштабе быстро. Можно собрать 50 человек и за пару лет раскурить, да. Но это медленно, и если вы подождёте — ваш конкурент может не ждать.
И для такой задачи невозможно подготовить обучающие примеры. Мы можем лишь провалидировать гораздо более простые штуки — одну функцию, один файл со 100 строчками кода. Ну, может, тысячей. И вот если модель умеет обобщаться, а мы можем это контролировать (хотелось бы) — то проконтролировав исполнение задачи на 100-200 строчках мы можем отпустить нейронку писать миллионы строк без нашего ведома — и не переживать за опасности.

=====
Это не исследование, направленное на сокращение затрат на разметку.
Это не исследование, направленное на развитие способностей моделей (когда 80% результата было бы воспринято как неудача).
Это не исследование, направленное на *вставьте сюда что-то, что не описано выше*

gonzo-обзоры ML статей 2023-12-14 18:46:10

До кучи для тех, кто любит покопаться в слухах. Не знал про Arrakis :)

https://www.youtube.com/watch?v=vFazUQBZZt8

Сиолошная 2023-12-14 18:10:49

Что ещё интересно, так это что чем больше разница между вычислительными мощностями, потраченными на модели, тем большую часть промежутка в метриках удаётся закрыть. Правда, не для всех задач, но такой тренд наблюдается.

Ну и вдогонку к этому, OpenAI попробовали воспроизвести такой же эксперимент с моделями компьтерного зрения. За глупую модель взяли самую первую «современную» модель AlexNet (это которую Ilya Sutskever с Hinton предложили в 2013м), а за умную супербольшую и относительно современную DINO (2021го года). Фишка в том, что последняя никогда не обучалась на задачу предсказания классов — она лишь вырабатывала внутри себя принципы представления изображений так, чтобы их было удобно использовать (как и LLM-ки, которые лишь тренируются предсказывать следующее слово). Почему это важно? Потому, что можно гарантировать, что модель никогда не видела правильной разметки (хоть и могла натыкаться на сами изображения; главное ей не говорили «тут собака, тут кошка»). А замеряли качество работы на стандартной задаче классификации ImageNet.

AlexNet имела долю правильных ответов top-1 56.6%, DINO 63.7% (или 74.9%, если под капотом был трансформер ViT), а франкенштейн, обученный на выходах AlexNet, получил 60.7/64.2% — то есть на 41/57% удалось сузить зазор в метриках! И это при том, что DINO никогда не видела правильных меток классов — только шумную разметку от AlexNet, и смогла её превзойти существенно.
Код для экспериментов, кстати, открыт: тык. Там же внутри есть и эксперименты с GPT-2, но очевидно не с GPT-4 — в качестве суперAI берутся опенсурсные модели семейства Qwen (но легко перепистаь и на другие).

На картинке: сравнительное качество моделей. Our method — это как раз поощрение большой уверенности GPT-4 при дообучении.

Сиолошная 2023-12-14 18:10:44

Для проверки гипотезы генерализации (обобщения) делается следующее:
1. GPT-2 обучается на правильных метках классов разных задач. Всего их 3 типа. Первый — бинарная классификация на 22 известных NLP-датасетах. Вторая — предсказание лучшего шахматного хода на доске. Третья — выбор того, какой из ответов LLM человек выберет как предпочтительный (про эту задачу писать не буду, с ней почти нчиего не сработало). Получается модель—учитель.
2. GPT-4 обучается на тех же данных, её качество очевидно лучше. Это — верхняя планка того, чего можно достичь.
3. А теперь GPT-4 обучается на предсказаниях «учителя», то есть GPT-2. Как будто глупая модель показывает умной как надо. В обычной ситуации можно было бы предположить, что лучше GPT-2 результатов не получить — ну а как, если метки классов очень неточные?

НО....не всё так просто. GPT-4 сама по себе не глупая, и у неё есть внетренние представления о том, что и как в этом мире работает. Да, оно не идельно, но «из коробки» даже просто с промптами модель на предложенных задачах показывает какие-то нетривиальные результаты. То есть нам не нужно научить их новым задачам с нуля, нам просто нужно выявить их скрытые знания, и скорректировать направление (их = сильных AI, или GPT-4 в данном случае).

И это действительно получается. Качество здесь замеряется от 0 до 1, где 0 — качество модели-учителя из первого пункта (нижняя планка), а 1 — из второго (верхняя планка). И этот «разрыв» в метриках мы и пытаемся сократить. С такой простой системой GPT-4 в среднем достигает 0.2 (или 20%) результата.

Но что можно сделать ещё? Ну, такой способ проверки всё же закрепляет ошибки глупой модели — при том что для умной всё может быть очевидно. Давайте добавим в обучение условие, что если GPT-4 сильно расходится с GPT-2 на конкретном примере, то мы не будем её сильно штрафовать? В частности, добавим в функцию потерь дополнительный член, который усиливает уверенность сильной модели в ее собственных прогнозах, даже если они не совпадают со слабыми метками. Желающие могут посмотреть формулу в appendix A.4.

И...такой трюк позволяет наверстать 80% разрва в качестве между GPT-4 и GPT-2! То есть ещё раз: умная модель, обучаясь на раметке от глупой, существенно превосходит её, вплотную приближаясь к случаю, как если б GPT-4 саму сразу учили на правильной разметке — и превосходя по качеству GPT-3 (но недостало до GPT-3.5...). Это и есть weak-to-strong generalization!

Сиолошная 2023-12-14 18:10:37

Сейчас лучшие модели вроде GPT-4 обучаются с помощью RLHF: reinforcement learning from HUMAN feedback. Это такой метод, где мясные разметчики выбирают, какие ответы модели лучше, а какие хуже, а нейронка учится выдавать генерации как можно качественнее (с точки зрения оценщиков-людей). Часть этого процесса можно заменить на AI, такую работу в конце прошлого года показывали Anthropic (и схожие наработки были и OpenAI).

Но главная проблема подхода — это что в центре процесса стоит HUMAN. Если мы верим, что в какой-то момент появятся системы умнее нас (хотя бы в отдельных областях, а не всё, везде и сразу) — нужно понять, а как же методы будут масштабироваться? Как нам глупым и слабым вести за руку мощные AI? Например, мы запряжем GPT-7 писать программы для автоматизации труда, а на выходе получим миллион строк кода. Мы не сможем в адекватное время провести полноценную валидацию, и нуно быть уверенным, что внутри не зашито вирусов, намеренных бекдоров и так далее.

К сожалению (или к радости?) у нас нет супер-AI сейчас, и проводить работы предлагается в игрушечном сетапе: сравнивать GPT-4 и GPT-2. Может ли GPT-4 улучшить свою работу на конкретных задачах, если её учителем будет глупая GPT-2? Об этом и поговорим.

Сиолошная 2023-12-14 17:15:43

Иии пока мы читаем статью выше, DeepMind используют LLM для прорывов в математике:

> This work represents the first time a new discovery has been made for challenging open problems in science or mathematics using LLMs

Статья в Nature

Саммари в канале когда-нибудь.

Увидел в канале @dlinnlp_links

Сиолошная 2023-12-14 17:11:03

🚨
🚨
🚨
🚨

Новая статья от OpenAI, тема: Weak-to-strong generalization, продолжение работы над SuperAlignment

PDF на 50 страниц, Ilya Sutskever в авторах
💃


Вместе с этим, OpenAI запускают грант на $10M для желающих исследовать SuperAlignment (максимум можно претендовать на $2M, минимум — на $100k). Если получаете спонсирование — от вас требуется лишь раз в квартал предоставлять отчёт о прогрессе, и (желательно) делать его публичным.

gonzo-обзоры ML статей 2023-12-14 15:34:56

Свежих слухов подвезли :)

Метаверсище и ИИще 2023-12-14 13:45:03

Я внимательно слежу за всеми нейромокапами, ибо вся эта анимация в Stable Diffusion-подобных решениях, как правило, опирается на "внешний источник движения" и мокап костюм 99% контент-мейкеров точно не могут себе позволить.

Вот свежая работа от института Макса Планка.
Для тех гиков, кто в теме (привет Слава См.) приведу описание без купюр:

Во-первых, большинство методов оценивают человека в координатах камеры.

Во-вторых, предыдущие работы по оценке человека в глобальных координатах часто предполагают плоскую поверхность пола и приводят к скольжению ног.

В-третьих, наиболее точные методы опираются на дорогостоящие вычислительные конвейеры оптимизации, что ограничивает их использование автономными приложениями.

Наконец, существующие методы, основанные на видео, на удивление менее точны, чем методы, основанные на одном кадре.

Мы решаем эти проблемы с помощью WHAM (World-grounded Humans with Accurate Motion), который точно и эффективно восстанавливает 3D-движение человека в глобальной системе координат на основе видео. WHAM учится переводить 2D-последовательности ключевых точек в 3D, используя данные захвата движения, и объединяет их с особенностями видео, интегрируя контекст движения и визуальную информацию. WHAM использует угловую скорость камеры, оцененную по методу SLAM, вместе с движением человека для оценки глобальной траектории тела. Мы сочетаем это с методом уточнения траектории с учетом контакта, который позволяет WHAM захватывать движения человека в различных условиях, например, при подъеме по лестнице. WHAM превосходит все существующие методы восстановления 3D-движения человека в различных тестах.

Подробности и хорошее видео тут:

https://wham.is.tue.mpg.de/

И код тоже будет!

Метаверсище и ИИще 2023-12-14 13:38:54

Андрей Чибисов прислал мне свой новый проект.

Говорит, что выжал из gen2 все, что мог..
Подробности:
текст речи - chatgpt,
картинки - Midjourney,
анимация - gen2 (и d-id),
озвучка - elevenslabs,
фоновое музло - aiva
и немного афтера.


На дворе рождение нового жанра - сторителлинг с помощью 4-6 секундных планов. Я пока с трудом представляю, как заставить "сходиться" в нужное, а не разъезжаться в фантазии все эти видеогенераторы.
Ну и хороший нарратив приобретает первостепенное значение. В этом смысле сценарии и озучка выходят на первый план - и там уже ИИ прокачан очень хорошо.

Возможно для новых нормисов с клиповым мышлением такие визуальные новеллы на стероидах будут новым тиктоковым кино.

Поглядим.

А пока глядите, как можно применять крепкий опыт постпродакшена для такого нового кино.

addmeto 2023-12-14 09:40:31

В Твиче произошла революция, там частично разрешили некоторые почти сексуальные действия на стримах. По сути можно будет показывать "намеренно выделенную грудь, ягодицы или область таза" но на стриме будет пометка "тут секс", и конечно, таких стримов не будет на главной странице сервиса (придется искать).

В целом у стримеров было столько инициативы в этой области, что Твич просто решил не терять аудиторию, а легализовать часть практик. Ждем стримов всех популярных онлифанз звезд.

https://www.theverge.com/2023/12/13/24000534/twitch-loosens-sexual-content-policy

Техасский Вестник 2023-12-14 09:02:49

В разрезе космической отрасли редко пишут про деньги, но тут интересный повод.

На этой неделе производитель батутов стал самой дорогой аэрокосмической компанией в мире с капитализацией в $180 миллиардов. То есть +$30B с летнего раунда.

Теперь топ выглядит так:
- SpaceX: $180B
- Boeing: $151B
- Airbus: $122B
- Raytheon (RTX): $119B
- Lockheed Martin: $111B
- Northrop Grumman: $73B
- L3 Harris: $39.5B

Ещё полгода назад самой дорогой компанией в отрасли оставался Boeing, но источники Bloomberg и CNBC подтвердили, что SpaceX оценивает себя в $180 млрд. в новом тендерном предложении для инвесторов. Цена за акцию выросла до $97. Общая сумма раунда около $700 миллионов.

Для понимая насколько это историческое событие — SpaceX теперь не просто самая дорогая аэрокосмическая компания, но и среди всех американских оборонных и телекоммуникационных предприятий вообще.

Почему теперь можно сравнивать с телеком. компаниями? Потому что Starlink это полноценный игрок на рынке связи с несколькими миллионами пользователей. Космический интернет ждёт бурный рост в ближайшие годы.

Да и про корпорацию Boeing слышали все. И это не только гражданские самолёты и оборонка, но и первая ступень Saturn V, Space Shuttle, X-37B, центральная ступень SLS и *кхе-кхе* Starliner. То есть компания с очень богатой (во всех смыслах) историей в отрасли и огромной технологической базой.

Основными драйверами роста капитализации SpaceX стали:

- Рекордный объём пусков и возвратов ускорителей за год (почти 100). Есть задача нарастить темп в следующем году;

- Уже сейчас около 5500 Старлинков и 2+ миллиона проданных терминалов в 60 странах. То есть двухкратный рост за 12 месяцев;

- Продолжение развития вертикальной интеграции и цепочек поставок для оптимизации производства. Это критически важно при производстве тысяч спутников и сотне пусков в год;

- Получение новых заказов и продление текущих коммерческих контрактов по МКС. Несмотря на приход Starship, в ближайшие годы Falcon 9 останется главным рабочим инструментом компании.

gonzo-обзоры ML статей 2023-12-14 00:34:55

Интересный пост Томаша Миколова

"Yesterday we received a Test of Time Award at NeurIPS for the word2vec paper from ten years ago. I'm really happy about it! I think it's the first "best paper" type of award I ever received. In fact, the original word2vec paper was rejected at the first ICLR conference in 2013 (despite the acceptance rate of around 70%), so it made me think how difficult it is for reviewers to predict future impact of research papers.

I've heard a lot of comments - both positive and negative - about word2vec during those years, and did not really comment online about it. Somehow I felt the research community is constantly flooded by propaganda-style PR from certain researchers who are hacking this way the citation counts and attention of others, and I did not want to be part of this. But after ten years, I think it could be entertaining to share some stories associated with this paper.

One frequent comment I've heard was that the code was difficult to understand to the point that some people thought I made it unreadable intentionally. But no, I'm not so evil :D The code ended up being over-optimized because I was waiting for many months for approval to publish it, and meanwhile I was trying to make it both faster and shorter. In fact, looking back, if there were not Greg and Jeff in the Brain team, I doubt I would ever get that approval - I think word2vec was likely the first widely known AI project that Google open-sourced.

There was also significant controversy around the GloVe project from Stanford NLP group that was published more than a year after word2vec. While it copied many tricks from our project, GloVe always felt like a step back to me: it was slower, required more memory, and the resulting vectors had lower quality than the original word2vec. However, it was published with word vectors pre-trained on much more data and thus gained a lot of popularity - although the comparison was really apples-to-oranges. We anyways did fix this later in the fastText project, where we did show that word2vec is much better than GloVe when trained on the same data.

I also received a lot of comments on the word analogies - from "I knew that too but forgot to publish it!" (Geoff Hinton, I believe you :) happens to everyone, and anyways I think everybody knows what the origin of Distributed Representations is) to "it's a total hack and I'm sure it doesn't work!" (random guys who didn't bother to read the papers and try it out themselves - including Ian Goodfellow raging about it on Twitter).

Despite word2vec being my most cited paper, I did never think of it as my most impactful project. In fact, word2vec code originally started as a subset of my previous project - RNNLM - which I think ended up forgotten too quickly. In my eyes, it was at least as revolutionary as AlexNet. Just to name ideas that were for the first time ever demonstrated within RNNLM already in 2010 (when it was still dark ages for deep learning): scalable training of recurrent neural networks (as I invented gradient clipping), first ever text generation from neural language model (I was showing examples of this since 2007), dynamic evaluation, character and sub-word level neural language modeling, neural language model adaptation (nowadays called fine-tuning), first publicly available LM benchmark (the modified Penn Treebank dataset - there really was nothing like this on the web when I started my PhD). I published the first ever study showing that neural nets beat n-gram language models increasingly more with more training data when everything is done correctly (today this sounds obvious, but back in the days this was widely considered impossible - even most Google guys did think that the more data you have, the more futile is to work on anything besides n-grams and smoothing techniques).

gonzo-обзоры ML статей 2023-12-14 00:34:55

It was really lucky for me to join Google Brain in 2012 where there were believers in large scale neural networks who allowed me to work on word2vec to demonstrate the potential. But I don't want to give the impression everything was always perfect - as a follow up project after word2vec, I wanted to popularize neural language models by improving Google Translate. I did start collaboration with Franz Och and his team, during which time I proposed a couple of models that could either complement the phrase-based machine translation, or even replace it. I came up (actually even before joining Google) with a really simple idea to do end-to-end translation by training a neural language model on pairs of sentences (say French - English), and then use the generation mode to produce translation after seeing the first sentence. It worked great on short sentences, but not so much on the longer ones. I discussed this project many times with others in Google Brain - mainly Quoc and Ilya - who took over this project after I moved to Facebook AI. I was quite negatively surprised when they ended up publishing my idea under now famous name "sequence to sequence" where not only I was not mentioned as a co-author, but in fact my former friends forgot to mention me also in the long Acknowledgement section, where they thanked personally pretty much every single person in Google Brain except me. This was the time when money started flowing massively into AI and every idea was worth gold. It was sad to see the deep learning community quickly turn into some sort of Game of Thrones. Money and power certainly corrupts people...

Anyhow, the interest in language models was growing maybe slowly over the years, but with the explosion of interest since ChatGPT was released it is really cool to see so many people finally making connection between AI and language. We're not there yet, and I personally believe we need to make new discoveries to push through generalization limits of neural models. We're certainly living in exciting times. But let's not put too much faith into individuals who want to monopolize technology that is based on the hard work of dozens, or even hundreds of scientists while making claims it's all for the good of humanity."


https://www.facebook.com/1533402400/posts/pfbid0ao3fqoznHoprc8FawH6p84bctobvpTPrrbwxtGUXmBz92CzWoG63U6VSjcWJCJJTl/

Метаверсище и ИИще 2023-12-13 22:35:15

Stability AI продолжает строчить странными и бессмысленными релизами новых продуктов.
Теперь это урезанная версия Stable3D (месячной давности). На почищенном датасете ObjaverseXL.
Эмад ублажает инвесторов.

https://stability.ai/news/stable-zero123-3d-generation

эйай ньюз 2023-12-13 21:33:05

⚡️У Гугла вышла новая text-2-image модель Imagen 2.

Есть блогпост да и только. Конечно, улучшение по сравнению с Imagen 1 налицо, но пока трудно сказать, в чем тут новшество. Статьи нет.

Обещают сильно улучшенный реализм и text faithfulness, то есть модель более чутко реагирует на текстовый запрос.

Обратите внимание, что на руке сгенерило 5 пальцев!

Доступна модель пока только через Imagen API in Google Cloud Vertex AI. Напишите, если кто разберется как пользоваться.

@ai_newz

Сиолошная 2023-12-13 21:05:25

Иииии OpenAI под конец года объявили о запуске второго потока программы Converge, о которой я писал аж в марте. По сути, это стартап-акселератор, участникам которого доступны предварительные версии новых технологий, а также консультации с сотрудниками OpenAI.

Саммари для фаундеров:
— отбирают 10-15 компаний
— начало программы 11го марта, длительность 6 недель
— первая и последняя недели обязательно оффлайн в офисе в Сан-Франциско, компания покрывает расходы на путешествие
— $1M при попадании в программу (судя по описанию — не в кредитах API, и без доли в компании)
— даже если у вас сейчас нет ничего — есть время подготовить хотя бы идею и прототип на костылях
— Дедлайн подачи заявки 26ое января 2024го

Фокус всё еще на трансформацию важных индустрий, однако перечня (как в прошлый раз) нет.

Прочитать анонс тут.

Neural Shit 2023-12-13 18:47:51

Итак солевых полный двор, теперь ещё эти будут.

А вообще, скорее бы уже купить новый окулус, чтобы строить домики из грязи, а не вот это вот всё

gonzo-обзоры ML статей 2023-12-13 16:34:54

Gemini Pro начинает быть доступным (https://ai.google.dev/pricing).

Пока скорее на пощупать, pay-as-you-go будет позже. Ценник наконец-то в символах, а не токенах :)

Не самая интересная модель. GPT-4 (которая ещё не Turbo) бьёт недоступная пока Ultra, но как и ожидалось (https://t.me/gonzo_ML/2118).

Neural Shit 2023-12-13 15:14:00

Киберпанк, который мы заслужили

BOGDANISSSIMO 2023-12-13 11:28:55

3. Ensemble with choice shuffle. Здесь начинается уже специфика бенчмарков, где на выходе ожидается вариант ответа, выбранный из заранее определённого списка. Если это не кейс вашего приложения, вам эта часть будет бесполезна. Проблема: как показала практика, порядок вариантов, из которых нужно выбирать, статистзначимо смещает выбор варианта при перезапуске генерации много-много раз. Чтобы это обойти, перемешиваем варианты, например, 5 раз и выбираем самый популярный (что требует 5 вызовов, вместо 1, Я ещё не думал в сторону, можно ли оптимизировать косты промпта здесь с помощью Моего любимого магического параметра n, но да ладно).

Вот и весь Medprompt. Даёт какие-то мощные приросты в точности и обгоняет fine-tuned модель от Google, Med-PaLM 2.

Мне в юзкейсах достаточно few-shot kNN + CoT + ещё разной магии, у Меня нет заранее предопределённых вариантов, поэтому нам choice shuffle не актуален. Шаблоны промптов с картинки можно покурить здесь, там ничего сложного. За ссылочки и помощь в разборе спасибо Игорю (@seeallochnaya).

P.S. Поделитесь, а какие из этих техник вы применяете у себя в LLM-продуктах? Мне и другим будет интересно узнать.

#LLMOps

BOGDANISSSIMO 2023-12-13 11:27:21

MEDPROMPT

Как выжать максимум из LLM до того как заводить fine-tuning (который дорогой, долгий и сложный)? Ответ: продвинутый prompt engineering. Есть, значит, такой Medprompt, который со страшной силой бьёт бенчмарки на каких-либо узких доменах за счёт довольно простых приёмов.

Нам понадобятся 3 ингредиента:
1. kNN few-shot
2. Chain-of-Thought (CoT)
3. Ensemble choice shuffle

1. kNN few-shot: LLM сильно лучше понимают, что от них хотят, когда даёшь пару примеров (прямо как и люди). kNN few-shot практически тоже самое, что RAG (Retrieval Augmented Generation), с той лишь разницей, что если в RAG мы векторизуем сырую базу знаний (набор документов, разбитых на кусочки), то во few-shot kNN мы векторизуем запросы пар "запрос - ответ". Конкретно в Medprompt по запросу достаём "запрос - рассуждение (CoT) - ответ" (рассуждение и ответ могут быть как прописаны экспертом, так и сгенерированы LLM, а затем провалидированные экспертом).

Вы можете использовать в любом своём приложении few-shot как статичный (руками прописанный в промте), так и динамический (в kNN режиме, когда по запросу пользователя из векторной базы данных достаются похожие примеры запросов с их правильными ответами) – и это гарантированно повысит качество.

2. Chain-of-thought (CoT): цепочка рассуждений – по-простому, мы просто говорим модели подумать перед выбором финального ответа. Например, Before crafting a reply, describe your observations in 3 sentences with clarifying strategy we should choose in <draft></draft> tags. Вариаций как организовать CoT масса. Главное, что это позволяет модели порефлексировать, набросать черновые варианты или выделить, на что обратить внимание, – до того как давать ответ.

CoT также значимо бустит качество генерации практически в любом приложении, переводя модель из режима "ответа сходу" на "обдуманное решение. Ведёт к дополнительным костам и секундам на "токены рассуждения", которые вы вероятно не будете показывать пользователю, но с GPT-4-Turbo цена и время стали приятнее.

#LLMOps

Метаверсище и ИИще 2023-12-13 11:04:07

Смотрите, интернетик взрывается видосами, курсами, лекциями и даже целыми сайтами про "Применение ИИ в бизнесе". Это понятно, людям надо зарабатывать на хайпе.
Но давайте по сути. Людям продают ИИ как мощный калькулятор или как программу Statistica на стероидах или перелицованный BI.
Я тут придумал подстановку, которая отражает суть таких курсов:
"Применение программирования в бизнесе" - говорить можно о чем угодно.
Я потом еще подумал и запилил вот такое название
"Применение интеллекта в бизнесе".
И вот тут инфоцыганам будет где развернуться - говорить очевидности можно бесконечно в таком разрезе.

Тут инструменты меняются раз в неделю, стартапы вымирают стадами после анонсов OpenAI, модели выходят каждый день. А народ до сих пор путает ИИ с базами данных.

Я сейчас скажу странную мысль - внедрение ИИ в бизнес - это HR задача.
Это найм, со всеми вытекающими. Поиск кандидатов, интервью, формирование задач, онбординг, обучение и дообучение. И да, это текучка, выгорание, увольнения и все по новой. Новые кадры подрастают. С ними надо работать, а не применять.

Метаверсище и ИИще 2023-12-13 09:44:07

Для гиков:
Если у вас есть мак и 100 гиг памяти, то можете погонять Микстраля 8x7B на новом фреймворке MLX от Эппле
https://github.com/ml-explore/mlx-examples/tree/main/mixtral

Метаверсище и ИИще 2023-12-13 09:35:50

Как вам гибридный биокомпьютер, сочетающий выращенную в лаборатории ткань человеческого мозга с обычными электронными схемами, который может выполнять такие задачи, как распознавание голоса?

Статья в Nature, где описывается система Brainoware. В ней используются органоиды мозга - пучки человеческих клеток, имитирующих ткани, которые используются в исследованиях для моделирования органов. Органоиды создаются из стволовых клеток, способных специализироваться в различные типы клеток. В данном случае они превратились в нейроны, аналогичные тем, что находятся в нашем мозге.

Цель исследования - построить "мост между ИИ и органоидами".

Чтобы создать Brainoware, исследователи поместили один органоид на пластину с тысячами электродов, чтобы соединить ткани мозга с электрическими цепями. Затем они преобразовывали входную информацию в схему электрических импульсов и подавали их на органоид. Реакция ткани улавливалась датчиком и декодировалась с помощью алгоритма машинного обучения.

Чтобы проверить возможности Brainoware, команда использовала метод для распознавания голоса, обучив систему на 240 записях речи восьми человек. Органоид генерировал различные модели нейронной активности в ответ на каждый голос. ИИ научился интерпретировать эти реакции, чтобы идентифицировать говорящего, с точностью 78%.

Предыдущие эксперименты показали, что только двумерные культуры клеток нейронов способны выполнять подобные вычислительные задачи, но впервые это было продемонстрировано в трехмерном органоиде мозга.

А еще можно экономить электричество.

https://www.nature.com/articles/d41586-023-03975-7

Метаверсище и ИИще 2023-12-13 08:39:06

А вот так это выглядит в виарчике.
Зловещая долина пройдена?