Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов.

Репосты из тематических каналов

эйай ньюз 2024-05-03 10:58:09

Раз уж в последнее время много говорим про ChatBot Arena, то грех было бы не упомянуть про новый бенчмарк от тех же авторов – Arena Hard v0.1. Суть в том, что хочется найти способ оценивать качество моделей без участия людей, вот и придумали новый бенчмарк, который аппроксимирует человеческую оценку – конечно не без предвзятости, т.к. используют GPT-4 для оценки моделей, но зато быстро!

Я собирался написать более детальный разбор, но увидел, что это сделал Игорь @seeallochnaya. Можно начинать читать отсюда https://t.me/seeallochnaya/1345 и идти вниз по постам-картинкам.

И вообще, у Игоря на канале качественные посты про LLM, от их влияния на бизнес и до разбора передовых исследовательских статей. Пользуясь случаем, рекомендую вам подписаться — в прошлый раз советовал лекцию с рамках DataFest 2023, а уже совсем скоро, в конце мая, будет DataFest 2024. Игорь организует там целую секцию, и выступит с открывающим докладом - так что не пропустите!

@ai_newz

Neural Shit 2024-05-03 08:01:09

Вот вам видео объясняющее, почему надувать мошонку для использования в качестве воздушного шара - плохо (а то вдруг вы не знали).

Нашел на реддите и перевел на русский.

Сценарий сгенерирован с помощью ChatGPT, говорящая голова — с помощью heygen

Сиолошная 2024-05-03 02:55:15

🔼 продолжение 👆
И на этом можно было бы и закончить пост, сидеть ждать релиза, если бы не три НО.
1) уже как месяца три ходят слухи, что OpenAI готовится к запуску своего поисковика. Предположительно, LLM вместо вас кликает по ссылкам, делает доп. запросы, читает выдачу и формирует ответ. В некотором смысле, это продвинутая реализация уже существующей фичи. Модель, умеющая рассуждать и кодить будет как нельзя кстати!
2) буквально вчера выяснилось, что домен search.openai.com уже занят, для него существует SSL сертификат.
3) главный инсайдер по OpenAI Jimmy Apples написал, что 9-го мая OpenAI проведёт анонс «не новой модели, но поискового движка».

Посмотреть находки ещё одного инсайдера, прямо с гифками и картинками потенциального дизайна, можно в Твиттере тут. Для OpenAI заточка модели под сёрфинг интернета не станет новинкой — ещё в 2021-м они сделали WebGPT, которая искала и объединяла информацию лучше, чем это делали люди. Я про неё целый лонг писал (он был первым!), ознакомиться можно тут: https://habr.com/ru/companies/ods/articles/709222/

Ну теперь вот уж точно сидим ждём!

Сиолошная 2024-05-03 02:55:08

Не мог (не хотел 😀) уснуть, и из интереса решил накопать побольше информации про загадочную gpt2-chatbot, совсем недавно удивившую общественность. Перечитал обновлённый блогпост, новости, перерыл с десяток Reddit-тем, новых интервью Sam Altman, etc.

Тезисно:
— Sam не первый раз говорит, что слово «сюрприз» не должно идти рядом с AI, и OpenAI хотят итеративно улучшать свои технологии, делая их достоянием пользователей (хоть бы и через платный продукт в виде подписки на ChatGPT). Такой путь гораздо лучше для общественности, чем если пару лет не будет новостей, а потом бах, GPT 6, и все сидят такие 😨
— GPT-4 сейчас, полгода назад и на релизе — это три разные модели. Со временем они становились лучше и лучше, как по Эло-рейтингу от LMSYS, где живые люди сами сравнивают генерации моделей и выбирают те, что нравятся им больше, так и по объективным бенчмаркам (например). Вчера вот узнали даже, что OpenAI вроде как не переобучаются конкретно на датасеты для проверки, по крайней мере по математике — доверимся им, что и по другим метрикам никаких грязных трюков нет.
— Последнее улучшение модели было направлено на способности к рассуждению и решению задач, особенно по математике.
— Однако об улучшениях в написании кода не заявлялось. И именно этим выгодно отличается модель gpt2-chatbot. Видел, что люди говорили про разношёрстные вопросы, мол, «она на уровне четвёрки, не лучше», но вот про код...я сам узрел, как с первого раза мне написало очень клёвый пример простого рейтрейсинга сцены с несколькими объектами. БЕЗ ОШИБОК. И большая часть примеров, которыми хвастались люди (и на реддите, и вот даже Denis Sexy IT), где прям ВАУ — это именно примеры с кодом.
— При этом получить модель уровня GPT-4 не так-то и просто, на данный момент это удалось сделать 2.5 компаниям (META'е дадим скидку и предположим, что их LLAMA 3 на 405B, выходящая летом, будет соответствовать). Конечно, может появиться новый игрок, но это маловероятно.
— А теперь самое интересное. Почему можно предположить, что новая модель именно от OpenAI? Тут есть несколько косвенных признаков. Первое: в ней используются те же специальные токены начала/конца реплики, что и у всех моделей OpenAI. Модели Mistral и LLAMA отличаются. Второе: и сама модель так говорит, и в промпте у неё написано, что она от OpenAI. Это, конечно, может быть галлюцинацией, но фронтир модели в таком не были уличены (почти, иногда Mistral грешит) — только те, что были натренированы на синтетике. Третье (и главное): если добиться ошибки сервера своим запросом (например, длиной запроса или его темой, чтобы он не прошёл модерацию) — будет показана ошибка один-в-один, что и у любой другой модели OpenAI. Однако все остальные модели имеют отличные сообщения о возникших неполадках.
— Так что (я уверен на 99%) это модель OpenAI, которая лучше в кодинге, что логично. И тянет на грядущую итерацию, но не GPT-4.5 и тем более не GPT-5. Это подтвердил Sam Altman в ходе своего тура по университетам США, думаю, тут ему можно верить в силу аргументов выше.
— Вероятно, её релиз должен быть совсем скоро, в течение месяца. Как мне видится, через Арену собрали примерную оценку, чтобы на презентации или в релизных заметках написать: «Да, наша модель оч крутая, вот независимое подтверждение на всеми признанном лидерборде». Так как на всё про всё ушло всего 3 дня — делать такую оценку сильно заранее не имеет большого смысла: за это время модель можно дообучить, собрать данные, то да сё. В общем, улучшить. Тогда бы уж ту и проверяли!
🔽 продолжение

эйай ньюз 2024-05-02 21:00:03

Интересно, как в борьбе за хайп уживаются большие команды с мегатоннами вычислительной мощности, и те что поменьше, университетские группы и маленькие стартапы или компании с небольшими R&D отделами. Эту тему на своем примере подняли ребята из Tinkoff Research в недавнем интервью. Учитывая, что видеокарты не бесконечны, важнейший исследовательский трек для них — повышение эффективности моделей, и выбор неочевидных направлений, в которые копает чуть меньше групп, но которые, по их мнению, могут быть намного перспективнее.

И действительно, пока читаешь все эти пейперы и релизы, нет нет да замечаешь интересный, но казалось бы, очевидный паттерн. Небольшие исследовательские группы генерируют более креативные идеи. Особенно с точки зрения оптимизации. Что в конечном счете и крупным компаниям позволяет клепать модельки быстрее и лучше. А еще маленькие команды кажется чаще рады поделиться исходным кодом.

В мире AI сейчас доминируют технологические гиганты, такие как Google, Meta, OpenAI и DeepMind. У них есть огромные ресурсы - тысячи инженеров и исследователей, а тонны GPU для тренировки моделей с сотнями миллиардов параметров. Но значит ли это, что небольшим исследовательским группам и стартапам нечем заняться в AI? Вовсе нет!

C дивана мне в голову пришло сразу несколько направлений, где небольшие команды могут проявить себя и сделать значимый вклад:

- Тюнинг и адаптация открытых моделей вроде LLaMA, Stable Diffusion под конкретные прикладные задачи. Большие foundation модели дают отличную базу, но для многих реальных применений их нужно дообучать на специфичных данных.

- Дистилляция знаний (distillation) и сжатие моделей - позволяет уменьшить размер моделей в разы и даже на порядки без существенной потери качества. Это критично для многих сценариев использования AI на мобильных устройствах и в реальном времени.

- Исследование ошибок и уязвимостей больших моделей, разработка методов для их детекции и устранения. Даже лучшие модели вроде GPT-4 могут выдавать неверные факты, проявлять предвзятость, быть подвержены adversarial атакам. Здесь огромное поле для исследований.

- Разработка новых архитектур, механизмов внимания, техник обучения, которые позволяют эффективнее обучать модели. Яркий пример - техника chain-of-thought prompting, которая значительно улучшает способности LLM к рассуждению, при этом не требуя дообучения модели. Статья с ее описанием, уже набрала более 4500 цитирований! То есть не нужны тысячи видеокарт, чтобы создать что-то влиятельное.

- Применение AI в узких предметных областях, где нужна глубокая экспертиза в конкретной сфере - медицине, биологии, физике, экономике и т.д. Большие универсальные модели не всегда лучше работают, чем модели обученные на специфичных данных.

Есть немало примеров небольших групп, которые успешно конкурируют с гигантами индустрии. Например, парижский стартап Mistral, где изанчально было 3 человека (да, соглашусь, не совсем корректный пример, потому что компания подняла $115 млн в первые недели существования). Из близкого многим читателям, опять же, Tinkoff Research - команда из 12 человек (20 со студентами) в компании, которая никогда AI-ресерчем до этого не занималась, умудрилась опубликовать 4 статьи на NeurIPS 2023 (об одной из них писал тут). Или вот Midjourney с командой менее 50 человек (а инженеров и того меньше) создали и дальше двигают одну из лучших в мире технологий генерации изображений по тексту - восхищаюсь их результатами. Все благодаря фокусу на конкретной задаче и хитрым идеям.

Поэтому не стоит думать, что если у вас нет ресурсов тренировать гигантские модели, то вам нечем заняться в AI (я часто слышу такое от студентов, с которыми общаюсь). Наоборот, именно небольшие креативные команды зачастую делают прорывы и открывают новые направления, которые потом подхватывают большие компании. Главное - выбрать правильный фокус и упорно работать над решением важных проблем на стыке AI и конкретных предметных областей.

@ai_newz

эйай ньюз 2024-05-02 20:07:55

Привет, друзья! Я наконец вернулся из Кремниевой долины, и хочу поделиться своими впечатлениями.

В прошлую пятницу вечером я организовал небольшую тусовку с подписчиками, которая прошла просто на ура!

В моем канале действительно высока концентрация очень приятных и открытых людей, и на каждой новой встрече во время моих поездок в другую страну я обязательно знакомлюсь с новыми крутыми ребятам! Вот вам пример: я не знал, где и как устроить эту встречу, а тут в комментариях один из читателей предложил затусить у него. В итоге, Мы собрались недалеко от Сан-Франциско, в уютном доме с классным пространством для тусовок на заднем дворе (Игорь, респект!).

Я немного опоздал из-за пробок - ну что поделаешь, час на машине из Пало-Альто. Собралась очень крутая компания, около 20 человек. Мы жарили мясо на гриле и говорили о насущном - от трендов в AI и стартапов до жизни в Кремниевой долине. Ребята оказались настоящими экспертами в самых разных областях - были и стартаперы, и VC-инвесторы, и инженеры из Bigtech, и PhD-студенты из Беркли. Даже был парень, который занимается развитием инфраструктуры для будущего AI, прокладывая сетевые коммуникации по всей долине, в том числе и по известному мосту Golden Gate в Сан-Франциско.

Было очень весело, все травили байки и смешные истории. Такие моменты напоминают, что у меня в канале собралась действительно крутая аудитория - открытые, интересные и увлеченные люди.

Короче, ребята, это была одна из лучших встреч, которые я когда-либо организовывал. Спасибо всем, кто пришел, и особенно Игорю и Оле за гостеприимство. Не терпится устроить следующую тусовку в другом интересном месте (ну, либо опять в Калифорнии)!

--
А в следующем посте расскажу, как прошли мои рабочие встречи с коллегами и боссами, и как меня это еще сильнее замотивировало.

#personal
@ai_newz

Сиолошная 2024-05-02 18:32:42

===Объявление===

В ближайшие 2 месяца мне потребуется помощь. Я немного устал делать презентации для лекций (именно слайды в PowerPoint), уже тяжело смотреть на них, искать картинки, итд. Поэтому я ищу себе помощника (одного), который может взять от меня верхнеуровневое описание и перебить в слайды. Описания достаточно точные, иногда оставляют простор для творчества.

В качестве примеров того, что я ожидаю от вас, можно посмотреть презентации моих открытых лекций:
1) GPTs-1
3) What's next for OpenAI
4) RLHF Intro

Примеры описаний, которые я буду давать (на самом деле вот прям эти нужны будут) вам на вход:
1) Problem Space VS Solution Space
2) Design document

Задача перебить описание в слайды 🙂 На английском языке. Часть я пишу по англ., часть — на русском, и тогда нужно будет переводить. Также в идеале кандидат должен понимать Machine Learning на уровне джуна, чтобы а) сделать работу более продуктивной б) иногда чуть додумывать, если непонятно написано.

Всего потребуется сделать от 3 до 7 презентаций. На каждую, по моим ощущениям, уйдет от 6 до 10 часов. Я готов платить по часам (в адекватных пределах) по ставке $20-25. Также я буду давать фидбек, чтобы вы смогли понять, как лучше делать. Если будет больше 5 презентаций — я готов сверху сделать 2-3 созвона с обсуждением разных вещей (обычно такое стоит $200-250/h), от тех. задач до карьеры и ревью резюме, если вам это нужно.

Я понимаю, что это не так много, но к сожалению без рекламы в канале и без постоянной работы больше выделить не могу

🥺

От вас ожидаю 4 качества:
1) базовое умение делать слайды
2) базовый английский (условно, не ниже B1, иначе кмк будет сложно)
3) умение понимать, что вам не понятно (и задавать вопросы)
4) ответственность — САМОЕ ГЛАВНОЕ. Если мы с вами договорились, что презентация будет готова к пятнице — она должна быть.

В идеале вы можете начать работу на следующей неделе, и продолжать её до середины-конца июня. Необходимый темп — 1 презентация в неделю, условно у вас есть 10-12 часов свободных. Если не уверены — пожалуйста, не подавайтесь. Темп и постоянство очень важны.

Если вы хотите попробовать — пожалуйста, заполните гугл-форму: https://forms.gle/ihp5JFPzabuE8iCh6
В её рамках вам придётся подготовить 1 (один) слайд. Ожидаю, что это займет не более 20-25 минут. Они будут оплачены, но только тому, с кем по итогу мы продолжим работу. Нужно сделать слайд «Getting started: AntiGoals» отсюда (см. спойлер Context на странице).

В комментариях прошу не спамить, но нормальные адекватные вопросы задавать можно.

! Скиньте вашему приятелю или другу, если считаете, что ему интересно !

UPD: ого, уже больше 15 заявок. Завтра буду выбирать, отпишу вам.

Метаверсище и ИИще 2024-05-02 18:23:38

Тут Антропик наконец выкатил мобильное приложение для Клода.
Только iOS (мерзавцы).
Также анонсировали Team Plan - за 30 баксов доступ для пяти человек одновременно с общими чатами и обменом информацией внутри такой команды.
В приложении нет голосового ввода, это прям минус. Нельзя ехать в машине и вести с ним разговоры о судьбах мира.
Подробнее тут:
https://www.anthropic.com/news/team-plan-and-ios

Сиолошная 2024-05-02 16:51:27

Первое официальное музыкальное видео, сделанное с помощью OpenAI Sora:
Washed Out - The Hardest Part

Автор утверждает, что почти никакой постобработки нет, лишь самый минимум — зато сам ролик склеен из 55 отдельных кусочков (выходит по 4.4 секунды в среднем). А раньше всплыло, что одно из демо-видео, Air Head, оказывается сильно редактировалось — модель всё хотела нарисовать человека с головой, а не пустым местом (полная история тут).

Немного полистал комментарии, а там сразу:
— Раньше я был большим поклонником каждого альбома, слушал на рипите, покупал винил и т. д. Но я больше не могу поддерживать Washed Out. ИИ — это не просто инструмент для создания искусства, это замена художника. Я надеюсь, что Эрнест [музыкант], как творческий профессионал, это поймет. Я читал интервью, в котором он говорил, что у него было «видение» этой концепции видео в течение многих лет, но, по моему мнению, оно терпит неудачу - реальные актеры прониклись бы работой гораздо больше. Я просто не знаю… если это неизбежное будущее, думаю, я просто перевернусь и умру.

🕺 слушаем, танцуем и думаем о будущем
💃
делитесь в комментах 👇, кто где сколько голов и пальцев на руках насчитал

Santry's Singularity blog 2024-05-02 16:15:46

​​Пока что технология image-to-3d находится в зачаточном состоянии и напоминает результаты, которые выдавали первые версии stable diffusion. Реконструкции поддаются только сравнительно простые изображения монолитных предметов.

Да, сравнивать 3d.csm, tripo3d с демо на huggingface нечестно, так как это демонстрационные версии коммерческих сервисов, которые используют более сложные пайплайны и генерируют в несколько этапов. Однако сейчас именно они юзабельнее. Более детальные текстуры - заметное преимущество, так как их можно преобразовать в карту высот и перенести часть деталей в меш.

Вряд ли результаты их работы подойдут для нужд 3D-художников, однако уже сейчас они могут быть основой для скульптинга и годятся для распечатки на FDM-принтере.

P.S. Бюст штурмовика создан при помощи Dall-E и tripo3d.

Santry's Singularity blog 2024-05-02 16:14:46

Сравнил восемь image-to-3d нейронок на картинках, сгенерированных в Dall-E.

1. 3d.csm
2. TripoSR
3. CRM
4. GRM
5. mvedit
6. InstantMesh
7. tripo3d
8. dreamgaussian

Условно, эти решения делятся на три группы.
Самые слабые - GRM и dreamgaussian не справляются реконструкцией невидимых на картинке деталей и оставляют сквозные отверстия. Они создают деформированные, непригодные для дальнейшей обработки модели.

У второй категории решений: TripoSR, CRM, mvedit, InstantMesh - наблюдаются сложности с созданием симметричных моделей, мелкие артефакты, например, каверны и искаженные текстуры. Под ними - грязные сетки и сглаженные болванки-обмылки.

3d.csm, tripo3d - лучше создают текстуры, додумывают детали на невидимых частях объекта. Хотя tripo3d умеет в ретопологию, генерациям все еще недостает выраженного рельефа. Большая часть деталей остается на текстуре.

Все модели сгенерированы при настройках по умолчанию. Картинки в высоком разрешении ищите в комментариях. Выводы - в следующем посте.

Метаверсище и ИИще 2024-05-02 16:12:00

Сладкий 3Д-сток

Возможно кому-то пригодится, 1127 чистых, ИИ-немодифицированных 3Д-моделей с идеальной топологией и развертками. Может кто-то захочет потренировать свой ИИ на нормальных ассетах (маловато конечно), а не на месиве из Objaverse.
Это BaseMesh обновился, сменил хостинг и запилил новый движок.
Хорошая навигация, вьюер и категоризатор.
А мы продолжим за 3Д и ИИ в следующем посте, где будет сравнение восьми(!) image-to-3d нейронок на картинках, сгенерированных в DALL·E 3.

https://www.thebasemesh.com/model-library

Метаверсище и ИИще 2024-05-02 15:57:47

Огненная анимация с помощью weight scheduling, ControlNet и IPAdapter

Неделю назад отложил себе вот такой убойный ролик от Matt3o на запостить, но мой ИИ не дремлет, вчера притащил мне ютюбчик, где рассказано, как такие штуки делать (новостная гугл лента хорошо надрессирована годами).

Я долго рассматривал эту анимацию. Понимаю, что меня как-то крячит, глаз норм, а мозг орет, что что-то неправильно. В общем смотрите на ухо.
Но прогресс конечно потрясающий. Отрисовать поворачивающуюся голову в разных фазах - одно их самых сложный упражнений для кожаных художественных студентов. А ИИ учится очень быстро.

Там правда ацкий комбайн из ComfyUI и еще десяточки приблуд. Смотрите на свой страх и риск.

https://www.youtube.com/watch?v=jc65n-viEEU

Psy Eyes 2024-05-02 15:41:41

Улучшения в генераторе музыки Udio:

* Модель теперь может держать голове контекст 2 минут трека вместо 30 секунд ранее. А значит структурно композиции будут более консистентными и не терять нить на 3-ей минуте.

* Генерить можно до 15 минут, что подойдёт для прог-рока, эмбиента, гоа-транса, или даже подкастов.

* Чтобы не заблудиться ответвлениях, генерируемые варианты теперь сгруппированы в дерево: видно где дочерний трек, а где родительский.

* И наконец-то можно выделить конкретный кусок композиции, на основе которого нужно расширить трек, а ненужное вырезать.

Всем накинули 200 кредитов.

Погнали генерить музыку!
Подробнее про Udio

Нейронавт | Нейросети в творчестве 2024-05-02 15:41:12

Подборка демоспейсов для редактирования изображений

#imageediting

Метаверсище и ИИще 2024-05-02 15:40:37

Ну, за комиксы!
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

Поначалу выглядит просто бомбоносно. Особенно видосики с медведём и тетенькой из Соры. Но если приглядеться, то количество пуговиц меняется, волосы перекрашиваются и всякатака мелочь вылезает.

Я уже побежал к большому бару, выпивать за аниматоров (медведь хорош), но остановился в маленькой рюмочной, чтобы накатить за комиксы. Ибо для комиксов вот эта вот консистентность уже вполне себе работает и можно генерить персонажей по референсам, которые будут сохранять похожесть. Поглядите примеры на сайте для комиксов, это круто. А с видео, как обычно, есть вопросы (и да, надо написать про VIDU).

Ну и как обычно бесит китайская непосредственность: не то, что кода или демо нет, нет даже статьи на архивчике. Есть просто сайтик с веселыми картинками. Ну и это команда Тиктокченко. От них кода не дождешься.
Смотрим примеры и ловим блох тут:
https://storydiffusion.github.io/
Думаем, как пристроить к раскадровкам.

Метаверсище и ИИще 2024-05-02 15:04:30

Web-Midjourney Alpha

Те, кто неистово генерят картинки в Midjourney начали получать доступ в Веб-интерфейс. Там не только генерилка, а будущая социальная сеть. И все эти адовые флаги в дискорде вынесены в рульки и педальки. А еще там есть Rooms для совместных генераций. ИИ оргии в общем.
Кто добрался до веб-версии, пишите свои ощущения в коменты. Сюда покидаю скринов (спасибо, Дима).

Интересно, что они упоролись по пальцам настолько, что иногда там проглядывают отпечатки пальцев на коже. Интересно их было бы их пошазамить пробить по базе. Вдруг найдется, наконец, этот ИИ-мерзавец, который заставляет нас постоянно выпивать за уходящие профессии.

Метаверсище и ИИще 2024-05-02 14:47:56

Unity 6 наперевес с ИИ в виде Sentis.

https://blog.unity.com/engine-platform/unity-6-preview-release

В шестерку напихали много чего, но нас ведь интересуют ИИ-фишки прежде всего.

Если вкратце, то теперь вы можете брать модели с Hugging Face, ужимать их и присовывать в свои проекты. Чтобы они крутились локально, могли взаимодействовать друг с другом, управлять персонажами, распознавать картинки и пр.

Я стал переводить и понял, что по английски звучит понятнее, вот держите:

The Unity 6 Preview ships with Unity Sentis, a neural engine for integrating AI models into the runtime. Sentis makes new AI-powered features possible, like object recognition, smart NPCs, graphics optimizations, and more.

We now support AI model weight quantization (FP16 or UINT8) in the Unity Editor if you want to reduce your model size by up to 75%. Model scheduling speed was also improved by 2x, along with reduced memory leaks and garbage collection. Lastly, we now support even more ONNX operators.

Now you can instantly find “grab and go” AI models for Unity Sentis from Hugging Face to ensure easy integration. We introduced a new Functional API that helps to build, edit, and chain AI models.

Ждем ответочки от Эпика.

И кстати, Mattew Bromberg, former EA and Zynga Executive назначен новым CEO Unity.
https://youtu.be/SExCOuTggCQ?t=1005

Метаверсище и ИИще 2024-05-02 14:20:43

GPT-4 - самая тупая модель, которую кому-либо из вас когда-либо придется использовать снова.

"GPT-4 is the dumbest model any of you will ever ever have to use again, by a lot."

Сама, два вопроса:

1. За что мы платим 20 баксов в месяц?
2. Где нетупая модель?

https://twitter.com/smokeawayyy/status/1785899419076112761

Сиолошная 2024-05-02 13:13:52

Тэк, вижу нотки непонимания, давайте по другому.

Вот есть экзамен по истории. Вашей группе выдали 100 билетов для подготовки.
Кто-то сидел, зубрил ответы именно на них, кто-то просто читал учебник, доп. материалы и искренне интересовался историей.

В день экзамена приходит препод и говорит: «это пранк, на самом деле я буду спрашивать по новым 100 билетам. Ни один вопрос не пересекается со старой стопкой, но те, кто реально учил — у вас проблем не будет».

У тех, для кого билеты были лишь общим направлением, кто искренне интересуется предметом и изучает самостоятельно — у них трудностей не возникнет. Они и за те, и за эти билеты готовы пояснить.

А у довечника Васи, который только и запомнил, что «текст билета -> зазубренный ответ» (и то для половины) — у него произойдет оказия. Дай бог он сможет на троечку наскрести, вспомнив максимально похожий билет из первой сотни, по которой он готовился. Но вне этого у него знаний и понимания нуль.

===

Так и тут. Есть 8 тысяч задач старых, есть 1250 задач новых. Если LLM дает ответы одинаково хорошо и там, и тут — она понимает. Если она переобучилась на старые задачи — качество ответов упадёт. Не настолько сильно, как в примере с Васей (он то вообще ни бум-бум), но достаточно, чтобы заметить. Это и есть переобучение: когда модель показывает качество лучше на той выборке, что она видела, нежели на новой. Часть ответов/задач LLM запомнила, и ответ на них не является показателем навыков. Можно сказать, что нет обобщения.

В мире машинного обучения такое случается постоянно, поэтому обычно делают отложенную выборку, которую никогда не показывают модели (и в идеале по ней даже не принимают решения, что лучше а что хуже), а затем в конце проверяют, что всё ок.

Сиолошная 2024-05-02 12:25:12

А теперь — к интересному, как на новой выборке ведут себя свежие модели.

TLDR:
— модели OpenAI не переобучены, у них оценка что на старом, что на новом наборе задач совпадает
— это же применимо к моделям Anthropic, они на новой выборке даже чуть лучше себя проявляют
— модели Mistral (включая Mixtral) и Phi (это которые обучаются на синтетике, сгенерированной GPT-шкой) - очень переобучены, и для них деградация метрик составляет около 8-10%. То есть на оригинальной выборке от OpenAI они, скажем, показывали 80%, а тут 70%
— свежая LLAMA 3 на 8B деградирует на 6%, однако старший брат 70B просаживается всего на 2%. Возможно, бОльшая модель генерализуется, и хоть и даёт ответы чуть-чуть лучше на старой выборке, на новой всё равно показывает сильный результат.
— при этом вот LLAMA 2 на 7B и 70B почти не отличаются, то есть для них такого эффекта не наблюдается
— модели Gemini переобучены совсем чуть-чуть, в целом всё честно.

TLTLDR от самих авторов:


Gemini, GPT, and Claude show little to no signs of overfitting

И это важно, так как многие начали оверфититься на бенчмарки, и может казаться, что да, вот, мы уже догнали OpenAI! (😀 расскажете)

Сиолошная 2024-05-02 12:25:03

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

Работа Scale.ai по оценке переобученности отдельных моделей на популярный датасет Grade School Math 8k (задачи уровня начальной школе по математике). В каждой задаче от 2 до 8 действий с четырьмя базовыми операциями (+, −, ×, ÷) — никакого рокет саенса. Оригинальный датасет, кстати, готовили и публиковали OpenAI (аж в 2021-м!), и вот теперь компания, которая занимается для них разметкой, повторяет трюк.

Чтоб было нагляднее, вот пример задачи: Ли купил 6 акций Delta по цене 40 долларов за акцию. Если он хочет заработать 24 доллара на этой сделке, сколько должна стоить акция Delta, когда он ее продаст?

Логика такая: если модель показывает тот же результат на новых задачах, собранным по тем же критериям и с той же сложностью, то модель не запоминала конкретные задачи (то есть её разработчики тщательно отфильтровали датасет). Если же заметна просадка — значит, модель скорее всего уже видела данные из старого датасета, и может запомнить часть ответов.

Не буду перечислять всё, что сделали исследователи, однако отмечу, что они очень грамотно подошли к вопросу фильтрации своих данных, чтобы те максимально отражали качества исходного датасета. Например, берут старые модели, вышедшие до GSM8k, и смотрят, что те показывают не то что одинаковые доли правильных ответов — а даже что распределение вероятностей совпадает. И что люди решают одинаковый процент задач. Итого получилось 1250 штук.

Датасет останется приватным, чтобы на него не переобучались — никто не знает, что там за задачи и какие у них ответы (кроме 50 примеров из статьи, но они не участвуют в оценке, просто даны для сведения). Таким образом, по метрикам на нём можно будет бить себя в грудь и говорить ДА Я ДА МЫ ДА НАША МОДЕЛЬ РЕАЛЬНО ЛУЧШАЯ. Кстати, умный ход от компании, которая, кхм, занимается разметкой данных - делать приватные бенчмарки as a service и становиться индустриальным стандартом.

Neural Shit 2024-05-02 07:22:19

GitVerse – теперь и для малого и среднего бизнеса

На онлайн-презентации «GitVerse: открой вселенную кода» СберТех рассказал про новые фичи платформы. Cреди них – CI/CD-инструменты, ускоряющие разработку, и новые функции GigaCode – персонального AI-ассистента разработчика (AI, artificial intelligence — искусственный интеллект).

Но это еще не все: теперь возможности GitVerse доступны не только индивидуальным разработчикам, но и малому и среднему бизнесу. Это очень удобно: можно организовывать совместную работу команды с GitVerse и управлять доступами к своим репозиториям.

Готовы попробовать? Присоединяйтесь.

#реклама

эйай ньюз 2024-05-01 22:11:18

Snowflake Arctic - непрофильная компания сделала LLM, результат предсказуем

Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k.

Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется.

Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B.

Модель
Демка
Блогпост
Серия постов с деталями тренировки

@ai_newz

gonzo-обзоры ML статей 2024-05-01 20:54:24

Прекрасное на ночь.

https://www.sscardapane.it/alice-book

Book: Alice’s Adventures in a differentiable wonderlandPermalink
Neural networks surround us, in the form of large language models, speech transcription systems, molecular discovery algorithms, robotics, and much more. Stripped of anything else, neural networks are compositions of differentiable primitives, and studying them means learning how to program and how to interact with these models, a particular example of what is called differentiable programming.

This primer is an introduction to this fascinating field imagined for someone, like Alice, who has just ventured into this strange differentiable wonderland. I overview the basics of optimizing a function via automatic differentiation, and a selection of the most common designs for handling sequences, graphs, texts, and audios. The focus is on a intuitive, self-contained introduction to the most important design techniques, including convolutional, attentional, and recurrent blocks, hoping to bridge the gap between theory and code (PyTorch and JAX) and leaving the reader capable of understanding some of the most advanced models out there, such as large language models (LLMs) and multimodal architectures.

Table of contents

1. Foreword and introduction
2. Mathematical preliminaries
3. Datasets and losses
4. Linear models
5. Fully-connected layers
6. Automatic differentiation
7. Convolutive layers
8. Convolutions beyond images
9. Scaling up models
10. Transformer models
11. Transformers in practice
12. Graph layers
13. Recurrent layers
14. Appendix A: Probability theory
15. Appendix B: Universal approximation in 1D

Book draft: https://arxiv.org/abs/2404.17625

Neural Shit 2024-05-01 18:06:55

Будущее уже здесь

gonzo-обзоры ML статей 2024-05-01 12:02:47

Dejavu Transformers

TransformerFAM: Feedback attention is working memory
Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar
Статья: https://arxiv.org/abs/2404.09173

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal
Статья: https://arxiv.org/abs/2404.07143

От Гугла вышли две в чём-то близкие статьи, написанные разными множествами людей, но вероятно всё-таки одной группой, потому что многие из них пересекаются в ещё одной близкой публикации https://arxiv.org/abs/2403.19709.

Обе статьи про трансформеры, которые могут работать с неограниченными по длине последовательностями.

Первая работа про трансформер с Feedback Attention Memory (FAM) применяет механизм внимания к своим собственным латентным репрезентациям через обратную связь. Репрезентации каждого слоя подаются ему же при работе со следующим токеном. Авторы считают, что это ведёт к возникновению рабочей памяти в трансформере.

Про что они пишут, это как бы Block Sliding Window Attention (BSWA) по аналогии с Longformer (https://t.me/gonzo_ML/292), где в каждый блок добавлены виртуальные активации FAM. Механизм внимания смотрит теперь на текущий блок, предыдущие несколько сегментов (память) и предыдущий FAM (рабочая память, где потенциально всё может накапливаться бесконечно). Затем для текущего блока по его выходам и предыдущему FAM через внимание вычисляется новый FAM, то есть как бы происходит компрессия и обновление памяти. Это идейно напоминает memory tokens предложенные Мишей Бурцевым ещё давно, только с более хитрым механизмом расчёта.

Это похоже на много что известное. Transformer-XL тоже имел память в виде предыдущих сегментов и умел обращаться к активациям более низких уровней из прошлого. TransformerBSWA это практически то же самое, только в отличие от XL, здесь не используется ”stop gradient” на сегменте с памятью. А в TransformerFAM мы уже как бы обращаемся к активациям того же самого уровня.

Реализация этого достигается без добавления новых весов в трансформерные слои, всё работает на конкатенации входных данных блока и FAM, а также модификацией маски внимания, чтобы реализовать FAM. Ну если я правильно всё понял. Экспериментировали с блоками длины 1024 + FAM длины 64. Отдельная хитрая тема, как инициализировать начальный FAM. Сделали это через prompt tuning

Для экспериментов брали модели Flan-PaLM (1B, 8B, 24B). К ней добавляли BSWA или FAM и файнтюнили через LoRA. Для сравнения сделали ещё Transformer-XL, но он по результатам оказался неотличим от BSWA.

Проверяли на retrieval задаче PassKey, сравнивали с BSWA с разным количеством блоков памяти (M1-M12, от 1 до 12 блоков соответственно), FAM всех побил. Также проверили на куче требующих длинного контекста задач, использовавшихся при оценке Gemini. Тут FAM везде бьёт BSWA, где-то заметно, где-то не очень.

Ну то есть типа как бы работает. Но есть вопросы, и их много.

gonzo-обзоры ML статей 2024-05-01 12:02:47

Во-первых, три года назад такое уже было (Анжела Фан, Эдуард Грейв и ко, https://t.me/gonzo_ML/508), но авторы относят эту работу (как и Recurrent memory transformer, RMT, Миша Бурцев и ко) к категории, где верхний уровень залинкован на нижний, и нету связи между промежуточными нейронами. В случае RMT это наверное верно (Миша, поправь меня если что), но для работы Анжелы Фан это вообще говоря не так, так агрегируются репрезентации всех уровней и агрегат получают тоже все уровни (см. картинку тут https://t.me/gonzo_ML/510). То есть в текущей работе как бы то же самое, но без агрегации всех уровней, только с агрегацией внутри уровня. Ещё это похоже на другую ещё более старую работу того же Эдуарда Грейва про Continuous Cache (https://t.me/gonzo_ML/516), тогда это применялось ещё к RNN. Ещё одно, на что это всё похоже, это DeepMind’овский Compressive Transformer (https://t.me/gonzo_ML/165), где память копилась внутри каждого слоя (см. https://t.me/gonzo_ML/166). Выглядит всё в общем как вариация на тему и непонятно, почему этим работам отведено так мало места или они описаны как сильно другие. Про работу Анжелы Фан в двух местах вообще сказаны разные вещи (и обе неправильные):

“The first approach is linking the topmost layer to the bottommost (Fan et al., 2020; Bulatov et al., 2022). However, this cannot model feedback between interneurons, and this has only one global working memory.”

“There have been attempts to incorporate feedback mechanisms into the Transformer, but most of them involve feeding the output activations from the top layer to the bottom (Bulatov et al., 2022; Chevalier et al., 2023) or to intermediate layers (Fan et al., 2020).”

Во-вторых, ну классно, что сравнили с BSWA, но было бы реально интересно сравнить со всем перечисленным. Я ставлю на то, что оно не лучше, ибо и относительно BSWA разница не везде заметная. Уж Compressive Transformer то можно было бы проверить, как никак тоже внутри Гугла сделан. Про него сказано так:

“There were papers that compressed information blockwise (Rae et al., 2019; Guo et al., 2019; Gupta & Berant, 2020; Mohtashami & Jaggi, 2023; Mu et al., 2023). However, in those papers, the information was not propagated infinitely

Я честно говоря не понимаю, почему в Compressive Transformer информация распространяется менее infinitely. В деталях предложенный механизм конечно отличается, но я не удивлюсь, если математически он сводится к тому же, не чувствуется концептуальной разницы. Если кто более умный видит разницу, подсветите плиз.

Вторая работа “Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention” (https://arxiv.org/abs/2404.07143) делает что-то очень похожее. Она прям явно добавляет compressive memory к механизму внимания. Глубоко разбирать не хочется, вот тут есть готовый разбор: https://t.me/quant_prune_distill/247.

Про Compressive Transformer в статье сказано:

“However, the previous segment-level compression methods, including Compressive Transformers (Rae et al., 2019) still discard the memory entries of old segments in order to free up space for the new ones, limiting their context window to the most recent segments. This is in contrast to our Infini-attention that computes incremental memory updates to a fixed amount of memory parameters in a recurrent fashion.“

При этом в самой работе про Compressive Transformer явно написано:

“The TransformerXL discards past activations when they become sufficiently old (controlled by the size of the memory). The key principle of the Compressive Transformer is to compress these old memories, instead of discarding them, and store them in an additional compressed memory.”

Сравнения с ним тоже конечно нет, даже на его родном датасете PG19.

Я не понял прикола. Такое чувство, что у авторов размер контекста относительно предыдущих работ стал ограниченным, и мы теперь пересказываем старые работы с небольшими изменениями. Это какие-то дежавю трансформеры, ей богу. Просветите меня, если я чего-то важного в этих работах не понимаю.

Сиолошная 2024-04-30 21:57:11

🥲 после таких длинных серий постов задаюсь вопросом — почему это оседает в телеге, а не превращается в лонг на Habr

😪

Сиолошная 2024-04-30 21:50:32

Исследователи задаются тем же вопросом — вот что произойдёт, когда модель-судья, производящая оценку, будет не из стана OpenAI? Давайте попробуем с Claude 3 Opus, она ж вон тоже очень крутая!

В таком случае Agreement падает с 89.1% до 66.7%, что существенно. Separability просаживается мало, до 83.7%.

Но главный прикол — это что по мнению Opus'а свежая GPT-4-Turbo всё равно остаётся лучшей моделью, хоть и со слегка меньшей оценкой. Перед вами табличка, первая колонка — это отражение оценок с прошлого поста, вторая — доля побед, когда судит Opus, а третья — разница между ними.

Видно, что модель Anthropic хоть и пытается подыгрывать своим, сильно повышая им оценку (ожидаемо) — этого не хватает, чтобы перебить чемпиона

😎

Ну а так как версия бенчмарка 0.1, то, во первых, ждём расширения набора запросов, и, во вторых, его постоянное обновление, с доливкой свежих вопросов. И может ещё промпты немного улучшат, метрики подрастут.

===

Посмотреть все ответы и промпты можно тут. А здесь лежит код для того, чтобы самому тестировать модели (~25$ за запуск на кредиты OpenAI API)

Сиолошная 2024-04-30 21:43:38

Вот такими получились оценки. Здесь Score в процентах — это показатель, отражающий долю побед в сравнениях с ответами GPT-4-0314 (называется бейзлайн).

Видно, что как только выходим за пределы топ-5 — метрики сильно падают. На MTBench, да и многих других бенчмарках, такое не наблюдается.

Внимательный читатель спросит: «Пажжи, модель часто ответы самой себя (или своих сестёр) оценивает выше, чем ответы других моделей. Нет ли тут прикола?»

Отвечу ниже 👇

Сиолошная 2024-04-30 21:41:24

Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий 1️⃣из поста выше). На пальцах: если у нас 4 модели, то получается 6 пар. Когда мы сравниваем интервалы для этих моделей, то если они не пересекаются, и та модель, что выше в рейтинге по реальным человеческим оценкам, выше и тут — то это +1/6 (~16.6%, потому что 6 пар).

Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.

Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.

А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.

Сиолошная 2024-04-30 21:41:14

Уже несколько раз писал про LMSYS Arena (из неё кстати убрали gpt2-chatbot

🥲) — место, где вы вслепую сравниваете два ответа LLM на ВАШ запрос, и по тысячам таких сравнений строится оценка, какая модель лучше. Если живые люди стабильно предпочитают одну модель над другой на широком наборе запросов — можно говорить, что она лучше (по крайней мере в этом контексте).

Способ оценки неплохой, но очень накладной: нужно с одной стороны оплачивать API моделей/выпрашивать кредиты, а с другой нагонять трафик, а затем ждать, пока наберётся статистика. Если моделей всего 10-20, то проблем нет, но сейчас буквально каждый день появляется с десяток! Хочется как-то отфильтровать уж совсем мусор, и достойных кандидатов выпускать на Арену.

Делать это можно прогоном моделей по каким-то предварительным данным с последующей автоматической оценкой. Требований к датасету несколько:
1️⃣ возможность надежного разделения моделей разного уровня навыков
2️⃣ отражение человеческих предпочтений в реальных сценариях использования
3️⃣ должен обновляться со временем, чтобы свежие модели не могли переобучиться и показать результаты выше объективных
(в идеале ещё быстро & дешево, но тут как в анекдоте, выберите 2 из 3)

Вот именно с последним зачастую возникают проблемы, хоть и второй2️⃣пункт тоже с полпинка не заведётся. Так, авторы Арены ещё год назад придумали MTBench: у них на руках были запросы пользователей, они посмотрели на частотность, и придумали 80 вопросов, по 10 в 8 категориях, которые якобы отражают распределение сообщений от людей. В качестве оценщика выступала GPT-4, исследователи проверили, насколько хорошо модель справляется с угадыванием мнений людей, насколько откалибровано её мнение и какие биасы заложены. Например, модель всегда поощряет более длинные ответы, а также безумно рада «своим» генерациям (то есть от GPT-4).

В итоге, MTBench какое-то время был хоть немного, но актуальным бенчмарком. Но сейчас, к сожалению, его оценка перестала удовлетворять как минимум первому1️⃣ требованию из списка — разделимость моделей. Вот GPT-4 имеет оценку 8.6 (из 10), Claude 3 Opus 8.6, другие модели около 8.1-8.2 болтаются — но ведь вопросов всего 80! И потому доверительные интервалы очень широкие, и нельзя надёжно сказать, что вот одно лучше другого. И никаих обновлений по3️⃣не было. Как быть, кто виноват и что делать?

gonzo-обзоры ML статей 2024-04-30 20:19:01

Свежий обзор PEFT (Parameter-Efficient Fine-Tuning) алгоритмов для LLM.

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang
https://arxiv.org/abs/2403.14608

Пересказывать не буду, читайте как справочник :)

Сиолошная 2024-04-30 19:15:29

Увидел у Бобука новость (https://t.me/addmeto/5722) про готовящееся обновление Safari, мол, в него и блок рекламы добавят, и даже языковые модели для суммаризации страницы (а может ешё и для поиска) — и всё это прямо на устройстве пользователя, без доп. затрат на сервера и вычисления на каждый чих.

Кажется, разработчики Arc (https://t.me/seeallochnaya/1206) напряглись — у них как раз основные опасения, что 1) нет своего AI, всё через облако и третьи лица 2) на каждый чих нужно дёргать модельку, даже на самые простые и обыденные команды. В видео они уверяли, что «в гонке LLM/AI Apple сейчас отстаёт, и потому они могут пропустить окно возможностей, которое вот уже открыто» — может, так, может и нет, но не зря ведь Apple общается с компаниями, делающими AI? (например)

В общем, очень жду WWDC '24 (с 10-го июня), интересно, как оно выгорит, как покатит AI-фичи компания, СЕО которой на прошлой презентации ни разу словосочетание AI и не упомянул

🤷‍♂️

Denis Sexy IT 🤖 2024-04-30 15:10:44

Новое обновление про полезные локальные модели:
Вчера вышла версия llama-3-8b с контекстным окном в 1 миллион токенов (!). Это значит, что задачи анализа большого количества текста можно теперь делать локально (точно на английском, с другими языками я это не тестил), до этого я ходил в Claude 3 Opus 200k.

Зачем это нужно?
Расскажу на живом примере: мы готовим новый продукт к анонсу, это что-то вроде AI фото студии но на вход мы берем всего одно фото пользователя, не 10-20; что сильно дешевле чем файнтюн модели дримбудкой, а значит, мы можем снизить цену на продукт для юзеров.

У продукта уже есть конкуренты — это классно, потому что это значит, что в нише есть выручка. Конкуренты уже успели обрасти органическим трафиком – это мы и учитываем при запуске нового продукта:
Я выгрузил из SEO анализатора органический трафик по которому находят наших конкурентов в гугле, скормил все это в контекстное окно как часть промпта и запросил у LLM популярные стили генераций, по которым пользователи ищут наших конкурентов.

В итоге, на запуске, мы получили топ-10 стилей которые точно востребованы в интернете.

Ради теста я сравнил результаты своего анализа между Claude 3 Opus 200k и Llama-3-8B-Instruct-Gradient-1048k, и могу сказать что локальная модель отлично справилась для своего размера и действительно смогла написать важные стили, похожие на то что выдал Opus. Так что теперь вы можете делать анализ больших корпусов текста дома.

Сама модель тут (gguf версия для адептов llama.cpp)

P.S. Для этой задачи важно ставить температуру 0, а то напридумывает деталей моделька. Указывая контекстное окно в 100k+ будьте готовы что памяти компа вам не хватит.

P.P.S. Как водится, делюсь промптом который специально собрал для llama3 формат под эту задачу, там видно куда нужно поместить большой объем текста.

#пропродукт

Метаверсище и ИИще 2024-04-30 15:09:59

Вышла llama-3-8b с контекстным окном в 1 миллион токенов.
И это можно запускать локально у себя на компе. Клод с своими 200К нервно закуривает в облаке.
Куда катится мир!
Посмотрите, пожалуйста, в следующем посте, что теперь можно вытворять с таким контекстом.
https://www.reddit.com/r/singularity/comments/1cgsmqt/you_can_use_llama3_8b_with_1_million_tokens/

Neural Shit 2024-04-30 11:14:06

40 лет развития Boston Dynamics за полторы минуты.

Интнресно, что будет ещё через 40?

Метаверсище и ИИще 2024-04-30 09:54:19

ИИ для хардкорных композеров.

Как обработать группу снимков одним щелчком мыши, как автоматически маскировать, отслеживать объекты, автоматически нажимать клавишу, автоматически применять удаление. Как применять различные модели машинного обучения и как создавать новые модели, адаптированные к вашему материалу.

Все это на русском с подробными объяснениями от Влада Ахтырского. В начале хороший ностальгический проброс в Ванкувер 2018, где мы с Владом отжигали на Сигграфе. До ковида, войны и вот этого вот всего.

Для тех, кто шарит за взрослый композ и знает, что такое деспил.

И да, это та самая кнопка "Сделать Всё" в виде системы Junior.
https://www.youtube.com/watch?v=YRktwxF6CPU

Ну, за джунов.

Сиолошная 2024-04-30 09:45:01

Вчера на LMSYS Arena (место, где живые люди вслепую сравнивают генерации разных LLM и выбирают лучшую) появилась странная модель: gpt2-chatbot. И несмотря на то, что по названию можно подумать о слабости модели, она, внезапно, очень хороша. Настолько, что люди гадают, кто же её сделал, является ли это GPT-4.5 / 5, или может это свежий релиз Gemini Ultra 2.0.

Предлагаю вам самим поиграться тут: https://chat.lmsys.org/ (вкладка Direct Chat, там выбрать модель в выпадающем списке). Ограничение всего 8 сообщений в сутки, пользуйтесь с умом (или используйте VPN и режим инкогнито, кек).

На реддите люди тестируют свои задачки, которые якобы не решаются моделями предыдущих поколений, а эта либо щелкает, либо куда ближе к ответу, чем остальные. Треды почитать: 1, 2, 3.

Мой опыт:
— я дал ей простую задачку Show me an example of 3d ray tracing (with python). Set a simple scene, different light sources, etc. и получил полностью работающий код (в 2 или 3 ответа) с первого раза. Он учитывал материал объектов, включая цвет и уровень отражения. У меня получилось отрисовать сферу, на которой было два блика от двух источников света. После я попросил добавить поддержку не только сферы, но любой произвольной 3D-модели. Это заработало со второго раза — новонаписанный код был правильным, но оказалось, что нужно слегка изменить предыдущий. Скормив ошибку, получил работающее решение — и немного покрутив камеру увидел, что движок даже отражения от поверхностей учитывает!
— с таким же промптом (и даже с уточнениями) GPT-4-Turbo выдала лишь чб-рендер одного объекта, в куда менее удобном стиле написания кода. Тут не получилось быстро добавить на сцену объектов, в то время как у обсуждаемой модели всё было очень круто организовано.
— ещё по паре вопросов я заметил, что модель то ли делает паузы (особенно в начале), то ли просто зависает интернет-соединение. Возможно, под капотом есть Retrieval по интернету — и модель опирается на что-то со страниц из поисковика. Пока на Арене всего одна модель ходит в интернет (гугловский Бард), может, аугментировали GPT-4

🤷‍♂️

Что можно сказать про модель:
— Вот тут ребята сделали быстрое тестирование. Модель утверждает, что её сделали OpenAI, она ведётся на те же ловушки странных-редких токенов, на которые ведутся их модели (а другие модели — нет, потому что у них другой набор токенов). Скорее всего, это не просто дообученная LLAMA-3 или какая-то другая модель.
— На Arena для неё используют тот же системный промпт, что и для последней GPT-4-Turbo
— пользователи сравнивали ASCII-арт, просили нарисовать единорога, и модель давала такой же ответ, как и ChatGPT. Причём именно такой же единорог есть в интернете — либо модель его нашла и срисовала, либо выучила наизусть во время тренировки, и теперь воспроизводит. А какие-то рисует лучше
🤷‍♂️

— формат ответа очень напоминает формат ответа Gemini, расписывает всё по пунктам и подпунктам. Мне код, например, писала в 5 или 6 этапов.
— некоторые пользователи говорят, что им ответы модели нравятся теперь меньше( 🔫

Короче, очень интересно, чем окажется модель, и когда это вскроется. И тем более какое у неё будет место на лидерборде. Поживём — увидим!

Но просто напомню, что GPT-4 была запущена как часть Bing Chat за 5 недель до официального анонса
🤡
а потом все такие «вау!»

Пишите в комменты про ваш опыт использования 👇 только не выбирайте слишком сложные задачи, модель прям не настолько лучше, чтобы претендовать на звание AGI.

эйай ньюз 2024-04-29 21:49:12

Умельцы из твиттера сделали инфографику о том, как топ ChatBot Arena менялся за последний год.

Чат-гпт все ещё держится, но ей дышат в затылок. Конкуренция идёт серьезная. Посмотрим, есть ли у ClosedAI ещё козыри в рукаве.

Что такое ChatBot Arena – тут.

@ai_newz

Сиолошная 2024-04-29 20:18:44

Спойлер к сообщениям ниже

Метаверсище и ИИще 2024-04-29 18:04:47

Помните как год назад Уиилл Смиит ел спагетти?
Была также версия с пиццей, год назад.
А теперь оцените прогресс за год в ИИ-поедании пиццы (слева и справа).
Свежая версия подъехала на реддит:
https://www.reddit.com/r/aivideo/s/ACvEQqafVz

Прогресс, конечно, не как в картинках, а Сору нам только в мечтах показывают.

Где это сделано ищите по логотипу вверху справа. Смотреть со звуком. ИИмоции у него на лице - огонь, конечно.

Сора, выходи из внутреннего тестирования! Иначе наркоманские видео заполнят интернет и проникнут в датасеты.

Короче, подписчики предлагают измерять прогресс в ИИ-видео в вилсмитах. Год назад было 0.1, щас где-то 0.4 вилсмита.
Когда начнет пиццей в рот попадать с первого раза будет 0.8 вилсмитов.

Сиолошная 2024-04-29 11:16:14

Из вот этого видео узнал про интересный эксперимент NASA от 1984-го года, Long Duration Exposure Facility. Он представлял собой цилиндрическую установку, предназначенную для предоставления долгосрочных экспериментальных данных о космической среде и ее влиянии на космические системы, материалы и выживаемость разных видов спор.

Эта штука выводилась на орбиту Шаттлом (они уже тогда были!), чуть выше чем МКС (480 КМ), и по плану через годик он же должен был аккуратно снять LDEF с орбиты и вернуть на Землю.

Картинка 1 — вывод на орбиту, картинка 2 — забор, картинка 3 — Шаттл «Columbia» вместе с забранным грузом перевозят в другое место (каждый раз удивляюсь, как вижу фотки Шаттлов на самолётах).

Изначально LDEF должна была повисеть на орбите год, но по разным обстоятельствам миссии откладывались, и в итоге за ней вернулись лишь через 69 месяцев (nice). Штука в том, что станция содержала какой-то очень странный механизм (gravity-gradient stabilization), который заменил двигательную установку или другие системы ориентации. Все 5 лет станция была в стационарном состоянии, без вращения вокруг своих осей, и направлена одной стороной к Земле, другой от неё — чтобы разные эксперименты на разных сторонах тушки получали ровно отмеренные дозы.

Главной целью миссии было лучше понять влияние радиации, атмосферы, Солнца и маленьких метеоритов на материалы, потенциально предназначенные для разработки крупных космических станций. Именно эти данные ложились в основу при проектировании МКС и проектов других, даже никогда не полетевших, станций.

Метаверсище и ИИще 2024-04-29 09:46:43

Учите программирование в любом возрасте.

Я
тут порылся в сохраненном и неопубликованном и нашел ответ на вопрос из поста выше.
Похоже, что для того, чтобы было меньше таких заголовков из последнего поста, надо учить кожаных программированию (в любом возрасте).
Есть вот такая работа:

"Если LLM - волшебник, то код - волшебная палочка: Обзор того, как код позволяет большим языковым моделям служить в качестве интеллектуальных агентов"

Вывод такой: если замешивать в обучение не только "обычные" тексты, но и большое количество кода, то модель точно становится умнее и приобретает навыки критического мышления и декомпозиции задач. Последнее очень важно для медленного "размышления" в отличие от быстрых принятия решений.

Если подробнее, то включение кода в датасеты повышает навыки программирования у моделей, позволяя им писать код на нескольких(!) языках. Тут вроде банально, но с разными языками очень круто.

Структурные ответы: генерация контента с помощью жестко-структурированных данных, таких как HTML или таблицы. Тут тоже предсказуемо. Но глядя на то как некоторые кожаные мычат, пытаясь сформулировать простые мысли, хочется послать их на курсы бейсика.

Дальше интереснее, обученные на добавленном коде LLM демонстрируют навыки сложного рассуждения и тех самых chain of thoughts. Декомпозиция и размышление.

Авторы предполагают, что такие LLM легче превращаются в продвинутых интеллектуальных агентов, способных принимать решения и самостоятельно решать задачи.

Я понял, что написал какой-то рекламный проеспект курсов по программированию:

Учите программирование (сами и с детьми) и вы:
будете умнее
получите скилл критического мышления и сопоставления фактов
научитесь не мычать, а внятно излагать свои мысли
приобретете способность делать речерч в своей кожаной голове, а не только реагировать на тиктоки

И все это просто подмешав немного кода в вашу кожаную голову.

Маркетологи забирайте, дорого!

Сама работат вот тут:
https://openreview.net/pdf?id=8dmNOD9hbq

Метаверсище и ИИще 2024-04-29 08:19:22

Почему такие заголовки работают для одних доменов населения и не работают для других? Где и когда раздают критическое мышление? В семье или в школе?
Я давно так не смеялся, это очень смешно:

Neural Shit 2024-04-29 06:03:14

Кожаные снова пытаются подгадить ИИ.

Выяснилось, что футболка с принтом знака STOP в большинстве попыток может останавливать беспилотные автомобили на дороге.

Кажется, кому-то придется переразмечать датасеты

Метаверсище и ИИще 2024-04-28 20:28:50

Это скорее новость для многочисленных каналов-аггрегаторов ИИ-новостей:

Эппле выбирает, чей ИИ вонзить в свои телефоны: решения OpenAI или Google Gemini...
https://www.businessinsider.com/apple-negotiating-openai-google-gemini-ai-to-next-iphone-2024-4

эйай ньюз 2024-04-28 15:52:15

Нейродайджест за неделю (#15)

1. Хайлайты из US
- Вылетаю из Цюриха в Сан-Франциско для встреч с коллегами, ну и чтобы отметить успешнвй релиз Imagine Flash и LLaMa-3.
- Румтур по офису Мечты от Меты в Menlo Park, где работает несколько десятков тысяч человек.
    - О Сан-Франциско, и о сходке.

2. Роботехам стало скучно.
   - Огнедышащий робо-пес от Throwflame теперь доступен для покупки каждому психопату.
- Как развлекается кофаундер HuggingFace: создали робота Немо из г*ван, палок и трёх open-source LLM.

3. ЭйАй селебрити

- Марк Цукерберг кайфанул от Imagine Flash и почему-то задумался об открытии магазина мяса после ухода из Meta.
- Сэм Альтман выступил в Стэнфорде, таких очередей не видели даже в советском союзе.

8. ЛэЛэМэ
   - Microsoft выпустила Phi-3, новую модель с поддержкой 128K контекста. Я уже боялся, что она догонит Llama 8B, но чуда не произошло.
    - будущее LLM и что будет потом...
   - FineWeb - новый датасет чище, больше, круче! Все для претрейна моделей.
- OpenELM - Apple выпустили открытую LLM (с трейнинг кодом), по качеству такая себе, но важен сам факт.

9. Дегенеративные Видосы
- Vidu в шаге от Sora, китайским стартапом из универа Цинхуа наступает на пятки Open AI (если верить демке).
- Диффузионные модели для генерации видео – новый #ликбез от Lilian Weng, о текущих подходах.

#дайджест
@ai_newz

Neural Shit 2024-04-28 10:47:20

Просто сравнение генерации midjourney 2 года назад и сейчас с одной и той же текстовой подсказкой.