Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 45 (50 постов)

Репосты из тематических каналов

Сиолошная 2023-07-19 08:24:28

Интересный факт из статьи оригинальной LLAMA (не второй).

Взяли 100 тысяч промптов, дали модели сгенерировать ответ на них, а затем использовали внешнее API для оценки токсичности ответов. В таблице указана некоторая абстрактная оценка, чем она ниже - тем менее токсично отвечала модель.

Далее проделали тот же самый эксперимент, но добавили в прмопт просьбу отвечать уважительно и вежливо. Кажется, это должно привести к уменьшению скора токсичности, не правда ли?

А ВОТ ХРЕН ВАМ

👀
😡
для самой большой LLAMA-65B токсичность увеличилась, модель как бы противилась отвечать вежливо 🙂 Немного похоже на людей, хе-хе

Узнали себя? Согласны? 👀

Для LLAMA-2 прямо такого же сравнения не видел, но там модели заточены быть нетоксичными, так что ситуация должна отличаться.

gonzo-обзоры ML статей 2023-07-19 07:16:43

"The OECD published a report into the adoption of generative artificial intelligence in the workplace. It said that although the impact of AI on jobs had been limited so far, there remained a significant potential for disruption. It thinks that the roles most exposed to AI are managers, chief executives and engineers. The least exposed jobs are rubbish collectors, labourers and cleaners."

https://www.economist.com/the-world-this-week/2023/07/13/business

A bright future for humankind! 😁

Сиолошная 2023-07-18 23:06:00

Поиграться онлайн с 70B-моделькой бесплатно без СМС и регистрации можно тут:

https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI

Быстренько проверил, на русском модель не ответила (хотя запрос поняла) — пишите на английском 🙂 Возможно, просто в промпте дана инструкция отвечать так.

ФУХ СПАСИБО МОДЕЛЬ! Не оскорбила меня! Низкий поклон и дай те бох здоровя

👍

Сиолошная 2023-07-18 22:43:08

Что-то происходит на chat.openai.com

Во-первых, GPT-4 и ChatGPT поменялись местами. Последнюю сделали Alpha, хотя она в обиходе уже более полугода!

Во-вторых, для GPT-4 интерпретатор кода и плагины переехали в Beta, то есть в них что-то исправили, быть может модели доучили, не знаю.

Будем следить за обновками!

Сиолошная 2023-07-18 21:00:42

Нигде этого не видел, будем считать, что все пропустили: параллельно с релизом LLAMA-2 анонсировали запуск соревнования "Llama Impact Challenge":

https://ai.meta.com/llama/llama-impact-challenge/

Пока страница пуста, скоро будут детали и правила участия.

Основная адженда:
> Мы хотим задействовать сообщество новаторов, которые стремятся использовать Llama для решения сложных проблем. Мы запускаем конкурс, чтобы побудить различные общественные, некоммерческие и коммерческие организации использовать Llama 2 для решения экологических, образовательных и других важных задач

Идут по пути OpenAI? Сейчас фонды разные начнут создаваться ещё, туда сюда, затем LeCun начнёт за Safety затирать...

Сиолошная 2023-07-18 20:44:40

И последнее. В статье представлен метод Ghost Attention (GAtt), который помогает модели научиться смотреть на основную инструкцию (системное сообщение в терминах GPT-4), и лучше ей следовать.
Особенно это актуально в длинных переписках в несколько шагов диалога (ответов разных сторон). Примеры инструкций - это "Act as Napoleon" или "Speak in French" в самом начале диалога.

Подобный пример и представлен выше - модель просят отвечать смайликами, но без GAtt уже на втором сообщении инструкция забывается. С GAtt модель всё помнит

😐

Интересная штука, обязательно с ней поиграюсь на неделе, посмотрю, какие проблемы может на работе решить.

Сиолошная 2023-07-18 20:40:19

Как и ChatGPT, и GPT-4, модель была дообучена быть "безопасной". Интересно, насколько сильно это повлияет на популярность — будут ли работяги в опенсурсе обучать себе AI-подружек, с которыми не получится сделать интимный чат, потому что модель уйдет в отказ? Или всё не так плохо? Поживём - увидим, а пока...

Вашему вниманию график доли специально подобранных провокационных промптов (всего 2000 штук), на которые модель реагирует не в safety-режиме. Всё относится к CHAT-версии модели, обычная и без корректировок (но и недообучения на оцененных диалогах) выложена, так что с ней можно будет тоже играться.

Так вот, safety у модели, согласно такой оценке, лучше ChatGPT-3.5 и лучшее среди открытых моделей.

Интересно, что у 34B модели почему-то случился выброс, и она как-будто бы "токсичит". Возможно, именно поэтому её не опубликовали - остальные то модели доступны уже сгеодня!

Сиолошная 2023-07-18 20:29:40

Другой интересный инсайд из статьи:

Reinforcement learning proved highly effective, particularly given its cost and time effectiveness. Our findings underscore that the crucial determinant of RLHF’s success lies in the synergy it fosters between humans and LLMs throughout the annotation process. Even with proficient annotators, each individual writes with significant variation. A model fine-tuned on SFT annotation learns this diversity, including, unfortunately, the tail-end of poorly executed annotation. Furthermore, the model’s performance is capped by the writing abilities of the most skilled annotators.

И ещё:

Surprisingly, we found that the outputs sampled from the resulting SFT model were often competitive with SFT data handwritten by human annotators, suggesting that we could reprioritize and devote more annotation effort to preference-based annotation for RLHF.

То есть полученная на SFT модель (дообучение на предзаготовленных хорошо вычищенных данных) в целом уже себя неплохо показывает, и можно не тратить деньги на ручное написание "идеальных" ответов модели человеком, а переходить исключительно к оценке предпочтений (то самые A лучше B).

As the man said, High-Quality Data Is All We Need

Сиолошная 2023-07-18 20:26:11

Про качество данных для дообучения тех самых последних процентов:

Quality Is All You Need. (правда прямо так и назвали параграф)

Third-party SFT data is available from many different sources, but we found that many of these have insufficient diversity and quality — in particular for aligning LLMs towards dialogue-style instructions... By setting aside millions of examples from third-party datasets and using fewer but higher-quality examples from our own vendor-based annotation efforts, our results notably improved. We found that SFT annotations in the order of tens of thousands was enough to achieve a high-quality result.

На графике - распределение некоторой абстрактной оценки между разными итерациями обучения, от SFT на предзаготовленных данных до RLHF на самых актуальных данных, качественно размеченных людьми.

Чем ниже (позже) этап, тем больше ответов получают оценку выше — там вон аж горбик справа получился (= для большого количества ответов модель давала хорошие ответы).

Сиолошная 2023-07-18 20:23:23

Итак, почитал статью (не полностью), посмотрел, что пишут другие, тезисно:
главное: модель станет новым флагманом всего OpenSource сообщества, так как во всех аспектах лучше своей предшественницы, наделавшей много шума (и породившей целую волну хайпа). При этом с точки зрения архитектуры изменения незначительные: ширина контекста 4k токенов (в 2 раза больше), плюс для больших моделей используется оптимизация с целью экономии памяти при генерации. То есть модельки теперь должны чуть быстрее работать, и обладать большей пропускной способностью. Модель УЖЕ запускается в GGML/паре других интерфейсов

🤪 (может быть даже без изменений кода, но не смотрел)

— тренировочная выборка включает набор данных из общедоступных источников, и не включает данные от продуктов Meta (Insta, WhatsApp, etc.). Также удалены данные, полученные с сайтов, содержащих большой объем персональной информации
— все модели тренировались 2 триллиона токенов. Это на 42-100% больше прошлых LLAMA (там было 1T для маленьких и 1.4T для больших). По оценкам и слухам, GPT-4 тренировалась на ~13T токенов, а PaLM-2 от Google чуть меньше (порядка десяти триллионов)
— больше про датасет для предтренировки почти не говорят, лишь упоминают, что чаще берут данные из источников с "фактами", чтобы модель их выучивала и меньше галлюцианировала

— значимая часть статьи посвящена измененной процедуре тренировки, а если конкретнее - дотренировке. То есть первые 90-95% времени модель учится предсказывать следующее слово в тексте и всё. А вот потом начинается часть, аналогичная ChatGPT (мегаподробно можно прочитать и перечитать в моей статье, с картинками и объяснениями на пальцах)
— для того, чтобы такую дотренировку произвести, нужны данные о человеческих предпочтениях (чтобы модель училась их угадывать и удовлетворять пользовательские запросы). Данные глобально размечались по двум направлениям: safety & helpfulness. Причём, аннотировались целые диалоги, что существенно отличает формат данных от публично доступных. Всего вышло более 1.4M пар сравнения (человек считает, что A лучше B), а среднее количество фраз в диалоге равняется 3.9.
– я как раз писал, что опенсорсные модели страдают от этого, и хуже работают в диалоговом формате. По идее наследники LLAMA-2 должны быть лучше в поддержании контекста. В среднем в диалоге было 800 токенов, что очень много (~2 страницы текста).
— данные собирались итеративно, то есть модель обучали несколько раз, и затем уже более качественной генерировали новые диалоги для оценки, и так по кругу. Также делали и OpenAI.
— Однако всего таких пар сравнения было почти 3 миллиона: использовались открытые датасеты от других авторов. Самый большой датасет - больше 1 миллиона сравнений ответов - был со StackExchange (рейтинги разных комментариев на один и тот же вопрос)
— на всех этих парах для сравнений учится так называемая Reward Model (то же и для ChatGPT). Интересно, что тут предлагается обучать две разных модели (одна для safety и одна для helpfulness). При этом есть очень интересное замечание: авторы сравнивают полученную модель с запромпченной GPT4, и они превосходят ее в качестве, но при этом если обучать модель выкинув все собранные в компании 1.4M пар, то такая модель работает хуже GPT-4. То есть всё еще человеческие данные лучше, но они должны быть очень высокого качества - просто хорошее выдают уже и модели. Под качеством здесь понимается доля пар, в которых вердикт модели совпал с оценкой человека.
— перед главной о дообучении моделей разработчики из META указывают на самую важную вещь, которую легко пропустить: точность полученной Reward Model является одним из наиболее важных показателей конечной эффективности моделей. По слухам, примерно к тому же пришли в OpenAI/Anthropic (что имеет смысл вкладываться в качество и количество разметки, и на этом делать хорошую модель). Вот тут есть хороший блогпост с объяснением, почему никто не выкладывает свои Reward Model.

<--конец первой части-->

Neural Shit 2023-07-18 18:15:07

Иногда на досуге развлекаюсь с ChatGPT и прошу ее сгенерировать какой-либо дегенератский контент.

Веселит то, что часто нейронка отказывается это делать объясняя сие тем, что это может оскорблять дегенератов (это дословно, лол).

Но еще больше веселит то, что когда я ей в ответ пишу, что я сам дегенерат и это нисколько не оскорбительно, она со мной соглашается и всё же генерит то, что просил

gonzo-обзоры ML статей 2023-07-18 17:41:49

Видимо, можно было пообучать и ещё

gonzo-обзоры ML статей 2023-07-18 17:23:15

Meta just announced Llama 2

https://ai.meta.com/llama/

The good news: Llama 2 is available for free for research and commercial use (if you're not Twitter 😁) under their own licence, Llama 2 Community License Agreement.

some quotes from the licence:

a. Grant of Rights. You are granted a non-exclusive, worldwide, non-transferable and royalty-free limited license under Meta’s intellectual property or other rights owned by Meta embodied in the Llama Materials to use, reproduce, distribute, copy, create derivative works of, and make modifications to the Llama Materials.

2. Additional Commercial Terms. If, on the Llama 2 version release date, the monthly active users of the products or services made available by or for Licensee, or Licensee’s affiliates, is greater than 700 million monthly active users in the preceding calendar month, you must request a license from Meta, which Meta may grant to you in its sole discretion, and you are not authorized to exercise any of the rights under this Agreement unless or until Meta otherwise expressly grants you such rights.

:)

Llama 2 is pretrained using publicly available online data. Llama 2 models are trained on 2 trillion tokens and have double the context length of Llama 1. Llama-2-chat models have additionally been trained on over 1 million new human annotations.

"We are releasing variants of Llama 2 with 7B, 13B, and 70B parameters. We have also trained 34B variants, which we report on in this paper but are not releasing (due to a lack of time to sufficiently red team)"

An initial version of Llama-2-chat is then created through the use of supervised fine-tuning. Next, Llama-2-chat is iteratively refined using Reinforcement Learning from Human Feedback (RLHF), which includes rejection sampling and proximal policy optimization (PPO).

You can download the paper here: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

Interestingly, Llama 2 is also available on Azure and in Windows.

Now Azure customers can fine-tune and deploy the 7B, 13B, and 70B-parameter Llama 2 models easily and more safely on Azure, the platform for the most widely adopted frontier and open models. In addition, Llama will be optimized to run locally on Windows. Windows developers will be able to use Llama by targeting the DirectML execution provider through the ONNX Runtime, allowing a seamless workflow as they bring generative AI experiences to their applications.

https://blogs.microsoft.com/blog/2023/07/18/microsoft-and-meta-expand-their-ai-partnership-with-llama-2-on-azure-and-windows/

Neural Shit 2023-07-18 16:42:48

Хронология развития роботов Boston Dynamics. 40 лет за полторы минуты.

Скорее бы уже начали делать роботов как в Atomic Heart

эйай ньюз 2023-07-18 16:40:33

🔥Meta зарелизила набор моделей LLaMa-2-Chat разного размера!

Это огромное событие в мире опенсоурса и науки. Коллеги из LLM отдела GenAI выпустили бомбу! LLaMa-2 на 70B параметров сравнима по качетству с GPT-3.5 и даже лучше ее на некоторых бенчмарках.

Это, кстати, первая модель такого размера, затюненая c помощью RLHF, и которую выложили для коммерческого использования БЕСПЛАТНО. Запросить ссылку на скачивание можно тут.

Наконец-то, на базе LLaMa-2-Chat можно строить свои локальные аналоги ChatGPT и не отсылать никаких данных в OpenAI.

LLaMa 2-Chat сравнима по качеству с ChatGPT-3.5 по метрикам human eval, а, например, на математических задачах - даже лучше.

Размер контекста: 4к.
Тренировались модели на 2 триллионах токенов, что в два раза больше чем LLaMa 1.

Больше подробностей в статье

@ai_newz

Сиолошная 2023-07-18 16:16:24

2 триллиона токенов - в 1.3-2 раза больше прошлого поколения, однако сильно меньше того, что делают конкуренты (если верить слухам про OpenAI и Google)

Сиолошная 2023-07-18 16:15:19

Вышло! Статья (pdf): тут
Самая большая модель 70B, есть модели заточенные на чат. Есть RLHF (как у OpenAI!).

Другие детали напишу позже вечером, самое интересное, что найдете, кидайте в комменты)

Репо: GitHub
Веса прямо на HF (но нужно запросить доступ, согласившись с лицензией): тут

DLStories | Нейронные сети и ИИ 2023-07-17 17:44:35

Помните, писала пост про предложение нового вида теста Тьюринга? Tl;dr там такой: давайте сравнивать поведение машины с поведением разных животных. Если машина неотличима по поведению от кошки, она прошла тест Тьюринга уровня "кошка". Ну и так для разных животных от червяка до человека.

А вот тут Мустафа Сулейман (co-founder and CEO of Inflection AI, в прошлом co-founder of DeepMind) предлагает еще один вариант. Он говорит вот что: давайте смотреть не на то, насколько модель "умна в целом", а на то, "что осмысленного модель может сделать".

Например, давайте попросим модель "заработать миллион долларов на онлайн-платформе для ритейла с начальной инвестицией в 100k долларов". Чтобы решить такую задачу, модели нужно не только расписать план действий (как может сделать GPT-4), а сделать кучу связанных действий: придумать продукты для продажи, общаться с производителями и поставщиками, вести переговоры о контрактах и продумывать маркетинг.

Сулейман называет AI, который мог бы решать подобные задачи, “Artificial Capable Intelligence” (AСI). По его мнению, ACI — это промежуточная версия между слабым AI и AGI. А еще Сулейман верит, что ACI может быть достигнут уже через пару-тройку лет, и вот тогда это окажет огромное влияние на экономику. Мы перейдем от фазы "AI полезен в решении каких-то задач" в фазу "AI — центральная составляющая мировой экономики".

Мои мысли по этому поводу:
- Это немного похоже на предложение нового теста Тьюринга из поста выше. Похоже тем, что и тут, и там от модели начиает требоваться не только возможность общаться, но и возможность взаимодействовать с миром. Кажется, это требование — логичный шаг в эволюции наших ожиданий от AI;
- Не совсем понятно, как в таком сеттинге сравнивать между собой модели для разных задач. Возможно, это и не предусматривается, но тогда это похоже на обычный бенчмарк в RL-сеттинге, а не на тест Тьюринга. Просто задача чуть посложнее, чем классификация картинок ImageNet или игры Atari;
- Не очень понятно, как тестировать такие модели, если их тест предуматривает реальное взаимодействие с миром с живыми людьми. В примере выше модели нужно заработать миллион долларов, распоряжаясь реальными деньгами, создавая и продавая реальные товары реальным людям, в процессе коммуницируя с кучей людей. Кажется, тестирование модели будут тратить довольно много человеческого времени и денег.

Возможно, ответы на эти вопросы есть в книге Мустафы Сулеймана "The Coming Wave: Technology, Power and the Twenty-First Century's Greatest Dilemma". Интересно будет почитать (она выходит 5 сентября)
А пока подробнее почитать об идее нового теста Тьюринга можно в статье MIT Tech Review

gonzo-обзоры ML статей 2023-07-17 00:43:22

Классический DreamBooth

gonzo-обзоры ML статей 2023-07-17 00:42:52

HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
Статья: https://arxiv.org/abs/2307.06949
Сайт: https://hyperdreambooth.github.io/

Прикольная работа с гиперсетями, которые я нежно люблю.

Если кто не знаком с концепцией Hypernetworks, то в двух словах это когда одна нейросеть (она и есть гиперсеть) генерирует веса для другой нейросети. Начало этому направлению было положено одноимённой работой Дэвида Ха и ко (https://arxiv.org/abs/1609.09106). Работы с гиперсетями в целом идут довольно регулярным потоком, но, на мой взгляд, всё равно тема малоизвестная и по ощущению недостаточно глубоко проработанная, в том смысле, что, я убеждён, там скрывается ещё много всего интересного.

На этот раз гиперсети применили для персонализации text-to-image моделей, а точнее для ускорения DreamBooth (https://arxiv.org/abs/2208.12242). DreamBooth был способен файнтюнить предобученные модели (в той работе был Imagen) небольшим числом картинок (3-5) конкретного персонажа, так что модель выучивала уникальный идентификатор (например, “[V]”) субъекта, и его можно далее было использовать для синтеза картинок с этим субъектом в различных новых контекстах (“A [V] dog in the beach”). Примеры работы DreamBooth в статье или на сайте-компаньоне (https://dreambooth.github.io/).

Для файнтюнинга DreamBooth процесс с 1000 итераций занимал 5 минут для Imagen на TPUv4 или Stable Diffusion на A100. Процесс затрагивал все веса UNet’а и текстового энкодера, что в случае Stable Diffusion требовало порядка 1Gb на каждую персонализацию.

HyperDreamBooth сокращает размер кастомизированной модели (в этой работе берут Stable Diffusion) и делает процесс быстрее. Это не единственный способ ускорения персонализации, есть и другие подходы, но мы их тут не рассматриваем.

А ещё он работает на одной фотографии.

Рецепт HyperDreamBooth состоит из трёх ингредиентов.

1) Lightweight DreamBooth (LiDB) является по сути LoRA++.

Сначала делается уже общеизвестная LoRA (Low-Rank Adaptation, https://arxiv.org/abs/2106.09685), где предобученные веса W_0 (размерности n×m) заменяются сначала на сумму замороженных W_0 и обучаемых ∆W, а затем для ∆W делается низкоранговая аппроксимация ∆W=AB (размерность A n×r, размерность B r×m и r<<min(n, m), и работает всё даже для r = 1). Вот эта вот факторизованная добавка обычно и распространяется как LoRA-модель, которая не является полноценной моделью и требует оригинальных предобученных весов, чтобы посчитать с ними W_0 + AB.

Это уже уменьшает размер файнтюненной модели на три порядка, оставляя 386K параметров, требующих 1.6Mb места.

Затем идут дальше и делают ещё одну декомпозицию матриц A и B на A = A_aux*A_train (размерность A_aux n×a, A_train a×r) и B = B_train*B_aux (размерности аналогично r×b и b×m), где aux инициализированы случайными ортогональными векторами, которые заморожены, а обучаются только матрицы train. Гиперпараметры a и b подбираются экспериментально, в работе выбрали a = 100, b = 50. Это уменьшает модель ещё в 10 раз относительно LoRA. Финальная модель (вернее добавка относительно базовой модели) содержит 28К весов и занимает 120Кб места. Что конечно big deal, если нужно хостить множество файнтюненных моделей.

Эти матрицы A_train, B_train получают для каждого слоя внимания (кросс- или self-).

2) HyperNetwork for Fast Personalization of Text-to-Image Models -- собственно гиперсеть, которая по входному изображению предсказывает матрицы A_train и B_train от LiDB.

Гиперсеть обучается на наборе доменно-специфичных картинок (взяли CelebAHQ) с миксом обычного diffusion denoising loss и weight-space loss. Для всех сэмплов используется один и тот же промпт “a [V] face”.

Архитектура гиперсети -- это картиночный энкодер на базе ViT (ViT-H) и декодер трансформера (2 слоя). Декодер итеративно уточняет предсказания весов, стартуя с нулевых значений. Число итераций s -- гиперпараметр (и я не понял, чему он равен). На выходе также есть обучаемые линейные слои.

gonzo-обзоры ML статей 2023-07-17 00:42:52

3) Rank-Relaxed Fast Finetuning для улучшения схватывания моделью мелких деталей. Предсказанные гиперсетью веса файнтюнятся с diffusion denoising loss. Ключевым здесь является rank-relaxed finetuning, где ранг LoRA модели меняется с r = 1 на r > 1 перед файнтюнингом. Веса предсказанные гиперсетью добавляются к основным весам модели и проводится LoRA файнтюнинг с новым более высоким рангом. Используется тот же самый промпт “a [V] face”.

То есть получается, что гиперсеть выдаёт инициализацию весов, с которой файнтюнинг проходит достаточно быстро, за 40 итераций, что в 25 раз быстрее DreamBooth и LoRA DreamBooth, где было 1000 итераций.

Результаты превосходят Textual Inversion и оригинальный DreamBooth (которому вроде как и число итераций немного подняли, до 1200). Картинки прикольные.

Такие дела. Стартапы, вперёд!

А у вас какой любимый кейс с hypernetworks?

Сиолошная 2023-07-16 14:14:58

Ради интереса спросил у GPT-4, сколько прошло дней с момента запуска. Она дала точный ответ без использования внешних инструментов вроде вызова Python.

Я не ожидал, что она справится, учтя все високосные года, включая 2000.

Сиолошная 2023-07-16 14:11:41

Долгое время у меня на рабочем столе была вот такая заставка, где изображены все Сатурны в момент старта.

Всего было произведено 13 пусков ракеты-носителя «Сатурн-5» — и все признаны успешными.

Сиолошная 2023-07-16 14:10:18

Ровно 54 года назад, 16го июля 1969го года, была запущена миссия Apollo 11, в ходе которой жители Земли впервые в истории совершили посадку и ступили на поверхность другого небесного тела — Луны. США тем самым выиграли лунную гонку, обогнав советов.

Сама идея высадки на Луну была озвучена президентом Кеннеди в 1962м году в ходе выступления в Rice University. Тогда он произнес впечатляющую речь ("We choose to go to the Moon"), отрывок которой меня до сих пор вдохновляет:

> We choose to go to the Moon in this decade and do the other things, not because they are easy, but because they are hard; because that goal will serve to organize and measure the best of our energies and skills, because that challenge is one that we are willing to accept, one we are unwilling to postpone, and one we intend to win

Запись на YouTube: с таймкодом

Миссия была запущена ракетой Saturn V, до недавнего времени самой мощной ракетой в мире (кто обогнал - можно прочитать тут). Лет десять назад я очень расстраивался, что поздно родился, и не застал пуски на Луну, но мне - и вам - повезло, что мы можем радоваться успехам человечества вместе, наблюдая за развитием технологий, в том числе за попыткой вернуться на Луну и пойти дальше — на Марс.

Великолепные видео на английском от Smarter Every Day про ракету:
— как был устроен бортовой компьютер (15 минут)
— общий разбор ракеты с экспертом (59 минут)

эйай ньюз 2023-07-16 08:47:31

Именно. PhD - это просто подтверждение того, что ты можешь долго и упорно бить в одну точку и, несмотря на неопределенность и долгие неудачи, идти к решению роблемы, создавать новое.

Это одна из причин почему в ресерч-команды в большинстве случаев нанимают именно людей с PhD (у нас в команде тоже так).

И на самом деле не очень важно иметь 100% совпадение темы PhD и того, над чем команда работает. Если видно, что человек способный и затащил PhD с сильными публикациями, то он разберется в любой новой теме.

@ai_newz

Сиолошная 2023-07-15 20:32:12

Новость одной строкой: ходят слухи, что META готовит релиз LLAMA-2, причём, с коммерческой лицензией на использование. И модель, конечно, будет умнее, дополнительно натренирована на коде (и как будто даже изображениях!).

Ждём всем опенсурс-сообществом!

(сори, вышло больше одной строки)

Источник

Сиолошная 2023-07-15 13:56:45

Я уже писал в канале, почему мне не так интересно участвовать в типовых соревнованиях по ML — мне больше нравятся новые челленджи, в которых можно научиться сразу большому количеству вещей. Вот тут я делал обзор задачек на ближайшие полгода, в которые было бы интересно вкатиться в рамках конференции NeurIPS.

А пару дней назад на Kaggle запустили "LLM Science Exam". Цель — обучить такую модель, которая из 5 предлагаемых вариантов ответа на какой-то вопрос выбирает 3 наиболее правильных с её точки зрения (в порядке корректности, то есть среди этих трёх всё равно хочется правильный ответ выдавать первым).

Интересно, что данные для этой задачи был созданы путем предоставления gpt3.5 фрагментов текста по ряду тем, взятых из Википедии, и просьбы написать вопрос с несколькими вариантами ответов (при этом ответ был в контексте). Конечно, процесс не был лишён шага ручной фильтрации, но вообще это же почти автоматический генератор данных для обучения схожих моделей. Вот, мол, абзац с Википедии, придумай вопрос, придумай правдоподобные ответы, проверь себя, что ничего не напутала. Повторить раза 3 эту цепочку — и можно нагенерировать десятки тысяч "задачек" для тестов.

Соответственно, авторы предлагают всего 200 размеченных примеров, чтобы дать общее представление о задаче и домене. Добыть остальные данные, обучить модель и даже обернуть её в контейнер, чтобы отправить на Kaggle - это уже задача участников соревнования. Можно где развернуться — и ускорять работу моделей, беря чекпоинты побольше и поумнее. Можно упороться по качеству данных для дообучения, используя GPT-4 и огромные базы знаний в интернете. Можно вспомнить про цепочки рассуждений и придумывать разные промпты. Можно обучать модель рассуждать от обратного, выбирая наиболее неправильные варианты. Возможностей очень много, и я рекомендую попробовать свои силы в этом соревновании тем, кому реально интересно заниматься LLM — это отличный шанс получить огромное количество знаний.

Из интересного — вам нужно отправить свою обученную модель, где она за 9 часов должна ответить на 4'000 вопросов. Не скажу, что у всех условия равны — если у вас есть 10 видеокарт дома, то вы всё равно сможете поставить больше экспериментов и получить модель получше, однако гэп из-за ресурсов сокращается.

Сиолошная 2023-07-15 11:31:42

Вчера в Twitter Spaces (аналог Clubhouse прямо в Twitter, удивлен, что некоторые не знают, что такое есть!) состоялся звонок между ко-фаундерами xAI, где они рассказали про себя, про свои цели и поотвечали на вопросы. Главное для вас (источник, хоть я и сам слушал, но не записывал):

— Илон сказал, что цель xAI — создать хороший AGI (искусственный общий интеллект) с целью понимания Вселенной.
— также он отметил, что есть так много того, что мы, как уверены, "понимаем", но на самом деле это не так. Есть много нерешенных вопросов. Например, остается много вопросов о природе гравитации и о том, почему нет массовых свидетельств существования инопланетян. Он сказал, что до сих пор не видел никаких доказательств присутствия инопланетян. Затем он углубился в парадокс Ферми и в то, как возможно, что сознание, отличное от человеческого, может не существовать в нашей галактике (галактике, не Вселенной!)
— другой ко-фаундер Greg Yang сказал, что математика, которую они будут развивать в xAi в рамках работы над проектом, может открыть новые перспективы для существующих научных нерешенных проблем, таких как «Теория всего».
— в команде сейчас не так много людей, и потому в пересчёте на человека у них есть доступ к огромному количеству вычислительных ресурсов, поэтому исследователи могут проверять свои гипотезы на масштабе и без необходимости уступок из-за приоритетов.
— Илон заявил, что нельзя ничего называть AI, пока этот алгоритм не решит хотя бы один фундаментальный вопрос
— Они собираются опубликовать дополнительную информацию о первых релизах xAI еще через пару недель
Илон Маск заявил, что xAI создается как конкурент OpenAI
— также он сказал, что каждая организация, занимающаяся ИИ, незаконно использовала данные Twitter для обучения. В Twitter нужно было ввести ограничения, потому что компании парсили его как сумасшедшие. Несколько организаций пытались скачать каждый твит из миллиардов отправленных за последние месяцы. Однако xAI будет использовать твиты для обучения (ой как удобно)
— В какой-то момент у нас закончатся данные, созданные человеком. Так что в конечном итоге ИИ придется генерировать собственный контент и самостоятельно на нём обучаться (как это делают компьютере при игре в Го или шахматы)
— Маск считает, что в Китае тоже будет регулирование ИИ. Он сказал, что коммунистическая партия не захочет подчиняться цифровому сверхразуму 🙂
— xAI будет сотрудничать с Tesla по нескольким направлениям, и это будет взаимовыгодно. Возможности автопилотов Tesla будут расширены благодаря xAI
— Маск считает, что предсказание Ray Kurzweil об AGI к 2029 году довольно точно, плюс-минус год

Neural Shit 2023-07-15 10:54:28

От подписчика: если сгенерить в Kandinsky 2.2 изображение, сделать его вариацию, а после смешать эти два изображения, итог получится слегка шакальным. Продолжая таким образом делать вариации изображения и смешивая их, приходим к тому, что почти ничего не остаётся.

Тут подробнее и с бОльшим количеством изображений (сорян за пикабу)

эйай ньюз 2023-07-15 01:07:24

🔥CM3leon - Новая универсальная генеративная модель для Картинок и текста

Ребята из Meta AI (FAIR) представили новую генеративную модель. Это по сути мультимодальная decoder-only LLM на базе архитектуры OPT, которая умеет работать как с изображениями, так и с текстом.

Для картинок используется предобученный токенизатор VQ-VAE, который разбивает 256x256 изображеие на 1024 токена из словаря размером в 8192.

Натренили модельку на 7 млрд параметров — CM3Leon-7B, которая хорошо генерит в 256x256 и выдает state-of-the-art FID = 4.8 на MS-COCO.

Модель умеет:
1. text-to-image
2. image-to-text, то есть можно спрашивать любые вопросы по картинке
3. image-to-image с текстовой инструкцией

Одна генерация 256x256 занимает 9 сек в int8 (для сравнения авторегрессионная модель Parti-3В требует 6.4 сек, но дает хуже результаты).

Блог
Статья

@ai_newz

gonzo-обзоры ML статей 2023-07-14 20:14:12

А ещё тем временем Google Bard раскатили на 40 языков и добавили поддержку картинок в промптах. Чего мы всё никак не дождёмся от GPT-4...

https://blog.google/products/bard/google-bard-new-features-update-july-2023/

Neural Shit 2023-07-14 16:07:32

Там Stability AI выкатили ‘Stable Doodle’.

Похоже на GauGAN от Nvidia, только поддерживает текстовые подсказки и разные стили.

Го рисовать хуи! Поиграться можно тут, работает достаточно быстро.

Neural Shit 2023-07-14 15:20:47

Киберпанк, который мы заслужили

эйай ньюз 2023-07-13 23:17:16

🎙Клонирование и синтез голоса

GenAI стартап-бум продолжается. Стартап из Торонто resemble.ai занимается клонированием и синтезом голоса и вчера поднял $8M в Series A.

Это точно не единственная компания, которая занимается синтезом голоса. Но вот что интересно - тут можно загрузить записи своего голоса (нужно 12 минут) и они создадут генератор под ваш голос. Пока процесс создания модели под вас в бесплатной версии занимает 2 дня, а синтез из нее стоит $0.006 за секунду.

Из крутых юзкейсов, которые я вижу у них на сайте:
- Редактирование аудиозаписи по тексту. Например, я записал часовой подкаст и хочу подкорректировать некоторые фразы или предложения. Вместо записи новых кусочков аудио, я могу использовать выход speech2text на моей длинной аудиозаписи и редактировать подкаст, редактирую текстовый транскрипт. А моделька, обученная на моем голосе, будет синтезировать отрезки аудио, которые соответствуют измененному куску текста.
- Speech-to-speech: Это перевод аудиозаписи на разные языки, сохраняя голос, и изменения стиля повествования, добавляя разные эмоции.

К сожалению на сайте проекта еще не все описанные возможности доступны, но клонировать свой голос уже можно.

Борьба с дипфейками и нелегальным клонированием:
Интересно, что для борьбы с дипфейками и клонированием голосов, которые вам не принадлежать, от юзера требуют загрузить видео, где "клонируемый" человек говорит текст вроде "Я разрешаю загрузку моих аудио данных в resemble и даю согласие на использование его для генерации контента для юзера [email address]". То есть украсть золотой голос Баскова без его согласия не выйдет (на самом деле выйдет, если вы сами сможете собрать похожий пайплайн из кода на гитхабе).

@ai_newz

Neural Shit 2023-07-13 16:24:21

https://www.youtube.com/watch?v=-FTRmW9y04E

Мы с этими нейронками с каждым днем всё дальше от бога.

НейроЛетов охуенен.

эйай ньюз 2023-07-12 19:07:28

Roblox Open Beta выходит на Meta Quest 2 & Pro

Roblox давно строит свою метавселенную. Но до этого в нее играли только на 2D девайсах (PC, консоли, мобильники). Сейчас же в партнёрстве с Meta, Roblox получит полноценное 3D воплощение в VR.

Многим читателям канала 20+ лет, и вам наверное не совсем понятен феномен Roblox. Поэтому стоит отметить, что эта платформа имеет 66 млн DAU (daily active users) и большая часть из них это дети и подростки до 17 лет.

Roblox — это своего рода конструктор игр, где любой желающий может создать свой собственный мир. Либо можно подключиться и поиграть со своими друзьями в существующую игру. При этом большой упор делается на кастомизацию внешности своего аватара (я писал про это раньше).

Во время пандемии произошел огромный рост пользователей Roblox. Три из четырех ребенка 9-12 лет из США играют в Roblox.

Ну вот, а теперь все это переносится и в VR, что будет очень круто как для развития экосистемы Quest так и для самого Roblox.

@ai_newz

эйай ньюз 2023-07-12 17:12:52

50 минут назад Маск анонсировал свою новую компанию https://x.ai/ под бодрым лозунгом "Understand the Universe".

По сути это конкурент OpenAI с блекджеком и шлюхами, о котором Маск ранее упоминал.

В ядре команды инженеры и сайнтисты из DeepMind, OpenAI, Google Research, Microsoft Research и Tesla. Некоторые из них тренили GPT-4. Так что инсайдерской инфы у команды достаточно, чтобы воссоздать ChatGPT как минимум. Маск заранее закупился тысячами видеокарт под это дело.

Но, честно сказать, пока не понятно, чем именно эта новая компания будет заниматься. Наверное тоже будут строить AGI.

@ai_newz

Сиолошная 2023-07-12 16:44:46

Elon Musk Announces xAI

https://x.ai

Today we announce the formation of xAI.

The goal of xAI is to understand the true nature of the universe. You can meet the team and ask us questions during a Twitter Spaces chat on Friday, July 14th.

В команде - вот эти прекрасные люди. Рисерчеры достаточно известные, во многих эпохальных работах участие принимавшие. Не чета команде OpenAI, конечно (пока).

Будем посмотреть!

И нет, Igor Babushkin - это не наш с Валерой @cryptovalerii псевдоним!

Neural Shit 2023-07-12 15:06:22

Новый Кандинский прям огонь, разработчикам великий респект (особенно за открытые исходники и веса модельки в публичном доступе)

Вспоминая какого качества картинки генерировала эта моделька в первых версиях и сравнивая с тем, что имеем сейчас, можно охуеть со скорости эволюции модели (это, впринципе, касается всех нейронок)

эйай ньюз 2023-07-12 14:42:23

Bitsandbytes: Быстрый инференс в точности 4-bit

Есть такая библиотечка bitsandbytes, в которой реализованы очень быстрые CUDA-кернелы для 8-битных операций в PyTorch. Выглядит либа как обертки над обычными объектами Pytorch, что огромный плюс, ведь не нужно возиться с C++ кодом как в случае llama.cpp.

В том числе в bitsandbytes есть и оптимизаторы для обучения на 8-битах.

Снижение разрядности операций с fp32 до, например, int8 позволяет в разы сократить время обучения и инференса сетей.

А вчера, автор выложил версию 0.40.0, в которой реализовал эффективный инференс в int4. И на современных GPU мы видим x4 ускорение для операций матричного перемножения и скалярного произведения векторов по сравнению с fp16! А современные трансформеры почти полностью состоят из этого типа операций. То есть при инференсе LLM, мы и экономим драгоценную память, и увеличиваем скорость инференса моделей типа LLaMa до x4.2 раза (см. картинку)!

@ai_newz

Neural Shit 2023-07-12 12:48:32

Среда, мои чуваки! По традиции снова принёс вам свежесгенерированных фактов о лягушках, вот они:

>>Лягушки могут прыгнуть выше, чем Эйфелева башня. Именно поэтому из обиды францкзы ненавидят лягушек и запрещают им посещать город без специального разрешения.

>>Лягушки проводят собственные Олимпийские игры, известные как Олимпийские игры Болота. Среди дисциплин - прыжки через лилии, бег по лужам и синхронное квакание.

>>Лягушки являются истинными гурманами. Они едят только гастрономические блюда. Некоторые из их любимых блюд включают в себя мороженое из мух и суши из комаров

>>Существует теория заговора, что все лягушки - это на самом деле шпионы для межгалактического общества земноводных.

>>Все лягушки на самом деле двоюродные братья Пепе, знаменитого мемного лягушонка. Не верите? Спросите у любой лягушки, и она подтвердит это!

>>Вы знали, что лягушки - мастера маскировки? В действительности, все женщины вокруг нас - это просто лягушки, которые очень хорошо замаскировались!

>>Лягушки никогда не носят носки. Почему? Потому что они всегда их теряют и забывают, где их оставили

>>Каждый раз, когда лягушка квакает, она на самом деле ведет свой собственный подкаст в мире амфибий. На самом деле их основной контент - это обсуждение насекомых и советы по скачкам.

>>Всемирный Союз Лягушек-Хакеров использует свои биологические навыки адаптации для установки новых операционных систем прямо в своих мозгах. Некоторые из них утверждают, что Linux Frogspace работает лучше всех.

>>Жабы - единственные существа на Земле, способные насчитать до бесконечности. Все, что для этого требуется - неограниченное количество мух.

Neural Shit 2023-07-12 12:16:07

Тут снова киберпанк, который мы заслужили.

Бренд игрушек для взрослых разработал нейросеть на основе ChatGPT, которая нашептывает сексуальные фразы, пока работает вибратор — чем эротичнее фразы, тем сильнее вибрирует игрушка

Тут подробнее

Yandex for Developers 2023-07-12 12:09:41

⚡️ Анонсируем новую большую конференцию от Яндекса по прикладному ML — Practical ML Conf 2023

Пока вы наслаждаетесь тёплым летом, мы готовим для вас большую конференцию по прикладному Machine Learning — чтобы обсудить все изменения, которые постоянно происходят в ML-отрасли, и то, как их можно внедрить в свои проекты.

7 сентября вас ждут 500 экспертов, 8 профильных направлений и опытные ML-инженеры, которые меняют сферу уже сейчас. Поговорим о ключевых вопросах индустрии: генеративных моделях, Research, NLP, Hardware, CV, RecSys, MLOps и Ecomm.

Если вы хотите прочитать доклад о прикладном ML, то заполняйте форму до 17 июля. А если нет — save the date и ждите новые подробности: скоро мы начнём рассказывать о программе Practical ML Conf 2023.

До встречи 7 сентября на Practical ML Conf в Москве или онлайн!

42 секунды 2023-07-12 08:33:20

CNBC: Shutterstock и OpenAI заключили расширенное 6-летние партнерство

– OpenAI получит качественные данные для обучения моделей
– Она получит доступ к библиотекам картинок, видео и музыки
– Shutterstock продолжит использовать технологии от OpenAI
– Пользователи смогут изменять изображения на Shutterstock
– Также компании намерены внедрить генеративный ИИ в Giphy

@ftsec

эйай ньюз 2023-07-11 21:21:23

После CVPR и командировки в Menlo Park я наконец возвращаюсь домой в Цюрих.

Удалась довольно продуктивная поездка: Неделя нетворкинга и научных обсуждений на CVPR в Ванкувере, а затем 2 недели бизнес встреч, новых знакомств и планирования проектов в главном офисе Меты в Менло Парк.

За это время я успел встретиться и пообщаться с руководством (нет, не с Марком, к сожалению). Встретился с менеджером менеджера и с нашим директором. Я был поражен насколько открыто и дружелюбно они со мной общались. Наверное, Мета все ещё остаётся одной из самых открытых компаний из Big Tech.

Ещё раз убедился во мнении, что в Силиконовой Долине находится своего рода IT метрополия — почти все самые важные решения в компании делают именно тут, а уж затем доносятся до Европы.

Ну, а теперь, как я вернусь домой, ждите больше сочного мясного контента про генеративный AI.

@ai_newz

gonzo-обзоры ML статей 2023-07-11 16:01:02

Тем временем Anthropic анонсировал доступность Claude 2 через API с окном контекста в 100к токенов

https://www.anthropic.com/index/claude-2

gonzo-обзоры ML статей 2023-07-11 15:14:08

The leak of the day.

https://threadreaderapp.com/thread/1678545170508267522.html

GPT-4's details are leaked.

It is over.

Parameters count:

GPT-4 is more than 10x the size of GPT-3. We believe it has a total of ~1.8 trillion parameters across 120 layers.
Mixture Of Experts - Confirmed.

OpenAI was able to keep costs reasonable by utilizing a mixture of experts (MoE) model.
They utilizes 16 experts within their model, each is about ~111B parameters for MLP. 2 of these experts are routed to per forward pass.

MoE Routing:

While the literature talks a lot about advanced routing algorithms for choosing which experts to route each token to, OpenAI’s is allegedly quite simple, for the current GPT-4 model.

There roughly ~55B shared parameters for attention.

Inference:

Each forward pass inference (generation of 1 token) only utilizes ~280B parameters and ~560 TFLOPs. This contrasts with the ~1.8 trillion parameters and ~3,700 TFLOP that would be required per forward pass of a purely dense model.

Dataset:

GPT-4 is trained on ~13T tokens.

These are not unique tokens, they count the epochs as more tokens as well.

Epoch number: 2 epochs for text-based data and 4 for code-based data.

There is millions of rows of instruction fine-tuning data from ScaleAI & internally.

GPT-4 32K

There was an 8k context length (seqlen) for the pre-training phase. The 32k seqlen version of GPT-4 is based on fine-tuning of the 8k after the pre-training.

Batch Size:

The batch size was gradually ramped up over a number of days on the cluster, but by the end, OpenAI was using a batch size of 60 million! This, of course, is “only” a batch size of 7.5 million tokens per expert due to not every expert seeing all tokens.
For the real batch size:
Divide this number by the seq len to get the real batch size. just stop with this misleading numbers already.

Parallelism Strategies

To parallelize across all their A100s GPUs They utilized 8-way tensor parallelism as that is the limit for NVLink.

Beyond that, they are using 15-way pipeline parallelism.

(likely used ZeRo Stage 1. It is possible they used block-level FSDP)

Training Cost

OpenAI’s training FLOPS for GPT-4 is ~2.15e25, on ~25,000 A100s for 90 to 100 days at about 32% to 36% MFU.

Part of this extremely low utilization is due to an absurd number of failures requiring checkpoints that needed to be restarted from.

If their cost in the cloud was about $1 per A100 hour, the training costs for this run alone would be about $63 million.

(Today, the pre-training could be done with ~8,192 H100 in ~55 days for $21.5 million at $2 per H100 hour.)

Mixture of Expert Tradeoffs

There are multiple MoE tradeoffs taken: For example, MoE is incredibly difficult to deal with on inference because not every part of the model is utilized on every token generation.
This means parts may sit dormant when other parts are being used. When serving users, this really hurts utilization rates.

Researchers have shown that using 64 to 128 experts achieves better loss than 16 experts, but that’s purely research.
There are multiple reasons to go with fewer experts. One reason for OpenAI choosing 16 experts is because more experts are difficult to generalize at many tasks. More experts can also be more difficult to achieve convergence with.
With such a large training run, OpenAI instead chose to be more conservative on the number of experts.

GPT-4 Inference Cost

GPT-4 costs 3x that of the 175B parameter Davinchi.
This is largely due to the larger clusters required for GPT-4 and much lower utilization achieved.
AN estimate of it's costs is $0.0049 cents per 1k tokens for 128 A100s to inference GPT-4 8k seqlen and $0.0021 cents per 1k tokens for 128 H100’s to inference GPT-4 8k seqlen. It should be noted, we assume decent high utilization, and keeping batch sizes high.

gonzo-обзоры ML статей 2023-07-11 15:14:08

Multi-Query Attention

OpenAI are using MQA just like everybody else.
Because of that only 1 head is needed and memory capacity can be significantly reduced for the KV cache. Even then, the 32k seqlen GPT-4 definitely cannot run on 40GB A100s, and the 8k is capped on max bsz.

Continuous batching

OpenAI implements both variable batch sizes and continuous batching. This is so as to allow some level of maximum latency as well optimizing the inference costs.

Vision Multi-Modal

It is a separate vision encoder from the text encoder, with cross-attention. The architecture is similar to Flamingo. This adds more parameters on top of the 1.8T of GPT-4. It is fine-tuned with another ~2 trillion tokens, after the text only pre-training.
On the vision model, OpenAI wanted to train it from scratch, but it wasn’t mature enough, so they wanted to derisk it by starting with text.
One of the primary purposes of this vision capability is for autonomous agents able to read web pages and transcribe what’s in images and video.
Some of the data they train on is joint data (rendered LaTeX/text), screen shots of web page, youtube videos: sampling frames, and run Whisper around it to get transcript.

[Dont want to say "I told you so" but..]

Speculative Decoding

OpenAI might be using speculative decoding on GPT-4's inference. (not sure 100%)

The idea is to use a smaller faster model to decode several tokens in advance, and then feeds them into a large oracle model as a single batch.
If the small model was right about its predictions – the larger model agrees and we can decode several tokens in a single batch.
But if the larger model rejects the tokens predicted by the draft model then the rest of the batch is discarded. And we continue with the larger model.
The conspiracy theory that the new GPT-4 quality had been deteriorated might be simply because they are letting the oracle model accept lower probability sequences from the speculative decoding model.

Inference Architecture

The inference runs on a cluster of 128 GPUs.

There are multiple of these clusters in multiple datacenters in different locations.

It is done in 8-way tensor parallelism and 16-way pipeline parallelism.

Each node of 8 GPUs has only ~130B parameters, or… twitter.com/i/web/status/1
The model has 120, so it fits in 15 different nodes.
[Possibly the there are less layers on the first node since it needs to also compute the embeddings]
According to these numbers: OpenAI should have trained on 2x the tokens if they were trying to go by chinchilla's optimal.

[let alone surpass it like we do]

This goes to show that they are struggling to get high quality data.
Why no FSDP?

A possible reason for this could be that some of the hardware infra they secured is of an older generation.

This is pretty common at local compute clusters as the organisation usually upgrade the infra in several "waves" to avoid a complete pause of operation.… twitter.com/i/web/status/1

gonzo-обзоры ML статей 2023-07-11 15:14:08

Dataset Mixture

They trained on 13T tokens.
CommonCrawl & RefinedWeb are both 5T.

Remove the duplication of tokens from multiple epochs and we get to a much reasonable number of "unaccounted for" tokens: The "secret" data.
Which by this point we already get rumors that parts of it came from twitter, reddit & youtube.

[Rumors that start to become lawsuits]

Some speculations are:
- LibGen (4M+ books)
- Sci-Hub (80M+ papers)
- All of GitHub
My own opinion:

The missing dataset it a custom dataset of college textbooks collected by hand for as much courses as possible.

This is very easy to convert to txt file and than with self-instruct into instruction form.
This creates the "illusion" that GPT-4 "is smart" no matter who use it.

Computer scientist? sure! it can help you with your questions about P!=NP
Philosophy major? It can totally talk to you about epistemology.

Don't you see?
It was trained on the textbooks. It is so obvious.
There are also papers that try to extract by force memorized parts of books from GPT-4 to understand what it trained on.

There are some books it knows so well that it had seen them for sure.

Moreover, If i remember correctly: It even know the unique ids of project Euler exes.

DL in NLP 2023-07-11 15:10:18

Claude 2 доступный как ChatGPT это очень классно

Наконец-то у ChatGPT появляются настоящие конкуренты, а не Bard (который просто игрушка гугла so far). И то что нам принесла конкуренция — реально удобный интерфейс работы с длинными файлами.

Потестировал свой любимый промпт который пока что никто из моделей не смог сделать. Claude 2 пока что тоже с ходу не может написать приличный код для ditributed LM training.

Offtop: заметил что ai.com стал вести не на chagpt, а на сайт майкрософт