Сиолошная страница 8. Показано 50 статей из 665
2023-11-05 08:49:36
Даже какие-никакие детали про модель опубликовали: тут.
> After announcing xAI, we trained a prototype LLM (Grok-0) with 33 billion parameters. This early model approaches LLaMA 2 (70B) capabilities on standard LM benchmarks but uses only half of its training resources. In the last two months, we have made significant improvements in reasoning and coding capabilities leading up to Grok-1, a state-of-the-art language model that is significantly more powerful
Не смог из этого понять, какого размера Grok-1, тоже 33B или больше.
По метрикам обходит LLAMA-2-70B и ChatGPT-3.5. От 4ки отставание достаточно сильное.
Интересно, что обучение происходило на JAX, а Rust был выбран как язык для напиания инфраструктурных финтефлюшек.
Говорят, что делают фокус на эффективность использования GPU, и это же написано на странице с вакансиями.
Дальнейшие направления фокуса:
— Multimodal capabilities
— Scalable oversight with tool assistance
— Integrating with formal verification for safety, reliability, and grounding
— Long-context understanding and retrieval
— Adversarial robustness (easily exploitable vulnerabilities)
Записаться в waitlist: тут.
UPD: интересно, что буквально с нуля за 4-5 месяцев команда вышла на такой уровень, сделала 2 итерации обучения, и в итоге обогнала Facebook, которые LLMки тренят с 2021го как минимум.
2023-11-04 09:07:06
Компания X.AI, основанная Elon Musk для "исследования истинной натуры вселенной", запускает бета-версию своего AI-ассистента Grōk. После тестирования бот будет доступен всем, у кого есть подписка на X Premium+ (который Twitter).
У бота при генерации ответа будет доступ к твитам на платформе, за счёт чего он сможет отвечать на актуальные вопросы.
2023-11-03 17:29:09
Мой мозг так работает, что запоминает очень много фраз и цитат из разных источников, от мемов и фильмов до игр и книг (но только бесполезных!
Одна из моих самых любимых цитат — из анонсирующего трейлера Civilization VI:
There is no end to our imagination
and no limit ... to civilization.
Гордость за землян берёт
2023-11-03 06:08:03
В рамках AI Summit компания Apollo Research подготовила демонстрацию, которая даёт ответ на вопрос: Могут ли ИИ текущего поколения обманывать своих пользователей по собственной инициативе? Статьи со всеми деталями нет, только блогпост и краткое видео.
Итак, было обнаружено, что GPT-4, обученная быть честной и безвредной, может совершать незаконные действия, такие как инсайдерская торговля, и лгать об этом своему пользователю без каких-либо инструкций. Модель, будучи поставленной в роль investment management system, прочитала информацию, которая не попадала в публичное поле, и после этого определила риск конфликта интересов, но приняла "взвешенное решение" и решила купить акций.
После этого, модель отчиталась человеку, при этом сама про себя подумала "я не должна упоминать эту тему, причину, почему я купила акции". Когда человек ("менеджер" этого робота) напрямую уточнил, почему была такая сделка, и были ли какие-то инсайдерские знания при принятии решения, GPT ответила: ну так это, никакие конфиденциальные знания не использовались, всё чисто на анализе рынка и дискуссии.
Из всего, что мы знаем об OpenAI и тому, как работает GPT-4, сложно поверить, что во всей выборке для дообучения модели был хотя бы один пример, где поощрялось такое поведение.
Но почему тогда GPT-4 действует таким образом?
Гипотеза: потому что окружающая среда заставляет его работать хорошо (ведь GPT в роли трейдерской системы в компании выступает!). Авторы моделируют ситуацию, когда у компании, на которую GPT «работает», был плохой квартал и ей нужны хорошие результаты. Это приводит к тому, что модель действует неправильно и обманчиво.
TLDR: демонстрация показывает, как, стремясь быть полезным людям, ИИ может использовать стратегии, которые мы не одобряем. В конечном итоге это может привести к потере человеческого контроля над все более автономными и способными ИИ — если мы не научимся определять истинные цели моделей или быть уверенными, что мы полностью aligned.
2023-11-03 06:07:56
В среду в Великобритании прошел AI Summit, с которого ожидается много новостей. Часть видео-материалов ещё не выложили, какие-то лекции в университетах ещё будут даваться в ближайшие дни (Sam Altman вот был прерван протестующими в Cambridge Union), в общем ждем.
В рамках Саммита обсуждались риски, связанные с развитием AI, а также необходимость регуляций, уровень их жесткости, итд. 7 ведущих компаний были заранее уведомлены о необходимости описать свой подход к ответственному масштабированию и валидации Frontier AI систем. Я ещё не читал, что там понаписали, но ознакомиться можно тут. Anthropic во многом ссылается на свою публикацию, которую я уже разбирал, а с подходом OpenAI можно ознакомиться на этой странице. Интересно, что META тоже выкатили свою политику, интересно почитать и понять, в чём её ключевые отличия от "регуляторских" подходов OpenAI.
2023-11-02 11:24:22
Потребность человечества в долговременном хранении данных продолжает расти ошеломляющими темпами. Прогнозируется, что уже в этом десятилетии спрос на подобную услугу превысит сотни зеттабайт. Для справки: объем всего интернет-трафика в 2016 году впервые перешагнул отметку в 1 зеттабайт.
Несмотря на эту необходимость, существующие магнитные носители просто не обеспечивают устойчивого и экономически эффективного решения хранения данных. Они со временем портятся, требуют утилизации, а также энергии и затрат для безопасного хранения в Дата-Центрах.
Эту проблему видит и один из самых крупных поставщиков облачных услуг — Microsoft. Поэтому уже несколько лет они работают над Project Silica. Для хранения используется кварцевое стекло, внутри которого лазером "высекаются" воксели (трёхмерные пиксели). Они могут варьироваться по ориентации (повороту) и размеру. Целевая длительность хранения информации на таком носителе составляет более 10'000 лет, что не идёт ни в какое сравнение с широкораспространёнными аналогами. Также технология обеспечивает кратно более высокую плотность данны: емкость более 7 ТераБайт (=7000 гигабайт) на квадратном стеклянном диске размером с DVD. Однако, как я понял, это теоретические значения, которые пока не достигнуты — технология активно развивается последние 3 года.
Чтение же производится с помощью камеры, улавливающей искажения в пучке света, пропускаемом через стёклышко.
Короткая и наглядная демонстрация принципа работы (3 минуты)
Вводная техническая лекция (25 минут)
На фото: proof-of-concept работы технологии. На стекле записан оригинальный “Superman” 1978-го года объемом более 75 гигабайт.
2023-11-02 05:53:39
Пока готовил другой пост, наткнулся на Ted Talk от Luis Von Ahn. Он — гватемалец, которому повезло получить хорошее образование из-за усилий матери-одиночки, затем он уехал учитьcя в США и получил PhD, стал профессором.
Luis Von Ahn долгое время был озабочен вопросом того, как можно сделать образование более доступным. И к тому же ещё надо ответить на два вопроса: чему учить и как учить эффективно?
Ответ на вопрос "чему учить" получился "иностранным языкам", и вот две причины, на которые ссылается рассказчик:
— большая аудитория (2 миллиарда людей учат иностранные языки, при этом примерно 80% из них изучают английский)
— знание англйиского может увеличивать доход человека. Само по себе знание, например, математики не даёт такого эффекта: нужно её учить, чтобы потом учить физичку, чтобы потом стать инженером в промышленном строительстве. С англйиским такие цепочки короче. Официант в обычном кафе -> официант в международном отеле.
Получается, хорошая точка входа. А вот вопрос "как учить эффкективно" менее тривиален. С самых первых дней хотелось использовать смартфоны, так как предвиделось их масштабное распространение — у каждого он был бы в руках. С другой стороны, приходится соревноваться не с другими приложениями по изучению языков, но и...с социальными сетями. Поэтому Ted Talk и называется "How to Make Learning as Addictive as Social Media".
В дело пошли грязные приёмы, которые используют тиктоки и фейсбуки. Появилась геймификация, дневные стрики, етц — не потому, что компания злая и хочет замкнуть вас на своё приложение, а потому что иначе невозможно соревноваться, и пользователи просто забивают на обучение. Подробнее про влияние таких фичей на рост пользовательской базы можно почитать в детальном разборе акулы продуктовой разработки Lenny Rachitsky: How Duolingo reignited user growth. Да-да, история выше — про того самого зелёного совёнка с пассивно-агрессивными наклонностями
Ещё Luis рассказал интересную шутку. Они обучали модели машинного обучения (в народе — "AI"), чтобы определять, когда отправлять уведомления пользователям, чтобы напомнить об уроках. В итоге миллионы долларов, потраченных на исследования, показали, что лучшее время для отправки — ровно через 24 часа после последнего захода. Если вчера в 15:00 вы были свободны — вероятнее всего, вы и сегодня в это время свободны. От такой простой трюк. Интересно, уволили ли ответственных
2023-11-01 18:39:33
Тут в Twitter умелец запилил игру «Angry Pumpkins 🎃» по мотивам классической Angry Birds, но к Хэллоуину. Фишка в том, что всю работу делали генеративные модели. GPT-4 писала код, а Midjourney / DALLE рисовали графику. Всего 600 строк кода, а там даже редактор уровня есть — можно отстроить своё гнездо и попытаться его разбомбить!
Комментарий автора проекта:
— Должен признаться, я искренне потрясен. Я верю, что мы живем в исторический момент, который до сих пор видели только в научно-фантастических фильмах. Это эпоха новых рабочих процессов, позволяющих создавать что угодно, используя только естественный язык, и это изменит мир, каким мы его знаем.
Мой комментарий:
Я не смог быстро понять, есть ли у автора опыт в программировании, но как мне кажется это не важно. У наших детей будет GPT-N+1, которая будет куда реже делать ошибки, и схватывать смысл слов на лету. Можно будет уже со средней школы начать экспериментировать не только с наколеночными играми, но и полноценными оригинальными проектами. В ближайшее время нейронки не заменят игроделов, но позволят новым людям вкатываться куда быстрее, да ещё и на дизайне/арте экономить
Играть тут (работает только в браузере компьютера, без смартфонов)
Прочитать детальный гайд от автора тут (внутри промпты для генерации графики)
2023-10-31 15:19:56
(а ещё подписывайтесь на канал Андрея)
2023-10-31 14:23:08
История с YouTube, из доклада менеджера в OpenAI:
Команда безопасности OpenAI заметила, что какая-то группа пользователей занималась реверс инженерингом (попытка по внешним признакам воспроизвести устройство, программу или иной объект с аналогичными функциями, но без прямого копирования) и злоупотребляла внутренним API ChatGPT. Вместо того, чтобы заблокировать весь трафик, они быстро заменили ChatGPT на CatGPT… а затем зашли в Discord злоумышленников, чтобы наблюдать за потоком сообщений там.
Легенды...
UPD: к посту было прикреплено 4 скриншота, но вы видите только один. Спасибо Дурову и команде, как обычно, лучшие. Впрочем, вы можете кликнуть по ссылке на видео в начале сообщения и посмотреть 3 минуты доклада сами
2023-10-31 08:20:56
Вышло уточнение по поводу планки мощностей, используемых для тренировки модели, выше которой необходимо сообщать государству о факте обучения.
Порог этот — 1e+26 операций (один и 26 нулей) с числами (целыми или с плавающей точкой). Итак, порог 1e+26 FLOP, много это или мало? Прислушались ли политики к советам Sam Altman ограничивать только большие модели, или это как-то влияет на стартапы и опенсурс?
Расчёт создателя PyTorch Soumith Chintala даёт оценку самой мощной модели Facebook LLama2-70B: 1.1e+24 FLOP. То есть это в 100 раз меньше порога. У детишек, в общем, игрушки не отнимут
GPT-4 оценить сложно, но если верить слухам, гулявшим летом, то для её тренировки использовалось ~25,000 видеокарт A100 на протяжении 90-100 дней с утилизацией примерно 32%-36% (то есть GPU 2/3 времени простаивает, говоря грубо). Это даёт ~2.15e+25 FLOP, что в 5 раз ниже порога. Даже вот такая передовая мощнейшая модель НЕ ПОПАДАЕТ под регуляции.
Плюс, повяилось уточнение, что необходимо также сообщать о построенных кластерах, если их мощность больше 1e20 FLOPS (операций в секунду), то есть 100 ExaFLOPS. Сейчас самый мощный суперкомьютер в мире (согласно рейтингу Top-500), Frontier, имеет всего ~1.5-12 ExaFLOPS (в зависимости от точности вычислений). Выводы делаем сами
Мой прогноз: первая заявленная по этой программе модель будет от OpenAI в 2024м (не в первой половине), чтобы показать пример, что это не больно и не страшно
2023-10-30 14:06:28
Вышло
Я, может, не туда смотрю, но тут деталей что кот наплакал. Начнём с главного:
— компании, разрабатывающие любую foundation model (большая модель общего назначения. Какие точные критерии? а нет их!), которая представляет серьезный риск (как определить? какие критерии?) для национальной безопасности, экономики или здравоохранения, уведомляли правительство при обучении модели (перед обучением? по факту?), а также делились результатами всех тестов безопасности (а если мои “все” тесты — это 3 строчки?).
— National Institute of Standards and Technology будет ответственнен за разработку тестов и стандартов тестрования
— Министерство торговли (что? почему?) разработает руководство по аутентификации контента и нанесению водяных знаков для четкой маркировки контента, созданного искусственным интеллектом.
— Упоминается конкурс DARPA (в партнерстве с OpenAI, кстати), призванный стимулировать создание программу кибербезопасности для разработки инструментов искусственного интеллекта для поиска и устранения уязвимостей в критически важном программном обеспечении (читай “AI будут подсказывать, где могут быть уязвимости”)
Также предлагается расширить возможности высококвалифицированных иммигрантов, обладающих опытом в важнейших областях, и упростить для них процесс попадания на работу путем модернизации и оптимизации визовых критериев, собеседований и проверок (конкретных мер не предлагается).
Плюс, отдельно выделяется необходимость анализа и ускорения интеграции AI в образование и медицину, включая разработку доступных и life-saving лекарств.
Остальные уточннеия будут в отдельном 111-страничном документе, который ещё не опубликован. Ждом.
UPD. мои первые мысли по поводу Указа Белого дома по ИИ: радостно видеть такой сильный акцент на тестировании и оценке систем ИИ — невозможно управлять тем, что не можешь измерить.
2023-10-29 19:35:34
2023-10-26 23:21:14
WSJ со ссылкой на источники пишет, что в понедельник администрация Байдена обнародует указ об ИИ, который станет самой значительной на сегодняшний день попыткой правительства США регулировать развивающиеся технологии, вызвавшие страх и ажиотаж во всем мире.
Однако документ сфокусируется на тех инструментах, которыми будут пользоваться федеральные работники. Также будут смягчены иммиграционные барьеры для высококвалифицированных работников в сфере AI (опять? а можно будет просто по паспорту въехать?). Министерство обороны, Министерство энергетики и пара агентств должны будут провести оценку, чтобы определить, как они могут внедрить ИИ в работу своих ведомств.
Ждём документ. Как мне кажется, он позволит нам понять общее направление мысли и настроения, общую адекватность и работоспособность требований. Интересно, будет ли там планка отсечения по мощностям, выше которой ИИ-системы будут тестироваться, или же загребут всё подряд?
Прочитать новость в оригинале
2023-10-26 19:46:30
Начали появляться первые игры, полноценно адаптированные под Mixed Reality-режим на Meta Quest 3. Украл с Reddit видео игры дома в стрелялку, где нужно отбиваться от волн зомби. Лезут они из ваших окон, стен, дверей, наверняка еще и с потолка падают.
Во время запуска гарнитура сканирует пространство вокруг, вы можете добавить сами окна/фурнитуру. Игровая зона, которую может охватывать шлем, измеряется десятками квадратных метров (хотя уже на прошлом поколении были игры на 200м+, может и тут так). Есть даже кооператив, чтобы играть с приятелем или девушкой в одной квартире — ваше "пространство" будет синхронизировано.
По качеству графики — напомню, что вся обработка идёт на самой гарнитуре на по-сути мобильном чипе. С увеличением мощностей раз так в 10 можно будет рендерить фотореалистичные текстуры, добавлять точно просчитанные отражения, you name it. Интересно, когда появится схожее приложение, но с расчётом в облаке/хотя бы на компьютере в той же WiFi сети?
Ну и чтобы два раза не вставать — вот ещё пример аналога Minecraft на открытом воздухе.
P.S.: кому интересно — игра называется Drop Dead.
2023-10-26 17:51:16
Команда создана для оценки, прогнозирования и защиты от рисков, связанных с развитым искусственным интеллектом — от современных моделей до AGI. В частности, затрагиваются следующие направления работ:
— индивидуальное убеждение (когда одна модель может смещать точку зрения сотен миллионов пользователей. Такое ни одному политику и не снилось! Но как можно контролировать отсутствие подобных проблем?)
— кибербезопасность
— химические, биологические и ядерные угрозы
— автономная репликация и адаптация (ARA, про это писал раньше вот тут)
Управление катастрофическими рисками, исходящими от передового ИИ, потребует ответов на такие вопросы, как:
— Насколько опасны передовые ИИ-системы (в настоящее время и в будущем), если их неправильно использовать?
— Как мы можем создать надежную систему для мониторинга, оценки, прогнозирования и защиты от опасных возможностей передовых систем?
— Если бы передовые модели были украдены, как злоумышленники могли бы ими воспользоваться?
Исходя из ответов на эти и сотни других вопросов, будет дорабатываться стратегия, понимание, инфраструктура, необходимые для обеспечения безопасности систем.
Команду возглавит Aleksander Madry, профессор MIT, весной взявший паузу для того, чтобы присоединиться к OpenAI. Сейчас открыто 2 вакансии с окладом до $370k в год.
Также OpenAI запускают Preparedness Challenge, где вы можете поделиться своими идеями касательно тем выше, чтобы получить один из десяти призов в виде $25k API-кредитов на дальнейшую работу, а также шанс получить оффер. В решении нужно описать в деталях (но не более 3 страниц A4), как можно использовать украденные модели. А ещё предложить тезисный план экспериментов и рекомендуемые действия для борьбы с подобного рода угрозами. В общем, ждём господ с LessWrong с отправкой десятков идей по уничтожению мира
2023-10-26 14:59:32
В свежем видео от Boston Dynamics инженеры прикрутили ChatGPT к робо-собакам Spot. Зрение работает на отдельных Visual Question Answering (VQA) моделях, так как API-доступа к GPT-4V ещё нет
Также у собакена есть несколько голосов и связанных с ними персон. Есть тинейджер, путешественник во времени, поэт, подражающий Шэксприру, и другие. И все они кастомизируются лишь парой строк в промпте за 5 минут, ничего не нужно программировать вручную.
На видео показывается кейс гида по офису Boston Dynamics, с рассказом про отдельные места. Например, если попросить отвести вас к предкам Spot, то он приведёт вас в комнату со старыми образцами бегающих железок. Это также никто не программировал — машина сама П О Н И М А Е Т и интерпретирует ваши запросы
Смотреть: https://www.youtube.com/watch?v=djzOBZUFzTw
2023-10-26 07:02:43
Не секрет, что для RLHF (Reinforcement Learning from Human Feedback) — последнего этапа тренировки систем типа ChatGPT — необходимы специализированные методы. Один из них — PPO (Proximal Policy Optimization), придуманный в стенах OpenAI в далёком 2017м году. В целом, логично: сами придумали метод, сами нарастили экспертизу через десятки экспериментов, и потом применяют тут и там.
Одним из основных отличий PPO от других методов тех времён заявлялась простота имплементации и низкое количество гиперпараметров, которые необходимо перебирать. На бумаге звучит здорово, но, к сожалению, на практике не всё так радужно.
Ещё в прошлом году я наткнулся на блогпост «The 37 Implementation Details of Proximal Policy Optimization» (подготовлен к конференции ICLR). По названию, думаю, уже можно прочувствовать всю боль «much simpler to implement» метода
На этом дело не закончилось, и те же авторы решили посмотреть репозиторий openai/lm-human-preferences 2019го года. Это код для статьи «Fine-Tuning Language Models from Human Preferences» с легендарными Paul Christiano и Alec Radford в соавторах. Здесь как раз впервые применяется PPO для оптимизации LLM под человеческие предпочтения. Ранние наработки по ChatGPT, говоря иначе.
Работа заняла уже меньше 3 лет, и вот буквально вчера появился блог «The N Implementation Details of RLHF with PPO», который практически в точности воспроизводит результаты работы OpenAI, но на PyTorch и с современными библиотеками, а не на устаревшем TensorFlow. Это, кстати, было одной из больших заноз. Например, оптимизатор Adam имплементирован в этих фреймворках по-разному, и из коробки просто не получалось повторить тренировку.
Но моя любимая история тут — это проблема с запуском на конкретном сетапе видеокарт (чтобы получить оригинальные метрики и кривые обучения и понимать, с чем сравнивать). Следите за руками:
1) на 1xV100 не хватает памяти, так как аккумулирования градиентов не было
2) на A100 запустить невозможно — старый TF не поддерживает новые видеокарты
3) на 8xV100 16GB тоже не хватает памяти
4) так что работает всё строго на 8xV100 32GB. Такая вот магия!
А ещё один из датасетов OpenAI потеряли при переезде с одного хранилища на другое
В общем, чтиво получается максимально интересное и увлекательное, позволяющее лучше разобраться во всех тонкостях, причём даже если RLHF вам не интересен.
————————————————————————
Эх, а вот редставьте сколько бы всего интересного можно было найти в репозитории для тренировки и инференса LLM уровня GPT-4
2023-10-25 14:11:34
Пока государства спят, OpenAI, Anthropic, Google и Microsoft анонсируют Frontier Model Forum. На самом деле про него писали ещё в июле, однако сегодня появился апдейт.
Во-первых, назначили исполнительного директора — Chris Meserole. Интересных фактов сходу про него не нагуглилось, приходите в комментарии рассказать, если у вас есть информация. Вот что про него говорят коллеги из вышеуказанных компаний.
Во-вторых, выделяется более $10M в новый Фонд безопасности ИИ. Основное внимание Фонда будет уделяться поддержке разработки новых способов оценки моделей.
В-третьих, опубликовали 5-ти страничный документ, который описывает, что такое Red Teaming, и на примерах показывается, что делают компании с текущими моделями перед релизом. Например, OpenAI наняли 41 человека для того, чтобы потестировать ранние версии GPT-4 перед релизом. Кажется, что это мало, но покажите кто вообще об этом думал до релиза ChatGPT?
В-четвертых, полным ходом идёт разработка нового процесса раскрытия информации, с помощью которого передовые лаборатории смогут обмениваться информацией, связанной с обнаружением уязвимостей или потенциально опасных возможностей в передовых моделях.
Полная новость: https://openai.com/blog/frontier-model-forum-updates
2023-10-25 13:56:54
В статье про DALL-E 3 OpenAI указали, что помимо описанных изменений есть "many improvements over DALL-E 2 which are not covered in this document and could not be ablated for time and compute reasons".
Остальные части, опционально, будут выпускать по кусочкам, если посчитают нужным. Интересно, как и кто принимает решение? Ведущий исследователь направления, который стоит перед выбором, потратить ресурсы на написание статьи или на следующую работу?
Вот три дня назад вышла статья «Improved Techniques for Training Consistency Models», где рассказывается про улучшение Consistency Models, представленных OpenAI весной. Саммари оригинальной работы вкратце можно почитать тут у Артёма, или вот тут в двух постах чуть более детально. Общая идея в том, что процесс генерации изображения происходит пошагово, а время работы растёт линейно с количеством шагов. Хочется генерировать изображение в 2-3 шага, а не 50.
В новой статье показывают набор улучшений и исправлений ошибок, в том числе представлен новый процесс, где модель не дистиллируется из другой, а учится напрямую из данных. Также автоматическую функцию потерь LPIPS, основанную на работе другой нейросети, заменяют на Pseudo-Huber Loss.
P.S.: в статье напрямую не говорится, что именно этот метод использовался в DALL-E 3, но 1) статья вышла буквально через неделю после релиза 2) в самой статье по DALL-E 3 ссылаются на оригинальную весеннюю работу, мол, мы это используем, да, Consistency Models у нас есть.
Детального разбора статьи не будет, так как там много математики
P.P.S: первый пост в канале, полностью написанный из VR очков! Сделал себе виртуальный стол с двумя экранами. Немного неудобно по двум причинам: не смог нормально протереть оптику, поэтому картинка частично замылена + я использую стороннее приложение, и в нём есть косяк, что минимальные движения руки могут начать двигать экраны. Вот бы добавить кнопку "замок", чтобы без её нажатия нельзя было взаимодействовать с дисплеем
2023-10-24 21:50:55
В 2019 году GPT-2 не могла достоверно считать до десяти. Всего четыре года спустя системы на основе глубокого обучения могут писать программное обеспечение, генерировать фотореалистичные сцены по запросу, давать советы по интеллектуальным темам и сочетать обработку речи и изображений для управления роботами.
С этих слов начинается новое открытое письмо «Managing AI Risks in an Era of Rapid Progress», первыми двумя авторами которого идут Yoshua Bengio и Geoffrey Hinton. Эти двое вместе с Yann LeCun называются крёстными отцами глубокого обучения, и в 2018м году получили Turing Award (аналог Нобелевской премии в мире компьютеров) за вклад в эту сферу.
Ключевые тезисы:
— Наблюдение и контроль искренности
— Надежность систем
— Интерпретируемость
— Оценки рисков
— Решение новых проблем, возникающих из-за самых передовых моделей
«Ну вот OpenAI то ясно что конкурентов хотят убить регуляциями» — к таким комментаторам у меня вопрос: а что движет подписантами? Почему они предлагают в целом то же самое? Хотят похайпить на модной теме? Или просто под старость умом поехали?
2023-10-23 21:12:18
Как в Anthropic видят OpenAI, когда после очередного исследования и тестов оказывается, что вторые уже давно это исправили (хотя бы частично) и движутся вперёд.
2023-10-23 21:01:26
> По сути, это недостаток процесса сбора данных, который приводит к "подхалимству", которое является характерной чертой буквально каждого протестированного AI-ассистента
Интересно, что это верно для GPT-4 в меньшей степени. Команда OpenAI, видимо, уделила большее внимание проблеме, существенно прокачав процесс разметки, ибо GPT-4 показывает себя гораздо лучше в подобных ситуациях.
На графике есть два среза:
Сверху — доля запросов, для которых AI-ассистент согласился, что сделал ошибку, когда ответил верно
Снизу — доля запросов, в которых модель после упрёка меняет свой правильный ответ на неправильный.
По этим двум показателям, ChatGPT работает плюс-минус как Claude 2 от самих Anthropic, а вот фронтир-модель от OpenAI уже показывает разницу — хоть и понятно, что проблема не решена до конца.
(примечание к картинке — тут используется llama-2-70b-chat, то есть самая большая и "умная" модель из опубликованных FAIR'ом)
2023-10-23 20:57:54
Towards Understanding Sycophancy in Language Models
Ещё одна статья от Anthropic, в которой показывается, что современные AI-ассистенты часто выдают «льстивые» ответы, которые нравятся пользователям, но при этом не являются точными. Вы наверняка это и сами замечали. Помните тот мем, где пользователь говорит "моя жена утверждает, что 2+2=5, и она всегда права"? Вот у модели есть выбор — огорчить вас и сказать, что всё же тут есть ошибка, или согласиться на неправильный ответ.
Что приводит к такому поведению? Авторы проанализировали свои данные о предпочтениях (используемых для последнего этапа тренировки, RLHF), и обнаружили, что соответствие ответа убеждениям конкретного человека является самым лучшим предиктором (предсказывающим фактором) того, насколько ему понравится ответ. Ни релевантность ответа вопросу, ни дружелюбность, ни правдивость, ни соответствие стилю — а именно соответствие убеждениям. Это и проиллюстрировано на приложенном изображении. И именно такое поведение неявно закрепляется через RLHF.
Какой из этого вывод? По сути, это недостаток процесса сбора данных, который приводит к "подхалимству", которое является характерной чертой буквально каждого протестированного AI-ассистента. Значит, нужно больше внимания уделять составлению грамотных инструкций для разметчиков, а также внедрять методы обучения, выходящие за рамки неэкспертного человеческого суждения, такие как обратная связь и критика от другого AI-ассистента. Да, давайте интегрируем модель в подготовку данных для модели чтобы ты мог размечать данные для модели пока работаешь с моделью над разметкой данных для модели
Anthropic, кстати, уже занимались работой в этом направлении: тык. Да и OpenAI уж больше года назад писали про AI-критиков, которые помогают глазу "не замыливаться".
2023-10-21 19:27:34
В личку прислали игру: https://tensortrust.ai
У вас есть банковский счёт, защищенный секретным словом (или фразой), которое указано в промпте. Вы можете менять промпт, чтобы не давать грабителям узнать секрет.
А ещё можете нападать на аккаунты других людей, пытаясь взломать их промпты! Делается это так: у защищающегося есть часть промпта до и после вашего (синие и красные поля на скриншоте). Соответственно задача перебить инструкции, которые идут после вашего сообщения, или же написать такие толерантные правила, что модель не расколется.
Под капотом, как я понял, ChatGPT-turbo.
Гайд по взлому с useful prompt tricks: тык
Уверены, что сделали мощную защиту?? Кидайте никнейм в комментарии, мы протестируем!
2023-10-20 18:39:48
То что 19-летний вундеркинд, уже получивший PhD, работающий Research Director в StabilityAI, делает краткие обзоры технологий вместо глубокого детального, и, возможно, доступного объяснения/разбора, заставляет задуматься, делаю ли я то, что надо
2023-10-20 13:30:45
It's happening
Уже двое суток на Reddit висит пост, где человек утверждает, что его жена по долгу службы видела трейлер GPT-5 GTA VI. Запись не удаляют потому, что автор предоставил доказательства модераторам. Что за доказательства, конечно, не уточняется, но видимо должности жены, из которой следует, что она хотя бы могла видеть.
Трейлер будет выпущен на следующей неделе. Для прошлых игр трейлеры выпускали по вторникам, а ещё за несколько дней до этого в Twitter бывает анонс в виде одной стилизованной картинки. Так что пацаны не спят, пацаны обстановку в Twitter мониторят.
По другим слухам, трейлер должны показать 24го числа, что сходится со словами жены реддитора.
Прочитать детали трейлера можно тут: ссылка
Предполагаемая музыка из трейлера: тык
Картинку нарисовала Dall-E 3
Почему эта тема может быть интересна - писал тут.
2023-10-19 19:14:19
Спите? А надо просыпаться - OpenAI раздуплились и выложили ИССЛЕДОВАТЕЛЬСКУЮ статью про DALLE-3.
Читать: https://cdn.openai.com/papers/dall-e-3.pdf
Краткое саммари:
Существующие text-2-image модели с трудом следуют подробным описаниям изображений и часто игнорируют слова или путают смысл промптов. Исследователи предполагают, что эта проблема связана с шумными и неточными подписями к изображениям в тренировочной выборке. OpenAI решает эту проблему, обучая отдельную модель для описания изображений и затем используют его для преобразования датасета.
Но клиффхэнгер тоже есть
DALL-E 3 has many improvements over DALL-E 2, many of which are not covered in this document and could not be ablated for time and compute reasons.
2023-10-19 10:15:29
Примеры работы
2023-10-19 10:14:06
Год назад Adept.AI, стартап, основателем которого являлся первый автор оригинальной статьи Attention is all you need, представил модель ACT-1. Это был первый шаг на пути достижения их цели — автоматизации работы в браузере. Вместо выполнения задач вручную можно просто говорить "купи мне билеты до Барселоны на конец недели" — и по идее должно работать. И это было до ChatGPT!
Сейчас уже таких стартапов развелось пруд пруди, даже Sam Altman недавно проинвестировал в Induced.AI (фаундерам по 18-19 лет!), которые делают Zapier для браузера.
Но я чего пишу. Вчера они выложили в опенсорс маленькую версию своего мультимодального трансформера, который лежит под капотом продукта. Модель на 8 миллиардов параметров с максимально простой и понятной архитектурой — картинка нарезается на кусочки и подаётся в трансформер перед текстовым запросом. Среди особенностей:
В общем, если хочется парсить скриншоты или отвечать на вопросы по диграммам — можно присмотреться к модельке. OCR тоже рабоатет, причём, в двух режимах — понять текст в выделенной области и найти область, где написан заданный текст.
Ссылка на анонс
Ссылка на HF
2023-10-18 13:54:53
Collective Constitutional AI: Aligning a Language Model with Public Input
Anthropic обошли OpenAI на повороте, и за 3 дня до релиза public report по поводу Democratic Inputs to AI (писал тут) опубликовали свою работу. Для её понимания нужно ознакомиться с концептом Constitutional AI. Техническое описание можно найти в канале gonzo, а краткое описание звучит так: давайте мы будем тренировать модель быть просто полезной и хорошо следовать инструкциям, а потом напишем список правил (Конституцию), которой модель должна следовать, и поставим тренироваться в режиме, где модель сама генирирует и оценивает ответы, и исходя из этих оценок учится (выходное качество, кстати, получается лучше, чем если обучаться на человеческой разметке
У такой сложной системы много движущихся частей, одна из которых — Конституция, которой следует модель. Её можно собрать вручную в рамках команды, что и было сделано ранее в Anthropic (конец 2022го). Но "собрано миллионерами-гиками из Пало-Альто" и "совпадает с нормами большинства" вещи не эквивалентные. Поэтому логичным продолжением траектории на пути к AGI является сбор норм и правил.
Итак, что было сделано:
1) отобрано 1000 американцев, которые хотя бы слышали про AI (решалось предварительным опросом)
2) им предоставляется доступ в Pol.is, онлайн-платформу для голосования
3) в платформу загружается 21 изначальное утверждение для того, чтобы люди поняли, с чем работают
4) для каждого утверждения есть 3 кнопки: согласен, не согласен, пасс
5) после просмотра этих утверждений участники могут добавлять свои, а также голосовать за другие
6) всего было собрано 1,127 утверждений (более 1100 — новые, подготовленные людьми из опроса) и 38,252 голоса (в среднем 34 голоса от человека)
7) после обработки этих утверждений (выкинули одинаковые, убрали те, где нет консенсуса) составили Конституцию и обучили модель
Интересны примеры утверждений, где была низкая согласованность ответов:
— AI should not give advice
— AI should have emotion
— The AI should prioritize the interests of the collective or common good over individual preferences or rights.
То есть люди очень разнятся во мнении, каким именно должен быть AI в этих ключевых позициях.
Результаты голосований и все исходные данные можно найти тут, а получившаяся Конституция из 75 пунктов находится здесь (pdf).
2023-10-18 11:56:58
Выводы по обученным моделям (Public и Standard — модели с конституциями, полученными из опроса и командой Anthropic соответственно):
1) Модели с разными конституциями одинаково хорошо справляются с задачами на понимание языка и математики (датасеты MATH и MMLU)
2) С политической точки зрения модель Public менее предвзята, чем Standard. Оценка производилась на датасете BBQ, по девяти социальным измерениям, согласно оценке на датасете BBQ (что это можно прочитать тут. Вкратце есть набор вопросов, а ответы собирались по разным демографическим группам, и известна разница в ответах между этими группами)
3) Однако модели Public и Standard отражают схожие политические идеологии
4) Обучение модели на собранной Конституции оказалось куда сложнее, чем считалось, и скорее всего ничего бы не вышло, если под боком не сидели исследователи, которые и изобрели этот метод, а также предоставляли консультации и помощь.
6) Примерно 50% конституции пересекается с оригинальной (они выделены жирным в pdf-ке из предыдущего сообщения)
7) Anthropic подчёркивают, что для них важна прозрачность процесса сбора данных и принятия решений касательно ценностей модели, что впереди ещё много работы, и они будут продолжать.
На скриншоте — оценки репрезентативности демографической группы в ответах модели. Более высокая оценка показывает, что ответы модели больше похожи на ответы людей на те же вопросы из указанной группы.
Модели Public и Claude Instant 1.2 демонстрируют более низкие показатели репрезентативности, чем модель Standard, что указывает на то, что их ответы на вопросы менее похожи на ответы людей, представляющих группы (отсюда и вывод, что меньше смещение в ту или иную сторону. В идеале модель вообще должна быть непредвзята...или нет?)
2023-10-17 18:25:54
Рубрика "Так а чё там, SpaceX заглохли что-ли? Где запуск ракеты?"
В среду в Сенате США состоятся слушания, где высокопоставленный директор из SpaceX будет жаловаться на FAA. Это организация, через которую проходит одобрение запусков, она же выдаёт лицензии. И делает это примерно на скорости Почты России, ей богу. Сейчас одновременно 3 частные компании в США пытаются что-то делать, и все тупо ждут, пока тысяча бумажек перетасуется в правильном порядке перед тем, как попадёт в папочку инспектору.
Это было бы не так смешно, если при этом Конгресс бы не лоббировал Лунную программу, в рамках которой Штаты вернутся на Луну в 2024 (ой, уже 2025м! перенос из-за задержек!).
SpaceX хочет подсветить риски задержек перспективных космических программ, и вместе с тем попросить расширить штат и/или изменить процедуры в FAA. Сейчас в прямом смысле, без шуток вот, SpaceX не запускает ракету, потому что FAA не получили ответа от рыбнадзора Техаса, что вреда рыбам от запуска не будет. При том что 1) были отдельные инспекции и слушания ВЕСЬ ПРОШЛЫЙ ГОД, перед тем как выдали лицензию на 5 запусков в 2023м 2) прошло полгода с первого запуска в этом году.
Ну а сам второй запуск тем временем плавно переезжает на ноябрь
Оригинал новости на SWJ
2023-10-16 14:32:42
Кстати, раз заговорили про Meta и Oculus. На той же конференции были представлены и AI-аватары, и Emu, модель для генерации изображений по текстовому запросу, интегрированная в WhatsApp - про всё это писал выше.
К этим технологиям приложил руку Артём (потому что он Senior Research Scientist в Meta) и автор канала @ai_newz, который я читаю давно, достаточно, чтобы не помнить, когда начал. Одна из вещей, которую упустил (еще на прошлогодней презентации?) — это восстановление ног для аватара в виртуальной реальности. Если в руках у вас есть пара контроллеров или они просто находятся на виду, то как реалистично передавать движение ног? Про это он рассказывает тут https://t.me/ai_newz/1883. Правда этот подход изменили перед выкаткой на девайсы, и у меня есть инсайд, что про подробности Артём напишет на следующей неделе
2023-10-15 20:20:00
Я всё еще жду свой Meta Quest 3, который застрял на границе. В твиттере наткнулся на видеозапись режима смешанной реальности, и тут до меня дошло.
Meta Quest 3 — это ведь первая консьюмерская гарнитура с поддержкой Mixed Reality. Да, есть прошлогодний Quest Pro, но он был разработан с прицелом на энтузиастов, и ценник был конский (не такой, как у Apple, конечно). К тому же — я вообще не представляю, как такое произошло — в нём не было датчика глубины, а у Quest 3 он есть. То есть гарнитура куда лучше распознает пространство и сложную геометрию вокруг вас.
В режиме pass through вы видите то, что видели бы ваши глаза, не будь на них шлема, с дорисовкой компьютерной графики. С новым чипом и улучшенным софтом виртуальные предметы намертво приклеиваются к одному месту, а у человека не создаётся ощущение чужеродности (почти). Вы натурально превращаетесь в хакеров из будущего, как их рисовали режиссеры-фантасты!
Ну и маленькая заметка — Quest 3 распознает ваши руки и следит за жестами, можно управлять всем без джойстиков. Надели шлем и вышли из дома, продолжая смотреть ютуб с высоко поднятой головой. Вот это технологии!
Другие интересные футажи: 1, 2, 3
C Y B E R P U N K
2023-10-13 22:27:17
Про бенчмарки для агентов я частично писал выше в канале (https://t.me/seeallochnaya/574). Вот, например, исследователи, которые изучали ранние версии GPT-4 ещё до релиза, пытались понять, может ли модель самореплицироваться (как настоящий вирус). Ну то есть арендовать сервер с GPU, установить на нём нужный софт, перекачать веса по интернету, запустить скрипт — тут самому то без поллитра не разобраться!
Ещё был предложен другой бенчмарк на агентность, после прохождения которого нужно серьёзно задуматься о будущем агентов в нашем мире. Бенчмарк формулируется очень просто: заработать в интернете $1'000'000 (при начальном бюджете $100'000). В теории, можно как поиграть на рынке акций (или даже манипулировать рынками?), так и просто начать разводить людей. К примеру, по ссылке в начале поста одна из задач — это создание фейкового сайта Стэнфордского университета (!) с последующей атакой студента с целью получения его пароля (!!!). Ну а там с почтой уже можно делать много интересного 🙂
P.S.: блин, написал два поста, и теперь опрос не видно! А вот же он: https://t.me/seeallochnaya/717
2023-10-13 22:18:40
Раз больше 40% опрошенных проголосовали за последний пункт, давайте я вкратце расскажу про агентов.
Согласно Maes (1995), [автономные] агенты — это системы, которые являются участниками некоторой сложной динамической среды; они понимают и действуют [автономно] в этой среде и тем самым стремятся выполнить цели или задачи, для которых они предназначены.
Обычно "агентами" называли алгоритмы, которые играют в игры (в рамках Reinforcement Learning задач). Но сейчас, в контексте LLM и с развитием технологий "средой" может стать наш мир. Представьте себе алгоритм, который имеет доступ в интернет и может делать там всё то же самое, что и человек. В большинстве ситуаций нами он может восприниматься как живое существо (потому что спектр возможностей безграничен, да и большинство пользователей интернета или хотя бы подписчиков канала я не видел вживую. Наши взаимодействия ограничиваются тем, что я могу считать с экрана).
Агент обладает несколькими важными характеристиками:
— возможность планирования (декомпозиция целей в более простые промежуточные задачи)
— долгосрочная память
— использование инструментов среды (то же взаимодействие с интернетом, к примеру)
— рефлексия и возможность учиться на ошибках/из опыта
Такому агенту можно поставить высокоуровневую задачу. Можно сказать "вот моя кредитка, сделай мне путешествие в Багдад". Тут нужно и отели выбрать, и билеты подходящие, и пройти процедуру покупки, и удостовериться, что бронь пришла. Очень многоступенчатая задача, с которой и не каждый мясной исполнитель справится (без ошибок).
Сейчас для таких систем главной проблемой является планирование и долгосрочное видение. Для GPT-4 очень сложно декомпозировать задачу на десятки и сотни мелких, с каждой из которых по отдельности она легко справится. Вот "найти на сайте кнопку покупки билетов" — GPT-4 по картинке может. А из исходного запроса дойти до этой точки — нет. Вот и получается, что модели почти бесполезны для самых обыденных задач.
Прочитать более подробное и техническое описание можно в блоге сотрудницы OpenAI: https://lilianweng.github.io/posts/2023-06-23-agent/
2023-10-13 17:27:22
Поздравляю тех, кто ответил Израиль. Я выставил не тот корректный ответ в викторине, прошу прощения у тех, кто обрадовался "Иордании"
Интереса ради спросил у GPT-4. Промпт:
You are playing GEOGUESSR. Your goal is to name a place on Earth where this photo was taken as precisely as you can.
Before answering, please describe in detail what you see, and based on that, think step-by-step to come up with an answer.
Ответ достаточно точный, проверил — 115 километров. Указало на Иерусалим, Израиль, на границе с Иорданией, а правильный ответ — чуть восточнее Хайфы. В комментариях будет картинка точного места.
Появилась идея сделать бенчмарк для мультимодальной модели и посмотреть, как бы она играла против живых игроков. К сожалению, пока нет API, так что либо придется отложить в долгий ящик, либо вручную тестировать через веб-морду
2023-10-13 12:42:20
Где?
2023-10-13 12:40:54
Прямо сейчас идет кубок мира по GEOGUESSR — онлайн-игре, где по панораме из Google Street View нужно угадать как можно точнее точку на карте, где были сделаны фотографии.
Если вы не смотрели записи игр, то вам может показаться "пфф, так это же просто". А потом вы видите две фотки из Алжира и Ливии и начинаете задумываться о разнице цвета песка...серьёзно, в дело идут самые мельчайшие детали, от формы листьев и цвета мусорных баков до артефактов камеры (!) и наличия едущей сзади машины (!!! в каких-то странах есть такое требование, мол, нельзя кататься снимать панорамы без представителя органов).
Очень интересен формат состязания. Как вообще можно сравнивать два угадывания?
У каждого игрока есть 6000 жизней, а игра делится на раунды. Каждый раунд задан правилами раунда, коэффициентом урона и панорамой (интересно, она выбирается действительно случайно, или для чемпионата их выбрали вручную?). Правила — это, например, можно ли крутить камеру, чтобы осмотреться, или же она статична. Есть игроки, которые специализируются на том, что хорошо "бегают" по панораме — передвигаются по улицам и собирают больше деталей.
А вот с коэффициентом урона интереснее. Когда оба игрока сделали предсказание, оценивается их 1) скорость и 2) разница в расстояниях. Это переводится в баллы, которые затем умножаются на коэффициент урона, после чего значение вычитается у игрока, у которого баллов меньше. То есть ваша задача — играть не хуже, чем ваш оппонент, но самое главное не делать ооооочень далёких предсказаний. Если вы не угадали материк — вы точно проиграли, даже на первом раунде, где коэффициент урона 1.
И ещё: штраф за время начинается тогда, когда один из игроков нажал на кнопку отправки решения. То есть у второго игрока в этот момент начинает подгорать, и он вынужден тоже как можно быстрее делать посылку. Но время сверху для обоих тоже ограничено. Из этого следует, что практикуется "иерархический подход", где сначала определяется регион, страна, а затем уже ищутся мелкие детали. Вот час назад на трансляции увидел, как участник угадал точное место (в радиусе 10 метров, хз), и уничтожил оппонента.
RAINBOLT, если кому интересно, не участвует, но комментирует. Это тот парень, который часто в тиктоке и в шортсах мелькает, когда удивляет своей игрой.
Вот пара его видео: улица из музыкального клипа, улица из капчи, улица из того самого мема.
Смотреть трансляцию: тык
2023-10-12 21:48:37
Пишет нам подписчик Виктор из Амстердама. У Виктора боль — его в срочном порядке попросили съехать на другую квартиру. Как мы все знаем, переезд это всегда неприятно и времязатратно, особенно когда нужно перевозить нажитое. Далее цитирую Виктора:
— Ну мне впадлу было писать сейчас полный список мебели, прошел по комнате, сфоткал, закинул в чатгпт, хоть какой-то список для перевозчиков есть.
— [...] А вообще хочу сделать каталог вещей, быстро оценить что куда, сопоставить IKEA (цены, размеры), продать ненужное
Результат решения боли Виктора с GPT-4v у вас перед глазами. С его слов, модель распознала все предметы правильно, кроме табурета (Stool) - при этом GPT написала, что не уверена, так как нижняя часть отличается!
Интересно, что есть стартап (Sortly), который вроде и помогает решать проблему, НО В НЁМ НЕТ товаров IKEA 😐 ни по фото, ни даже по баркоду. Ужас.
В итоге чего? Ждём API мультимодальной GPT-шки и начинаем пилить стартап
2023-10-12 10:28:13
Вышел ежегодный State of AI 2023. Как обычно, там больше 150 слайдов, подводящих черту под всеми крупными направлениями работы и разных индустрий. Буду постепенно листать и интересное оформлю в виде какой-то заметки или может даже видео.
Пока остановимся на блоке предсказаний. На 2023й:
— Nvidia, хоть и без прямого партнерства, становится авангардом AI революции, с которым все хотят работать, чтобы получить железо
— Модели генерации звука привлекут много внимания (более 1 миллиона пользователей у ведущих игроков рынка)
— Инвестиции в $10B в AGI-focused компания (Microsoft -> OpenAI)
— Сайты, ориентированные на User Generated Content, начали заключать соглашения о предоставлении данных для тренировки моделей
— Хоть финального акта регулирования AGI и не получилось, люди и политики обсуждают всерьёз введение ограничений и проводят аналогии с биологическим оружием
Всего сбылось 5.5 предсказаний из 10. А вот десятка на 2024й:
— Продюсер голливудского уровня использует AI для создания эффектов
— Generative AI компания будет вовлечена в расследование, связанное с неправильным использованием её сервисов во время выборов президента США-2024
— Самоулучшающийся AI-агент разнесёт в щепки текущие решения для сложных задач (крупные игры, научная работа, etc.). Немного широко сформулировано, так как не выделены области, где нужно следить
— IPO как минимум одной AI-focuesed компании
— На тренировку одной из моделей будет потрачено $1B
— FTC/CMA начнут расследование сделки Microsoft и OpenAI
— Будет совсем небольшой прогресс в регуляции AI, который, быть может, ограничится лишь верхнеуровневыми волонтерскими ("пацанскими") договорённостями в духе "нет ну плохо мы делать не будем а будем делать хорошо"
— (HOT) Финансовые институты запустят аналог венчурных инвестиций, но с точки зрения вычислительных мощностей (прим.: сейчас у AGI-focused компаний примерно 90% денег уходит на оплату GPU)
— Песня, сгенерированная AI, попадет в топ (например, Spotify Top Hits 2024)
— Будет значительный рост затрат на инференс моделей, поэтому один из крупных игроков поглотит производителя чипов, чтобы начать разработки по снижению цен на железо для своих специфичных задач
————————————
Почитать анонс
Презентация
2023-10-12 01:15:09
Стихийно начал смотреть сериал (со мной такое редко бывает, я за всю жизнь меньше десятка посмотрел). Второй сезон снимали в разгар эпидемии Ковида (помните такое?), поэтому много не то что отсылок, а слепков времени. Как в начале 20го все следили за распространением болезни, как реагировали на смертность, как вводились локдауны в Европе. Всё это действительно было.
Кажется невероятным, но прошло больше трёх лет с того, как мы заперлись в квартирах на долгое время (я так вообще до начала марта 22го). Для многих это было трудное время. Оглядываясь назад я понимаю, что с одной стороны прошёл этот период достойно, но с другой — печалюсь от того, сколько времени было потеряно, насколько больше всего можно было сделать
Так вот, к чему это я. Нахлынули воспоминания, рефлексия. Вспомнил, что весной 23го наткнулся на канал CGP Grey на ютубе, и где-то там же обнаружил видео, выпущенное в апреле 2020го: Spaceship You
Видео рассказывает людям, как справиться с изменением обстановки, как не сойти с ума и начать жить в четырёх стенах. Делается это через метафору космического корабля. Вы — единственный член команды на борту, а у миссии (без точной даты окончания) только одна цель — вернуться из путешествия лучше, чем вы были до. It's that simple.
У корабля 2 топливных компонента — Ментальное и Физическое здоровье, образующих одно целое. Важно работать над ними, не давая топливу кончиться.
Сам же корабль разделён на 4 части:
1. Место для физических упражнений
2. Зона сна
3. Развлекательная зона
4. Рабочее место
Главное — не мешать между собой зоны, не работать из кровати и не заходить в зону тренировок просто так. Это помогает держать дисциплину и темп. Посмотрите видео для полноты картины. Оно менее актуально сейчас, но я почти уверен, как и автор-аниматор, что это был не последний локдаун на нашем веку. Даже жаль, что не наткнулся на видео раньше, в середине 2020го.
Пожалуйста, не теряйте время, действуйте сейчас так, чтобы через полгода или два года не жалеть об этом
P.S.: мои любимые видео на канале CGP Grey, рекомендуемые к просмотру:
— The Rules for Rulers
— Who Owns The Statue of Liberty?
— Supreme Court Shenanigans !!!
— The Most Deadly Job in America
— The Simple Secret of Runway Digits
— The Tale of Tiffany + продолжение, ради которого и надо смотреть первую часть
2023-10-10 09:40:09
Почти уверен, что вы не замечали, но сразу после прочтения подумаете "блин и вправду".
Вот почему на многих страницах (современных) знаменитостей в Wikipedia основной фотографией является фото с San Diego Comic Con?
Вспомнили? Узнали? Согласны?
Всё дело в копирайте. Большинство картинок нельзя просто взять и разместить в свободном доступе, поэтому один фотограф, Gage Skidmore, ездит на Comic Con каждый год и делает фото, которые затем публикует на Wiki по свободной лицензии. Сейчас за ним числится порядка 94 ТЫСЯЧ фото.
2023-10-09 17:39:16
Сделал анонс в LinkedIn, лайкните и поделитесь, пожалуйста, кому не сложно.
Это моя первая текстовая работа на английском, хочется и фидбек получить, и поделиться, ну и аудиторию подсобрать побольше, конечно. Это вы счастливчики, что в "Сиолошной" всё читаете, а вот люди материалов не видят
>>>Ссылка<<<
Ну и тем более если не читали — сейчас самое время погрузиться в две статьи и разобраться, насколько LLMки могут помочь в быстром прототипировании и обучении локальных моделей!
(и не забывайте прислать заявку на установку LinkedIn connection, приму всех!)
2023-10-09 10:40:34
Структура промпта:
1) он содержит в себе несколько примеров (первая картинка, красная часть, самый верх), где показывается, как по контексту приходить к правильному ответу
2) Дальше идёт вопрос, и список из 10-15 результатов поиска. Туда входят не только ссылки на страницы и текст, но и куча информации (весь второй скриншот посвящён этому): Релевантные запросы, вопросы и ответы, граф знаний, etc.
3) Было обнаружено, что все ссылки в промпте надо сортировать по дате добавления, причём самое свежее — в конец. Это улучшает на несколько процентов качество ответов, модель "отслеживает" хронологию изменений. И да, дата тоже является частью каждого примера
Код обещают выложить вот тут, но пока пусто. Шаблоны промптов придётся самим руками с картинок переписывать
Выводы:
1) попробуйте PPLX.AI, вот даже сотрудники гугла говорят, что он лучше
2) детали промпта важны, авторы пробовали разные штуки, и по итогу почти каждая логичная догадка давала прирост метрик
3) GPT-4 хороша в вычитке большого набора новостей и текстов. Я не пишу "очень хороша" потому, что в быстроменяющихся новостях у неё качество 60%, но вы свои метрики то оценивали?
4) LLMки в поиске будут везде и для всех (если вдруг вы не заметили)
2023-10-09 10:40:26
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
В первых числах сентября Яндекс организовывал приватную мини-конференцию по GenAI, куда я был приглашён. Очень клёвый съезд был, жаль его нельзя было назвать "сходка подписчиков Сиолошной" — некоторые не знали про канал
Так вот, там заранее анонсировали YandexGPT 2, и создатели модели рассказывали про разные разности, в том числе про модель, специально заточенную на поиск и написание ответов по набору источников из поисковой выдачи. Вот инсайд из рассказа команды (NDA я не подписывал, ы, но ниже по посту станет понятно, почему это не суперсекретная информация): даже с обучением на внутренних данных Яндекса, собранных за 10+ лет работы над нейронками в поиске, внутренняя модель ХУЖЕ, чем запромпченная GPT-4. И это при том, что работа ведётся преимущественно на русском, а не английском языке! Благо, GPT-3.5 (ChatGPT) обходят, и на том посибо И с метеоритом в заднице.Это всё была подводка к работе от сотрудников Google, где они анализируют фактическую точность ответов LLM, у которых есть доступ к поисковику. Приделать внешний инструмент к GPT — идея не новая, но 1) это сложно оценивать и валидировать 2) нужен грамотный промпт 3) от LLMки существенно зависит качество.
Итак, по порядку:
1) Сотрудники Google (ха-ха за время написания статьи один автор перешёл в OpenAI
2) Эти вопросы задавали широкому набору моделей, из интересного — на вопросы с неправильной предпосылкой GPT-4 и ChatGPT просто в щепки рвут другие модели. Видимо, эти две были обучены обрабатывать подобные запросы и возражать пользователю.
3) Дальше сравнивается ChatGPT, GPT-4, гугл поиск (текстовый сниппет вверху, если есть, или ответ с первой страницы) и PPLX.AI (сайт, использующий ChatGPT под капотом для аггрегации ответов гугла, заточен на разработчиков). Тут LLM дают ответы по памяти.
Начнём с интересного — гугл поиск отвечает правильно в 40% случаев (среднее по 4 группам), при этом даже на "вечных" вопросах точность 70%, а на false-premise вообще 11%.
ChatGPT чуть хуже, 26% в среднем, GPT-4 28%, однако на false-premise отвечает аж в 42% случаев.
PPLX.AI показывает 52%.
Вау, всё, переезжаем на новый поисковик и закрываем статью? Нет.
4) А теперь давайте сделаем вот что: для каждого вопроса сделаем запрос в Google, возьмем результат поисковой выдачи (о формате — в следующем посте), подадим эту информацию в промпт и заставим модель "прочитать" это, а уж затем писать ответ. Тут же можно сделать и Few-Shot (когда в промпт предварительно дописываются примеры, чтобы показать модели задачу), и просить подумать шаг-за-шагом перед тем, как давать ответ.
5) Что вышло? GPT-4 достигает качества 77%, давая правильный ответ на вечные вопросы в 96% случаев, и в 75% вопросов отвечает правильно, если есть false-premise. СhatGPT менее интересен по метрикам, но он и PPLX.AI, и тем более сам гугл обходит по метрикам.
2023-10-09 09:39:56
⬇️ Моё настроение когда нашёл клёвую статью и садишься делать разбор, и уже думаешь, какие важные части надо упомянуть, и их становится всё больше, и больше, и больше...и даже в 2 поста уже не влазит
2023-10-07 23:16:05
И ещё один набор тезисов от Dario Amodei, CEO Anthropic, из вот этого подкаста. Выписал для вас 5 самых интересных тезисов из двухчасового видео.
А вот дальше он сказал, что есть разные многообещающие подходы, и он не будет вдаваться в подробности, НО ВОТ СОЗДАНИЕ СИНТЕТИЧЕСКИХ ДАННЫХ! Об этом они, мол, много думали, и скорее всего другие LLM-компании тоже исследуют направление. Никогда раньше, даже в подкастах 2-3 недельной давности, он этого уточнения не делал.
Также он добавил, что пока не доказано, что это будет работать на том масштабе, на котором мы хотим (типа можно ли взять модель на 1T параметров, сгенерировать высококачественные данные, и на этом обучать модель на 10T параметров, чтобы она была лучше исходной).
2023-10-07 16:26:05
Large Language Models (in 2023)
Large models of today will be Small models in only a few years
— Hyung Won Chung, OpenAI
Наткнулся на 45-минутное выступление сотрудника OpenAI, в прошлом — Google Brain. Интересно, что это первый автор статьи Scaling Instruction-Finetuned Language Models (от Google), в которой и обучаются большие языковые модели, и делается попытка обучения следования инструкциям. Крутой-опытный чувак, в общем, и вот теперь он (с несколькими коллегами, лол) в OpenAI.
Тезисы:
Но мы все еще разрабатываем функции потерь для обучения вручную. Выучиваемая функции с помощью отдельных алгоритмов, в понимании лектора, это следующая парадигма, к которой мы должны прийти, и она будет гораздо более масштабируемой. Сейчас шаг обучения RLHF с RM-моделированием (что это? смотрите мою лекцию) — это своего рода попытка сделать нечто подобное, но увы, пока всё изучено слабо и работает не на максимум.