Нейролента - подборка новостей о нейронных сетях, ChatGPT

The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4

230-страничный отчёт исследователей Microsoft по применимости и навыкам GPT-4 в следующих направлениях:
— Drug Discovery
— Biology
— Computational Chemistry
— Materials Design
— Partial Differential Equations
, в каждом из которых ещё по 3-6 поднаправлений (например, предсказание свойств материалов или просто Q/A по теме в помощь исследователю).

Инсайтов, как и мелких деталей по каждому из топиков, слишком много, да и я не большой эксперт в каждой из областей. Если у вас есть релевантные навыки или просто очень хочется разобраться — для каждой секции есть Summary, по которому можно пройтись и сделать выводы.

Если совсем коротко:
— исследования показывают, что GPT-4 демонстрирует многообещающий потенциал (читай часто отвечает правильно или просто хорошо, но с недостатками и ошибками) для различных применений в науке, демонстрируя свою способность решать сложные задачи с применением доменных знаний.
— GPT-4 обладает обширными знаниями в областях Biology и Materials Design, которые могут помочь удовлетворить некоторые запросы в отдельных областях (но их нужно нащупать, и вдохновление для будущих исследолвателей как раз предлагается брать в настоящей работе). — В других областях, таких как Drug Discovery, GPT-4 демонстрирует способность достаточно хорошо предсказывать свойства веществ — в одном (из десятка+-) бенчмарке даже обходят доменное решение (но я так понял это не SotA).
— Для Computational Chemistry и Partial Differential Equations модели не хватает точности вычислений. В целом она математику понимает хорошо, но не может на лету делать вычисления — авторы намеренно не подключали к ней калькулятор, Wolfram или другие инструменты. Однако с их помощью, потенциально, можно добиться куда более значимых результатов.
— Ещё заметил, что почти везде промпты очень простые и прямые, буквально однострочные, может, из двух предложений. Кажется если давать больше контекста, то результаты улучшатся (ваш Кэп)
— Для отдельных доменов модель плохо разбирается с форматами данных (например, SMILES—способ описания состава и структуры молекулы—модель и парсит плохо, и генерирует не очень, и это мешает проводить эксперименты). Потенциально дообучение на корпусе знаний решает проблему, да и внешние инстурменты тоже должны разгрузить LLM.

Что мне куда интереснее, так это то, а сколько и каких таких бенчмарков уже есть в OpenAI — ведь для них сейчас одна из главных задач это буквально создать систему с LLM в сердце, которая будет ЗАМЕНЯТЬ ИССЛЕДОВАТЕЛЕЙ В OPENAI (да-да, тех, которые по миллиону долларов в год получают). Если вы про это ничего не слышали, то предлагаю посмотреть мою лекцию.

А в комментарии приглашаются эксперты с доменными знаниями по упомянутым направлениям — делитесь, если нашли что-то интересное!