Нейролента - подборка новостей о нейронных сетях, ChatGPT

Несколько разных людей из OpenAI в разных ситуациях...

Несколько разных людей из OpenAI в разных ситуациях говорили, что они в целом полагаются на модели, которые пишут код, и те им сильно помогают в работе. Идеальная ситуация, конечно, это когда ты просто говоришь "сделай вот тут чтоб зашибись было", и нейронка сама понимает что и как, но в таком будущем мы ещё не живём, нужно задачки попроще брать.

Сами OpenAI еще в 2021м году выпустили модель Codex — это GPT, обученная генерировать код. Именно эта модель легла в основу Github Copilot — плагина для разработчиков, который выдаёт им всплывающие подсказки во время работы. Сейчас продукт уже прокачали до Copilot X, про него я писал вот тут.

И вот всё же интересно, а какую именно работу может делать нейронка в цикле разработки большой компании? Как именно внутри себя OpenAI переиспользуют свои же разработки для увеличения эффективности работы? Найти ответ на этот вопрос нам поможет недавний блогпост от Google: Large sequence models for software development activities.

В нём компания как раз рассказывает про свою методологию DIDACT, новизна которой заключается в том, что в качестве источника обучающих данных для модели используется не просто код, а описание процесса разработки. Ведь если задуматься, то у Google есть история каждого изменения каждой строчки кода в компании за почти 25 лет. Также есть и все комментарии, которые программисты оставляли друг другу с целью помочь улучшить код. Есть и ответы на эти комментарии — тоже действия по изменению. Получаются такие вот "цепочки", которые несут куда больше информации, чем просто куски готового кода.

На картинке вы можете видеть, сколько разных задач сумели выделить исследователи в процессе разработки и написания кода, и для каждой из них, если подумать, ясно, как собирать выборку и как обучать модель. И если какие-то части автоматизировать почти полностью, а в других увеличить эффективность разработчиков хотя бы на 5-10%, то в масштабах Google это экономит кучу ресурсов, времени и денег.