Нейролента - подборка новостей о нейронных сетях, ChatGPT

Introducing English as the New Programming Language for Apache Spark

Новость с громким заголовком, в то же время ознаменовавшая, на мой взгляд, следующую большую эпоху в мире разработки.

Databricks, компания, основанная разработчиком Spark (Matei Zaharia, писал тут) и лидирующая на рынке предоставления облачных кластеров для обработки данных, интегрировала новую фичу: запросы на английском. Теперь не нужно вспоминать синтаксис и особенности обработки данных конкретной библиотекой, можно написать простой запрос на естественном языке, а он уже сам трансформируется в чтение тех или иных баз данных.

Это киллер фича для аналитики, потому что теперь даже 10 минут на составление запроса (и 20 — на копании в сотне страниц документации с описанием тысяч таблиц) не нужно тратить: нужно лишь добавить пару деталей к оригинальному запросу от менеджера, и всё!

Разработчики пошли ещё дальше, и прикрутили Copilot, который "угадывает" функции по описанию. Скажем, вам нужно сделать что-то необычное сверху данных. Обычно разработчик формирует UDF (user defined function), и затем её применяет. Теперь можно задать лишь сигнатуру (какие колонки принимает, какие возвращает как результат), написать строчку описания — и готово.

Подобные магические движки были и раньше, но тут совершенно другой уровень. Во-первых, у Databricks нереальное количество данных для создания наилучшей модели, тесно интегрированной со схемой данных, с их хранилищем. Во-вторых, это выход сразу на огромный рынок с реальными потребителями, которые уже платят. В-третьих, всё же технологии за последние 8 месяцев очень развились, и такой же инструмент год назад скорее всего не работал в комплексных запросах в половине случаев.

Теперь ждём совмещения вакансий Data Analyst, BI Engineer и Product Manager!

UPD: самое главное, как мне видится, это возможность модели "читать" данные и интерпретировать содержание баз данных, а также схему данных. Если каждую таблицу описывать человеческими словами, а каждую колонку подкреплять однострочным осмысленным предложением, то я не вижу, почему машина не сможет составлять грамотные запросы, которые в 99.5% случаев верны.