Отдельно напишу главный тезис, который я вынес для...

Отдельно напишу главный тезис, который я вынес для себя и который хотелось бы донести:

Влияние изменения поведения и снижения возможностей моделей на конечного пользователя может быть очень похожим.

У нас с вами обычно есть определенные рабочие промпты, наработанный опыт, которые вроде как работали с GPT. Однако когда происходят подобные отклонения в поведении, этот опыт может стать малорелевантным.

И главное — это особенно актуально для приложений, созданных на основе GPT-4 API. Код, написанный для конкретных пользователей и под конкретную задачу, может просто сломаться, если модель изменит свое поведение.

Мы в компании Unleashing.AI, например, сейчас переделываем подход к разработке подобных продуктов: добавляем тестирование, собираем отдельный набор данных, который прогоняется раз в неделю и помогает определить, есть ли деградация. Пока звоночков плохих не было, и надеюсь, что еще долго не будет, но кто знает?

Рекомендую добавлять подобное тестирование и вам :) Просто набор промптов + текстов для модели, и ожидаемый результат, а дальше проверка на схожесть ожидания и реальности. Как только они расходятся - что-то надо чинить!

По сути, это полноценные Unit-тесты 👀

Источник: Сиолошная

2023-07-19 20:35:56