Отдельно напишу главный тезис, который я вынес для...
Отдельно напишу главный тезис, который я вынес для себя и который хотелось бы донести:
Влияние изменения поведения и снижения возможностей моделей на конечного пользователя может быть очень похожим.
У нас с вами обычно есть определенные рабочие промпты, наработанный опыт, которые вроде как работали с GPT. Однако когда происходят подобные отклонения в поведении, этот опыт может стать малорелевантным.
И главное — это особенно актуально для приложений, созданных на основе GPT-4 API. Код, написанный для конкретных пользователей и под конкретную задачу, может просто сломаться, если модель изменит свое поведение.
Мы в компании Unleashing.AI, например, сейчас переделываем подход к разработке подобных продуктов: добавляем тестирование, собираем отдельный набор данных, который прогоняется раз в неделю и помогает определить, есть ли деградация. Пока звоночков плохих не было, и надеюсь, что еще долго не будет, но кто знает?
Рекомендую добавлять подобное тестирование и вам :) Просто набор промптов + текстов для модели, и ожидаемый результат, а дальше проверка на схожесть ожидания и реальности. Как только они расходятся - что-то надо чинить!
По сути, это полноценные Unit-тесты👀
Влияние изменения поведения и снижения возможностей моделей на конечного пользователя может быть очень похожим.
У нас с вами обычно есть определенные рабочие промпты, наработанный опыт, которые вроде как работали с GPT. Однако когда происходят подобные отклонения в поведении, этот опыт может стать малорелевантным.
И главное — это особенно актуально для приложений, созданных на основе GPT-4 API. Код, написанный для конкретных пользователей и под конкретную задачу, может просто сломаться, если модель изменит свое поведение.
Мы в компании Unleashing.AI, например, сейчас переделываем подход к разработке подобных продуктов: добавляем тестирование, собираем отдельный набор данных, который прогоняется раз в неделю и помогает определить, есть ли деградация. Пока звоночков плохих не было, и надеюсь, что еще долго не будет, но кто знает?
Рекомендую добавлять подобное тестирование и вам :) Просто набор промптов + текстов для модели, и ожидаемый результат, а дальше проверка на схожесть ожидания и реальности. Как только они расходятся - что-то надо чинить!
По сути, это полноценные Unit-тесты
Источник: Сиолошная
2023-07-19 20:35:56