А вот пример задачи из этого датасета
А вот пример задачи из этого датасета. Слева вы можете видеть условие, оно достаточно сложное — уверен, значимая часть подписчиков даже не знает, как подступиться к проблеме 🥺
А справа — генерация решения моделью. Цветом обозначены предсказания модели-оценщика, и зелёный говорит о том, что в строчке модель проблемы не видит, а красный — что предсказывает ошибку.
И действительно — GPT-4 пытается использовать формулу разности квадратов на шаге 12 для выражения, которое на самом деле не является разностью квадратов. Модель вознаграждения обнаруживает эту ошибку.
В теории, на этом шаге можно было попросить GPT-4 перегенерировать ответ, и делать это десятки-сотни раз, пока оценщик не будет удовлетворён.
TLDR: ничего страшного, если модели требуется несколько попыток на то, чтобы написать правильное решение. Она, в теории, и сама может находить ошибки, которые замечает человек.
А справа — генерация решения моделью. Цветом обозначены предсказания модели-оценщика, и зелёный говорит о том, что в строчке модель проблемы не видит, а красный — что предсказывает ошибку.
И действительно — GPT-4 пытается использовать формулу разности квадратов на шаге 12 для выражения, которое на самом деле не является разностью квадратов. Модель вознаграждения обнаруживает эту ошибку.
В теории, на этом шаге можно было попросить GPT-4 перегенерировать ответ, и делать это десятки-сотни раз, пока оценщик не будет удовлетворён.
TLDR: ничего страшного, если модели требуется несколько попыток на то, чтобы написать правильное решение. Она, в теории, и сама может находить ошибки, которые замечает человек.
Источник: Сиолошная
2023-11-23 08:17:16