А вот пример задачи из этого датасета

А вот пример задачи из этого датасета. Слева вы можете видеть условие, оно достаточно сложное — уверен, значимая часть подписчиков даже не знает, как подступиться к проблеме 🥺

А справа — генерация решения моделью. Цветом обозначены предсказания модели-оценщика, и зелёный говорит о том, что в строчке модель проблемы не видит, а красный — что предсказывает ошибку.

И действительно — GPT-4 пытается использовать формулу разности квадратов на шаге 12 для выражения, которое на самом деле не является разностью квадратов. Модель вознаграждения обнаруживает эту ошибку.

В теории, на этом шаге можно было попросить GPT-4 перегенерировать ответ, и делать это десятки-сотни раз, пока оценщик не будет удовлетворён.

TLDR: ничего страшного, если модели требуется несколько попыток на то, чтобы написать правильное решение. Она, в теории, и сама может находить ошибки, которые замечает человек.

Источник: Сиолошная

2023-11-23 08:17:16