Автор этого эксперимента уже успел

Автор этого эксперимента уже успел повторить его и для новой Claude 2.1. Если вы пропустили методологию, то читайте тут. Автор признался, что Anthropic связались с ним и предоставили кредиты — ведь на тест пришлось потратить больше $1k! И специалисты из компании даже помогли с промптом (с задаваемым вопросом).

И при этом всём...вот такая картинка. Как по мне, выглядит значительно хуже GPT-4-Turbo. Даже на маленьких длинах контекста до 100'000 токенов модель часто теряет «иголку» (специальное предложение, содержащее ответ), спрятанную в тексте.

Источник: Сиолошная

2023-11-21 17:55:35