Некоторым пользователям уже дали доступ к Vision функциям...

Некоторым пользователям уже дали доступ к Vision функциям ChatGPT-4V, которую только недавно анонсировали.

Вы только гляньте как глубоко заходит понимание изображения у новой модели. Один твиторский решил скормить ChatGPT дичайшие слайды Пентагона про Афганистан. И модель улавливает детали и основной смысл слайдов, где требуется очень детальное распознание мелкого текста и связей между сущностям.

Конечно, тут самый маленький текст модель не увидела, но надписи покрупнее (которые все равно небольшие) и связи между ними в виде стрелочек модель уловила. Для меня и это удивительно!

При большем вычислительном бюджете, можно было бы позволить модели зумировать участки изображения, так же как делает человек, при рассмотрении картины, где очень много мелких деталей. Но это многократно увеличило бы стоимость таких запросов.

@ai_newz

Источник: эйай ньюз

2023-09-29 10:01:06