Нейролента - подборка новостей о нейронных сетях, ChatGPT

Про пальцы и тексты

Про пальцы и тексты. Баг, а не фича.

Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.

Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и сами шрифты ладони очень кривые: это как правило мужские ладони, сильно не попадающие в размер самой руки, правая и левая разные, ну и так далее. При этом жесты типа V (виктори) или U (коза) вполне себе норм, ибо зашиты в датасетах.

Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.