Сличан је одговор и што се тиче визуелне конзистентности ликова.
Зашто вјештачка интелигенција конзистентност ликова не може задржати и у визуелном генерисању слика или видеа?
ChatGPT said:
Одлично и дубоко питање:
Зашто вјештачка интелигенција не може задржати конзистентност ликова у визуелном генерисању — као што су слике или видео?
Ево разлога, објашњених јасно и конкретно:
🎭 1. Генерација слика је независна — нема „свјест о ликовима“
AI генератори слика као што су Midjourney, DALL·E, Stable Diffusion, итд., не имају унутрашњи модел лика као јединственог идентитета.
Свака слика се генерише одвојено, чак и ако упишеш истог „лика“.
Они не разумеју да је то иста особа — виде само опис (нпр. „црнокоса жена у црвеном капуту“) и то реплицирају изнова.
Резултат:
➡ Исти лик на једној слици може имати другачије лице, старост, стил, па чак и пол на другој.
🧬 2. Нема „семантичке ДНК“ лика
Људски ум може препознати да је Ана и даље Ана чак и кад је у другој одјећи или осветљењу.
AI, с друге стране, не прави унутрашњу „генетску карту“ лика (црте лица, осмех, поглед, облик носа, итд.).
Оно што ми зовемо „лик“ за AI је само скуп пиксела базиран на опису.
Чак и мали описни варијације могу драматично променити резултат.
🧠 3. Визуелна меморија је „плитка“
AI тренутно нема дугорочну визуелну меморију:
Ако желиш серију слика (нпр. лик у различитим ситуацијама), свака мора бити пажљиво контролисана.
Нема меморије унутар сесије која би рекла: „Ово је исти лик као претходни пут.“
🎞️ 4. Видео генерација је још тежа
AI алати за видео (нпр. Runway, Sora, Pika, Dream Machine) раде тако што генеришу оквире један за другим:
Ако не постоји чврста визуелна контрола (нпр. референтна слика), лик се деформише током видеа — лице „плута“, одећа мијења боју, положај очију варира.
Стабилност карактера у времену је неријешен проблем у AI видеу.
🧰 Како се ово решава (делимично):
Контролне технике – ControlNet, pose guides, reference images.
"Character tokens" – неки системи омогућавају да се дефинише „Ана“ као лик и да се позива.
Фине-тјуновани модели – ако имаш много слика истог лика, можеш тренирати персонализовани модел.
Ручно уређивање/постпродукција – у продукцији се често користи Photoshop, After Effects итд. да се досљедност „исфилује“.
📌 Закључак:
AI не може лако задржати визуелну конзистентност ликова јер:
свака слика/видео се ствара одвојено, без свијести о идентитету,
не постоји унутрашња репрезентација лика као „особе“,
описни текст није довољан да одржи исти изглед,
алати немају још добру „меморију кроз време“ у видеу.