Почему промпты SD дают плохие видео
Копирование промптов Stable Diffusion в Wan 2.2 даёт скованные, дрожащие или частично одетые результаты. Модели обрабатывают текст совершенно по-разному.
beautiful woman, nude, bedroom, lingerie removal, slow, sensual, long hair, perfect body, masterpiece, 8k, best quality
CLIP токенизирует это как набор слов. Нет синтаксиса, нет траектории — выход почти не движется.
A woman in black lingerie slowly reaches for her shoulder strap, letting it fall as she turns slightly toward the camera, soft candlelight from the right, intimate handheld framing
T5 читает это как предложение. Грамматика создаёт направление движения и временной поток.
Правило: пишите предложение, описывающее то, что происходит со временем, а не список того, что вы хотите видеть.
T5 vs CLIP — Почему структура предложения важна
Обрабатывает токены как неупорядоченный мешок слов. Позиция слов и их связи практически игнорируются. Теги через запятую работают, потому что порядок не важен.
Читает всё предложение целиком. Понимает подлежащее, глагол и дополнение. Грамматика активирует смысловые связи, которые модель изображений никогда не видит — включая временны́е.
Практическое правило: пишите «Женщина медленно проводит руками по телу» — а не «женщина, руки, тело, медленно, чувственно».
Ваш промпт — это путь, а не картинка
Видеодиффузия генерирует траекторию в латентном пространстве, а не отдельные кадры. Статичное описание даёт почти плоскую траекторию — почти никакого движения. Описание с подразумеваемым движением задаёт начальное и конечное состояния, давая модели цель.
Статичное описание → плоская траектория
Описание движения → направленная траектория
woman lying on bed, nude, beautiful, soft light, perfect body
A woman lying on white sheets slowly arches her back, fingers trailing down her stomach, warm morning light from a window casting long shadows across the bed
Совет: глаголы и наречия движения — ваши настоящие рычаги. «Медленно», «постепенно», «выгибаясь», «дразняще» делают больше, чем «шедевр» или «8k».
Оптимальное значение CFG для NSFW-активации
NSFW-файнтюн активируется в определённом диапазоне CFG. За его пределами никакой промпт не спасёт результат.
Базовая модель доминирует. NSFW-активации слабые. Результат выглядит обобщённым или одетым.
NSFW-файнтюн и базовая модель балансируют корректно. Начните с 6,5.
Рекомендуемое значение: 6,5Файнтюн перекорректирует. Анатомия искажается, появляются артефакты, лица ломаются.
Якорный кадр I2V — Что не нужно вводить в промпт
В режиме I2V ваше начальное изображение кодируется как якорь в латентном пространстве. Модель ищет траекторию движения, отходящую от якоря без его разрушения. Это меняет всё в том, как вы пишете промпт.
beautiful red-haired woman lying in bed, nude, soft lighting, sensual expression, perfect body, long hair spread across pillow
Модель уже видит изображение. Повтор его содержания создаёт конкурирующие сигналы — результат заикается или зависает.
she slowly leans forward, lips parting slightly, one hand reaching toward the camera, hair falling across her face
Якорь управляет внешним видом. Ваш промпт управляет траекторией. Описывайте только то, что меняется.
Словарь движения
Слова и фразы, создающие настоящее движение в Wan 2.2. Нажмите на чип, чтобы скопировать.
Движение тела
Движение камеры
Скорость и интенсивность
Атмосфера сцены
Шаблоны сцен по категориям
Готовые отправные точки для четырёх типов сцен. Текст промптов всегда на английском — Wan 2.2 является моделью с английскими промптами.
A woman in sheer white lingerie sits on the edge of a white-sheeted bed, slowly reaching back to unhook her bra, soft warm lamplight from the right, shallow depth of field, intimate close-up framing
she slowly slides the fabric off her shoulder, body turning slightly toward the light, hair falling forward
stiff, static, no movement, clothed, extra limbs, distorted anatomy, blurry face, low quality, watermark
