Por que seus prompts de SD produzem vídeos ruins
Copiar prompts do Stable Diffusion para o Wan 2.2 produz resultados rígidos, trêmulos ou parcialmente vestidos. Os modelos processam texto de maneiras completamente diferentes.
beautiful woman, nude, bedroom, lingerie removal, slow, sensual, long hair, perfect body, masterpiece, 8k, best quality
O CLIP tokeniza isso como um bag of words. Sem sintaxe, sem trajetória — a saída mal se move.
A woman in black lingerie slowly reaches for her shoulder strap, letting it fall as she turns slightly toward the camera, soft candlelight from the right, intimate handheld framing
O T5 lê isso como uma frase. A gramática cria direção de movimento e fluxo temporal.
Regra: escreva uma frase que descreva o que acontece ao longo do tempo, não uma lista do que você quer ver.
T5 vs CLIP — Por que a estrutura da frase importa
Processa tokens como um bag desordenado. A posição das palavras e relações são amplamente ignoradas. Tags separadas por vírgulas funcionam porque a ordem não importa.
Lê a frase completa. Entende sujeito, verbo e objeto. A gramática ativa relações semânticas que o modelo de imagem nunca vê — incluindo as temporais.
Regra prática: escreva "Uma mulher desliza lentamente as mãos pelo corpo" — não "mulher, mãos, corpo, lento, sensual".
Seu Prompt é um Caminho, não uma Imagem
A difusão de vídeo gera uma trajetória no espaço latente, não quadros individuais. Uma descrição estática produz uma trajetória quase plana — quase nenhum movimento. Uma descrição que implica movimento define um estado inicial e final, dando ao modelo um destino.
Descrição estática → trajetória plana
Descrição de movimento → trajetória dirigida
woman lying on bed, nude, beautiful, soft light, perfect body
A woman lying on white sheets slowly arches her back, fingers trailing down her stomach, warm morning light from a window casting long shadows across the bed
Dica: verbos e advérbios de movimento são suas alavancas reais. "Lentamente", "gradualmente", "arqueando", "de forma sedutora" fazem mais do que "obra-prima" ou "8k".
O Ponto Ideal de CFG para Ativação NSFW
O fine-tune NSFW se ativa dentro de um intervalo específico de CFG. Fora dele, nenhum prompt salva a saída.
O modelo base domina. As ativações NSFW são fracas. A saída parece genérica ou vestida.
O fine-tune NSFW e o modelo base se equilibram corretamente. Comece com 6,5.
Padrão recomendado: 6,5O fine-tune supercorrige. A anatomia se distorce, surgem artefatos, os rostos se quebram.
Quadro Âncora I2V — O que não incluir no Prompt
No modo I2V, sua imagem inicial é codificada como âncora no espaço latente. O modelo encontra uma trajetória de movimento que parte da âncora sem destruí-la. Isso muda tudo na forma como você escreve o prompt.
beautiful red-haired woman lying in bed, nude, soft lighting, sensual expression, perfect body, long hair spread across pillow
O modelo já vê a imagem. Repetir seu conteúdo cria sinais concorrentes — a saída gagueja ou fica congelada.
she slowly leans forward, lips parting slightly, one hand reaching toward the camera, hair falling across her face
A âncora gerencia a aparência. Seu prompt gerencia a trajetória. Descreva apenas o que muda.
Vocabulário de Movimento
Palavras e frases que produzem movimento real no Wan 2.2. Clique em qualquer chip para copiar.
Movimento Corporal
Movimento de Câmera
Velocidade e Intensidade
Atmosfera da Cena
Templates de Cena por Categoria
Pontos de partida copiáveis para quatro tipos comuns de cena. O texto do prompt é sempre em inglês — Wan 2.2 é um modelo de prompts em inglês.
A woman in sheer white lingerie sits on the edge of a white-sheeted bed, slowly reaching back to unhook her bra, soft warm lamplight from the right, shallow depth of field, intimate close-up framing
she slowly slides the fabric off her shoulder, body turning slightly toward the light, hair falling forward
stiff, static, no movement, clothed, extra limbs, distorted anatomy, blurry face, low quality, watermark
