Warum deine SD-Prompts schlechte Videos erzeugen
Wenn du Stable-Diffusion-Prompts in Wan 2.2 kopierst, erhältst du steife, zittrige oder halb bekleidete Ausgaben. Die Modelle verarbeiten Text völlig unterschiedlich.
beautiful woman, nude, bedroom, lingerie removal, slow, sensual, long hair, perfect body, masterpiece, 8k, best quality
CLIP tokenisiert das als Wort-Bag. Kein Syntax, keine Trajektorie – die Ausgabe bewegt sich kaum.
A woman in black lingerie slowly reaches for her shoulder strap, letting it fall as she turns slightly toward the camera, soft candlelight from the right, intimate handheld framing
T5 liest das als Satz. Grammatik erzeugt Bewegungsrichtung und zeitlichen Fluss.
Regel: Schreibe einen Satz, der beschreibt, was im Laufe der Zeit passiert – keine Liste dessen, was du sehen möchtest.
T5 vs CLIP — Warum Satzstruktur wichtig ist
Verarbeitet Tokens als ungeordnete Wort-Bag. Wortposition und Beziehungen werden weitgehend ignoriert. Kommagetrennte Tags funktionieren gut, weil die Reihenfolge keine Rolle spielt.
Liest den vollständigen Satz. Versteht Subjekt, Verb und Objekt. Grammatik aktiviert semantische Beziehungen, die das Bildmodell nie sieht – einschließlich zeitlicher.
Praktische Regel: Schreibe "Eine Frau fährt langsam ihre Hände an ihrem Körper entlang" – nicht "Frau, Hände, Körper, langsam, sinnlich".
Dein Prompt ist ein Pfad, kein Bild
Video-Diffusion erzeugt eine Trajektorie durch den latenten Raum, keine einzelnen Frames. Eine statische Beschreibung ergibt eine flache Trajektorie – kaum Bewegung. Eine bewegungsimplizierende Beschreibung definiert Anfangs- und Endzustand, sodass das Modell ein Ziel hat.
Statische Beschreibung → flache Trajektorie
Bewegungsbeschreibung → gerichtete Trajektorie
woman lying on bed, nude, beautiful, soft light, perfect body
A woman lying on white sheets slowly arches her back, fingers trailing down her stomach, warm morning light from a window casting long shadows across the bed
Tipp: Bewegungsverben und Adverbien sind deine echten Hebel. "Langsam", "allmählich", "sich wölbend", "neckisch" bewirken mehr als "Meisterwerk" oder "8k".
Der CFG-Sweetspot für NSFW-Aktivierung
Das NSFW-Fine-Tune aktiviert sich in einem bestimmten CFG-Bereich. Außerhalb davon hilft kein Prompt.
Basismodell dominiert. NSFW-Aktivierungen sind schwach. Ausgabe wirkt generisch oder bekleidet.
NSFW-Fine-Tune und Basismodell balancieren sich korrekt. Starte mit 6,5.
Empfohlener Standard: 6,5Fine-Tune überkorrigiert. Anatomie verzerrt, Artefakte erscheinen, Gesichter brechen.
I2V Ankerrahmen — Was man nicht prompten sollte
Im I2V-Modus wird dein Startbild als Anker in den latenten Raum kodiert. Das Modell findet eine Bewegungstrajektorie, die vom Anker abweicht, ohne ihn zu zerstören. Das verändert alles daran, wie du den Prompt schreibst.
beautiful red-haired woman lying in bed, nude, soft lighting, sensual expression, perfect body, long hair spread across pillow
Das Modell sieht das Bild bereits. Das Wiederholen seines Inhalts erzeugt konkurrierende Signale – Ausgabe stottert oder bleibt eingefroren.
she slowly leans forward, lips parting slightly, one hand reaching toward the camera, hair falling across her face
Der Anker verwaltet das Aussehen. Dein Prompt verwaltet die Trajektorie. Beschreibe nur, was sich ändert.
Bewegungsvokabular
Wörter und Phrasen, die echte Bewegung in Wan 2.2 erzeugen. Klicke auf einen Chip zum Kopieren.
Körperbewegung
Kamerabewegung
Geschwindigkeit & Intensität
Szenenatmosphäre
Szenen-Templates nach Kategorie
Kopierbare Ausgangspunkte für vier gängige Szenentypen. Prompt-Text ist immer Englisch – Wan 2.2 ist ein englischsprachiges Modell.
A woman in sheer white lingerie sits on the edge of a white-sheeted bed, slowly reaching back to unhook her bra, soft warm lamplight from the right, shallow depth of field, intimate close-up framing
she slowly slides the fabric off her shoulder, body turning slightly toward the light, hair falling forward
stiff, static, no movement, clothed, extra limbs, distorted anatomy, blurry face, low quality, watermark
