Dream Synthesis Simulation
In PlanungIteratives Ping-Pong zwischen Text- und Bildmodellen: Ein Sprachmodell beschreibt eine Szene, ein Bildmodell visualisiert sie, danach interpretiert das Sprachmodell das Bild erneut – mehrere Runden lang.
Zielbild
Untersuchen, ob durch den kontinuierlichen Austausch zwischen Text- und Bildrepräsentationen eine eigenständige „Traumlogik“ entsteht, die sich schrittweise von der ursprünglichen Instruktion löst. Das Experiment versteht sich als erste Annäherung an ein maschinelles Unterbewusstsein: Systeme sollen nicht nur antworten, sondern frei assoziieren.
Motivation
Multimodale Modelle sind heute überwiegend Einweg-Systeme: Prompt rein, Output raus. Was fehlt, ist ein zyklischer Prozess, bei dem Modelle selbst zu ihrem Kontext werden. Traumforschung kennt diese Schleifen – Erinnerungen, die rekombiniert werden, bis ein neues Narrativ entsteht. Dream Synthesis Simulation überträgt dieses Prinzip auf LLMs und Diffusion Models.
Traum-Schleife
1) Textmodell beschreibt eine Szene (Prompt A). 2) Bildmodell (z. B. Stable Diffusion XL) generiert ein Motiv. 3) Das Textmodell erhält nur das Bild (per Captioning/Visual Question Answering) und beschreibt, was es erkennt. 4) Diese neue Beschreibung wird zurück in das Bildmodell gegeben. Nach n Iterationen analysiere ich Divergenz, entstehende Themen und die Stabilität der Narration.
Hypothesen
- •Die Beschreibungen entfernen sich progressiv vom Ursprungstext und entwickeln wiederkehrende Motive, die nicht explizit vorgegeben wurden.
- •Bild-zu-Text-Interpretationen verstärken bestimmte visuelle Artefakte, wodurch sich „Traum-Logiken“ herausbilden (z.B. flüssige Übergänge, Metamorphosen).
- •Die Stabilität des Zyklus hängt stark vom gewählten Modellpaar ab (z.B. GPT-4o vs. Llama Vision kombiniert mit Stable Diffusion XL vs. Flux).
Research Questions
- •Wie schnell driftet die Szene semantisch weg vom Ausgangsprompt?
- •Welche Token-/Bildmuster tauchen in jeder Runde wieder auf, obwohl sie nie explizit angefordert wurden?
- •Lässt sich die Drift gezielt steuern (z.B. mehr Surrealismus vs. kohärente Story)?
- •Welche Rolle spielen Modelltemperatur, Guidance Scale und Negativ-Prompts im Verlauf der Traum-Schleife?
Next Steps
- •Kurzes Pilot-Setup mit zwei Modellpaaren und fünf Iterationen, um Metriken für Divergenz und Motiv-Wiederholung zu definieren.
- •Aufbau eines Logging-Frameworks (Weights & Biases) zur Versionierung aller Prompts, Seeds und generierten Assets.
- •Evaluations-Interface mit Timeline-Ansicht, damit Iterationen auditierbar und teilbar sind.
- •Recherche zu kognitiver Traumforschung (Traumdeutung, freie Assoziation), um Analysen sinnvoll einzuordnen.
Technologien
Key Concepts
Status Update
Derzeit recherchiere ich Referenzarbeiten zu Traumsimulation und Visual-Language-Loops, stelle einen Prompt-Datensatz zusammen und teste Modellkombinationen lokal. Updates folgen, sobald der erste Zyklus geloggt ist.