LogoAlicia Martinelli

Dream Synthesis Simulation

In Planung

Iteratives Ping-Pong zwischen Text- und Bildmodellen: Ein Sprachmodell beschreibt eine Szene, ein Bildmodell visualisiert sie, danach interpretiert das Sprachmodell das Bild erneut – mehrere Runden lang.

StartQ1 2026
StatusIn Planung

Zielbild

Untersuchen, ob durch den kontinuierlichen Austausch zwischen Text- und Bildrepräsentationen eine eigenständige „Traumlogik“ entsteht, die sich schrittweise von der ursprünglichen Instruktion löst. Das Experiment versteht sich als erste Annäherung an ein maschinelles Unterbewusstsein: Systeme sollen nicht nur antworten, sondern frei assoziieren.

Motivation

Multimodale Modelle sind heute überwiegend Einweg-Systeme: Prompt rein, Output raus. Was fehlt, ist ein zyklischer Prozess, bei dem Modelle selbst zu ihrem Kontext werden. Traumforschung kennt diese Schleifen – Erinnerungen, die rekombiniert werden, bis ein neues Narrativ entsteht. Dream Synthesis Simulation überträgt dieses Prinzip auf LLMs und Diffusion Models.

Traum-Schleife

1) Textmodell beschreibt eine Szene (Prompt A). 2) Bildmodell (z. B. Stable Diffusion XL) generiert ein Motiv. 3) Das Textmodell erhält nur das Bild (per Captioning/Visual Question Answering) und beschreibt, was es erkennt. 4) Diese neue Beschreibung wird zurück in das Bildmodell gegeben. Nach n Iterationen analysiere ich Divergenz, entstehende Themen und die Stabilität der Narration.

Hypothesen

  • Die Beschreibungen entfernen sich progressiv vom Ursprungstext und entwickeln wiederkehrende Motive, die nicht explizit vorgegeben wurden.
  • Bild-zu-Text-Interpretationen verstärken bestimmte visuelle Artefakte, wodurch sich „Traum-Logiken“ herausbilden (z.B. flüssige Übergänge, Metamorphosen).
  • Die Stabilität des Zyklus hängt stark vom gewählten Modellpaar ab (z.B. GPT-4o vs. Llama Vision kombiniert mit Stable Diffusion XL vs. Flux).

Research Questions

  • Wie schnell driftet die Szene semantisch weg vom Ausgangsprompt?
  • Welche Token-/Bildmuster tauchen in jeder Runde wieder auf, obwohl sie nie explizit angefordert wurden?
  • Lässt sich die Drift gezielt steuern (z.B. mehr Surrealismus vs. kohärente Story)?
  • Welche Rolle spielen Modelltemperatur, Guidance Scale und Negativ-Prompts im Verlauf der Traum-Schleife?

Next Steps

  • Kurzes Pilot-Setup mit zwei Modellpaaren und fünf Iterationen, um Metriken für Divergenz und Motiv-Wiederholung zu definieren.
  • Aufbau eines Logging-Frameworks (Weights & Biases) zur Versionierung aller Prompts, Seeds und generierten Assets.
  • Evaluations-Interface mit Timeline-Ansicht, damit Iterationen auditierbar und teilbar sind.
  • Recherche zu kognitiver Traumforschung (Traumdeutung, freie Assoziation), um Analysen sinnvoll einzuordnen.

Technologien

GPT-4o / Vision LLMStable Diffusion XLFluxCLIPPythonPyTorchWeights & BiasesNext.js Dashboard

Key Concepts

TraumlogikMultimodale Feedback-SchleifenEmergente NarrativeVision-Language Alignment

Status Update

Derzeit recherchiere ich Referenzarbeiten zu Traumsimulation und Visual-Language-Loops, stelle einen Prompt-Datensatz zusammen und teste Modellkombinationen lokal. Updates folgen, sobald der erste Zyklus geloggt ist.