Vom Referenzstapel zum Modell
Die Skizze von 2024 hatte die richtigen Instinkte und keine Kanten. Über die folgenden Monate verfestigte sie sich zu etwas, über das wir tatsächlich nachdenken konnten: sieben Memory-Layer, jeder mit einer definierten Rolle, und eine Handvoll Prinzipien dafür, wie Information zwischen ihnen wandert.
Die sieben Layer, schlicht benannt:
- Working Memory — der aktive Fokus der laufenden Aufgabe.
- Short-Term Memory — der Kontext der aktuellen Sitzung.
- Episodic Memory — konkrete Erfahrungen mit ihrer Zeit und Umgebung.
- Long-Term Memory — das dauerhafte, destillierte Wissen.
- Procedural Memory — gelernte Routinen und das Wie.
- Core Memory — ein kleines Set angepinnter, stets präsenter Fakten.
- Eine prädiktive Schicht — der Teil, der antizipiert und revidiert, den wir in diesem Stadium bewusst unterspezifiziert ließen.
Die Zahl Sieben ist nicht heilig. Sie ist das kleinste Set, das jeder dokumentierten Funktion ein eigenes Zuhause gab, ohne zwei Ungleiche in eines zu zwingen.
Konsolidierung, nicht Retrieval, im Zentrum
Die Designentscheidung, der wir am stärksten verpflichtet sind, ist auch die unauffälligste: Die interessante Arbeit geschieht zwischen Schreib- und Lesevorgängen, nicht während ihrer.
Die meisten Systeme erledigen alles zur Schreib- oder zur Anfragezeit. Wir verlagerten die wichtigen Transformationen in einen separaten, geplanten Prozess — einen Consolidation-Pass im Geiste der Sleep Consolidation, der jüngere Erfahrung wiederabspielt, das Genutzte stärkt, das Beiläufige verblassen lässt und episodisches Detail in semantisches Wissen überführt. Retrieval arbeitet dann über einem bereits geordneten Speicher, nicht über rohem Sediment.
Das ist ebenso eine methodische Entscheidung wie eine biologische Analogie. Es bedeutet, dass das Verhalten des Systems über Wochen von einem Prozess bestimmt wird, den wir inspizieren und justieren können — nicht von einem Zufall dessen, was zufällig aufgeschrieben wurde.
Confidence als erstklassiges Ergebnis
Das zweite Prinzip: Ein Memory-System sollte wissen, wie sicher es ist. Abruf ist nicht binär. Eine gut getimte Wiederholung macht eine Erinnerung abrufbarer; Zeit ohne Wiederholung macht sie weniger abrufbar; manche Fakten sind aus mehreren Richtungen bestätigt, manche ruhen auf einer einzigen Erwähnung.
Daher behandelten wir Confidence früh als etwas, das propagiert und ausgewiesen wird — eine kalibrierte Schätzung, an das Zurückgegebene geheftet, statt einer einzelnen besten Vermutung, präsentiert mit gleichförmiger Gewissheit. Ein System, das sagen kann „ziemlich sicher, auf schwacher Evidenz", ist nützlicher als eines, das jede Antwort mit derselben Gewissheit präsentiert — und es macht die eigenen Grenzen lesbar.
Noch eine offene Frage
Im Januar 2025 war dies ein Modell und eine frühe Implementierung, kein Ergebnis. Die Prinzipien waren auf Papier vertretbar; ob sie unter realer Last einen einfachen Vector Store schlagen würden, war unbewiesen. Doch das Modell hatte nun Kanten, scharf genug, um es zu prüfen — der einzige Zustand, aus dem heraus eine Forschungsfrage sich bewegen kann.