Engineering

Cooperative Survival Network: was 15 Algorithmen unter Stress wirklich tun

Alexander Bering
Alexander Bering
27. April 2026 · 6 min Lesezeit

Im Sommer 2025 entwickelte ich ein Memory-System mit acht Algorithmen. Sleep-Consolidation, FSRS, Hebbian-Update, Bayesian-Confidence, Ebbinghaus-Decay, Emotional-Tagging, Cross-Layer-Routing, Importance-Boosting. Alle implementiert, alle getestet.

Dann entfernte ich Sleep — und die Quality-Metric blieb gleich. Hebbian raus — gleich. Bayesian raus — gleich.

Mein erster Reflex: hier ist Code, der nichts tut. Vielleicht sollte ich aufräumen.

Drei Monate später, beim ersten Stress-Test mit 60 Tagen simulierter Aging und decay = 0,25/Tag, fielen sieben dieser "überflüssigen" Algorithmen einer nach dem anderen aus — das System verlor 78,9 %, 92,3 %, 92,6 %, 93,1 %, 93,7 % seiner Quality, je nachdem welcher entfernt war.

Sie waren nie überflüssig. Sie waren kooperativ redundant.

Was eine Ablation eigentlich misst

Eine klassische Ablation funktioniert so: Du nimmst dein voll funktions­fähiges System, schaltest einen einzigen Algorithmus ab, und misst, wie viel sich verschlechtert. Bleibt die Performance gleich, ist der Algorithmus "redundant". Bricht sie ein, ist er "kritisch".

Das ist eine vernünftige Methodik — bis das System redundante Schutzmechanismen hat. Dann zeigt die Single-Removal-Ablation systematisch falsche Ergebnisse.

Beispiel: Stell dir ein Auto mit Bremspedal und Handbremse vor. Eine Ablation würde testen:

  • Auto fährt los, Bremspedal entfernt, gefahren auf Probefahrtstrecke. Stoppt mit Handbremse. Kein Performance-Verlust gemessen. Bremspedal wirkt redundant.
  • Auto fährt los, Handbremse entfernt, gleiche Strecke. Stoppt mit Bremspedal. Kein Performance-Verlust gemessen. Handbremse wirkt redundant.
  • Conclusion: Wir können beide entfernen!

Das Problem: Die Methodik testet nur ein Versagen zur Zeit. Sie misst nicht, was bei Stress passiert, wenn beide Mechanismen gleichzeitig gefordert sind.

Was wir im Paper getan haben

Statt einer Single-Difficulty-Ablation gibt es im v6 ZenBrain-Paper drei. Sie unterscheiden sich nur in der Belastung:

| Stufe | Decay-Rate | Aging | Facts | |---|---|---|---| | Moderat | 0,15/Tag | 45 Tage | 300 | | Challenging | 0,20/Tag | 50 Tage | 400 | | Stress | 0,25/Tag | 60 Tage | 500 |

Alle 15 Algorithmen werden in jeder Stufe einzeln entfernt, das System läuft 10 Seeds, und wir messen ΔQ = Retention × P@5. Wilcoxon Signed-Rank Test, Bonferroni-korrigiert.

Das Resultat ist eine Vier-Klassen-Taxonomie, die ich vorher noch nirgendwo in der AI-Memory-Literatur gesehen habe.

Klasse 1: Progressive Algorithmen (5)

Diese Algorithmen sind unter moderaten Bedingungen vollständig redundant — entferne einen und nichts passiert. Aber je härter die Belastung wird, desto kritischer werden sie. Ihre Werte:

| Algorithmus | Moderat | Challenging | Stress | |---|---|---|---| | vmPFC-FSRS | 0 % | −93,1 %* | −92,6 %* | | TripleCopy | 0 % | −54,2 %* | −93,7 %* | | Dual-Process CoT | 0 % | −38,5 %* | −91,0 %* | | Two-Factor Hebbian | 0 % | −34,4 %* | −92,3 %* | | IB Budget | 0 % | −25,5 %* | −89,8 %* |

* = Wilcoxon p < 0,005.

Lies vmPFC-FSRS: Unter milden Bedingungen kann man ihn entfernen — das System merkt nichts. Schraube die Aging-Schraube auf 50 Tage und 0,20/Tag, und seine Entfernung kostet 93,1 % Quality. Steiler Cliff.

Klasse 2: Always-Critical (2)

Zwei Algorithmen sind in jeder Stufe individuell signifikant:

| Algorithmus | Moderat | Challenging | Stress | |---|---|---|---| | Sleep | −34,4 %* | −91,1 %* | −78,9 %* | | NeuromodulatorEngine | −0,1 % | −34,8 %* | −83,0 %* |

Sleep ist die einzige Komponente, die schon unter moderaten Bedingungen den größten Einzelbeitrag liefert (ΔQ = −34,4 %). NeuromodulatorEngine ist knapp drüber unter moderaten Bedingungen (−0,1 %) und unter Stress eines der survivlcritical Tier.

Klasse 3: Stress-Only (2)

Zwei Algorithmen sind in moderaten und challenging Stufen redundant — und werden erst unter extremem Stress kritisch:

| Algorithmus | Moderat | Challenging | Stress | |---|---|---|---| | StabilityProtector | 0 % | 0 % | −5,8 %* | | Reconsolidation | 0 % | 0 % | −3,4 %* |

Diese sind Versicherungspolicen — du merkst sie nie, bis du sie brauchst. StabilityProtector verhindert casual rewriting reifer Erinnerungen unter Stress; Reconsolidation öffnet das Update-Fenster mit Rollback-Sicherung.

Klasse 4: Cooperatively Redundant (6)

Sechs Algorithmen sind in allen Stufen kooperativ redundant — ihre Entfernung hat ΔQ ≤ 0,1 % in allen drei Bedingungen:

iMAD Debate, Spectral KG Health, Compositional Context, HyperAgent, MetacogMonitor, PriorityMap.

Sind sie überflüssig?

Nein: Wenn man alle 6 PMA-Komponenten gleichzeitig entfernt (also "NeurIPS-only" gegen "Full" testet), bricht das System um −67,5 % unter moderaten Bedingungen ein. Wenn man alle 15 entfernt, bricht es um −99,0 % ein.

Diese sechs Algorithmen tragen ihre Beiträge in Ranking-Präzision statt Retention-Rate ab. Single-Removal-Ablations, die Retention messen, sehen sie nicht. End-to-End-Tests, die Antwort-Qualität messen (z. B. LongMemEval-500), sehen sie sehr wohl: ZenBrain mit allen 15 Komponenten gewinnt 12 von 12 Judge-Vergleichen gegen Letta/Mem0/A-Mem; ZenBrain mit nur den 9 NeurIPS-Algorithmen würde diese Marge nicht halten.

Die Integration-Cascade

Eine letzte Tabelle aus dem Paper macht die Story besonders klar. Bei extremem Stress (decay = 0,30/Tag, 60 Tage):

| Konfiguration | Retention nach 60 Tagen | |---|---| | Full System (15 Algorithmen) | 31,1 % | | NeurIPS-only (9 Algorithmen, kein PMA) | 1,0 % | | Bare System (0 Algorithmen) | 1,0 % |

Lies das nochmal: Ohne PMA fällt das System auf den gleichen Floor wie das Bare-System. Die 9 fundamentalen Algorithmen allein schaffen es nicht über 60 Tage. Erst die 6 PMA-Komponenten — die in Single-Removal-Ablations als "redundant" erscheinen — halten Erinnerungen lange genug am Leben, dass die NeurIPS-Algorithmen sie reinforce können.

Das ist keine Addition. Das ist eine Synergie, die nur als Gesamtsystem entsteht.

Was das für Engineering bedeutet

Die intuitive Heuristik "wenn ich es entfernen kann ohne Verschlechterung, ist es überflüssig" ist falsch für resiliente Systeme. Sie ist richtig für Pipelines mit linearen Single-Path-Abhängigkeiten — aber nicht für Mehrschicht-Memory-Architekturen, in denen Algorithmen kooperativ Belastung kompensieren.

Das praktische Take-away für Memory-Engineering:

  1. Ablations sollten mehrere Stress-Stufen testen. Eine Single-Difficulty-Ablation versteckt 7+ kritische Algorithmen.
  2. End-to-End-Metriken sind wichtiger als Retention-Metriken. Die 6 "kooperativ-redundanten" Algorithmen tragen zu Ranking-Präzision bei — was sich erst in Judge-bewerteten Antwortqualitäten zeigt, nicht in P@5.
  3. Group-Removal ist informativer als Single-Removal. Wenn das Entfernen aller 6 PMA −67,5 % kostet, aber kein einzelnes davon individuell mehr als −0,1 %, ist das ein klares Zeichen für kooperative Redundanz, nicht für Überflüssigkeit.
  4. Resiliente Systeme sehen unter Test wie überdimensioniert aus. Das ist ein Feature, kein Bug. Fehlertolerante Designs haben absichtlich mehr Redundanz, als für die typische Last nötig ist.

Praktiker-Anleitung

Das Paper schlägt eine konkrete Empfehlung für Praktiker mit Ressourcen­knappheit vor: Welche Algorithmen sollten zuerst implementiert werden?

Tier-1 (always-critical): Sleep-Consolidation, NeuromodulatorEngine. Diese liefern Wert ab Tag 1.

Tier-2 (progressive): vmPFC-FSRS, TripleCopy, Dual-Process CoT, Two-Factor Hebbian, IB Budget. Diese werden kritisch sobald die Last steigt — implementiere sie vor dem Skalieren.

Tier-3 (stress-only): StabilityProtector, Reconsolidation. Implementiere sie bei Produktiv-Deployment mit langfristiger Memory-Persistenz.

Tier-4 (cooperatively redundant): iMAD, Spectral, Compositional, HyperAgent, MetacogMonitor, PriorityMap. Diese verbessern Antwort-Qualität (Judge-Wahrnehmung) selbst wenn Retention-Metriken sie nicht zeigen — implementiere sie für Production-Quality.

Mehr lesen