Engineering

Forschung als Dokumentation: Pre-Registration und Replikation

Alexander Bering

19. August 2025 · 3 min Lesezeit

Der Punkt, an dem ein Projekt eine Methode braucht

Mitte 2025 gab es genug funktionierenden Code, dass sich das Risiko verschob. Die Gefahr war nicht mehr „läuft überhaupt etwas davon", sondern „werden wir dem, was es uns sagt, trauen und es später verteidigen können". Ein unabhängiges Vorhaben hat kein Ethik-Gremium, das ihm über die Schulter sieht. Dieses Fehlen muss bewusst durch Methode ersetzt werden, sonst sind die Ergebnisse wenig wert.

Also machten wir Dokumentation zu einem eigenständigen Forschungsergebnis, auf gleicher Stufe mit dem Code. Drei Praktiken trugen den Großteil der Last.

Pre-Registration, mit Zeitstempel

Bevor wir die Experimente liefen, auf die es ankam, schrieben wir auf, was wir erwarteten und wie wir es messen würden — und verankerten diese Dokumente zeitlich über OpenTimestamps, das einen kryptografischen Nachweis der Existenz einer Datei zu einem bestimmten Datum festhält.

Der Grund ist schlicht und ein wenig unbequem: Es ist sehr leicht, sich nach dem Sehen der Ergebnisse einzureden, man habe sie vorhergesagt. Ein Zeitstempel nimmt die Versuchung. Eine vor den Daten festgehaltene Entscheidung lässt sich danach nicht still umschreiben. Für ein Vorhaben mit einer einzelnen verantwortlichen Person ist das eine der billigsten verfügbaren Vorkehrungen gegen Selbsttäuschung.

Replikation als Default

Jedes Ergebnis, an dem uns liegt, kommt mit dem Material, das zur Reproduktion nötig ist — den Daten, der Konfiguration, dem Vorgehen — und nicht als Zahl auf einer Folie. Das ist teils Prinzip, teils Eigeninteresse: Code, der sich nicht erneut ausführen lässt, ist Code, dessen Ergebnisse man irgendwann nicht mehr erklären kann — auch sich selbst nicht, sechs Monate später.

Es verändert auch, wie eine Aussage für eine außenstehende Leserin klingt. „Wir haben X beobachtet" ist eine Behauptung. „Wir haben X beobachtet, hier ist der Weg dorthin" ist eine Einladung zur Prüfung. Nur das Zweite gehört in die Forschung.

Negativergebnisse sind Ergebnisse

Die letzte Praxis ist die schwerste durchzuhalten: aufzuschreiben, was nicht funktioniert hat. Ansätze, die vielversprechend aussahen und schwächer abschnitten, Parameter, die sich als unwichtig erwiesen, Mechanismen, von denen wir Nutzen erwarteten und die keinen brachten. Diese schaffen es selten in öffentliche Darstellungen — was genau der Grund ist, warum öffentliche Darstellungen dazu neigen, zu überzeichnen, wie sauber der Weg war.

Wir führen den Bericht, weil die Fehlschläge Information tragen — sie markieren die Grenzen, an denen die Methode tatsächlich hält — und weil ein Forschungsprogramm, das nur seine Erfolge meldet, keines ist, dem eine ernsthafte Leserin trauen sollte.

Wofür das gut ist

Nichts davon ist glanzvoll und nichts davon ist neu; es sind gewöhnliche Normen sorgfältiger Wissenschaft. Sie zu benennen, ist der Punkt. Ein unabhängiges Lab erwirbt das Recht, ernst genommen zu werden, nicht durch die Behauptung von Rigorosität, sondern indem es deren Artefakte hinterlässt — Zeitstempel, reproduzierbare Läufe, ein vollständiges Verzeichnis der Sackgassen — für alle, die nachsehen möchten.

Wozu diese Disziplin führte — überprüfbare Ergebnisse statt Behauptungen: 91 % der Genauigkeit bei 1 % der Kosten, das Cooperative Survival Network und warum 11.589 Tests.

Forschung als Dokumentation: Pre-Registration und Replikation

Der Punkt, an dem ein Projekt eine Methode braucht

Pre-Registration, mit Zeitstempel

Replikation als Default

Negativergebnisse sind Ergebnisse

Wofür das gut ist

Ähnliche Artikel

Der Härtetest: warum wir vor dem ersten Kunden zehn Sicherheits-Sprints gefahren sind

Vom KI-Überblick zur echten Demo: Wie aus einem Blueprint autonom eine ZenAi-Instanz wird

91 % der Genauigkeit bei 1 % der Tokens — die Pareto-Position für AI-Memory

Forschung als Dokumentation: Pre-Registration und Replikation

Der Punkt, an dem ein Projekt eine Methode braucht

Pre-Registration, mit Zeitstempel

Replikation als Default

Negativergebnisse sind Ergebnisse

Wofür das gut ist

Ähnliche Artikel

Der Härtetest: warum wir vor dem ersten Kunden zehn Sicherheits-Sprints gefahren sind

Vom KI-Überblick zur echten Demo: Wie aus einem Blueprint autonom eine ZenAi-Instanz wird

91 % der Genauigkeit bei 1 % der Tokens — die Pareto-Position für AI-Memory