Akademisches Peer Review
Folgepublikationen werden für peer-reviewed Venues vorbereitet. Preprints sind währenddessen über arXiv und Zenodo öffentlich, sodass die Forschungsbeiträge unabhängig vom Review-Status sichtbar bleiben.
Methodische Grundlagen
„Welche Standards machen Forschungsergebnisse über das eigene Labor hinaus überprüfbar?"
Eine Forschungsarbeit ist nur so belastbar wie die Methodik, die zu ihr geführt hat. Diese Seite dokumentiert die operativen Standards unserer Arbeit — von der Pre-Registration einzelner Forschungsentscheidungen bis zu den externen Validierungspfaden, an denen wir uns messen lassen.
Diese Seite richtet sich an Forschungseinrichtungen, Förderträger und Behörden, die einschätzen wollen, mit welcher methodischen Sorgfalt wir arbeiten. Sie ergänzt die Methodik-Übersicht auf der Forschungsseite um die operativen Details.
Methodische Standards entstehen nicht aus einem einzelnen Manifest, sondern aus konkreten Entscheidungen, die in der täglichen Forschungsarbeit getroffen werden. Wir dokumentieren hier diejenigen, die unsere Arbeit für Dritte überprüfbar machen.
Der Forschungsprozess
Jedes Forschungsergebnis durchläuft denselben Prozess — iterativ, nicht linear. Ablation und negative Ergebnisse fließen in die Hypothesen-Revision zurück.
Pre-Registration
Zentrale Forschungsdokumente werden über OpenTimestamps zeitlich verankert. Der kryptographische Hash eines Dokuments wird in einer öffentlichen Block-Chain festgeschrieben — das schafft einen Prioritätsnachweis, der unabhängig vom späteren Veröffentlichungsdatum ist und der ohne Mitwirkung des Autors verifizierbar bleibt.
Die Zeitstempel sind kein institutioneller Zwischenschritt, sondern offene Infrastruktur. Dritte können den Zeitnachweis später ohne Zutun der Forschenden gegenprüfen.
Was bei uns vor der Arbeit registriert wird
Reproducibility
Forschungsergebnisse sind nur dann belastbar, wenn Dritte sie unter klaren Voraussetzungen reproduzieren können. Bei uns gehört das Replikations-Material zur Publikation, nicht zu einem späteren Anhang.
Software erscheint unter Open-Source-Lizenz (Apache 2.0 für ZenBrain, gemischt Apache 2.0 und MIT für die Eval-Skripte). Konfigurationen, Hyperparameter und Seeds sind Teil der Code-Repository — damit ein vergessener Hyperparameter nicht zu einer nicht-reproduzierbaren Studie führt.
Wo unsere Replikations-Materialien öffentlich liegen
Externe Validierung
Forschung, die sich selbst zertifiziert, ist nicht überprüft. Wir bauen die Architektur so, dass externe Validierung an mehreren Stellen möglich ist — nicht erst nach Abschluss der Arbeit, sondern entlang ihrer Phasen.
Welche Validierungspfade wir nutzen, hängt vom Gegenstand ab. Für algorithmische Beiträge ist Peer Review der akademische Standard. Für sicherheitsrelevante Komponenten kommen Notified-Body-Vorprüfungen und juristische Gutachten zur Grundrechtskonformität hinzu.
Folgepublikationen werden für peer-reviewed Venues vorbereitet. Preprints sind währenddessen über arXiv und Zenodo öffentlich, sodass die Forschungsbeiträge unabhängig vom Review-Status sichtbar bleiben.
Für die Civil-Liberties-Architektur des Public-Safety-Tracks haben wir Vorgespräche mit benannten Stellen geführt. TÜV SÜD, TÜV Rheinland und Bureau Veritas haben Erfahrung mit Konformitätsbewertungen unter der EU-KI-Verordnung. Diese Sondierungen sind nicht-bindend; bei produktiver Anwendung werden sie in eine formale Konformitätsbewertung überführt.
Architektur-Entscheidungen mit Grundrechtsbezug werden juristisch begutachtet. Geprüft werden insbesondere die Vereinbarkeit mit DSGVO Art. 89, VO (EU) 2024/1689 Art. 5 sowie die Brokdorf-Doktrin des Bundesverfassungsgerichts (BVerfGE 69, 315).
Das arXiv-Endorsement-Verfahren durch etablierte Forschende ist eine Vorab-Validierung: Ein Endorser bestätigt, dass ein Beitrag dem akademischen Niveau der jeweiligen Kategorie entspricht. ORCID, Semantic Scholar und Google Scholar verknüpfen die Publikation mit verifizierbaren Forschenden-Profilen.
Negative Ergebnisse und Ablation
Forschung, die nur Erfolgsfälle veröffentlicht, ist methodisch unvollständig. Ablation-Studien zeigen, welche Komponenten welchen Beitrag leisten — und ob ein Befund das Ergebnis einer einzelnen Architektur-Entscheidung oder ihres Zusammenspiels ist.
Unser Ablation-Register dokumentiert Hypothesen, die widerlegt wurden, und Architektur-Varianten, die wir verworfen haben. Damit ist nachvollziehbar, warum die finale Architektur so und nicht anders aussieht.
Im internen Entwicklungs-Repository wird backend/src/algorithms/ablation.ts als Feature-Flag-Registry gepflegt. Damit lassen sich einzelne der publizierten Algorithmen für Vergleichsstudien deaktivieren — etwa um den Beitrag eines spezifischen Memory-Layers zu isolieren.
Architektur-Varianten, die wir geprüft und verworfen haben — etwa bestimmte Reranker-Konfigurationen oder abgelehnte Memory-Topologien — werden mit ihrer Begründung dokumentiert. Eine spätere Wiederholung verworfener Pfade ist damit eine bewusste Entscheidung, kein Versehen.
Folgepublikationen werden negative und kontraintuitive Befunde explizit ausweisen, statt sie zugunsten einer glatteren Darstellung herauszuschneiden. Replikationen, die abweichende Ergebnisse zeigen, werden auf der Publikationsseite verlinkt.
Datenminimierung
Datenminimierung ist nicht nur eine datenschutzrechtliche Verpflichtung nach Art. 5 Abs. 1 lit. c DSGVO, sondern eine methodische Entscheidung. Annotationsschemata, die mehr erfassen als die Forschungsfrage trägt, vermischen Untersuchungsgegenstände und unterminieren die Aussagekraft der Befunde.
Im Public-Safety-Track bedeutet das konkret: Wir arbeiten mit Skelett- und Bewegungsmustern, nicht mit Gesichtsmerkmalen. Trajektorien werden innerhalb begrenzter Analysefenster aggregiert, nicht über Räume oder Zeit hinweg verkettet. Es entstehen keine biometrischen Templates.
Annotationen erfassen das Konstrukt, das die Hypothese betrifft — nicht alles, was ein Annotator beobachten könnte. Inter-Rater-Reliability mit Cohen's κ ≥ 0,61 als Zielwert sichert die Operationalisierungsqualität ab.
Forschungsverarbeitungen unter Art. 89 DSGVO erfolgen pseudonymisiert, sofern technisch möglich. Die Rückführbarkeit wird auf das für die Forschungsfrage notwendige Maß begrenzt.
Auswahlentscheidungen werden mehrfach gegen Ausreißer validiert — drei unabhängige Validierungsschritte vor einer Datennutzung. Damit wird vermieden, dass Verzerrungen in der Stichprobenauswahl unbemerkt in die Architektur einsickern.
Externe Standards
Diese Standards sind nicht unsere — sie sind in den jeweiligen Communities verankert. Wir orientieren unsere Methodik an ihnen.
Findable, Accessible, Interoperable, Reusable (Wilkinson et al., 2016). Forschungsdaten und Software werden so abgelegt, dass sie über persistente Identifikatoren (DOI, ORCID, GitHub) auffindbar sind und unter Apache 2.0 beziehungsweise CC BY 4.0 nachnutzbar bleiben.
In der ML-Disziplin etablierte Reproducibility-Checklisten — gepflegt durch JMLR, ICML und vergleichbare Venues — sind Bezugspunkt für die Berichterstattung in Publikationen: Datensplits, Seeds, Hyperparameter, Compute-Budget, Konfidenzintervalle.
Outputs KI-gestützter Systeme werden gemäß Art. 50 VO (EU) 2024/1689 gekennzeichnet, sobald sie an natürliche Personen ausgegeben werden. Die Kennzeichnung ist nicht nachgelagert, sondern Teil der Output-Pipeline.
Forschungsverarbeitungen erfolgen unter den Garantien des Art. 89 DSGVO: Pseudonymisierung, Datenminimierung, Zweckbindung, technisch-organisatorische Maßnahmen.
Publikationen erscheinen als Preprints auf arXiv (CS.AI) und werden mit DOI auf Zenodo persistent verankert. Software steht unter Apache 2.0, Replikationsmaterial unter CC BY 4.0.
Offene methodische Fragen
Methodische Reife ist ein Prozess. Wir benennen offen, an welchen Stellen unsere Standards noch evolvieren.
Die ZenBrain-Algorithmen sind öffentlich, aber unabhängige Replikationen durch Dritte stehen noch aus. Sobald solche Replikationen vorliegen, werden wir sie auf der Publikationsseite verlinken — auch bei abweichenden Befunden.
Annotationsschemata für den Public-Safety-Track werden derzeit intern entwickelt. Eine externe Annotation durch unabhängige Annotatoren — etwa im Rahmen eines Konsortial-Projekts — wäre methodisch wünschenswert.
Die in den Memory-Algorithmen modellierten Retention-Kurven sind im Kurz- bis Mittelfristbereich validiert. Multi-Year-Follow-Ups erfordern Forschungsinfrastruktur, die wir alleine nicht stellen können — hier wären Kooperationen mit Universitäten oder außerhochschulischen Einrichtungen ein methodisch geeigneter Weg.
Für die Bayesian-Confidence-Propagation berichten wir 95-Prozent-Konfidenzintervalle. Für komplexere Pipeline-Stufen — etwa GraphRAG-Retrieval-Genauigkeiten unter realistischer Datenverteilung — wird die CI-Berichterstattung noch ausgebaut.
Methodische Diskussion
Konkrete methodische Fragen — etwa zu Replikations-Material, Ablation-Studien oder Validierungs-Designs — beantworten wir gerne. Bei Interesse an gemeinsamen methodischen Arbeiten freuen wir uns über Sondierungsgespräche.
Methodische Anfrage sendenMehr aus dieser Forschung
Drei Tracks, ein Zentrum, gemeinsame ethische Grundlage.