Für mehr offene Software in der Forschung!
Wer als Wissenschaftler jemals eine Publikation reproduzieren wollte, um dann auf den reproduzierten Ergebnissen neu aufzubauen, kennt das vielleicht: die Programme, mit denen die Ergebnisse produziert wurden, sind nirgends erhältlich. Vielmehr frustrieren Formulierungen wie "Die Ergebnisse dieser Studie wurden mit hausinternen Programmen produziert" - wie soll man da reproduzieren?
Vor kurzem erschien in Nature dazu ein längeres Essay: The case for open computer programs, grob übersetzt:"Argumentation für offene Computerprogramme". Wie in der Einleitung schon beschrieben, ist das Hauptargument für offen erhältliche Programme das Problem der Reproduzierbarkeit - kann ich mit Hilfe eines Computers die Hauptergebnisse dieser Studie wiederholen?
Ohne Reproduzierbarkeit ist die beste Wissenschaft nutzlos, denn wie kann ich als Wissenschaftler so sicher sein, dass die Ergebnisse stimmen? Vielleicht sind die Programme, die in der Studie benutzt wurden, fehlerhaft? Eventuell werden korrekte Ergebnisse von einem Programm falsch ausgelesen, und so kommt es zu falschen Ergebnissen. Ohne das Programm (und dessen Code) kann ich als nicht-beteiligter Wissenschaftler nicht unabhängig überprüfen, ob das Wissen, auf dem ich meine Forschung aufbaue, nicht fehlerhaft ist; stattdessen muss ich blind den Wissenschaftlern und den Editorn des jeweiligen Fachzeitschriften vertrauen!
Die Autoren des Essays fassen den Standpunkt einiger Fachzeitschriften zusammen - Nature selbst z.B. verlangt von Autoren keine Programme, sondern vielmehr eine Beschreibung des Ablaufs der benutzten Programme in normalem Englisch. Die Idee dahinter ist, dass sich interessierte Wissenschaftler ihre eigenen Programme schreiben können. Biostatistics dagegen hat sogar einen Editor, der nur für Reproduzierbarkeit von Studien zuständig ist - also einen Großteil des Codes braucht.
Persönlich kann ich Gründe sehen, warum man seinen Code nicht veröffentlichen will - wenn ich ein wenig an einem Projekt (momentan an SNP-Daten) arbeite, fliegen schnell 10-20 kurze Skripte in einem Ordner rum, kaum kommentiert, und wenn's nur für mich ist, ohne jede begleitende Dokumentation. Dazu kommt, dass die Programme oft einfach nur hässlich sind, nach dem Motto: "Was funktioniert, reicht" - sowas kann man keinem zeigen!
Sollte man aber. Denn, wie schon oben ausgeführt, ohne Code können andere kaum die Ergebnisse reproduzieren. Ohne Reproduzierbarkeit steht die Wissenschaft, die auf den Ergebnissen aufbaut, nur auf wackligen Beinen.
Der Wissenschafts-Betrieb ist sehr konkurrenzbetont, deswegen liegt es auf der Hand, dass viele Wissenschaftler weniger von ihrer Arbeit preisgeben möchten, als möglich wäre. Es könnte ja schließlich sein, dass eine konkurriende Gruppe sich mithilfe der offenen Software einen Vorteil verschafft, und so die eigene Gruppe überholt. Dagegen kann man einwenden, dass offene Software von vielen verschiedenen Gruppen verbessert werden kann, was im Endeffekt zu besseren Ergebnissen für alle beteiligten Parteien führt.
Die Autoren des Essays erwähnen mehrere Schritte für Fachzeitschriften und Universitäten, mit der "code availability" erreicht werden kann - unter anderem sollen Universitäten Reproduzierbarkeit in ihre Lehre einbinden, was mir persönlich auch am Herzen liegt. In meiner gesamten Bachelor/Master-"Karriere" habe ich nichts über Reproduzierbarkeit beim Publizieren gelernt, obwohl sie mehr als wichtig ist!
Auch wissenschaftliche Fachzeitschriften stehen unter Zugzwang, die "Englische-Beschreibung-reicht"-Vorschrift ist veraltet, Doppeldeutigkeiten kommen zu oft vor. Stattdessen sollten Fachzeitschriften Standards für Code-Veröffentlichung einführen - zum Beispiel in dem sie zumindest teilweise Code-Veröffentlichung (idealerweise unter einer freien Lizenz wie der MIT- oder GNU-Lizenz) einfordern.
Ince, D., Hatton, L., & Graham-Cumming, J. (2012). The case for open computer programs Nature, 482 (7386), 485-488 DOI: 10.1038/nature10836
Geschrieben in Open Access | 5 Kommentare | 0 Trackbacks | Permalink


