Was man als BioinformatikerIn so wissen sollte – Teil 2

20. März 2014 von Philipp Bayer in Biologie, Informatik

b836be89446690f235ae14491c43fefc 61a3e859786289f4183676f085b6c390

Im Geiste des ersten Teils möchten wir hier zusammenfassen, was wir momentan als benötigtes "Grundwissen" für Bioinformatikerinnen sehen. Vielleicht hilft es ja der einen oder anderen Selbstlernerin.
Das allerwichtigste zuerst: Englisch. Selbst falls ihr es irgendwie schafft irgendwo einen Job zu bekommen bei dem alle deutsch sprechen können – und die Chancen sind gering – 99.9% der Fachliteratur ist Englisch. Das betrifft sowohl die Bioinformatik selbst, als auch Biologie und die Informatik getrennt. Dazu es gibt so weit wir wissen keine deutschsprachigen Blogs die sich ernsthaft mit Bioinformatik beschäftigen. Mehr oder weniger alles was in der Wissenschaft geschieht, wird in Englisch kommuniziert. Das mag man jetzt mögen oder nicht, es ist die einzige Art mit Kolleginnen zu kommunizieren.

Was dann auch direkt zum nächsten Punkt überleitet: Kommunikationsskills. Durch die interdisziplinäre Natur des Fachs ist es praktisch unmöglich einsam in seinem Büro alleine vor sich hinzuarbeiten, um nach Jahren mit spannenden Ergebnissen aufzutauchen. Stattdessen werdet ihr ziemlich sicher mit anderen Menschen, oft auch rein aus der Biologie oder Informatik kommend kollaborieren. Und auf die Hilfe beider Gruppen werdet ihr früher oder später angewiesen sein und muss sich verständigen können. Gerade die Übersetzung von der Sprache der einen Fachrichtung in die andere ist dabei oft gefordert. Sich nach Mendel's Vorbild ins Kloster zurückzuziehen ist also keine Option.
Wieviel biologisches Wissen gebraucht wird, ist schwer einzuordnen. Dafür ist das Feld der Bioinformatik selbst auch zu divers.

Es reicht von den mehr in der Molekularbiologie angesiedelten Bereichen, die von zum Großteil biologisch auf DNA- und Proteinsequenzen basierenden, bis zu automatisierter Bildanalyse. Wer wie Philipp mit Pflanzen arbeitet, muss nicht viel über Epigenetik im menschlichen Genom wissen, oder wie die menschliche Augenfarbe entsteht; dafür muss er/sie z.B. wissen, was Photosynthese mit Salzresistenz zu tun hat. Man sollte generell wissen, wie Genome funktionieren, wie Zellen Informationen verarbeiten und verteilen, wie der gesamte Prozess von DNA zum Protein so abläuft. Generell gilt aber: Fachwissen über Informatik lässt sich einfacher selbst nachlernen als das Fachwissen in der Biologie. How-Tos, Blogs, Frage-Antwortseiten wie Stackoverflow etc. mit dem Schwerpunkt Programmierung gibt es wie Sand am Meer, aber nachzuvollziehen wieso eine PCR irgendwo gescheitert ist lässt sich ohne rudimentäre Laborerfahrung erheblich schwerer nachvollziehen. Gerade praktische Erfahrungen in der Molekularbiologie können später helfen zu erkennen weshalb die Eingabe-Daten für eure Analysen eventuell so schrecklich aussehen. Und zu guter letzt hilft das biologische Fachwissen dabei zu überprüfen ob eure Ergebnisse in dem Rahmen überhaupt Sinn machen.

Noch einen Schritt weiter geht Mick Watson, der sich die Kurrikulums-Ideen ebenfalls vornimmt und in seinem Blogpost dazu schliesst: "I may appear as if I’m being mean, but actually biological knowledge, and knowing how to apply it, is the most important “competency” (aka skill) that a bioinformatician can possess. In a field full of techies, the thing that will make you stand out is your biological knowledge, not your impressive array of awk one-liners.". Übersetzt: "Es sieht so aus als wäre ich gemein, aber wirkliches biologisches Wissen, und das Können dieses anzuwenden, ist die allerwichtigste Fähigkeit die ein Bioinformatiker besitzen kann. In einem Feld voller Techies sticht man durch biologisches Wissen heraus, nicht durch beeindruckende awk Einzeilenprogramme."

Dazu kommen dann das Informatik-Wissen: Der Großteil der Bioinformatik-Software läuft nur unter Linux, deswegen sollte man sich da schon auskennen und keine Angst vor der Kommandozeile haben. Dazu kommt: Bash (macht jegliches Arbeiten unter Linux einfacher), eine Scriptsprache wie Python oder Perl, und aus Geschwindigkeitsgründen eine kompilierte Sprache wie C++, C (wer sich gerne selbst in den Fuß schießt) oder neuerdings Go und D (wer ein bisschen mehr experimentieren möchte). Dazu kommt, dass man über Algorithmen und Datenstrukturen Bescheid wissen sollte - z.B., warum ist das Nachschauen von Daten in einem Dictionary in Python so viel schneller als in einer Liste? Wer oft mit Statistik zu tun hat (und das hat man in der Bioinformatik meistens), sollte besser auch R lernen - man muss allerdings nicht R programmieren können, um es benutzen zu können. Wer nur öffentlich zugängliche Packages oder Methoden in R benutzt, muss z.B. den Unterschied zwischen "S3" und "S4" in R nicht wissen.

Für Selberlernerinnen gibt es heutzutage viele, viele Quellen: Bücher gibt es wie Sand am Meer, allerdings ist es momentan schwer, "das" Buch über Bioinformatik zu nennen: dafür gibt es zu viele Untersparten, und das Feld ändert sich zu schnell. MOOCs wie Coursera haben Bioinformatik-Kurse, z.B. Bioinformatics Algorithisms.
Wer lieber "macht" als liest findet bei Rosalind ist eine Sammlung von Programmieraufgaben zugeschnitten auf Bioinformatik, Project Euler ist eine ähnliche Sammlung, erfordert aber mehr mathematisches Wissen, und HackerRank ist eine Sammlung von Aufgaben, die sich nur mit Wissen über "fortgeschrittene" Algorithmen und Datenstrukturen lösen lässt. Alle drei Projekte schreiben dem Benutzer die Programmiersprache nicht vor.

Apropos Statistik, als zentraler Bestandteil der Bioinformatik darf auch die nicht fehlen. Philipps neues Lieblingsbuch dazu ist "Intuitive Biostatistics" von Motulsky, kam grad in der 3. Auslage raus. Soweit wir wissen gibt es keine deutsche Übersetzung. Behandelt das meiste, was man als Biologin oder Bioinformatikerin wissen müsste, und bleibt dabei angenehm weit weg von jeglichen Formeln. Das Buch beschreibt die meisten gängigen Methoden im Lichte ihrer grundlegenden Annahmen (z.B.: wer zwei Populationen mittels t-Test vergleicht, nimmt an das alle Messungen unabhängig voneinander sind, und beide Populationen sind normal-verteilt) und zeigt, wie man die Ergebnisse interpretiert und was da alles so falschgehen kann. So gut wie niemand berechnet statistische Ergebnisse per Hand - dafür gibt's z.B. t.test(x) in R. Das Buch lohnt sich auch für "normale" Biologinnen.
Dazu sind Selbstorganisationsfähigkeiten zwingend notwendig. Wer schon mal im Labor gestanden hat wird es gewöhnt sein alle Arbeitsschritte im Laborbuch niederzuschreiben. Die gleiche Sorgfalt gilt natürlich auch in der Bioinformatik während man an seinem Rechner arbeitet. Was mit welchen Daten gemacht wurde muss genauso dokumentiert werden wie die Software die man schreibt. Niemand möchte Analysen gemacht haben die später nicht mehr nachvollziehbar (und damit wertlos) sind. Und wenn man 2 Jahre später in seinen Code schaut um einen Bug zu fixen dankt man sich selbst für jeden Kommentar den man hinterlassen hat. Mindestens genauso ärgerlich ist es Rohdaten irgendwo auf der Festplatte verlegt zu haben.

Philipp ist bei Software Carpentry involviert, einer Non-Profit-Organisation, deren Ziel es ist, Wissenschaftlern "ordentliches" Programmieren beizubringen. In anderen Worten: Programmieren (auch Objekt-Orientiert) in Python oder R, Versionsverwaltung via git, reproduzierbares Arbeiten via Make, Datenverwaltung via SQL, Dokumentation etc. Das ganze wird in 2 bis 3-tägigen Workshops behandelt.
Wer gerne bei einem Workshop mitmachen möchte, die Liste mit den zukünftigen Workshops gibt's hier. Teilnahmekosten variieren zwischen Workshops, je nachdem ob der Austragungsort Geld für die Räume haben will, ob Leute eingeflogen werden müssen etc.
Wer Selbstorganisation lieber in einem noch weniger formalen Rahmen erlernen will kann auch überlegen bei Open Source Projekten mitzuhelfen. Neben Programmiererfahrung gibt es Organisations- und Kommunikationsskills gleich noch dazu. Einen guten Teil unserer Erfahrung haben wir beide selbst mit openSNP durch learning by doing/failing bekommen.

Neben der Selbstorganisation ist auch Selbsthilfe gefragt. Wie schon angeklungen gibt es für viele Probleme denen man früher oder später (auch hier: meist früher) begegnet, zumindest von Seiten der Informatik, schon Problemlösungen in den Weiten des WWW, man muss sie nur finden. Solide Google-Fähigkeiten sind deshalb zwingend erforderlich. Sei es um Probleme in der eigenen Software zu lösen oder auch nur um fremde Software zu installieren, die dabei irgendwelche Probleme macht (was in der Bioinformatik leider immer noch die Regel und nicht die Ausnahme ist). Das effektive Formulieren von Suchanfragen ist dabei genauso nötig wie Ausdauer bei der Suche. Und falls das nicht hilft kann man seine Kommunikationsfähigkeiten nutzen um vernünftige Hilfe-Anfragen an andere Entwickler oder Communities zu formulieren.

Kritisches oder wissenschaftliches Denken "direkt" zu lernen ist schwer, wer sich regelmäßig durch fach-spezifische Blogs tollt (wie z.B. Getting Genetics Done, Living In An Ivory Basement, The Genome Factory, oder opiniomics und viel mehr...) sieht kritischen und wissenschaftlichen Denkern bei der Arbeit zu. Vielleicht färbt ja was ab.
Wer von dieser Liste der benötigten Fähigkeiten jetzt abgeschreckt ist sollte aber auch wissen das man in keinem dieser Bereiche von Anfang an ein absoluter Überflieger sein muss. Wir sind 2008 auch nicht als Profi-Bioinformatikerinnen in die Welt ausgezogen, wie unsere ersten (ebenfalls gemeinschaftlich geschriebenen) Programme, die erfreulicherweise die Zeit bis hier hin überstanden haben, zeigen: In deutsch geschriebenen Skripte, die damals natürlich in keiner Versionskontrolle lagen. Und dazu noch ausschliesslich Funktionialitäten reproduzieren die bereits damals standardmässig in Softwarepaketen existierten (was wir nicht wussten weil wir nicht richtig googlen konnten). Was also auch noch auf die Liste sollte: Lernbereitschaft.

In dem Sinne: Ever tried. Ever failed. No matter. Try again. Fail again. Fail better. – Samuel Beckett


7 Kommentare zu “Was man als BioinformatikerIn so wissen sollte – Teil 2”

  1. Martin Holzherr Antworten | Permalink

    Die Basics für einen Bioinformatiker sind also Englisch, Algorithmen und Statistik: Wer hätte das gedacht! Dazu kommt dann die Basic Instincts, die einen den Alltags-Guerillakrieg überstehen lassen und vorausschauendes diszipliniertes Arbeiten. Zusammengefasst: Es kommt drauf an was man aus seinem Wissen macht und darauf das zu Wissen, was einem im Alltag und bei den ab und zu nötigen Inspirationen - neben der täglichen Transpiration - weiterhilft.

    • Dr. Webbaer Antworten | Permalink

      Es kommt drauf an was man aus seinem Wissen macht und darauf das zu Wissen, was einem im Alltag und bei den ab und zu nötigen Inspirationen - neben der täglichen Transpiration - weiterhilft.

      Es scheint eine Art Arbeit vorzuliegen.
      MFG
      Dr. W (der hier aber durchaus Respekt hat, sogar recht viel)

    • Dr. Webbaer Antworten | Permalink

      Das Generische Femininum läge vor, wenn bspw. die Rede von Personen, IT-Fachkräften oder IT-Kapazitäten wäre.
      Das Fachwort für die Suffix "-in" ist Markierung, sie markiert das biologische weibliche Geschlecht, so wie die selten gebrauchte Markierung "-rich" (Mäuserich, Enterich, Experterich) das männliche.
      Der Genus (vs. Sexus) meint nicht das biologische Geschlecht.
      Die Verwendung des markierten Substantivs Bioinformatikerin um beide biologischen Geschlechter zu meinen, entspricht in etwa der Verwendung des markierten Substantivs Enterich, wenn Enten beider biologischen Geschlechter gemeint sind.
      MFG
      Dr. W

  2. Joyas personalizadas Antworten | Permalink

    Mir fällt auf, dass jedes Ergebnis Biotechnologie kann als Amulett ausgeführt werden und machen es einzigartig Entdeckung möglich. Stellen Sie sich vor, dass die Molekül entdeckt und machen Anhänger in Form, um an alle, die an dem Projekt beteiligt zu geben. Ideal, nicht wahr?

Einen Kommentar schreiben


1 × = neun