Bierologie http://www.scilogs.de/bierologie Weissbier & Wissenschaft Thu, 18 Jun 2015 15:38:04 +0000 de-DE hourly 1 BeersDeCoded – welches Bier ist mit welchem verwandt?http://www.scilogs.de/bierologie/beersdecoded-welches-bier-ist-mit-welchem-verwandt/?utm_source=rss&utm_medium=rss&utm_campaign=beersdecoded-welches-bier-ist-mit-welchem-verwandt http://www.scilogs.de/bierologie/beersdecoded-welches-bier-ist-mit-welchem-verwandt/#comments Thu, 18 Jun 2015 15:38:04 +0000 http://www.scilogs.de/bierologie/?p=623 ... weiter]]> Kleine und große Brauereien produzieren heutzutage eine solche Vielzahl von Bieren, dass es gar nicht so einfach ist, den Überblick zu behalten oder neue Lieblingssorten zu entdecken. Wer bei der Auswahl einer neuen Sorte nicht nur nach dem Etikett oder nach Mundpropaganda gehen möchte, kann bald Bierempfehlungen auf Basis von Mikroben- und Pilz-Verwandschaft bekommen.Denn bei Kickstarter hat sich ein Team aus Do-It-Yourself Biologen aus der Schweiz eingefunden, welches versucht, die DNA der Biere zu entschlüsseln um so letztlich einen Stammbaum der Biere zu erstellen: BeerDeCoded. Die Idee ist es, die DNA der Mikroben und Pilze in jeweils einer Flasche von sovielen Bieren wie möglich per DNA-Sequenzierer zu entschlüsseln und sie mit anderen Bieren zu vergleichen. Daraus wird dann ein Stammbaum erstellt (Für die Phylo-Nerds: Das ganze wird vermutlich ein Distanz-Baum, basierend auf Anwesenheit/Abwesenheit der verschiedenen Arten). Es besteht die Hoffnung, dass dieser Stammbaum dann auch ungefähr dem Geschmack folgen wird: wenn Bier A sehr ähnliche Mikro-Organismen zu Bier B hat, dann sollten Fans von Bier A auch Gefallen an Bier B finden.

Zwar gibt es mit sozialen Netzwerken wie Untappd die ersten Bestrebungen, sinnvolle Bier-Empfehlungen aufgrund von Empfehlungen generieren zu können, aber wer sich schon mal die Buch- oder Musik-Empfehlungen von Amazon angeschaut hat, wird verstehen wieso das vielleicht nicht der Weisheit letzter Schluss ist.

Deshalb kann man sich dann den Stammbaum von BeerDeCoded entlang trinken und neue Biere entdecken. Wie bei Kickstarter üblich gibt es gestaffelte "Rewards", je nachdem, wieviel der "Backer" finanziell zur Verfügung stellt. Wer 5€ gibt, darf ein Bier zum Sequenzieren nominieren, ab 25€ darf man über die sequenzierten Biere abstimmen. Ab 49€ darf ein Bier bestimmt werden, dass dann sequenziert wird, und ab 79€ sind vor allem die Selbstbrauer gefragt, die dann ihr eigenes Bier zum Sequenzieren einsenden dürfen.

Im Sinne der offenen Forschung werden die DNA-reads der ersten 1000 Biere öffentlich zugänglich gemacht; wenn alles klappt, wird das im Januar 2016 passieren. Wer noch ein bisschen Schickermoos übrig hat, kann es also gerne den Schweizern unter https://www.kickstarter.com/projects/489252126/beerdecoded-the-1000-beer-genomes zur Verfügung stellen!

Disclaimer: Wir haben keinerlei finanzielle oder sonstige Verbindung zu dem Projekt, Bastian hat aber angeboten bei der Datenanalyse zu helfen, wenn benötigt.

]]>
http://www.scilogs.de/bierologie/beersdecoded-welches-bier-ist-mit-welchem-verwandt/feed/ 1 wissenslogs
Was man als BioinformatikerIn so wissen sollte – Teil 2http://www.scilogs.de/bierologie/was-man-als-bioinformatiker-so-wissen-sollte-teil-2/?utm_source=rss&utm_medium=rss&utm_campaign=was-man-als-bioinformatiker-so-wissen-sollte-teil-2 http://www.scilogs.de/bierologie/was-man-als-bioinformatiker-so-wissen-sollte-teil-2/#comments Thu, 20 Mar 2014 08:17:19 +0000 http://www.scilogs.de/bierologie/?p=611 ... weiter]]> b836be89446690f235ae14491c43fefc 61a3e859786289f4183676f085b6c390

Im Geiste des ersten Teils möchten wir hier zusammenfassen, was wir momentan als benötigtes "Grundwissen" für Bioinformatikerinnen sehen. Vielleicht hilft es ja der einen oder anderen Selbstlernerin.
Das allerwichtigste zuerst: Englisch. Selbst falls ihr es irgendwie schafft irgendwo einen Job zu bekommen bei dem alle deutsch sprechen können – und die Chancen sind gering – 99.9% der Fachliteratur ist Englisch. Das betrifft sowohl die Bioinformatik selbst, als auch Biologie und die Informatik getrennt. Dazu es gibt so weit wir wissen keine deutschsprachigen Blogs die sich ernsthaft mit Bioinformatik beschäftigen. Mehr oder weniger alles was in der Wissenschaft geschieht, wird in Englisch kommuniziert. Das mag man jetzt mögen oder nicht, es ist die einzige Art mit Kolleginnen zu kommunizieren.

Was dann auch direkt zum nächsten Punkt überleitet: Kommunikationsskills. Durch die interdisziplinäre Natur des Fachs ist es praktisch unmöglich einsam in seinem Büro alleine vor sich hinzuarbeiten, um nach Jahren mit spannenden Ergebnissen aufzutauchen. Stattdessen werdet ihr ziemlich sicher mit anderen Menschen, oft auch rein aus der Biologie oder Informatik kommend kollaborieren. Und auf die Hilfe beider Gruppen werdet ihr früher oder später angewiesen sein und muss sich verständigen können. Gerade die Übersetzung von der Sprache der einen Fachrichtung in die andere ist dabei oft gefordert. Sich nach Mendel's Vorbild ins Kloster zurückzuziehen ist also keine Option.
Wieviel biologisches Wissen gebraucht wird, ist schwer einzuordnen. Dafür ist das Feld der Bioinformatik selbst auch zu divers.

Es reicht von den mehr in der Molekularbiologie angesiedelten Bereichen, die von zum Großteil biologisch auf DNA- und Proteinsequenzen basierenden, bis zu automatisierter Bildanalyse. Wer wie Philipp mit Pflanzen arbeitet, muss nicht viel über Epigenetik im menschlichen Genom wissen, oder wie die menschliche Augenfarbe entsteht; dafür muss er/sie z.B. wissen, was Photosynthese mit Salzresistenz zu tun hat. Man sollte generell wissen, wie Genome funktionieren, wie Zellen Informationen verarbeiten und verteilen, wie der gesamte Prozess von DNA zum Protein so abläuft. Generell gilt aber: Fachwissen über Informatik lässt sich einfacher selbst nachlernen als das Fachwissen in der Biologie. How-Tos, Blogs, Frage-Antwortseiten wie Stackoverflow etc. mit dem Schwerpunkt Programmierung gibt es wie Sand am Meer, aber nachzuvollziehen wieso eine PCR irgendwo gescheitert ist lässt sich ohne rudimentäre Laborerfahrung erheblich schwerer nachvollziehen. Gerade praktische Erfahrungen in der Molekularbiologie können später helfen zu erkennen weshalb die Eingabe-Daten für eure Analysen eventuell so schrecklich aussehen. Und zu guter letzt hilft das biologische Fachwissen dabei zu überprüfen ob eure Ergebnisse in dem Rahmen überhaupt Sinn machen.

Noch einen Schritt weiter geht Mick Watson, der sich die Kurrikulums-Ideen ebenfalls vornimmt und in seinem Blogpost dazu schliesst: "I may appear as if I’m being mean, but actually biological knowledge, and knowing how to apply it, is the most important “competency” (aka skill) that a bioinformatician can possess. In a field full of techies, the thing that will make you stand out is your biological knowledge, not your impressive array of awk one-liners.". Übersetzt: "Es sieht so aus als wäre ich gemein, aber wirkliches biologisches Wissen, und das Können dieses anzuwenden, ist die allerwichtigste Fähigkeit die ein Bioinformatiker besitzen kann. In einem Feld voller Techies sticht man durch biologisches Wissen heraus, nicht durch beeindruckende awk Einzeilenprogramme."

Dazu kommen dann das Informatik-Wissen: Der Großteil der Bioinformatik-Software läuft nur unter Linux, deswegen sollte man sich da schon auskennen und keine Angst vor der Kommandozeile haben. Dazu kommt: Bash (macht jegliches Arbeiten unter Linux einfacher), eine Scriptsprache wie Python oder Perl, und aus Geschwindigkeitsgründen eine kompilierte Sprache wie C++, C (wer sich gerne selbst in den Fuß schießt) oder neuerdings Go und D (wer ein bisschen mehr experimentieren möchte). Dazu kommt, dass man über Algorithmen und Datenstrukturen Bescheid wissen sollte - z.B., warum ist das Nachschauen von Daten in einem Dictionary in Python so viel schneller als in einer Liste? Wer oft mit Statistik zu tun hat (und das hat man in der Bioinformatik meistens), sollte besser auch R lernen - man muss allerdings nicht R programmieren können, um es benutzen zu können. Wer nur öffentlich zugängliche Packages oder Methoden in R benutzt, muss z.B. den Unterschied zwischen "S3" und "S4" in R nicht wissen.

Für Selberlernerinnen gibt es heutzutage viele, viele Quellen: Bücher gibt es wie Sand am Meer, allerdings ist es momentan schwer, "das" Buch über Bioinformatik zu nennen: dafür gibt es zu viele Untersparten, und das Feld ändert sich zu schnell. MOOCs wie Coursera haben Bioinformatik-Kurse, z.B. Bioinformatics Algorithisms.
Wer lieber "macht" als liest findet bei Rosalind ist eine Sammlung von Programmieraufgaben zugeschnitten auf Bioinformatik, Project Euler ist eine ähnliche Sammlung, erfordert aber mehr mathematisches Wissen, und HackerRank ist eine Sammlung von Aufgaben, die sich nur mit Wissen über "fortgeschrittene" Algorithmen und Datenstrukturen lösen lässt. Alle drei Projekte schreiben dem Benutzer die Programmiersprache nicht vor.

Apropos Statistik, als zentraler Bestandteil der Bioinformatik darf auch die nicht fehlen. Philipps neues Lieblingsbuch dazu ist "Intuitive Biostatistics" von Motulsky, kam grad in der 3. Auslage raus. Soweit wir wissen gibt es keine deutsche Übersetzung. Behandelt das meiste, was man als Biologin oder Bioinformatikerin wissen müsste, und bleibt dabei angenehm weit weg von jeglichen Formeln. Das Buch beschreibt die meisten gängigen Methoden im Lichte ihrer grundlegenden Annahmen (z.B.: wer zwei Populationen mittels t-Test vergleicht, nimmt an das alle Messungen unabhängig voneinander sind, und beide Populationen sind normal-verteilt) und zeigt, wie man die Ergebnisse interpretiert und was da alles so falschgehen kann. So gut wie niemand berechnet statistische Ergebnisse per Hand - dafür gibt's z.B. t.test(x) in R. Das Buch lohnt sich auch für "normale" Biologinnen.
Dazu sind Selbstorganisationsfähigkeiten zwingend notwendig. Wer schon mal im Labor gestanden hat wird es gewöhnt sein alle Arbeitsschritte im Laborbuch niederzuschreiben. Die gleiche Sorgfalt gilt natürlich auch in der Bioinformatik während man an seinem Rechner arbeitet. Was mit welchen Daten gemacht wurde muss genauso dokumentiert werden wie die Software die man schreibt. Niemand möchte Analysen gemacht haben die später nicht mehr nachvollziehbar (und damit wertlos) sind. Und wenn man 2 Jahre später in seinen Code schaut um einen Bug zu fixen dankt man sich selbst für jeden Kommentar den man hinterlassen hat. Mindestens genauso ärgerlich ist es Rohdaten irgendwo auf der Festplatte verlegt zu haben.

Philipp ist bei Software Carpentry involviert, einer Non-Profit-Organisation, deren Ziel es ist, Wissenschaftlern "ordentliches" Programmieren beizubringen. In anderen Worten: Programmieren (auch Objekt-Orientiert) in Python oder R, Versionsverwaltung via git, reproduzierbares Arbeiten via Make, Datenverwaltung via SQL, Dokumentation etc. Das ganze wird in 2 bis 3-tägigen Workshops behandelt.
Wer gerne bei einem Workshop mitmachen möchte, die Liste mit den zukünftigen Workshops gibt's hier. Teilnahmekosten variieren zwischen Workshops, je nachdem ob der Austragungsort Geld für die Räume haben will, ob Leute eingeflogen werden müssen etc.
Wer Selbstorganisation lieber in einem noch weniger formalen Rahmen erlernen will kann auch überlegen bei Open Source Projekten mitzuhelfen. Neben Programmiererfahrung gibt es Organisations- und Kommunikationsskills gleich noch dazu. Einen guten Teil unserer Erfahrung haben wir beide selbst mit openSNP durch learning by doing/failing bekommen.

Neben der Selbstorganisation ist auch Selbsthilfe gefragt. Wie schon angeklungen gibt es für viele Probleme denen man früher oder später (auch hier: meist früher) begegnet, zumindest von Seiten der Informatik, schon Problemlösungen in den Weiten des WWW, man muss sie nur finden. Solide Google-Fähigkeiten sind deshalb zwingend erforderlich. Sei es um Probleme in der eigenen Software zu lösen oder auch nur um fremde Software zu installieren, die dabei irgendwelche Probleme macht (was in der Bioinformatik leider immer noch die Regel und nicht die Ausnahme ist). Das effektive Formulieren von Suchanfragen ist dabei genauso nötig wie Ausdauer bei der Suche. Und falls das nicht hilft kann man seine Kommunikationsfähigkeiten nutzen um vernünftige Hilfe-Anfragen an andere Entwickler oder Communities zu formulieren.

Kritisches oder wissenschaftliches Denken "direkt" zu lernen ist schwer, wer sich regelmäßig durch fach-spezifische Blogs tollt (wie z.B. Getting Genetics Done, Living In An Ivory Basement, The Genome Factory, oder opiniomics und viel mehr...) sieht kritischen und wissenschaftlichen Denkern bei der Arbeit zu. Vielleicht färbt ja was ab.
Wer von dieser Liste der benötigten Fähigkeiten jetzt abgeschreckt ist sollte aber auch wissen das man in keinem dieser Bereiche von Anfang an ein absoluter Überflieger sein muss. Wir sind 2008 auch nicht als Profi-Bioinformatikerinnen in die Welt ausgezogen, wie unsere ersten (ebenfalls gemeinschaftlich geschriebenen) Programme, die erfreulicherweise die Zeit bis hier hin überstanden haben, zeigen: In deutsch geschriebenen Skripte, die damals natürlich in keiner Versionskontrolle lagen. Und dazu noch ausschliesslich Funktionialitäten reproduzieren die bereits damals standardmässig in Softwarepaketen existierten (was wir nicht wussten weil wir nicht richtig googlen konnten). Was also auch noch auf die Liste sollte: Lernbereitschaft.

In dem Sinne: Ever tried. Ever failed. No matter. Try again. Fail again. Fail better. – Samuel Beckett

]]>
http://www.scilogs.de/bierologie/was-man-als-bioinformatiker-so-wissen-sollte-teil-2/feed/ 7 wissenslogs
Was man als BioinformatikerIn so wissen sollte – Teil 1http://www.scilogs.de/bierologie/was-man-als-bioinformatiker-so-wissen-sollte-teil-1/?utm_source=rss&utm_medium=rss&utm_campaign=was-man-als-bioinformatiker-so-wissen-sollte-teil-1 http://www.scilogs.de/bierologie/was-man-als-bioinformatiker-so-wissen-sollte-teil-1/#comments Mon, 17 Mar 2014 10:53:36 +0000 http://www.scilogs.de/bierologie/?p=601 ... weiter]]> b836be89446690f235ae14491c43fefc 61a3e859786289f4183676f085b6c390

Bioinformatik scheint immer noch eine beliebte Spezialisierung zu sein. Es gibt genug zu tun: Sequenziermaschinen (wie z.B. die neue PacBio RSII oder die Illumina Maschinen die das menschliche Genom endlich für weniger als 1000 Dollar auslesen können sollen) generieren mehr Daten für weniger Geld, und der Trend wird wohl auch nicht aufhören:

cost_per_genome

Kosten per sequenziertem Genom, von 2001 (ca. 100 Millionen US-Dollar) bis 2013 (ca. 7000 US-Dollar). Quelle.

Stellenangebote gibt es (für den wissenschaftlichen Standard) viele: NatureJobs listet momentan 497 Stellenangebote zum Stichwort "bioinformatics", davon 40 in Deutschland. In Deutschland sieht studientechnisch die Lage gut aus - die 2008 erschienene Veröffentlichung A review of bioinformatics education in Germany beschrieb die damalige Situation in Deutschland. Bioinformatik Studiengänge gibt es in Deutschland seit 1998, mit steigender Tendenz: Wikipedia hat eine frei zugängliche Liste. Finanzierungstechnisch sah und sieht es in Deutschland gut aus.
Die Deutsche Forschungsgesellschaft begann 2000 mit der DFG-Initative Bioinformatik 5 Standorte mit jährlich 10 Millionen DM und das Bundesministerium für Bildung und Forschung (BMBF) fing an, 2001 "Bioinformatik Kompetenzzentren" mit 100 Millionen Mark zu fördern, und diie relativ gute Förderungssituation hält in Deutschland an, z.B: begann das BMBF 2013 mit der Einrichtung des "Deutschen Netzwerk für Bioinformatik-Infrastruktur", einer Initative um insbesondere mit der riesigen Datenflut zurechtzukommen.

Die neue Veröffentlichung "Bioinformatics Curriculum Guidelines: Toward a Definition of Core Competencies" versucht, ein einheitliches Curriculum für Bioinformatikerinnen zu definieren. Dabei unterscheiden die Autoren zwischen drei "Untergruppen" - bioinformatics user, scientist und engineer. Ein/e bioinformatics engineer muss am meisten über die Implementation von Algorithmen Bescheid wissen und braucht weniger biologisches Fachwissen als ein bioinformatics scientist. Zusammen mit dem bioinformatics scientist wissen beide genug über ihre Disziplin, um Informatik-Fachwissen auf biologische Probleme anzuwenden; der/die scientist benutzt aber nur bereits entstehende Algorithmen, in bereits bestehenden und neuen Kontexten. Bioinformatics users sind 99.9% aller Biologen; die Wissenschaftlerinnen, die sich "nur" mit Biologie befassen und dann an ihrem PC die vorgefertigte Analyse durchführen, aber keine neuen Analysen erfinden oder Algorithmen unterschiedlich anwenden.

Wer sich wo einordnet, ist fließend - Philipp ordnet sich irgendwo zwischen bioinformatics engineer und scientist ein, Basti ebenfalls, aber mehr verstärkt mit einem Fokus auf scientist als engineer.
Dementsprechend ist es schwer, ein Kurrikulum zu definieren, dass alle Bereiche involviert. Dazu kommt erschwerend hinzu, dass unterschiedliche Spezialisierungen unterschiedliches Wissen brauchen. Wer Genome zusammenbaut muss über Graphentheorie Bescheid wissen, wer Protein-interaktion simuliert muss mehr über 3D-Strukturen wissen. Wer an was arbeitet stellt sich normalerweise nicht im Studium heraus; das entscheidet mehr oder weniger der Zufall der Doktorandenstelle, und welche Daten die Arbeitsgruppe so hat.

Für Leute die ohne formelles Kurrikulum in die Welt der Bioinformatik geschleudert werden gibt es von Nick Loman und Mick Watson in Nature Biotechnology einen netten Kommentar mit dem Titel So you want to be a computational biologist der generelle Ratschläge gibt, egal in welchen Bereich der Bioionformatik man eintauchen will.

Besonders freuen wir uns das die beiden Methodenverständnis und Tests hervorheben. Denn was im Labor eine Selbstverständlichkeit ist kommt bei der Arbeit am Rechner leider immer noch oft zu kurz. Dabei gilt dort das gleiche wie im regulären Labor: Wer nicht versteht was er tut hat keine Chance auftretende Probleme zu beseitigen oder erkennt im schlimmsten Fall nicht mal das die Ergebnisse keinen Sinn ergeben. Erst recht nicht wenn keine Positiv- und Negativkontrollen mitführt werden.

Ebenfalls dazu passend: Egal ob es um Daten oder Software geht, vertraue niemandem ist ein Motto was die angehende Bioinformatikerin im Kopf behalten sollte. Denn sonst stellt sich nach einigen verschwendeten Monaten raus das die Software die man benutzt hat doch nicht tat was sie angeblich erreichen sollte oder das der benutzte Datensatz gar nicht das beinhaltet was man dachte.

Den letzten wichtigen Tipp den Loman und Watson geben können wir beide ebenfalls nur vollumfänglich unterschreiben: Vernetzt euch, denn irgendjemand hat euer Problem vermutlich schon (fast) gelöst. Auf Diskussionsplattformen wie SEQanswers oder BioStars gibt es Leute die ähnliche Probleme schon mal gelöst haben und ihr Wissen gerne teilen. Und für uns beide war auch Twitter schon so manches mal bei der Problemlösung hilfreich.

Was wir als "Kernkompetenzen" der Bioinformatik ansehen kommt im nächsten Post!

]]>
http://www.scilogs.de/bierologie/was-man-als-bioinformatiker-so-wissen-sollte-teil-1/feed/ 2 wissenslogs
Nicht-Reproduzierbare Wissenschaft: Ein Interview mit der Reproducibility Initiativehttp://www.scilogs.de/bierologie/nicht-reproduzierbare-wissenschaft-ein-interview-mit-der-reproducibility-initiative/?utm_source=rss&utm_medium=rss&utm_campaign=nicht-reproduzierbare-wissenschaft-ein-interview-mit-der-reproducibility-initiative http://www.scilogs.de/bierologie/nicht-reproduzierbare-wissenschaft-ein-interview-mit-der-reproducibility-initiative/#comments Thu, 24 Jan 2013 10:30:44 +0000 http://www.scilogs.de/bierologie/nicht-reproduzierbare-wissenschaft-ein-interview-mit-der-reproducibility-initiative/ ... weiter]]>

Das nicht nur die Psychologie mit dem Problem nicht reproduzierbarer Ergebnisse zu kämpfen hat ist spätestens seit letztem Jahr auch einer breiteren Masse bekannt. Forscher der Biotech-Firma Amgen hatten versucht 53 wegweisende Studien aus dem Feld der Krebsforschung zu reproduzieren und hatten in nur 6 Fällen Erfolg damit. Wer also versucht auf der Arbeit anderer Wissenschaftler seine eigene Arbeit aufzubauen, kann damit ziemlich auf die Nase fallen und dabei in nicht geringem Maße Zeit und Geld verschwenden.

Mit der Reproducibility Initiative, einem Zusammenschluss von Science Exchange, PLOS, Figshare und Mendeley, gibt es seit letztem Jahr eine Organisation die versucht die externe Überprüfung von wissenschaftlichen Studien für Wissenschaftler ansprechender zu machen und das Problem so anzugehen. Kurz gesagt können Wissenschaftler dort ihre Studien für die externe Validierung durch unabhängige Experten anmelden.

Elizabeth Iorns, CEO von Science Exchange, und William Gunn, Head of Academic Outreach bei Mendeley, stecken hinter der Idee und waren so freundlich mir ein paar Fragen zu ihrer Reproducibility Initiative zu beantworten und können das Konzept um einiges besser erklären als ich:

Das Problem der fehlenden Reproduzierbarkeit wurde in meiner Wahrnehmung vor allem in 2012 zu einem Thema mit großer Reichweite. Was war der Auslöser, der euch dazu gebracht hat sich damit zu beschäftigen?

William: Als Elizabeth und ich die Idee hatten waren wir auf einer Konferenz zum Thema Altmetrics [Anmerkung: Altmetrics beschäftigt sich damit wie man wissenschaftlichen Output abseits traditioneller Metriken erfassen kann. Wer mehr darüber erfahren will sollte das Blog von Beatrice lesen]. Elizabeth sprach davon dass wir, egal wie komplex unsere Metrik wird, niemals den systematischen Fehler der durch das einseitige Publizieren von fast ausschliesslich positiven Ergebnissen entsteht, beseitigen können. Ein Mechanismus der eine unabhängige Validierung von Ergebnissen erlaubt wird dafür benötigt. Gleichzeitig wollten wir aber eine Hexenjagd, die andere Projekte die sich mit dem Thema beschäftigen leider oft hervorbringen, vermeiden.

Die Reproducibility Initiative ist eine Kooperation zwischen verschiedenen Firmen. Wie kam es dazu?

William: Die ursprüngliche Idee war das Science Exchange sich um die Durchführung der Replikations-Versuche kümmern würde. Aber wir wollten auch die Daten online veröffentlichen, so dass jeder Zugriff darauf hat. Dafür ist Figshare der ideale Partner. Außerdem wollten wir eine zusätzliche Veröffentlichung als einen Teilnahmeanreiz für Wissenschaftler schaffen, PLOS fand die Idee einer Special Collection großartig. Der Baustein, der noch fehlte, war ein Gütesiegel zu schaffen und Metriken auf Artikelbasis zu schaffen mit denen man reproduzierte Wissenschaft nachverfolgen kann, das ist wo Mendeley ins Spiel gekommen ist.

Welche Vorteile habe ich als Wissenschaftler, wenn ich meine Studien an die Reproducibility Initiative schicke?

William: Als Wissenschaftler bekommt man eine zusätzliche Publikation in der PLOS Special Collection, und das ohne viel zusätzliche Arbeit. Außerdem profitiert man von der hohen Aufmerksamkeit und dem Interesse dass die Reproducibility Initiative geschaffen hat. Das Gütesiegel der extern überprüften Reproduzierbarkeit macht die Arbeit auch für potentielle Partner in der Industrie spannender. Und natürlich bekommt man das wohlige Gefühl das man dabei hilft, Wissenschaft für alle etwas besser zu machen.

Angenommen ich möchte einer meiner Studien über die Reproducibility Initiative überprüfen lassen. Wie funktioniert der Ablauf?

William: Wissenschaftler können ihre Studien auf der Website der Reproducibility Initiative einreichen. Außerdem haben wir gezielt Wissenschaftler in einigen Feldern, wie Brustkrebs-, Stammzellen-, ALS-Forschung etc. angesprochen. Die eingereichten Studien werden unter Beratung unseres wissenschaftlichen Beirats aufgeteilt in die Schlüsselexperimente und dann blind an einen der über 1000 Dienstleister, die an Science Exchange teilnehmen, vergeben. Dort führen Experten für die entsprechenden Techniken die Experimente durch, bezahlt nach den Dienstleistungen die sie erbringen. Für die Dienstleister gibt es also keinen Anreiz ein bestimmtes Ergebnis zu produzieren. Wenn der Dienstleister seine Arbeit abgeschlossen hat gehen die Ergebnisse zurück an die Wissenschaftler die ihre Studie reproduziert haben wollen. Diese können dann entscheiden ob sie die Ergebnisse in die PLOS Special Collection veröffentlichen wollen. Wissenschaftler, die sich über unsere Kontaktaufnahme in den Pool von Interessenten haben aufnehmen lassen, können auch Gelder von krankheitsbezogenen Stiftungen, die daran interessiert sind einen Teil der Arbeiten in ihrem Feld zu reproduzieren, bekommen.

Wie geht ihr mit methodischen Fehlern um? Werden Experimente 1:1 reproduziert? Viele Studien scheitern an der fehlerhaften Verwendung von Methoden, sei es statistisch, biologisch oder chemisch. Würde die Validierung die gleichen, “falschen” Methoden verwenden? Und könnte es ein Problem sein wenn solche Studien mit einem Gütesiegel ausgezeichnet werden?

William: Unser wissenschaftlicher Beirat wird überprüfen welche Experimente durchgeführt werden müssen um die wichtigsten Ergebnisse einer Studie zu reproduzieren. In manchen Fällen könnte es passieren dass wir das gleiche Ergebnis wie die Originalstudie bekommen, wenn wir eine fehlerhafte Methode verwenden und später wird klar das die Methode eigentlich nicht dafür geeignet war. Das Ziel der Reproducibility Initiative ist es nicht einzelne Methoden zu validieren. Wir wollen nur überprüfen dass sich die Originalergebnisse reproduzieren lassen. Mit anderen Worten: Die Initiative will die Exaktheit der Ergebnisse überprüfen, nicht deren Fehlerfreiheit.

In Zeiten sinkender Forschungsbudgets dürften die Kosten einer externen Validierung ein Problem sein, mit dem ihr zu kämpfen habt. Wieviel wird es in etwa Kosten eine Studie zu reproduzieren? Und haben Wissenschaftler die Möglichkeit für solche Fälle Gelder zu bekommen?

Elizabeth: Die Kosten die bei einer solchen Überprüfung anfallen sind überall eine Herausforderung. Aber es ist viel effektiver Forschung zu fördern die im Anschluss validiert wird, was bedeutet das andere Forscher auf diesen Ergebnissen aufbauen können, als einen riesigen Pool unvalidierter Forschung zu fördern, auf den niemand aufbauen kann. Es gibt eine erhebliche Verschwendung von Ressourcen momentan, da nur “neuartige” Wissenschaft gefördert wird. Viele Wissenschaftler, akademisch und in der Industrie, versuchen auf den Teil-Ergebnissen anderer Forscher aufzubauen, können Experimente nicht reproduzieren und scheitern daran. Und dann ziehen sie weiter, ohne dieses Wissen jemals zu dokumentieren. Das führt dazu dass es viele kleine Teil-Replikationen von Versuchen gibt, die allerdings niemals veröffentlicht werden und damit eine Verschwendung von Zeit und Geld sind.

Seine Studien extern über die Reproducibility Initiative überprüfen zu lassen ist dagegen viel effizienter. Basierend auf den Einreichungen, die wir bislang bekommen haben, schätzen wir das eine Replikation in etwa 10% des ursprünglich benötigten Budgets kosten wird. Das liegt daran das man nicht alle Experimente wiederholen muss um die wichtigsten Ergebnisse zu reproduzieren. Man muss auch keine explorativen Studien oder Methodenoptimierung durchführen, welche sonst einen großen Teil der ursprünglichen Ausgaben ausmachen. Dazu kommt dass die Validierung von Experten durchgeführt wird, welche möglichst effizient arbeiten wollen um ihre Kosten gering zu halten.

Wir schlagen Wissenschaftlern vor ihre Förderer auf zusätzliche Mittel für eine externe Validierung anzusprechen und in den nächsten Anträgen explizit Gelder für unabhängige Validierungen zu beantragen. Außerdem arbeiten wir mit mehreren fortschrittlichen Förderorganisationen zusammen um Gelder für Wissenschaftler zu sichern, welche die Kosten alleine nicht tragen können.

In der Vergangenheit die schlechte Reproduzierbarkeit wurde vor allem in den Feldern der Psychologie und der Biomedizin bemängelt. Hat die Reproducibility Initiative einen Fokus auf bestimmte Felder, oder seid ihr offen für alle Disziplinen?

William: Aktuell zielen wir auf Medizin und Biowissenschaften mit möglichen klinischen oder therapeutischen Anwedungen. Aber alle Studien, für die wir die benötigten Dienstleister über Science Exchange finden können, dürfen ihre Studien gerne bei uns einreichen.

Es gibt die Reproducibility Initiative noch nicht so lange, aber: Gibt es schon Wissenschaftler die eure Dienste in Anspruch genommen haben?

William: Wir haben noch keine Daten aus Replikationsversuchen. Aber auf unseren initialen Aufruf haben sich über 1300 Wissenschaftler gemeldet und über 1000 haben sich in den Pool von Interessenten aufnehmen lassen.

Disclaimer: Philipp & Ich haben 2011 einen von PLOS & Mendeley ausgelobten Preis gewonnen. Außerdem war William letztes Jahr so freundlich mich für ein paar Nächte auf seiner Couch schlafen zu lassen.

]]>
http://www.scilogs.de/bierologie/nicht-reproduzierbare-wissenschaft-ein-interview-mit-der-reproducibility-initiative/feed/ 8 wissenslogs
Doktorand im achten Monathttp://www.scilogs.de/bierologie/doktorand-im-achten-monat/?utm_source=rss&utm_medium=rss&utm_campaign=doktorand-im-achten-monat http://www.scilogs.de/bierologie/doktorand-im-achten-monat/#comments Sun, 04 Nov 2012 08:24:49 +0000 http://www.scilogs.de/bierologie/doktorand-im-achten-monat/ ... weiter]]> In den letzten paar Monaten war dieses Blog verdächtig ruhig, das hat seine Gründe: Basti hängt in den letzten paar Monaten seiner Masterarbeit und ich bin Doktorand im achten Monat, und das bisschen Zeit das da noch übrig bleibt wird in openSNP investiert (oder: Schock, ins Privatleben!). Was mach ich eigentlich den ganzen Tag?

Doktoranden-Dasein

"Angestellt" bin ich bei der School of Agriculture and Food Sciences an der University of Queensland (UQ), Brisbane, Australien, in der Bioinformatik-Arbeitsgruppe. Unsere Haupttätigkeiten sind die Arbeit am Weizen, Raps, Gemüsekohl, Rübsen und Kichererbsen-Genoms, dazu kommt noch ein Haufen anderer Tätigkeiten (SNP-basierte Analysen z.B.). ich bin momentan am meisten mit dem Brassica napus, also dem Raps-Genom beschäftigt. Wirtschaftlich sind die Pflanzen alle enorm wichtig - trotzdem gibt es kaum "fertige" Genome in dem Bereich, was viele Gründe hat.

Probleme beim Genombasteln

Leider sind wir noch nicht soweit, dass wir eine Pflanze in eine Maschine stopfen können und nach 10 Minuten ein USB-stick mit dem kompletten Genom aus der Maschine purzelt. Die meisten Sequenzierer heutzutage produzieren "reads" mit einer Länge von 100 Nukleotiden, einer sehr kurzen Länge. Zum Vergleich: Das Weizen-Genom ist ungefähr 17.000.000 Nukleotide lang! Man braucht also eine ganze Menge "reads", um das Genom einmal abzudecken. Aber einmal abdecken wär ja einfach, soweit kommt's noch - natürlich sind die meisten Planzengenome zu 50% - 70% repetitiv, d.h., kurze Nukleotidsequenzen, die sich wiederholen, z.B. GCGCGCGCGCGCGCGC. Dies bedeutet, dass viele dieser "reads" nicht genau einer Stelle zuordbar sind, wenn sie größtenteils aus repetitiven Elementen bestehen. Zum Vergleich: das menschliche Genom dagegen besteht nur zu ca. 8% aus repetitiven Elementen, deswegen ist das auch schon fast fertig.

Dazu erschwerend kommt noch die Polyploidie der meisten Pflanzen. Menschen sind diploid, also haben sie von jedem Chromosom zwei Kopien, Weizen ist dagegen polyploid: Einkorn ist diploid, Weichweizen (auch Brotweizen) ist dagegen hexaploid (also sechs Kopien), das macht das ganze natürlich nochmal schwieriger - durch viele Kopien und komplette Genomduplikationen in der Geschichte der Pflanzen gibt es viele Regionen auf unterschiedlichen Chromosomen, die voneinander kaum zu unterscheiden sind. Das macht es natürlich schwer, die "reads" irgendwo eindeutig zu positionieren!

Man kann sich die Problematik ungefähr wie die manuelle Rekonstruktion der Stasi-Akten vorstellen - lauter kleine Schnipsel, vieles ist schwer zuzuordnen, viel fehlt, viele Floskeln andere Teile, die sich wiederholen: ein Haufen Arbeit, um das wieder hinzubekommen. Glücklicherweise machen wir das auch nicht manuell, dafür gibt es mehrere Programme mit so unromantischen Namen wie ALLPATHS-LG, MIRA oder Velvet, die mithilfe der Graphentheorie Ordnung in den Wald der "reads" bekommen. Der Hauptteil meiner Arbeit liegt im Säubern der "rads", z.B. durch Entfernen fehlerbehafteter "reads" oder dem Abschneiden unsicherer Regionen, und im Bewerten der Ergebnisse - die obengenannten Programme verbinden manchmal Regionen, die nicht zusammen gehören, oder ordnen Regionen falschrum an. Die genauen Details der Algorithmen sprengen den Rahmen - falls die einer lesen möchte, bitte anfragen, dann setz ich mich nochmal hin.

Genauere Beschreibungen der jeweiligen Projekte gibts hier noch nicht, das mach ich, sobald die jeweiligen Publikationen veröffentlicht werden - irgendwann bald müsste auch das openSNP-Paper irgendwo publiziert werden....

Arbeits- und Lebenssituation

Das Stipendium der Uni reicht aus, um von meinen Eltern unabhängig leben zu können, was nach 26 Jahren auch mal an der Zeit war. Es reicht auch, um die Miete für ein kleines Häuschen mit meiner Freundin in einem Vorort zu teilen, dann ist das Geld auch meistens kurz vor der nächsten Zahlung alle. Die Visumssituation ist (für Deutsche) auch relativ einfach, solange ich an der Uni eingeschrieben bin "darf" ich bleiben.

Die Arbeit an sich ist auch sehr angenehm - so zwischen 8 und 10 Uhr morgens mit Kaffee im Büro vor den PC setzen, eMails beantworten, den Server kaputtmachen, eine halb ausgegorene Bioinformatik-pipeline anstellen die dann mit einer obskuren Fehlermeldung abbricht, rausfinden, was der Fehler ist, Mittagessen, dann am eigenen Code arbeiten, schauen, ob der Assembler fertig-gerechnet hat, und auf einmal ist es dunkel, und weil die Essenswissenschaftler mal wieder ihr Labor in Flammen gesetzt haben wird man vom Feueralarm so um 5-6 nach Hause geschickt (schon dreimal passiert! In acht Monaten!).

Unsere Arbeitsgruppe hat so gut wie nichts mit Lehre zu tun, deswegen muss ich auch keine Kurse halten. Bis jetzt hab ich freiwillig eine halbstündige Vorlesung vor 8 Bioinformatik-Bachelor-Studenten über "genome-wide association studies" gehalten, da kommt sicher noch mehr. Am Wochenende arbeite ich manchmal, je nachdem wie die Deadlines sind, am Wochenende ist meist der Cluster auch schön leer für größere Prozesse. Dank SSH kann ich das auch alles von zuhause erledigen.

Im Unterschied zur Laborarbeit hat meiner Meinung nach die Arbeit in der Bioinformatik ein oberes Zeitlimit - nach 6 bis 7 Stunden durchgehendem Programmieren muss ich nach Hause gehen, sonst bastel ich nur noch die schwachsinnigsten Datenstrukturen und brauch den halben nächsten Tag, um die Fehler des vorherigen auszubügeln. Dementsprechend kann ich nur so 40 bis 50 Stunden die Woche arbeiten, weniger als der durchschnittliche Doktorand.

In der Arbeitsgruppe sind wir momentan 9 Leute (mit Professor 10), davon der Großteil Doktoranden, momentan nur ein Post-Doc (bald kommt noch einer) und ein research assistant, also definitiv noch Platz für mehr - wer will, findet hier mehr Informationen.

]]>
http://www.scilogs.de/bierologie/doktorand-im-achten-monat/feed/ 2 wissenslogs
Die Gesetze der Evolution und die Religion IIhttp://www.scilogs.de/bierologie/die-gesetze-der-evolution-und-die-religion-ii/?utm_source=rss&utm_medium=rss&utm_campaign=die-gesetze-der-evolution-und-die-religion-ii http://www.scilogs.de/bierologie/die-gesetze-der-evolution-und-die-religion-ii/#comments Mon, 30 Apr 2012 12:43:04 +0000 http://www.scilogs.de/bierologie/die-gesetze-der-evolution-und-die-religion-ii/ ... weiter]]> Im letzten Beitrag habe ich mir angeschaut wieso die Evolution eben nicht nur diejenigen genetischen Varianten fixiert, welche ihrem Träger einen Fitness-Vorteil verschaffen. Der Grund dafür ist genetischer Drift, ein Zufallsprozess der endlich großen Populationen auftritt. Daher kann man nicht daraus schliessen das eine Eigenschaft automatisch einen Selektionsvorteil verschafft hat, nur weil man sie über eine lange Zeit findet. In dem Kommentaren zu dem Artikel hat Michael Blume dann weiter ausgeführt welche Belege es dafür gibt das Religiosität adaptiv ist bzw. war. Warum diese Belege aber keineswegs so eindeutig für einen adaptiven Nutzen von Religiosität sprechen soll heute mal dargestellt werden. Kurz gesagt geht es immer noch um die Tatsache das eine Korrelation keinen Kausalzusammenhang abbilden muss. Genauer geht es um das Phänomen des Linkage Disequilibrium, welches dem einen oder anderem aus meinen Artikeln zu Assoziationsstudien bekannt sein dürfte.

Aber erstmal eine kurze Zusammenfassung des Arguments: Durch Zwillingsstudien hat man zeigen können das Religiosität nicht nur von der Umwelt abhängig ist sondern auch eine genetische Komponente hat. Wie so oft ist es das Zusammenspiel von Nature und Nurture die zu einer Merkmalsausprägung führen. Wie groß der genetische Einfluss auf Religiosität genau ist schwankt von Studie zu Studie und hängt unter anderem auch davon ab wie man Religiosität misst. Michael argumentiert darauf hin damit das nach Studien religiöse Menschen im Schnitt mehr Nachkommen hätten als Nicht-Religiöse. Schon bei dieser vermeintlich einfachen Feststellung muss man allerdings aufpassen.

Wie viele Nachkommen man so hat korreliert nämlich nicht nur mit der Religiosität sondern auch mit dem Bildungsabschluss, dem Einkommen, dem IQ und vermutlich noch mit einer ganzen Reihe anderer Faktoren. Und genauso gibt es Studien die zeigen das je höher der IQ ist, desto weniger religiös sind Menschen. Wenn der IQ genauso negativ mit der Anzahl an Kindern korreliert, dann könnte es sein das die Ursache warum religiöse Menschen mehr Kinder haben allein darin liegt und die Religiosität damit gar nichts zu tun hat. Generell ist hier wegen der ganzen Korrelationen der verschiedenen Dinge untereinander Vorsicht geboten. Laut Michael gibt es aber Studien die für genau solche Co-Faktoren korrigiert haben und auch danach noch den von ihm benannten Zusammenhang von Religiosität und Anzahl an Kindern (Leider habe ich auf die Studien die er benennt zum Großteil keinen Volltext-Zugriff, vor allem nicht auf Buchkapitel).

Ist das nun der Beweis dafür das Religiosität einen Fitness-Vorteil (mehr Kinder in der nächsten Generation) verspricht? Nein, denn wie schon erwähnt: Auch dies ist nur eine Korrelation und gerade die Genetik kennt mit dem Linkage Disequilibrium (zu deutsch in etwa Kopplungs-Ungleichgewicht) einen Mechanismus der solche Korrelationen leicht erklären kann. Der Grund dafür liegt auf molekularer Ebene: Erst einmal sind wir alle ja genetische Archen und tragen von jeder Art (Chromosom) zwei Stück an Bord, das was der Biologe gemeinhin als diploid bezeichnet. Gene die sich auf einem Chromosom befinden sind werden nicht wirklich unabhängig voneinander vererbt, weil sie gemeinsam als eine Einheit in die nächste Generation gebracht werden. Sie sind also miteinander gekoppelt bzw. statistisch voneinander abhängig.

Ganz abhängig voneinander sind sie allerdings nicht, denn wir dürfen Sex nicht außer acht lassen. Damit unsere Nachkommen auch wieder nur 2 Kopien von jedem Chromosom tragen, findet zur Produktion von Spermien und Eizellen eine Reduktionsteilung, die Meiose, statt. Dabei lagern sich die beiden Kopien der Chromosomen zusammen an um dann ordentlich getrennt zu werden, so das später beide entstehenden Zellen jeweils genau eine Kopie eines Chromosoms haben. Dabei kann es zum Crossing Over kommen. Dabei überlappen die Chromosomen teilweise und tauschen so einen Teil miteinander aus.

Das bedeutet das Gene auf einem Chromosom nicht mehr zwingend voneinander abhängig sind: Denn je näher 2 Gene auf einem Chromosom zusammenliegen desto kleiner ist die Wahrscheinlichkeit das ein Crossing Over genau an dieser Stelle stattfindet. Die Austauschwahrscheinlichkeit für ein Crossing Over ist also eine Funktion der Distanz die zwischen beiden Genorten liegt. Je näher die beiden Gene zusammenliegen desto größer wird in der Regel auch das Linkage Disequilibrium sein, da eine Trennung der beiden Genorte sehr unwahrscheinlich ist.

Genau diese Mechanismen macht man sich zum Beispiel bei genetischen Assoziationsstudien zu nutze: Die dort untersuchten Marker liegen oft nicht in Genen oder Kontrollregionen selbst und haben damit keinen eigenen Nutzen, sondern liegen oft nur in der Nähe von Genen die einen interessieren. Da sie so nah beieinander liegen sind sie miteinander gekoppelt und können so z.B. relativ einfach Aufschluss darüber geben wie die Regionen in näheren Umgebung aussehen. Ein bekanntes und schönes Beispiel dafür ist das Genom von James Watson. Bei der Veröffentlichung seines Genoms hatte er Bereiche, die sein Risiko an Alzheimer zu erkranken vorhersagen, schwärzen lassen. Trotzdem: Durch die Kenntnis der umliegenden Bereiche, welche nicht geschwärzt wurden, konnte man dank des Linkage Disequilibrium vorhersagen wie Watsons Alzheimer-Risiko ist.

So weit zu den genetischen Grundlagen, aber was hat das mit der eventuell adaptiven Rolle der Religiosität zu tun: Nun, in keinem Fall muss Religiosität selbst für eine erhöhte Anzahl an Nachkommen verantwortlich sein. Genauso gut kann das "Religiositäts-Gen", bzw. wahrscheinlicher, können die verschiedenen Genorte die für Religiosität verantwortlich sind, in der Umgebung von Genen liegen die im Zusammenhang mit Fertilität stehen. Aber wie kommt es dann dazu das Religiosität so weit verbreitet ist und eventuell sogar sehr zuverlässig mit Fertilität verknüpft ist? Auch dafür kennt die Evolutionsbiologie einen Mechanismus, die sogenannten Selective Sweeps. Als Beispiel gehen wir - weil ich zeichenfaul bin - von einer Population von fünf Individuen, nummeriert von eins bis fünf, aus. Die Grafik zeigt jeweils einen DNA-Abschnitt, und zu Beginn tragen die Individuen 4 und 5 "das Gen für Religiosität", welches für das Beispiel hier als neutral - also ohne Einfluss auf die Fitness - angesehen werden kann.

Screen Shot 2012-04-30 at 14.38.50 .png
Nehmen wir an in der Nähe dieses Genortes für Religiosität entsteht eine zufällige Mutation, welche einen Fitness-Vorteil erbringt. Für das Beispiel hier benutzen wir mal ganz platt "Fertilität" als neue Mutation, aber im Endeffekt könnte das alles sein was dafür sorgt mehr Nachkommen zu zeugen als die anderen Mitglieder der Population, der Kreativität sind da keine Grenzen gesetzt.
Screen Shot 2012-04-30 at 14.42.08 .png  
Da die neue Mutation einen Fitness-Vorteil bringt verbreitet sie sich durch die Population und wird fixiert. Und da der Gen-Ort für die Religiosität so nah an dem fitnessbringenden Genort liegt wird sie nicht durch Crossing Over getrennt, sondern wird komplett mit fixiert. Natürlich gelten hier die gleichen Einwände zum Drift: Die Fixierungswahrscheinlichkeit unseres Gen-Paares hängt also von der Größe des Fitness-Vorteils und von der Populationsgröße ab. Ein Selective Sweep kann aber auch in größeren Populationen passieren.
Screen Shot 2012-04-30 at 14.48.41 .png
Das HapMap-Consortium hat vor einigen Jahren das menschliche Genom auf Selective Sweeps untersucht und dabei 6 verschiedenen Chromosomen Regionen gefunden die Anzeichen eines solchen Sweeps zeigen. Für die Untersuchung des Zusammenhangs zwischen biologischer Fitness und Religiosität bedeutet dies vor allem eins: Selbst wenn wir unsere statistischen Untersuchungen von Religiosität und Nachkommenzahl für alle Co-Faktoren bereinigen haben bleibt ein Problem. Wir können nicht unterscheiden ob dieser Zusammenhang kausal auf der Religiosität basiert oder ob unsere evolutionäre Geschichte die entsprechenden genetischen Faktoren der Religiosität schlicht mit anderen, fitness-bestimmenden Genorten gekoppelt hat. Ohne eine Untersuchung auf genetischer Ebene wird man dem Problem dementsprechend vermutlich auch nicht beikommen können.
Hinweis: Da es beim letzten Artikel schon von einigen falsch verstanden wurde: Es geht nicht darum ob Religiosität jetzt evolutionär adaptiv ist oder nicht. Es geht schlicht um Methodik und woran die Studien bislang kranken.

Literatur:
The International HapMap Consortium, . (2005). A haplotype map of the human genome Nature, 437 (7063), 1299-1320 DOI: 10.1038/nature04226
Nyholt, D., Yu, C., & Visscher, P. (2008). On Jim Watson's APOE status: genetic information is hard to hide European Journal of Human Genetics, 17 (2), 147-149 DOI: 10.1038/ejhg.2008.198

]]>
http://www.scilogs.de/bierologie/die-gesetze-der-evolution-und-die-religion-ii/feed/ 44 wissenslogs
Die Gesetze der Evolution und die Religionhttp://www.scilogs.de/bierologie/die-gesetze-der-evolution-und-die-religion/?utm_source=rss&utm_medium=rss&utm_campaign=die-gesetze-der-evolution-und-die-religion http://www.scilogs.de/bierologie/die-gesetze-der-evolution-und-die-religion/#comments Sun, 29 Apr 2012 01:27:30 +0000 http://www.scilogs.de/bierologie/die-gesetze-der-evolution-und-die-religion/ ... weiter]]> In dem Blog Natur des Glaubens hat Michael Blume einen Artikel von sich verlinkt, der in der Zeitschrift Trilliumreport erschienen ist und den Titel Glauben sie an Gott? Und wenn ja, warum? trägt. Darin geht es, wie so oft in seinen Texten, ob und warum Religion eine evolutionäre Adaption ist die welche Fitnessvorteile erbringt. Als Gründe für die angeblichen Fitness-Vorteile werden – ebenfalls wie so oft – die erhöhte Nachkommenzahl genannte (genau das was biologische Fitness im evolutionären Kontext bedeutet) als auch der bessere Gruppenzusammenhalt, bei dem die Riten der Religion als Erkennungsmerkmal verwendet werden können, aufgezählt.

Das klingt mir nach den gleichen Lagerfeuergeschichten die in der evolutionären Psychologie gerne erzählt werden: Irgendwie plausibel, aber meist nur schlecht/gar nicht durch Fakten oder Beweise gedeckt. Und so weit ich die Quellenlage überblicken kann verhält es sich mit der Evolution des Glaubens auch genauso: Beweise für diese Geschichten findet man nur wenige, die Studien die es dazu gibt und einen Zusammenhang finden kranken oft an ihrer Methodik und unterscheiden beispielsweise nur unzureichend zwischen Korrelation und Kausation.

Aber in diesem Fall sind es gar nicht mal diese Probleme die mich stören, sondern die offensichtlich sehr falsch verstandenen Mechanismen der Evolution, die als Prämisse für die gesamte These herhalten. Denn Michaels Text öffnet mit Nach den Gesetzen der Evolutionstheorie muss Religiösität einen biologischen Vorteil bringen. Wie anders wäre es zu erklären, dass sie sich über mindestens 100.000 Jahre Menschheitsgeschichte erhalten hat.

Damit ignoriert man dummerweise wesentliche Fortschritte, welche die Evolutionsbiologie in den letzten Jahrzehnten gemacht hat. Denn ironischerweise führen gerade das mathematische Fundament, und damit die "Gesetze" welche die Evolutionsbiologie seit Jahren stützen, genau dazu, dass man diese simple Idee der Evolution, die man auf die Veröffentlichung von On the Origin of Species datieren könnte, verwerfen muss.

Michael führt an das “schon Darwin” dies oder das vermutet hatte, aber dummerweise ist der gute Charles nun seit 130 Jahren unter der Erde und hat so die Entwicklungen in der Synthetischen Evolutionstheorie verpasst. Darunter so Kleinigkeiten wie die moderne Genetik und die Entdeckung der DNA als Trägermaterial. So hat sich Darwin seinerzeit zwar zur natürlichen und sexuellen Selektion geäußert, dabei einen weiteren – zentralen – Mechanismus der Evolution außer Acht gelassen: Genetischen Drift.

Schauen wir uns für die Erklärung des Drifts aber vorher noch mal kurz an wie die natürliche Selektion funktioniert: Durch eine Mutation (oder auch Einwanderung eines Individuums von einer anderen Population) findet sich z.B. eine neue Variante eines Gens in einer Population. Die natürliche Selektion kann an diesem Gen selbst nicht ansetzen, sondern an der phenotypischen Auswirkung die das Gen mit sich bringt. Wenn ein Gen einen Fitnessvorteil bringt, dann hat der Träger dieser Variante durch die Auswirkungen im Phänotyp eine erhöhte Chance mit Nachkommen in der nächsten Generation vertreten zu sein, damit ändert sich dann die Frequenz mit der man das Gen in der betrachteten Population vorfindet.

inf-a-pos.png
inf-a-neg.png
inf-neutral.png

Um das ganze etwas anschaulicher zu machen kann man diese Vorgänge modellieren und dann auch graphisch darstellen. Wir gehen von 2 verschiedenen Allelen A1 und A2 aus, die beide in gleicher Menge in der unendlich großen Population vorkommen. In der oberen Grafik bringt A1 einen Fitnessvorteil und steigt dementsprechend an, so lange bis es schlussendlich fixiert wird. In der mittleren Grafik hat A1 einen Fitnessnachteil und stirbt so langsam aus (bzw. wird sehr selten, da A1 in dem Modell rezessiv ist gibt es auf Individuen die A1A2 tragen keinen Selektionsdruck). Und in der unteren Grafik haben beide Allele den gleichen Fitness-Wert, daher ändert sich an der Verteilung auch nichts. So weit passt das auch alles noch der Prämisse die Michael für seinen Artikel verwendet.

Ganz so einfach ist es aber in der Realität nicht und das hängt mit den Bedingungen zusammen die wir für unseren Versuch verwendet haben: In der Realität gibt es keine unendlich großen Populationen! Da Populationen in der Realität eine endliche Größe haben kommen hier Zufallsprozesse ins Spiel. Und genau diesen Einfluss des Zufalls bezeichnet der genetische Drift. Das bedeutet das man trotz eines Allels, welches einen Fitness-Vorteil bringt, ohne Nachkommen ausgeht. Und je kleiner eine Population ist, desto höher ist der Einfluss dieses Zufalls.

10-neutral.png
100-neutral.png

Das ganze kann man auch wieder modellieren. Die beiden Grafiken zeigen der Verlauf der zu Beginn gleichverteilten Allele A1 und A2 über 500 Generationen. Das obere Bild zeigt den Verlauf bei einer Populationsgröße von 10, das untere bei einer Größe von 100 Individuen. Wie man sieht schwanken die Frequenzen für A1 über die Zeit zum Teil stark, aber eines ist allen Kurven gemeinsam (auch wenn man es auf 500 Generationen vielleicht noch nicht sieht): Am Ende wird ein Allel, rein durch die Zufallsprozesse fixiert und das andere stirbt aus. Je kleiner die Population, je schneller funktioniert diese Fixierung, da die Zufallsprozesse eine stärkere Wirkung haben. Und dieses Bild zeigt sich in jeder endlich großen Population.

Für so kleine Populationsgrößen kann es verschiedene Gründe geben. Bekannte Beispiele sind Gründereffekte, die entstehen wenn ein kleiner Teil aus einer Population emigriert, genauso wie die Bottlenecks bei denen die Populationsgröße durch Katastrophen-Ereignisse (Vulkanausbrüche, Meteoriteneinschläge, was Hollywood halt so zu bieten hat) mit einem Schlag schrumpft.

Screen Shot 2012-04-29 at 01.44.23 .png

Gerade bei kleinen Populationen kann genetischer Drift sogar dazu führen das jene Allele fixiert werden die einen Fitnessnachteil bringen. Die Grafik hier zeigt eine Population von 100 Individuen. Das Allele A1 bringt einen Fitnessvorteil, ist zu Beginn aber selten und kommt nur mit einer Frequenz von 0,1 vor (z.B. weil es durch Neumutation entstanden ist oder weil Individuen aus einer anderen Population eingewandert sind und es mitgebracht haben). Wie man sieht gibt es Fälle in denen das Allele A1 trotz Fitnessvorteil ausstirbt und so das "schlechtere" Allele A2 fixiert wird.

Diese Zusammenhänge wurden 1973 von Tomoko Ohta als Nearly neutral theory of molecular evolution beschrieben und lassen sich grob so zusammenfassen: In kleinen Populationen spielt genetischer Drift eine große Rolle, dementsprechend werden Allele schnell fixiert. Allerdings spielt natürliche Selektion hier eine kleine bis gar keine Rolle, da die Effekte des Drifts viel größer sind als die der Selektion. In großen Populationen hingegen ist der Einfluss von genetischem Drift gering, dementsprechend spielt Selektion hier eine größere Rolle. Da der Drift jedoch gering ist dauert es auch viel länger bis ein Allel fixiert ist.

Was man aber hier auf jeden Fall sieht ist: Es gibt Mechanismen die dazu führen das im Laufe der Evolution auch Gene und damit Eigenschaften fixiert werden die keinen Vorteil bringen. Die Prämisse das die Evolution in jedem Fall vorteilhafte Dinge hervorbringt kann man damit hoffentlich endlich ins Reich der Märchen verbannen. Wir können uns also genauso gut eine lustige Lagerfeuergeschichte ausdenken, in der die Entstehung von Religion und Aberglaube keinen Fitnessvorteil bringt. Oder im Gegenteil: Sogar schädlich ist. Und sind damit trotzdem im Rahmen der aktuellen Evolutionsbiologie.

Wer selber mit Parametern wie Fitness-Werten, Populationsgrößen und Allelefrequenzen herumspielen will findet das Programm AlleleA1, welches die Graphen dieses Blogposts erzeugt hat, für Mac OS und Windows hier zum Download.

]]>
http://www.scilogs.de/bierologie/die-gesetze-der-evolution-und-die-religion/feed/ 50 wissenslogs
Der Prostatakrebs, meine Gene und Ichhttp://www.scilogs.de/bierologie/der-prostatakrebs-meine-gene-und-ich/?utm_source=rss&utm_medium=rss&utm_campaign=der-prostatakrebs-meine-gene-und-ich http://www.scilogs.de/bierologie/der-prostatakrebs-meine-gene-und-ich/#comments Sun, 15 Apr 2012 11:59:56 +0000 http://www.scilogs.de/bierologie/der-prostatakrebs-meine-gene-und-ich/ ... weiter]]> Vor einiger Zeit habe ich einer Redakteurin des UniSPIEGEL ein Interview zu openSNP und dieser ganzen Personal Genomics-Sache gegeben. Seit letzter Woche kann man das Interview in Print und auch online finden. Leider hat es der Teil über die Bestimmung von Krankheitsrisiken bei den nächsten Verwandten über die eigenen Daten nicht in die endgültige Fassung geschafft. Aber da das Thema ganz spannend ist wollte ich das hier mal für euch ausführen.

Konkret ging es um ein erhöhtes Prostatakrebs-Risiko, das ja auch im Interview angeschnitten wird. Prostatakrebs ist eine der häufigsten Krebsformen bei Männern und tritt in der Regel ab dem 50. Lebensjahr auf. Laut den Daten von 23andMe hat die Genetik einen Einfluss von 42-57 % darauf ob man daran erkrankt oder nicht. In Deutschland soll das Durchschnittsrisiko daran zu erkranken bei ca. 14 % liegen, 23andMe gibt es mit 17,8 % an. Nach den Berechnungen von 23andMe liegt mein persönliches Risiko bei ca. 23,3 %, was über dem Durchschnitt liegt.

Da Prostatakrebs fast ausschliesslich in der Altersgruppe 50+ auftritt ist gibt es Früherkennungs-Programme. Die Teilnahme wird Männern mit Krankheitshintergrund in der Familie (da ist die Genetik wieder) ab 40, sonst ab 45, empfohlen. Standardmässig nutzt man zur Früherkennung immer noch die Menge des Prostataspezifischen Antigens (PSA) im Serum. Dummerweise findet man geringere Mengen des Antigens jederzeit und der Wert erhöht sich nicht ausschliesslich durch die Anwesenheit von Krebs, sondern schwankt auch so gerne schon mal. Deshalb steht die Verwendung des PSA-Wertes in der Kritik da bezweifelt wird ob der Nutzen durch eine solche Früherkennung die Risiken (z.B. durch unnötige Biopsien) überwiegt.

Ich vermute mal das die Kritik an den PSA-Messungen bei den wenigsten Leuten, die nicht zur Früherkennung gehen, ein ernsthafter Grund ist. Genauso wie regelmässige Zahnarztbesuche doch empfehlenswert sind, so hat man gerade nicht die Zeit dafür, glaubt es doch nicht so wichtig ist und überhaupt: Mich wird es schon nicht treffen. Das sind zumindest die besten Behauptungen mit denen ich mich selbst ganz vorzüglich von so etwas abbringen kann. Dabei ist so eine Früherkennung hier nicht ganz dumm: Bei rechtzeitiger Erkennung liegt die Fünfjahresüberlebensrate bei 99 %. Aber wie bei so ziemlich jedem Krebs: Je später die Erkennung, desto schlechter die Chancen.

Da ich von der 40/45 noch etwas entfernt bin ist das für mich nicht so akut, aber mein Vater fällt schon in die passende Altersgruppe. Und ich hoffe ich tue ihm kein Unrecht wenn ich sage das er es mit der Früherkennung und Vorsorge ähnlich hält wie ich leider auch: Ja, irgendwann mal. Nachdem ich meine SNPs, also die Marker die 23andMe testet, allerdings mal darauf hin ausgewertet habe wie es um die Krankheitsrisiken meiner Eltern so steht, und dabei gemerkt habe das er für Prostatakrebs vermutlich in eine ähnliche Risiko-Kategorie wie ich fällt, ist er dann doch mal zur Vorsorge gegangen.

Und hat dann auch gleich das ganze Programm bekommen: Erhöhte PSA-Werte gemessen, Krebs-positive Biopsie Ergebnisse, anschliessend eine OP zur Tumor-Entfernung. An der Stelle auch noch mal gute Besserung und ganz viel Spass im wohlverdienten Urlaub. Hier also ein Fall wo das Früherkennungsprogramm gut funktioniert hat, auch wenn man über den Einfluss der genetischen Risikofaktoren trefflich debattieren kann. Immerhin haben sie aber als Auslöser gedient überhaupt den Arztbesuch anzutreten.

Aber gehen wir mal etwas näher auf die Genetik ein, also darauf wie man die eigenen Daten nutzen kann um etwas über die Krankheitskrisiken der Eltern (oder auch eigenen Kinder) herauszubekommen. In einem Blogpost vor einem Jahr habe ich das Thema schon mal angeschnitten, aber noch mal zur Erklärung: Die SNPs die 23andMe testet sind über das gesamte Genom verteilt und auf den 22 Nicht-Geschlechtsbestimmenden Chromosomen (den sogenannten Autosomen) trägt jeder von uns 2 Kopien der SNPs, eine die von der Mutter, eine von dem Vater vererbt wurde. Dazu kommen die Marker auf dem mitochondrialen Genom, welches nur mütterlicherseits vererbt wird, und die beiden Geschlechtschromosomen (die Allosomen). Als XY-Träger ist es bei mir für die Geschlechtschromosomen auch einfach vorherzusagen welche Marker dort von welchem Elternteil kommen.

Bleibt das Problem für die 22 Autosomen, bei denen es aus den 23andMe-Daten nicht ersichtbar ist von welchem Elternteil welche Variante stammt. Aber: Wenn man an einem SNP homozygot ist, also zweimal die gleiche Variation trägt, dann ist das auch egal von welchem Elternteil sie kommen. Wenn ich an rs1234 den Genotypen A/A habe, dann weiss ich das sowohl mein Vater als auch meine Mutter mindestens ein A trägt, quasi A/? für diese Position ist. So weit so gut, aber in wie fern bringt uns das bei der Krankheitsrisiko-Kalkulation weiter?

Glücklicherweise funktionieren viele SNPs ganz nach der klassischen, mendelschen Vorstellung von dominanten und rezessiven Allelen. Schauen wir uns als Beispiel dafür einfach mal den SNP rs9939609 an. Die Genotypen A/A und A/T bedeuten ein erhöhtes Risiko für Typ-2-Diabetes (auch wenn es bei A/A etwas stärker erhöht ist). Wenn ich also den Genotypen A/A trage dann haben meine Eltern und Kinder mindestens A/? und haben damit auch ein erhöhtes Risiko für Typ-2-Diabetes. Würde ich die rezessive Variante T homozygot tragen so liessen sich keine Aussagen über meine direkten Verwandten ableiten.

Das ist auch das Hauptproblem mit diesem Vorgehen: Man bekommt nur über einen relativ kleinen Anteil von SNPs überhaupt aussagekräftige Informationen. Das könnte unter Umständen auch dazu führen das man Risiken falsch einschätzt. Z.B. könnte ich ein rezessives Allel tragen was keine Auswirkungen hat, während meine Eltern allerdings das dominante andere Allel tragen welches Risiken verstärkt oder vermindert. Das ist allerdings ein generelles Problem wenn man sich additive SNPs anschaut vermute ich.

Aber was hab ich nun konkret gemacht um die Krankheitsrisiken meiner Eltern und (fiktiven) Kinder zu bestimmen? Zuerst habe ich die ca. 1 Million SNPs die ich von 23andMe über mich bekommen habe so gefiltert das nur noch die homozygoten übrig bleiben. Jetzt muss man für die übrig gebliebenen herausfinden bei welchen davon ich die dominanten Allele trage. Dazu habe ich mich bei der SNPedia bedient. Auf dem Portal wurden bislang Informationen zu gut 28.000 SNPs gesammelt, darunter auch die Auswirkungen der verschiedenen Genotypen. Erfreulicherweise bietet SNPedia auch eine Programmierschnittstelle an, so das ich automatisiert abgleichen konnte welche meiner homozygoten SNPs aus den dominanten Allelen bestehen und auch direkt schauen was die Auswirkungen dieser Allele sind.

Am Ende blieb dann eine recht kleine Zahl an SNPs übrig. Theoretisch könnte man diese Daten jetzt so auswerten das man numerische Risiko-Werte bekommt. Wie das prinzipiell funktioniert haben die Blogger von GenomesUnzipped in einem Posting am Beispiel von Alzheimer erklärt. Da es nicht mehr so viele SNPs waren habe ich das allerdings zu Fuß und ohne explizite Berechnung nachvollzogen. Und dabei ist mir eben unter anderem die große Anzahl an SNPs aufgefallen die mit einem erhöhten Prostatakrebs-Risiko assoziiert sind.

Und das deckt sich auch mit den Ergebnissen die 23andMe mir gibt: Dort verwenden sie 12 verschiedene SNPs um mein Prostatakrebs-Risiko zu errechnen. Ungefähr die Hälfte davon bedeutet ein erhöhtes Risiko für mich und bei den meisten dieser SNPs bin ich nicht nur homozygot sondern laut SNPedia sind es auch die dominanten Allele, die das Risiko erhöhen. Komplett falsche Ergebnisse scheint man damit also nicht zu bekommen. Falls ihr das mit eigenen Daten ausprobieren wollt: Es gibt schlecht geschriebenen und noch schlechter dokumentierten Python-Code für das ganze Zeug bei GitHub.

Mit sinkenden Kosten für Genotypisierungen werden solche Analysen und Spielereien mit den Daten natürlich weniger relevant, ganz lehrreich kann es trotzdem sein. Und Hallo Loss Aversion: Auch wenn ich bei einer 25 % Chance keine größeren Wettbeträge auf das Eintreffen des Ereignisses setzen würde: Im Zweifel verbesserte Heilungschancen werden mich dann doch hoffentlich doch dazu bewegen, bei entsprechenden Früherkennungsprogramme mitzumachen. Wie haltet ihr es eigentlich mit der Krankheitsvorsorge/Früherkennung?

]]>
http://www.scilogs.de/bierologie/der-prostatakrebs-meine-gene-und-ich/feed/ 2 wissenslogs
Für mehr offene Software in der Forschung!http://www.scilogs.de/bierologie/f-r-mehr-offene-software-in-der-forschung/?utm_source=rss&utm_medium=rss&utm_campaign=f-r-mehr-offene-software-in-der-forschung http://www.scilogs.de/bierologie/f-r-mehr-offene-software-in-der-forschung/#comments Mon, 27 Feb 2012 05:49:20 +0000 http://www.scilogs.de/bierologie/f-r-mehr-offene-software-in-der-forschung/ ... weiter]]> ResearchBlogging.org

Wer als Wissenschaftler jemals eine Publikation reproduzieren wollte, um dann auf den reproduzierten Ergebnissen neu aufzubauen, kennt das vielleicht: die Programme, mit denen die Ergebnisse produziert wurden, sind nirgends erhältlich. Vielmehr frustrieren Formulierungen wie "Die Ergebnisse dieser Studie wurden mit hausinternen Programmen produziert" - wie soll man da reproduzieren?

Vor kurzem erschien in Nature dazu ein längeres Essay: The case for open computer programs, grob übersetzt:"Argumentation für offene Computerprogramme". Wie in der Einleitung schon beschrieben, ist das Hauptargument für offen erhältliche Programme das Problem der Reproduzierbarkeit - kann ich mit Hilfe eines Computers die Hauptergebnisse dieser Studie wiederholen?

Ohne Reproduzierbarkeit ist die beste Wissenschaft nutzlos, denn wie kann ich als Wissenschaftler so sicher sein, dass die Ergebnisse stimmen? Vielleicht sind die Programme, die in der Studie benutzt wurden, fehlerhaft? Eventuell werden korrekte Ergebnisse von einem Programm falsch ausgelesen, und so kommt es zu falschen Ergebnissen. Ohne das Programm (und dessen Code) kann ich als nicht-beteiligter Wissenschaftler nicht unabhängig überprüfen, ob das Wissen, auf dem ich meine Forschung aufbaue, nicht fehlerhaft ist; stattdessen muss ich blind den Wissenschaftlern und den Editorn des jeweiligen Fachzeitschriften vertrauen!

Die Autoren des Essays fassen den Standpunkt einiger Fachzeitschriften zusammen - Nature selbst z.B. verlangt von Autoren keine Programme, sondern vielmehr eine Beschreibung des Ablaufs der benutzten Programme in normalem Englisch. Die Idee dahinter ist, dass sich interessierte Wissenschaftler ihre eigenen Programme schreiben können. Biostatistics dagegen hat sogar einen Editor, der nur für Reproduzierbarkeit von Studien zuständig ist - also einen Großteil des Codes braucht.

Persönlich kann ich Gründe sehen, warum man seinen Code nicht veröffentlichen will - wenn ich ein wenig an einem Projekt (momentan an SNP-Daten) arbeite, fliegen schnell 10-20 kurze Skripte in einem Ordner rum, kaum kommentiert, und wenn's nur für mich ist, ohne jede begleitende Dokumentation. Dazu kommt, dass die Programme oft einfach nur hässlich sind, nach dem Motto: "Was funktioniert, reicht" - sowas kann man keinem zeigen!

Sollte man aber. Denn, wie schon oben ausgeführt, ohne Code können andere kaum die Ergebnisse reproduzieren. Ohne Reproduzierbarkeit steht die Wissenschaft, die auf den Ergebnissen aufbaut, nur auf wackligen Beinen.

Der Wissenschafts-Betrieb ist sehr konkurrenzbetont, deswegen liegt es auf der Hand, dass viele Wissenschaftler weniger von ihrer Arbeit preisgeben möchten, als möglich wäre. Es könnte ja schließlich sein, dass eine konkurriende Gruppe sich mithilfe der offenen Software einen Vorteil verschafft, und so die eigene Gruppe überholt. Dagegen kann man einwenden, dass offene Software von vielen verschiedenen Gruppen verbessert werden kann, was im Endeffekt zu besseren Ergebnissen für alle beteiligten Parteien führt.

Die Autoren des Essays erwähnen mehrere Schritte für Fachzeitschriften und Universitäten, mit der "code availability" erreicht werden kann - unter anderem sollen Universitäten Reproduzierbarkeit in ihre Lehre einbinden, was mir persönlich auch am Herzen liegt. In meiner gesamten Bachelor/Master-"Karriere" habe ich nichts über Reproduzierbarkeit beim Publizieren gelernt, obwohl sie mehr als wichtig ist!

Auch wissenschaftliche Fachzeitschriften stehen unter Zugzwang, die "Englische-Beschreibung-reicht"-Vorschrift ist veraltet, Doppeldeutigkeiten kommen zu oft vor. Stattdessen sollten Fachzeitschriften Standards für Code-Veröffentlichung einführen - zum Beispiel in dem sie zumindest teilweise Code-Veröffentlichung (idealerweise unter einer freien Lizenz wie der MIT- oder GNU-Lizenz) einfordern.


Ince, D., Hatton, L., & Graham-Cumming, J. (2012). The case for open computer programs Nature, 482 (7386), 485-488 DOI: 10.1038/nature10836

]]>
http://www.scilogs.de/bierologie/f-r-mehr-offene-software-in-der-forschung/feed/ 5 wissenslogs
Genomübergreifende Kooperationenhttp://www.scilogs.de/bierologie/genom-bergreifende-kooperationen/?utm_source=rss&utm_medium=rss&utm_campaign=genom-bergreifende-kooperationen http://www.scilogs.de/bierologie/genom-bergreifende-kooperationen/#comments Mon, 16 Jan 2012 20:58:30 +0000 http://www.scilogs.de/bierologie/genom-bergreifende-kooperationen/ ... weiter]]> Weil man es ja eigentlich gar nicht oft genug betonen kann: Wir sind alle transgene Organismen, denn unser Genom ist eigentlich nicht nur unseres. Das ist zumindest das Fazit, welches man aus der Endosymbiontentheorie ziehen kann. Seit dem Ende des 19. Jahrhunderts gibt es diese Theorie, doch wirklich groß geworden ist sie erst gegen Ende der 1960er Jahre, zusammen mit ihrer Fürsprecherin Lynn Margulis (die leider Ende des letzten Jahres verstorben ist). Im Endeffekt geht es darum das manche der Organellen - die man so in Zellen finden kann - ursprünglich mal freilebende Bakterien waren, sich allerdings im Laufe der Evolution irgendwann einen Platz in Zellen gesucht haben und es dort ganz kuschelig gefunden haben (und deshalb nicht wieder von dort verschwunden sind). Dafür helfen sie jetzt aber ihren Gastgebern zumindest mit ihrer Arbeitskraft. Eines der bekanntesten Beispiele für eine solche endosymbiontische Organelle dürften die Chloroplasten sein, welche nicht nur die Blätter grün werden lassen, sondern auch für die Photosynthese zuständig sind. Ein anderes Beispiel, was eben auch uns zu transgenen Organismen macht, sind die Mitochondrien. Diese Organellen, von denen die meisten irgendwann schon mal im Biologieunterricht als den "Kraftwerken der Zelle" gehört haben dürften, haben ihren Beinamen absolut verdient. Sie verbrauchen einen Großteil des Sauerstoffs den wir veratmen und produzieren über einen Stoffwechselweg, die oxidative Phosphorylierung, gute 95% der chemischen Energie die wir jeden Tag verbrauchen. Und für diesen relativ komplexen Stoffwechselweg benötigt man einen ganzen Haufen von Proteinen bzw. Protein-Untereinheiten.

201201162034.jpg

Und in dem Zusammenhang können wir uns jetzt auch eines der starken Argumente für die Endosymbiontentheorie anschauen: Die Mitochondrien haben ein eigenes Genom, welches einen Teil der Gene enthält die man für diesen Stoffwechselweg braucht (und nur über die Eizellen der Mutter vererbt wird ... So wie das Y-Chromosom also eine komplette väterliche Abstammungskette nachbildet, so kann man das für die mütterliche Seite mit Mitochondrien machen). Nach der Endosymbiontentheorie ist dieses mitochondriale Genom der Rest des ursprünglichen Bakteriengenoms. Allerdings hat dies mittlerweile nicht mehr alle Gene, die man für die Umwandlung von Sauerstoff zu nutzbarer Energie benötigt, denn irgendwo auf dem Weg haben sich viele der dafür nötigen Gene aus dem Mitochondrium verabschiedet. Allerdings haben sie uns nicht ganz verlassen, sondern sind in unser Kerngenom eingewandert, wo sie weiterhin eng mit den Mitochondrien zusammenarbeiten um für uns Energie zu produzieren. Diese enge Kooperationen der nukleären, also im Zellkern codierten, und der mitochondrialen Gene sollte deshalb zu einer Koevolution der dafür nötigen Gene führen: Wenn die Gene auf den beiden Chromosomen nicht zueinander passen, dann leidet die Fitness des Organismus der diese inkompatiblen Varianten trägt.

Eine Studie die genau diese Koevolution untersuchen soll wurde letztes Jahr von Patrick Flight und Kollegen veröffentlicht. Allerdings haben sie sich nicht den Menschen als Testobjekt angeschaut sondern einen Fisch aus den eierlegenden Zahnkarpfen, genauer gesagt die Art Fundulus heteroclitus. Dieser kommt unter anderem an der US-Ostküste an der Mündung des Hudson Rivers vor. Innerhalb dieser Art unterscheidet man noch zwei Unterarten, welche nördlich bzw. südlich der Flussmündung vorkommen und sich sowohl äußerlich unterscheiden, als auch von den physiologischen Eigenschaften die sie so verarbeiten können. Und auch genetisch unterscheiden sich die beiden Unterarten. Vor der Küste gibt es dann eine Hybridzone in der die beiden Unterarten sich miteinander verpaaren. Was dabei jedoch besonders spannend ist: Wenn man sich auf einer Karte anschaut wie die Verteilung der nukleären und mitochondrialen Genotypen ist, dann findet man das es keine einheitliche Zone für die Vermischung gibt, sondern das die Zonen ein wenig gegeneinander verschoben ist.

Screen Shot 2012-01-16 at 7.10.16 PM.png

Auf der Karte sieht man die Verteilung der Genotypen. In Weiss und Schwarz die Verteilung der Genotypen für das Kerngenom. Je weiter man nach Norden geht desto mehr des nördlichen Genotyps findet man und desto weniger des südlichen Genotyps und umgekehrt. Genauso geht es mit Rot/Grün für den mitochondrialen Genotypen. Diese Verschiebung der beiden Zonen führt dazu das es einen Bereich gibt in dem man fast ausschliesslich den südlichen Genotyp für das Kerngenom, jedoch fast gleich verteilt den nördlichen und den südlichen mitochondrialen Genotyp findet. Das sorgt dafür, dass man zumindest in der Theorie ein ideales Feld hat um die Koevolution der beiden Genome zu untersuchen. Und entsprechend hat das Forscherteam an genau dieser Stelle seine Tiere für die Experimente gesammelt (In der Nähe von Brick auf der Karte oben). Für die anschliessenden Versuche hatten die Forscher 2 Thesen aufgestellt: 1. Der Genotyp des Mitochondriums sollte beeinflussen wie gut die Tiere Sauerstoffmangel-Stress überstehen können. 2. Der Genotyp des Mitochondriums sollte auch beeinflussen wie sich solcher Stress auf die Regulation der Gene auswirkt.

Um dies zu testen haben sie 2 Experimente durchgeführt: Als erstes haben sie die Tiere in 2 Gruppen eingeteilt und die eine Gruppe unter normalen Sauerstoffbedingungen und die andere unter Sauerstoffmangel (1/10 der Normalbedingung) gehalten. Dabei haben sie die Tiere über 25 Stunden beobachtet und dabei geschaut wie viele Tiere innerhalb der Beobachtungsperiode sterben. Anschliessend hat man sich die Genotypen der Tiere angeschaut und statistisch verglichen ob es Unterschiede im Überleben zwischen verschiedenen Gruppen gibt. Spannend dabei: Es macht für das Überleben keinen Unterschied welchen mitochondrialen Genotyp die Tiere haben. Genauso egal ist die Größe der Tiere. Alleine das Geschlecht hat einen signifikanten Einfluss auf die Überlebenswahrscheinlichkeit, die Frauen überleben länger.

Für den zweiten Versuch haben sie ihre Versuchsfische wieder in 2 Gruppen eingeteilt und die eine bei Normalsauerstoff gehalten, während die andere Gruppe in den gleichen sauerstoffarmen Bedingungen gehalten wurde. Nach 5 Stunden unter den Testbedingungen haben sie die Tiere getötet und RNA aus dem Lebergewebe isoliert. Mithilfe eines Mikroarrays hat sich das Team dann die Genregulierung für gut 6800 Gene angeschaut. Anschliessend hat man sich die Unterschiede in der Genregulierung für verschiedene Gruppen angeschaut und dabei neben dem mitochondrialen Genotypen auch den Einfluss des Geschlechts und auch dein Einfluss der Sauerstoffkonzentrationen verglichen. Zwischen den Geschlechtern findet man über 1000 Gene die unterschiedlich reguliert werden. Zwischen den Sauerstoffbedingungen finden sich immerhin noch über 600 Genem die sich in der Regulation unterscheiden. Darunter auch viele Gene die mit der sauerstoffverarbeitenden Funktion der Mitochondrien zu tun haben. Das ist natürlich nicht wirklich überraschend, immerhin unterscheiden sich die beiden Gruppen ja eben nur durch die vorhandene Sauerstoffmenge und dies sollte das Hauptziel von Genregulation sein. Nur zwischen den Genotypen wird werden die Unterschiede dann wieder schwach: Hier findet man nur noch 8 Gene die sich in der Regulation zwischen Nord und Süd unterscheiden und von diesen sind 5 vermutlich nur ein Artefakt des Experimentenaufbaus.

Es scheint in der Zusammenfassung also keinen so großen Einfluss auf das Überleben der Tiere und die Genregulation zu haben ob mitochondriale Gene und nukleäre Gene zusammenpassen. Allerdings muss man hier mit den Aussagen aufpassen: Als erstes ist die Genotypisierung der Tiere in dieser Publikation mit Vorsicht zu geniessen, da sie die nukleären Gene gar nicht typisiert haben um zu testen ob wirklich alle Tiere den "passenden" südlichen Genotyp haben. Und auch die Typisierung der Mitochondrien-Genome wurde nur über ein einfaches Fingerprinting gemacht. Von daher kann man nicht ausschliessen, dass man vielleicht die spannendere genetische Variation gar nicht mit erwischt hat bzw. diese nicht gezielt feststellen konnte. Damit kann es gut sein, dass die real vorhandenen Unterschiede verwischen. Außerdem merken die Autoren selbst auch an, dass es gut sein kann, dass die Unterarten sich noch nicht so weit genetisch ausdifferenziert haben als das man einen Unterschied feststellen könnte und es könnte genauso gut auch sein, dass man bei anderen Stressfaktoren für die Tiere (Salzgehalt im Wasser, Wassertemperatur,&) unterschiede zwischen den Genotypen finden könnte. Worüber ich mir auch noch Gedanken mache: In den Genregulations-Ergebnissen findet man auch, dass vor allem eine Sache bei Sauerstoffmangel herunter reguliert wird, nämlich die Produktion von Mitochondrien und auch die Expression der mitochondrialen Gene an sich. Und das könnte in meinen Augen auch dazu beitragen, dass man keine Unterschiede mehr finden kann: Wenn die Mitochondrien als Hauptreaktion auf Sauerstoffmangel einfach "ausgeschaltet" werden, dann dürfte es vermutlich auch relativ egal sein wie der Genotyp der Mitochondrien aussieht da sie einfach nicht benutzt werden. Ich bin gespannt ob andere Studien mit verbessertem Versuchsaufbau und anderen Methoden bei der Analyse von genomischer Koevolution helfen können.

FLIGHT, P., NACCI, D., CHAMPLIN, D., WHITEHEAD, A., & RAND, D. (2011). The effects of mitochondrial genotype on hypoxic survival and gene expression in a hybrid population of the killifish, Fundulus heteroclitus Molecular Ecology, 20 (21), 4503-4520 DOI: 10.1111/j.1365-294X.2011.05290.x
Foto Mitochondrium: Sterilgutassistentin, GNU General Public License

]]>
http://www.scilogs.de/bierologie/genom-bergreifende-kooperationen/feed/ 7 wissenslogs