Genomanalyse Was ist das? - leibniz-fli.de · 2006. 12. 11. · Darier-White-SERCA JC2b198d10_s1_g1...

39
Genomanalyse Was ist das?

Transcript of Genomanalyse Was ist das? - leibniz-fli.de · 2006. 12. 11. · Darier-White-SERCA JC2b198d10_s1_g1...

  • Genomanalyse

    Was ist das?

  • Was ist ein Genom?

    Genom was wofür

    Zelle Chromosomen essentiell, nur ProkaryontenKern Chromosomen essentiell, Eukaryonten

    autonome Elemente extrachromosomal spezielle Zweckevervielfältigte Elementez.B. RNA PalindromPlasmide Bakterien,

    auch in EukariaMito- reduziertes bakterielleschondrion Chromosom fast alle EukaryontenPlastid reduziertes bakterielles

    Chromosom photosynthetischeEukaryonten

  • Wie begreife ich einen Organismus?

    TranscriptommRNA Häufigkeiten in Abhängigkeit von externen BedingungenESTs, Chip-Technologie

    ProteomProteinmuster in Abhängigkeit von externen Bedingungen2D Gele, Massenspektroskopie, Interaktionen

    Genomstatische zelluläre InformationsquelleSequenzierung, Arrays zur Variationsdetektion, Bioinformatik,vergleichende Genomik, Evolution

  • Voraussetzungen für die Genom- Analyse

    SequenzDatenbanken

    organismusspecifischrepetitive Elemente, ESTs

    andere QuellenProteine, Domänen, Klassifizierungen

    AnalysewerkzeugeGen-, Promotor-Vorhersage

    Funktionale Analyseknockouts, reporter gene assays, etc.

  • Die Erstellung der Sequenz

    1. Shear clones2. Clone fragments3. Sequencing4. Assemble sequences clone by clone

    6. order overlapping clones7. Definition and analysis of gene models

    Fertige annotierte Sequenz

    Produktion

    Assemblierung

    Annotation

    Kartierung

    Rekonstruction

    5. Proofreading

    sequence ready map

  • Assemblierung

  • Organismus Spezifische DatenbankenFür die Genanalyse

    EST BibliothekenQuelle

    -vegetative Kulturen -specifische Umweltbedingungen

    Bewertungen für-Genstrukturen-Häufigkeiten

    Für die GenomstrukturanalyseRepetitive ElementeQuelle

    -genome survey SequenzenBewertungen

    -Genfamilie oder repetitives Element?

  • Genom-Analyse-Möglichkeiten

    BasenzählenNukleotidzusammensetzung, Ungleichgewichte, Motive

    GenvorhersageErkennen von Gensignaturen (geneid, genemark, genscan, xgrail, etc.)

    Promotorvorhersagentransfac Datenbank, phylgenetisches shadowing + footprinting

    KlassifizierungGO, COG, manuelle Zuordnung entsprechend der Funktion

    Vergleichende Genomik Gen für Gen, Phylogenie, Syntenie, Genursprünge

  • Generkennung - Signale

    Genmodell

    optional: Suche nach Ähnlichkeiten in Gen-Datenbanken

    DNA Sequenzpositionale Basenpreferenz Schwellenwert

    Splicesignale A A A A A A A A A A A AD D D D DD D DD D AORFsstart und stop

  • Klassifizierung

    Baumstruktur

    Enzym

    Kinase

    Serin/Threonine K.

    S/T k. für Protein X

  • Probleme bei der Klassifizierung

    ungenügende Funktionsbeschreibungmehr Experimente!

    multifunktionale Proteinekeine einfache Baumstruktur vorhanden

    individuelle Domänenkombinationenjeder Organismus hat eigene Funktionszusammenhänge

    die Beschreibung ist abhängig vom Kontextverschiedene Definitionen müssen für ein und dasselbe Protein erstellt werden

  • Karten von Stoffwechselwegenhttp://www.genome.jp/kegg/kaas

    automatische Visualisierung von Soffwechselwegen

    weiß=nicht vorhandengrün=vorhanden

    KEGG=Kyoto Encyclopedia of Genes and GenomesKAAS=Kegg Automatic Annotation Server

  • Funktionale Analyse

    was wie warum

    Transcriptom GenregulationExpressionsanalyse/MicroarraysDefinition von Regulationseinheiten

    Proteom2D Gele, Proteinarrays Proteinregulation

    und Modifikation2 und 1hybrid Systeme Protein/Protein und

    Protein DNA InteraktionenMassenspektrometrie

    Reverse Genetikknockouts Phänotype-FunktionskorrelationReportergene GenregulationGFP-fusionen Proteinlokalisation

  • Stoffwechselwege

    Tabellarischer Überblick

    Welche Wege gibt es?Wieviele Proteine sind beteiligt?Einteilung in Großkategorien

  • Das Konzept Modellorganismus

    Modell- Definition:Der Organismus ist beispielhaft für eine Eigenschaft, Funktion oder phylogenetische Position

    deshalb können theoretisch alle Spezies Modelle für irgendetwas sein

    sehr wichtig: wie weit können Ergebnisse, die an der einen Spezies

    gewonnen wurden, auf andere übertragen werden?

  • Eukaryotische Phylogenie[adaptiered von Baldauf et al. (2000) Science 290, 972-977]

  • Modellorganismen

    Saccharomyces cerevisiae einzelliger Eukaryont

    Dictyostelium discoideum Signaltransduktion,Zytoskelett signalling, Mehrzelligkeit

    Caenorhabditis elegans einfachster Mehrzeller (Tiere)

    Chlamydomonas reinhardtii ‘grüne Hefe'

    Arabidopsis thaliana die Modell-PflanzeDanio rerio Vertebrat

    Fugu rubripes "

    Rattus rattus Säugetier

    Mus musculus "

    Homo sapiens Primat

  • Projekte

    de novo GenomanalyseSequenzierung, Assemblierung,Bioinformatik

    funktionale Analysenknockouts, Phänotypbeschreibungen

    vergleichende GenomanalyseSequenzierung, Assemblierung,Bioinformatik

  • Organismen

    niedere Eukaryonten

    DictyosteliumGenomanalyse‚functional genomics‘vergleichende Genomik

    AlgenEST Analysen

    Mesostigma virideFlagilaropsis cylindrica, etc.

    Genomcharakterisierung verschiedene Arten

    Bakterienvergleichende GenomikBorrellia und LegionellaCyanobakterien

  • Dictyostelium discoideum

    Frei lebende amöboide Lebensform

    Multizelluläres Lebensstadium

    Gut definierte und erforschte Physiologie und Genetik

    Molekular manipulierbar, Methodenspektrum vergleichbar mit Hefe

  • Dictyostelium discoideumVegetativer Lebenszyklus

    Voraussetzungen, den Zyklus zu

    beginnen

    Dunkelheit

    Trocken

  • Das Genom von D. discoideum

    34 Mb genomische DNA

    sechs Chromosomens ( ~4 bis ~8 Mb)

    90 kb rDNA Palindrom (~100 Kopien/Zelle)

    55 kb mtDNA (~200 Kopien/Zelle)

  • Die Chromosomenstruktur

    coding density = diameter of the chromosomeblue bands = complex repetitive elements, red bands = tRNAsblack bands = gapscurve above the chromosome = GC contentgreen marks = HAPPY marker expression during development = red (up regulated) und blue (down regulated)duplikation = hourglas

  • Interpro Domänen

    DomainIPR001687IPR000694IPR000561IPR000719IPR002290IPR001245IPR001680IPR003593IPR000051IPR001849IPR002048IPR001841IPR002085IPR000794

    DescriptionATP/GTP-binding site motif A (P-loop)Proline-rich region EGF-like domainEukaryotic protein kinaseSerine/Threonine protein kinaseTyrosine protein kinaseG-protein beta WD-40 repeatsAAA ATPase superfamilySAM nucleotidebinding motifPleckstrin homology (PH) domainEF-handRING fingerZinc-containing alc. dehyd. superfamilyBeta-ketoacyl synthase

    DD6.07%3.72%2.18%1.93%1.89%1.71%1.11%1.11%0.89%0.89%0.86%0.82%0.82%0.79%

    SC0.57%NA0.02%1.91%1.83%0.05%1.63%0.95%0.33%0.47%0.26%0.65%0.34%0.03%

    AT0.61%NA0.16%4.07%3.34%1.84%1.02%0.90%0.40%0.12%0.85%1.82%0.15%0.02%

    CE0.32%NA0.68%2.34%1.33%0.84%0.80%0.40%0.25%0.41%0.65%0.81%0.06%0.02%

    DM0.46%NA0.62%1.79%1.22%0.65%1.31%0.56%0.28%0.54%0.93%0.85%0.07%0.03%

    HS0.33%NA1.28%2.64%1.83%1.22%1.34%0.46%0.20%1.24%1.15%1.20%0.08%0.01%

  • ‘Krankheitsgene’ in Dicty

    Human Disease Gene Dd Gene P value Description Dm P Ce P Sc PHNPCC*-MSH2 JC1a91d04_r1_g3 0.0 homolog of S. cerevisiae Msh2p 0.0 1.0E-113 0.0Renal Tubul. Acidosis-ATP6B1 JC2c54h07_s1_g0 0.0 H+-ATPase beta 1 subunit [Homo sapiens] 1.0E-138 0.0 0.0Immunodeficiency-DNA Ligase 1 JC2d28h12_r1_g6 1.0e-174 DNA ligase I [Homo sapiens] 0.0 1.0E-167 1.0E-146Hyperinsulinism-ABCC8 JC2a33e08.s2_g0 1.0e-165 Sulfonyl urea acceptor 1 1.0E-160 1.0E-160 1.0E-176Fam. Cardiac Myopathy-MYH7 JAX4a36e06_s1_g1 1.0e-161 Myosin heasvy chain cardiac muscle beta form 0.0 0.0 0.0G6PD Deficiency.-G6PD JC2f25a03_r1_g2 1.0e-147 glucose-6-phosphate dehydrogenase 0.0 1.0E-176 1.0E-125Deafness, Hereditary-MYO15 JC2b107f11_s1_g1 1.0e-142 unconventional myosin-15 [Homo sapiens] 0.0 1.0E-161 1.0E-133Chediak-Higashi-CHS1 JC2b375c04_r1_g3 1.0e-123 beige protein homolog; Lysosomal trafficking reg. 1.0E-141 1.0E-107 3.0E-75Darier-White-SERCA JC2b198d10_s1_g1 4,00E-98 Sarcoplasmic reticulum calcium ATPase 2 0.0 0.0 1.0E-117HDL Deficiency 1-ABCA1 JAX4a196c02_s1_g0 6,00E-90 ATP-binding cassette, sub-family A member 1 1.0E-127 1.0E-103 7.0E-13BLM JC2b73g03_s1_g1 5,00E-88 DNA ligase I [Homo sapiens] 1.0E-148 1.0E-120 1.0E-109Marfans-FBN1 JC2a205h12_r1_g1 4,00E-87 Fibrillin 1 precursor 1.0E-171 1.0E-104 5.7E02Niemann-Pick-NPC1 JC3a31c02.p2_g18 3,00E-80 Niemann-Pick C disease protein 0.0 1.0E-147 1.0E-159Tay-Sachs-HEXA JC2b193a06_s1_g1 1,00E-77 Beta hexosaminidase alpha chain precursor 1.0E-57 6.0E-99 8.3E00AKT2 JC2b105b05.p1_g16 6,00E-75 Protein serine/threonine kinase 1.0E-179 1.0E-162 3.0E-85

    10 von 31 nicht in Hefe : 32%

    1 von 31 nicht in C. elegans: 3.2%

  • Ähnlichkeitsverteilungen

    Selektive Genverluste tragen zur Speziation bei

  • Metazoa Gene auch in D. discoideum vorhanden

    ZytoskelettPhago- und Pinocytose, Beweglichkeit

    extrazelluläre MatrixZell-Zell Kontakte

    SignaltransduktionskomponentenZell- Zell Kommunication

    viele Gene ohne definierte Funktion!

  • Reverse Genetik in D. discoideum

    Welche Gene?

    ähnlich zu Metazoa-Genen, aber keine Gegenstücke in Pflanzen oder Hefen

    Welche Methoden?

    GFP Vektor für die Lokalisierungknockouts für Phänotyp-Screens

    Zusätzliche Daten

    Microarray Experimente

  • Vergleichende Genomik in sozialen Amöben

  • Vergleichende Genomik - Basen

    rot = mitochondrialblau = genomischschwarz = Palindrom

    IV IGruppe

    selbst in nahe verwandten Arten gibt es dramatische Unterschiede in der Basenzusammensetzung

  • Vergleichende Genomik - Trends

    Gruppe

    IV

    III

    II

    I

    Abnahme G/C Gehalt

    Zunahme an Transposons

    Zentromer und Telomerveränderungen

    Amplifizierung von mitochondrialer und Palindrom DNA

  • Bakterielle GenomikDatenbanken für den Genomvergleich

  • Bakterielle GenomikGenomvergleichsmethoden

  • Bakterielle GenomikBorrelia burgdorferi sensu lato

    vergleichende Genomik zur Auffindung krankheitsrelevanter Faktoren

    B. garinii isoliert aus HirnflüssigkeitPBI niedrige PassagePBI 300 hohe Passage

    B. afzelii HautisolatPKO niedrige PassagePKO72 hohe Passage

    Passagen sind Kulturbedingungen, unter denen kein Selektionsdruck auf den Organismen liegt.

    Die Folge ist der Verlust der Pathogenität

  • Bakterielle GenomikPlasmide

    Spezies zirkulärePlasmide

    lineare Plasmide Fragmente

    B. garinii cp28; cp29; cp31

    lp21-1; lp21-2; lp22; lp24; lp28; lp50; lp54; lp59

    6 kb

    B. afzelii cp27; 8x cp30

    lp25; lp28; lp32; lp34; lp60-1; lp60-2

    6 kb; 8 kb; 15 kb

    Komplett kolineare Plasmide in allen Spezies fett gedruckt

  • Bakterielle GenomikUnterschiede zwischen hoher und niedriger Passage

    4215 17

    4443

    niedrig hochI II III I II III

    III III

    Es fehlt in beiden untersuchten Spezies ein Oberflächenantigen

    B. garinii

  • Toxische Algen

  • EST Projekte

    Viele Algenspezies sind wichtig für die UmweltO2 ProduktionEnt- und VergiftungErnährungsgrundlage

    toxische AlgenAlgen im evolutionären Kontext

    Mesostigma viride, Paulinella

    Algen

    Physarum polycephalumvergleichende Genomik in AmoebozoaGenstrukturanalysen (das Genom wird gerade sequenziert)

  • END