Poznanie genomu czowieka wg artykuw z Science i

  • Slides: 84
Download presentation
Poznanie genomu człowieka (wg. artykułów z Science i Nature) Jerzy Tiuryn Instytut Informatyki Uniwersytet

Poznanie genomu człowieka (wg. artykułów z Science i Nature) Jerzy Tiuryn Instytut Informatyki Uniwersytet Warszawski

2

2

Dwa artykuły • „Initial sequencing and analysis of the human genome”, International Human Genome

Dwa artykuły • „Initial sequencing and analysis of the human genome”, International Human Genome Sequencing Consortium, Nature, 15. 02, 2001 (860 -921). • „The sequence of the human genome”, J. C. Venter, et. al. , Science, 16. 02. 2001 (1304 -1351). 3

Plan wykładu • • • Historia poznania genomu człowieka. Metoda konsorcjum (hierarchiczne sekwencjonowanie metodą

Plan wykładu • • • Historia poznania genomu człowieka. Metoda konsorcjum (hierarchiczne sekwencjonowanie metodą ‘shotgun’). Metoda Ventera ‘whole-genome shotgun approach’. Co wiadomo o liczbie genów w genomie człowieka? Porównanie obu metod. 4

Historia poznania genomu człowieka • 1953, James Watson, Francis Crick, : struktura DNA. 5

Historia poznania genomu człowieka • 1953, James Watson, Francis Crick, : struktura DNA. 5

 • 1977, F. Sanger (metoda dideoxy), 500 -750 bp. • 1977, F. Sanger:

• 1977, F. Sanger (metoda dideoxy), 500 -750 bp. • 1977, F. Sanger: zsekewncjonowanie pierwszego ludzkiego genu. • 1977 -82, genomy bakteryjnych wirusów (φX 174, Lambda), genom wirusa zwierzęcego SV 40, ludzkie mitochondrium. • 1985, K. Mullis: technika PCR. • 1987, D. Burke, M. Olson, G. Carle: YAC. • 1989, Olson, Hood, Botstein, Cantor: strategia mapowania przy użyciu STS. 6

 • 1995, J. C. Venter (Heamophilus influenzae) 1. 8 Mb, metoda ‘whole-genome shotgun

• 1995, J. C. Venter (Heamophilus influenzae) 1. 8 Mb, metoda ‘whole-genome shotgun sequencing’. • 1996, Międzynarodowe konsorcjum (Saccharomyces cerevisiae) 13. 5 Mb. • 1997, Blattner, Plunkett (Escherichia coli) 5 Mb. • 1998, Venter: założenie firmy Celera Genomics (deklaracja: sekwencja genomu człowieka w 3 lata, za 300 M$). 7

 • 1998, Sulston, Waterson (Caenorhabditis elegans) 100 Mb. • 1999, GB, Japonia, USA:

• 1998, Sulston, Waterson (Caenorhabditis elegans) 100 Mb. • 1999, GB, Japonia, USA: chromosom nr. 22, 35 Mb. • 2000, Venter (Drosophila melanogaster) 120 Mb, testowanie metody WGSS dla niezbyt dużego genomu. • 2000, Niemcy, Japonia: chromosom nr. 21, 34 Mb. • 2000, Międzynarodowe Konsorcjum (Arabidopsis thaliana), 100 Mb. • 2001, HGP i Celera publikują draft genomu człowieka, 3. 3 Gb. 8

Główne trudności w sekwencjonowaniu genomu człowieka • Rozmiar genomu (~3 Gb). • Duża część

Główne trudności w sekwencjonowaniu genomu człowieka • Rozmiar genomu (~3 Gb). • Duża część genomu zawiera repetytywne fragmenty. Przykładowo część genomu zawierająca repetytywne fragmenty dla różnych organizmów: – Bakterie: ~1. 5% – Muszka owocowa: ~3% – Człowiek: >50% 9

Metoda Konsorcjum map-based, BAC-based, clone-by-clone • Pozyskiwanie materiału genetycznego. • Budowa mapy fizycznej genomu

Metoda Konsorcjum map-based, BAC-based, clone-by-clone • Pozyskiwanie materiału genetycznego. • Budowa mapy fizycznej genomu w oparciu o klony. • Trawienie poszczególnych klonów enzymami restrykcyjnymi – ‘odcisk palca’. • Budowa kontigów i przypisanie ich do miejsc na chromosomach (STS). • Wybór klonów z kontigów do sekwencjonowania. • Sekwencjonowanie metodą ‘shotgun’ wybranych klonów. • Składanie genomu. 10

11

11

Pozyskiwanie materiału genetycznego • Ochotnicy (różne środowiska etniczne), ‘kto pierwszy ten lepszy’. • Samplig

Pozyskiwanie materiału genetycznego • Ochotnicy (różne środowiska etniczne), ‘kto pierwszy ten lepszy’. • Samplig laboratory: usunięcie identyfikatorów, nadanie losowych oznaczeń, przesłanie do processing lab. • Processing laboratory: usuwa wszystkie oznaczenia i zmienia je na inne, niszczy dokumentację oznaczeń, wybiera losowo 5 -10 próbek do dalszej analizy. 12

Linia produkcyjna do przygotowywania próbek Whitehead Institute, Center for Genome Research 13

Linia produkcyjna do przygotowywania próbek Whitehead Institute, Center for Genome Research 13

Klony • Plazmidy (~ 4 Kb). • Kosmidy (~ 40 Kb). • Yeast Artificial

Klony • Plazmidy (~ 4 Kb). • Kosmidy (~ 40 Kb). • Yeast Artificial Chromosome, YAC (do 500 Kb). • Bacterial Artificial Chromosome, BAC (100 -300 Kb). 14

Mapa fizyczna • Biblioteki klonów zbudowane z materiału genetycznego. (1. 400. 000 klonów BAC

Mapa fizyczna • Biblioteki klonów zbudowane z materiału genetycznego. (1. 400. 000 klonów BAC lub PAC, 65 -krotne pokrycie genomu). Każdy klon rozmiaru 100 -200 Kb. • Wybrano ~ 350. 000 klonów do budowy mapy fizycznej. (20 krotne pokrycie genomu). • Każdy klon poddano trawieniu enzymem restrykcyjnym i zmierzono rozmiary fragmentów przy pomocy elektroforezy na żelu z agarozy. Tak powstaje linia papilarna (fingerprint) klonu. • Linie papilarne są użyte do identyfikacji klonów i do szacowania wielkości nałożenia jednego klonu na drugi. 15

Mapa fizyczna, c. d. • Linie papilarne klonów zostały użyte do budowy tzw. kontigów

Mapa fizyczna, c. d. • Linie papilarne klonów zostały użyte do budowy tzw. kontigów (nakładające się na siebie spójne fragmenty utworzone z klonów). • Kontigi zostały przyporządkowane miejscom na chromosomach przy pomocy znaczników STS (STS = Sequence Tagged Site ~ 500 bp, jednoznaczna sekwencja na chromosomie, dla której są znane primery PCR). 16

Przykład dwóch kontigów 17

Przykład dwóch kontigów 17

Faza sekwencjonowania • Wybór klonów z kontigów, tak aby uzyskać pokrycie genomu (aby przyspieszyć

Faza sekwencjonowania • Wybór klonów z kontigów, tak aby uzyskać pokrycie genomu (aby przyspieszyć proces, zrezygnowano z poszukiwania minimalnego pokrycia). Wybrano ~ 30. 000 klonów. 18

Faza sekwencjonowania: każdy klon metodą ‘shotgun’ • Klon powiela się w wielu kopiach. •

Faza sekwencjonowania: każdy klon metodą ‘shotgun’ • Klon powiela się w wielu kopiach. • Wszystkie kopie tnie się na małe kawałki (enzymy restrykcyjne) ‘losowo’. Porządek i orientacja kawałków są tracone. • Wybiera się losowo dostatecznie dużo kawałków (5 -10 krotne pokrycie, zgodnie z formułą Landera/Watermana) i dla każdego kawałka sekwencjonuje się prefiks o długości ~ 500 bp. Powstają tzw. czyste 19 odczyty.

Uwagi na temat metody ‘shotgun’ • W praktyce wybór fragmentów nie jest jednorodny (powody

Uwagi na temat metody ‘shotgun’ • W praktyce wybór fragmentów nie jest jednorodny (powody molekularnobiologiczne, a nie probabilistyczne). To powoduje powstawanie dziur w odczytywanej sekwencji. • Są dwa stopnie jakości metody ‘shotgun’: – ‘half-shotgun’ 4 -5 krotne pokrycie, w wyniku mamy draft genomu. – ‘full-shotgun’ 8 -10 krotne pokrycie, w wyniku mamy podstawę do dokładnego opisu genomu. 20

 • Uzyskano 23 Gb danych w czystych odczytach. • Niektóre centra osiągnęły wydajność

• Uzyskano 23 Gb danych w czystych odczytach. • Niektóre centra osiągnęły wydajność 100. 000 reakcji sekwencjonowania na 12 godzin. • Wydajność wszystkich centrów osiągnięta w czerwcu 2000: 1 pokrycie genomu na 6 tygodni (1 Kb/sek. przez 24 h/dobę, cały czas). • Każdy nukleotyd był odczytany średnio 4. 5 raza. 21

 • 7. 10. 00 w postaci finalnej było 835 Mb sekwencji genomu (wliczając

• 7. 10. 00 w postaci finalnej było 835 Mb sekwencji genomu (wliczając chromosomy 21 i 22). Na koniec roku 2000 było ~ 1 Gb sekwencji w finalnej postaci (finalna postać = prawdopodobieństwo błędu odczytu nukleotydu < 1/10. 000, żadnych dziur) 22

Składanie sekwencji (1) • Analiza nałożeń (overlap detection): dane dwa słowa W, V, znajdź

Składanie sekwencji (1) • Analiza nałożeń (overlap detection): dane dwa słowa W, V, znajdź sufiks w W oraz prefiks w V o maksymalnym podobieństwie (w sensie uliniowienia; mogą być wstawiane spacje). Jest to problem natury algorytmicznej. Dane o nałożeniach przechowujemy. 23

Składanie sekwencji (2) • Ułożenie podsłów (substring layout). Zachłanny algorytm: znajdź parę słów o

Składanie sekwencji (2) • Ułożenie podsłów (substring layout). Zachłanny algorytm: znajdź parę słów o maksymalnym podobieństwie sufiks/prefiks. Później następną parę. Albo powstają dwa kontigi, albo jeden o trzech słowach. Podobne do wielokrotnego uliniowienia. Dodawanie nowych par powoduje wstawianie spacji (rozsuwanie). W ten sposób powstają kontigi nakrywające większość odtwarzanej sekwencji. 24

Składanie sekwencji (3) • Decydowanie konsensusu: uzgodnienie jaka litera ma stać na danej pozycji

Składanie sekwencji (3) • Decydowanie konsensusu: uzgodnienie jaka litera ma stać na danej pozycji w kontigu. Stosowane są różne podejścia, często metoda większościowa (tu są subtelne problemy). • W projekcie średnie pokrycie klonu kontigami wynosiło 96%, a średnie przerwy pomiędzy kontigami miały ~ 500 bp. 25

Dwa rodzaje kontigów • Kontigi pochodzące z jednego klonu. • Mega-kontigi pochodzące z analizy

Dwa rodzaje kontigów • Kontigi pochodzące z jednego klonu. • Mega-kontigi pochodzące z analizy linii papilarnych poszczególnych klonów. 26

Logistyka składania genomu • Składanie pojedynczych klonów. • Związanie zsekwencjonowanych klonów z pozycjami na

Logistyka składania genomu • Składanie pojedynczych klonów. • Związanie zsekwencjonowanych klonów z pozycjami na fizycznej mapie genomu. • Poprawianie niezgodności. 27

28

28

Kroki w procesie składania genomu z kontigów pochodzących z klonów A i B. 29

Kroki w procesie składania genomu z kontigów pochodzących z klonów A i B. 29

Jakość draftu genomu zsekwencjonowanego przez konsorcjum • Użyto oprogramowanie PHRAP (program przypisuje każdemu nukleotydowi

Jakość draftu genomu zsekwencjonowanego przez konsorcjum • Użyto oprogramowanie PHRAP (program przypisuje każdemu nukleotydowi prawdopodobieństwo błędu). • 91% sekwencji ma błąd < 1/10. 000. • 96% sekwencji ma błąd < 1/1. 000 • Są przerwy w sekwencji. 30

Przerwy w sekwencji (3 rodzaje) • Pomiędzy kontigami w poszczególnych klonach: łącznie 2 -4%

Przerwy w sekwencji (3 rodzaje) • Pomiędzy kontigami w poszczególnych klonach: łącznie 2 -4% genomu jest zawarte w takich przerwach (~80 Mb). Tych przerw jest ~145. 000. • Pomiędzy klonami w mega-kontigach: 5% genomu (~150 Mb). Jest ich ~4. 000. • Pomiędzy mega-kontigami (szacowanie na podstawie chr. 21 i 22) ~4% genomu. 31

Co wiadomo na temat liczby genów? • W małych genomach geny są ściśle związane

Co wiadomo na temat liczby genów? • W małych genomach geny są ściśle związane z ORFami (ORF = Open Reading Frame). • U człowieka średnia długość eksonu ~145 bp, natomiast introny są długie (średnio ~3300 bp, ale zdarzają się introny długości > 10 Kb). Przykładowo: introny (średnio) – u robaka (267 bp), – u muchy (487 bp). 32

Geny RNA (nie-kodujące) • • • Takie jak t. RNA, r. RNA, itd. Nie

Geny RNA (nie-kodujące) • • • Takie jak t. RNA, r. RNA, itd. Nie mają ORFów. Są małe i nie zawierają ogonów poly(A). Trudne do odróżnienia od pseudogenów. Łącznie znaleziono w drafcie ~700 genów RNA. 33

Przykład • Klasyczne (podręcznikowe) oszacowanie liczby genów t. RNA u człowieka to 1310, ale.

Przykład • Klasyczne (podręcznikowe) oszacowanie liczby genów t. RNA u człowieka to 1310, ale. . . okazało się, że jest ich w drafcie genomu tylko 497. 34

Dla innych organizmów liczba genów t. RNA wynosi: 35

Dla innych organizmów liczba genów t. RNA wynosi: 35

Geny kodujące białka • Znanych jest obecnie nieco ponad 10. 000 sekwencji m. RNA

Geny kodujące białka • Znanych jest obecnie nieco ponad 10. 000 sekwencji m. RNA w bazie Ref. Seq (część bazy Gen. Bank). Zrobiono uliniowienie z draftem genomu. Nieco ponad 9. 000 dało się (przynajmniej częściowo) uliniowić. 16% sekwencji m. RNA wykazało podobieństwo do więcej niż jednego wystąpienia w drafcie genomu (paralogi, pseudogeny). 36

Geny kodujące białka (rozmiary) • Duży rozrzut w rozmiarach genów (eksony i introny) człowieka.

Geny kodujące białka (rozmiary) • Duży rozrzut w rozmiarach genów (eksony i introny) człowieka. Wiele jest dłuższych niż 100 Kb (rekordzista: gen dystrofiny (DMD) ma 2. 4 Mb. • Długość kodującej sekwencji też podlega dużym wahaniom. Np. gen titiny (najdłuższa obecnie znana długość kodującej sekwencji) ma 80. 780 bp, liczba eksonów 178, najdłuższy ekson 17. 106 bp. 37

Trudności w znajdowaniu genów w genomie człowieka • Mały iloraz sygnał/szum w genach człowieka

Trudności w znajdowaniu genów w genomie człowieka • Mały iloraz sygnał/szum w genach człowieka w związku z krótkimi eksonami i bardzo długimi intronami. Ponadto kodujące sekwencje stanowią bardzo małą część genomu. Tak nie jest w drożdżach, robaku i muszce. • Znając nawet dokładnie genom (tak jak to jest dla chr. 21 i 22) nadal będzie bardzo trudno odkrywać geny ‘ab initio’. 38

Przewidywanie liczby genów (1) • W latach 80 -tych Gilbert zasugerował, że może być

Przewidywanie liczby genów (1) • W latach 80 -tych Gilbert zasugerował, że może być ~100. 000 genów w genomie człowieka. Jest to tzw. rachunek ‘back-of-the-envelope’ Typowy gen ma rozmiar ~30. 000 bp, rozmiar genomu jest ~3 Gb, więc otrzymujemy ~100. 000 genów. • Analiza na podstawie szacunku liczby wysp Cp. G oraz częstości związków z genami dała ~70. 000 -80. 000 genów. 39

Przewidywanie liczby genów (2) • Szacunki oparte o EST (EST = Expressed Sequence Tags)

Przewidywanie liczby genów (2) • Szacunki oparte o EST (EST = Expressed Sequence Tags) dawały rozrzut liczby genów w granicach 35. 000 -120. 000. 40

Obecnie stosowane metody znajdowania genów • Wystąpienie znanego EST lub m. RNA. • Sekwencyjne

Obecnie stosowane metody znajdowania genów • Wystąpienie znanego EST lub m. RNA. • Sekwencyjne podobieństwo do znanych genów lub białek. • Ab initio metoda oparta na ukrytych modelach Markowa (HMM) – używają one statystycznej informacji na temat miejsc splicingu, kodowego odchylenia (coding bias), długości eksonów i intronów (Genscan, Genie, FGENES). 41

Skuteczność metod ab initio • Szacuje się, że dla muchy pojedyncze eksony mogą być

Skuteczność metod ab initio • Szacuje się, że dla muchy pojedyncze eksony mogą być odgadywane poprawnie z prawdopodobieństwem 90%, ale wszystkie eksony danego genu tylko z prawdopodobieństwem 40%. • Dla człowieka podobne liczby wynoszą: 70% i 20%. • Niektórzy uważają też, że w/w liczby są zbyt optymistyczne. . . 42

Initial Gene Index (IGI) • System Ensembl (używa Genscan, weryfikuje w oparciu o podobieństwo

Initial Gene Index (IGI) • System Ensembl (używa Genscan, weryfikuje w oparciu o podobieństwo do białek, m. RNA, EST i białkowych motywów (zawarte w bazie Pfam) dla wszystkich organizmów). System ten wygenerował 35. 000 predykcji genów oraz 44. 860 transkryptów. • Po wykonaniu pewnej redukcji fragmentacji otrzymano 31. 778 predykcji genów. To stanowi podstawę do pierwszej wersji IGI. 43

Initial Gene Index (IGI) • W IGI jest 15. 000 znanych genów i 17.

Initial Gene Index (IGI) • W IGI jest 15. 000 znanych genów i 17. 000 predykcji nowych genów. • Przyjmuje się, że bardziej realna liczba genów w IGI to 24. 500 genów (20% błędnych predykcji lub pseudogenów, 1. 4 współczynnik fragmentacji). • Przyjmując, że predykcje genów zawierają 60% wcześniej nieznanych genów, można oszacować łączną liczbę genów człowieka na ~31. 000. 44

Końcowe uwagi na temat liczby genów człowieka • Obecne szacunki liczby genów oparte na

Końcowe uwagi na temat liczby genów człowieka • Obecne szacunki liczby genów oparte na próbkowaniu dają przedział 30. 000 -35. 000. • Jeśli w genomie człowieka jest 30. 00035. 000 genów i średnia długość kodującej sekwencji wynosi 1. 400 bp oraz średnia długość całego genu wynosi 30 Kb, to 1. 5% całego genomu zajmują sekwencje kodujące, a 30% zajmują geny. 45

Końcowe uwagi na temat liczby genów człowieka • Wydaje się, że człowiek ma dwa

Końcowe uwagi na temat liczby genów człowieka • Wydaje się, że człowiek ma dwa razy więcej genów niż robak lub mucha. Geny człowieka są bardziej rozciągnięte po genomie i są one używane do budowy większej liczby alternatywnych transkryptów. Łącznie, być może, człowiek wytwarza 5 razy więcej białkowych produktów niż robak czy mucha. 46

Jaka jest naprawdę liczba genów u człowieka. . . ? Michael Zhang ze współpracownikami

Jaka jest naprawdę liczba genów u człowieka. . . ? Michael Zhang ze współpracownikami (Cold Spring Harbour Laboratory): opracowali program First Exon Finder (grudzień 2001, Nature Genetics). Program ten wyszukuje odcinki zawierające nie-kodujące pierwsze eksony oraz sekwencje promotorowe genów. Program poprawnie zlokalizował 90% genów w zsekwencjonowanych chromosomach 21 i 22. First Exon Finder wytypował 68, 000 genów w genomie człowieka. Autorzy szacują, że całkowita liczba genów w genomie człowieka waha się w granicach 50, 000 -60, 000. Co będzie dalej. . . ? 47

Metoda firmy Celera Genomics sekwencjonowania genomu

Metoda firmy Celera Genomics sekwencjonowania genomu

Plan • Kontigi i rusztowania. • Dwie strategie asemblacji genomu (WGA, CSA). • Poszukiwanie

Plan • Kontigi i rusztowania. • Dwie strategie asemblacji genomu (WGA, CSA). • Poszukiwanie genów. • Analiza genomu. • Porównanie sekwencji Konsorcjum i Celery. 49

Celera • 3, 000 m. kw. • 175, 000 reakcji sekwencjonowania na dzień. •

Celera • 3, 000 m. kw. • 175, 000 reakcji sekwencjonowania na dzień. • Wirtualna Farma Obliczeniowa (Compaq Alpha): – 440 CPU (EV 6 (400 MHz), EV 67(667 MHz)). – Każdy 2 -8 GB RAM. – 100 TB HD. 50

Dane do obróbki • Biblioteka plazmidów (rozmiarów 2 Kb, 10 Kb, 50 Kb). •

Dane do obróbki • Biblioteka plazmidów (rozmiarów 2 Kb, 10 Kb, 50 Kb). • Konstrukcja stowarzyszonych par (mate pairs) – sekwencje 500 -600 bp, z każdego końca sekwencji z biblioteki plazmidów (27. 27 milionów odczytów). • Kontigi zbudowane z BAC’ów dostępnych z publicznych danych Konsorcjum (4. 4 Gb). 51

Kontigi, rusztowania i stowarzyszone pary 52

Kontigi, rusztowania i stowarzyszone pary 52

53

53

Dwie strategie asemblacji genomu • Whole-genome assembly (WGA). • Compartmentalized shotgun assembly (CSA). 54

Dwie strategie asemblacji genomu • Whole-genome assembly (WGA). • Compartmentalized shotgun assembly (CSA). 54

Asemblacja WGA • Analiza nakryć (overlaps) – 10, 000 h czasu CPU, 40 komputerów

Asemblacja WGA • Analiza nakryć (overlaps) – 10, 000 h czasu CPU, 40 komputerów (4 -procesorowy Alpha), 4 GB RAM każdy. Równoległość. • Wybór jednoznacznych kontigów (unitigi) – 73. 6% genomu. • Wykorzystanie par stowarzyszonych do budowy rusztowań (scaffolds). • Uzupełnianie dziur w rusztowaniach (fazy ‘rocks’ oraz ‘stones’). 55

Asemblacja CSA • (Matcher): Rozdzielenie danych Celery na te, które pasują do BAC’ów z

Asemblacja CSA • (Matcher): Rozdzielenie danych Celery na te, które pasują do BAC’ów z danych publicznych i na resztę (21 milionów odczytów pasowało, a 3 miliony były nowe). 56

Asemblacja CSA, c. d. • (Combining Assembler): Dla tych z pierwszej grupy, dla każdego

Asemblacja CSA, c. d. • (Combining Assembler): Dla tych z pierwszej grupy, dla każdego BAC’a wzięto kontigi z HGP oraz pasujące odczyty Celery. – Użyto WGA do zbudowania rusztowań (zwykle 1 lub 2) pokrywających w ~95% ten BAC. Asemblacja wysokiej jakości. 57

Asemblacja CSA, c. d. • (WGA): Dla drugiej grupy (nowe dane) przeprowadzono WGA. •

Asemblacja CSA, c. d. • (WGA): Dla drugiej grupy (nowe dane) przeprowadzono WGA. • (Tiler): Analiza porządku i nakryć dla rusztowań pochodzących z BAC’ów i z rusztowań zbudowanych dla nowych danych. Użyto: pary stowarzyszone dla klonów 50 Kb i dla BAC’ów oraz markery STS. Powstało w ten sposób 3845 składowych (components) obejmujących ~2. 92 Gb. 58

Asemblacja CSA, c. d. • (WGA+Shredder): Dla każdej ze składowych zastosowano WGA, po poszatkowaniu

Asemblacja CSA, c. d. • (WGA+Shredder): Dla każdej ze składowych zastosowano WGA, po poszatkowaniu danych na kawałki. Dzięki poszatkowaniu możliwa była dodatkowa korekta błędów oraz eliminacja fragmentów chimerycznych z danych HGP. 59

60

60

Ostatni krok: Mapowanie rusztowań do genomu • Do dalszej obróbki wybrano dane otrzymane z

Ostatni krok: Mapowanie rusztowań do genomu • Do dalszej obróbki wybrano dane otrzymane z CSA. • Wykorzystano dwie mapy fizyczne genomu: mapa markerów STS oraz mapa linii papilarnych BAC’ów. • W ten sposób większość rusztowań została przyporządkowna pozycjom w genomie (~98% genomu). Powstało ~21, 600 przerw 61 pomiędzy rusztowaniami.

Analiza genomu (wg. Celery) • Poszukiwanie genów. • Wstępny opis chromosomów. • Korelacja gęstości

Analiza genomu (wg. Celery) • Poszukiwanie genów. • Wstępny opis chromosomów. • Korelacja gęstości genów z innymi wielkościami. • Rozkład genów wg. molekularnej funkcji. • Duplikacje genomu w skali makro. 62

Poszukiwanie genów • System ekspercki Otto - symulacja czynności wykonywanych przez człowieka opisującego chromosomy.

Poszukiwanie genów • System ekspercki Otto - symulacja czynności wykonywanych przez człowieka opisującego chromosomy. Otto wykrył 6538 genów homologicznych do znanych genów oraz 11, 226 nowych fragmentów podejrzanych o bycie genem. Łącznie: 17, 764 geny. 63

Poszukiwanie genów, c. d. • Oprócz Otto użyto trzech programów odgadujących geny: GRAIL, Genescan,

Poszukiwanie genów, c. d. • Oprócz Otto użyto trzech programów odgadujących geny: GRAIL, Genescan, Fgenes. H. Zrobiły one łącznie 76, 410 różnych predykcji, z czego 57, 935 predykcji nie pokrywało się z predykcjami Otto. • Dodatkowy filtr: co najmniej jedno potwierdzenie z następującej listy. 64

Cztery typy potwierdzeń dla predykcji genów • • Homologia ze znanym białkiem. Zawieranie ludzkiego

Cztery typy potwierdzeń dla predykcji genów • • Homologia ze znanym białkiem. Zawieranie ludzkiego EST. Zawieranie EST gryzonia. Występowanie w genomie myszy. 65

Ile jest genów? • Biorąc wszystkie predykcje Otto oraz predykcje w/w trzech programów spełniające

Ile jest genów? • Biorąc wszystkie predykcje Otto oraz predykcje w/w trzech programów spełniające dodatkowo warunek: – Co najmniej 1 potwierdzenie: 39, 114 genów – Co najmniej 2 potwierdzenia: 26, 383 geny. – Co najmniej 3 potwierdzenia: ~23, 000 genów. 66

Wstępny opis Celery chromosomów Chr. 19 Chr. 21 Chr. 22 Chr. X Chr. Y

Wstępny opis Celery chromosomów Chr. 19 Chr. 21 Chr. 22 Chr. X Chr. Y 67

Chromosomy 11, 12, 13: Korelacja gęstości genów Z innymi wielkościami 68

Chromosomy 11, 12, 13: Korelacja gęstości genów Z innymi wielkościami 68

Rozkład 26, 383 genów wg. molekularnej funkcji 69

Rozkład 26, 383 genów wg. molekularnej funkcji 69

Duplikacje względem chromosomu 1 70

Duplikacje względem chromosomu 1 70

Duplikacje względem chromosomu 6 71

Duplikacje względem chromosomu 6 71

Duplikacje względem chromosomu 19 – rekordowo dużo 72

Duplikacje względem chromosomu 19 – rekordowo dużo 72

Duplikacje względem chromosomu 22 – rekordowo mało 73

Duplikacje względem chromosomu 22 – rekordowo mało 73

Porównanie sekwencji HGP i Celery • Praca: J. Aach, et. al. „Computational comparison of

Porównanie sekwencji HGP i Celery • Praca: J. Aach, et. al. „Computational comparison of two draft sequences of the human genome. ”, Nature, 409, 15. 02. 2001, (856 -859). • HGP-nr (2. 9 Gb). • Celera Genomics (Human Genome D, 2. 9 Gb). 74

75

75

76

76

Porównania wykonane przez Celerę • Zielony kolor: sekwencje Celery są w tej samej orientacji

Porównania wykonane przez Celerę • Zielony kolor: sekwencje Celery są w tej samej orientacji i kolejności w obu sekwencjach. • Żółty kolor: sekwencje Celery są w tej samej orientacji, ale nie w tej samej kolejności w obu sekwencjach. • Czerwony kolor: sekwencje Celery nie są w tej samej orientacji w obu sekwencjach. 77

Porównania wykonane przez Celerę, c. d. • Górna część wykresu – Konsorcjum (2 K,

Porównania wykonane przez Celerę, c. d. • Górna część wykresu – Konsorcjum (2 K, 10 K, 50 K). • Dolna – Celera (2 K, 10 K, 50 K). • Seledynowe kreski – przerwa co najmniej 10. 000 b. • Stowarzyszone pary (niezgodności): – Czerwony – zła orientacja. – Żółty – zła odległość pomiędzy końcami. – Niebieskie kreski – złamania (breakpoint) 78

Porównanie dla chromosomu 21 79

Porównanie dla chromosomu 21 79

Porównanie dla chromosomu 22 80

Porównanie dla chromosomu 22 80

Porównanie dla chromosomu 19 81

Porównanie dla chromosomu 19 81

Porównanie dla chromosomu 8 82

Porównanie dla chromosomu 8 82

Przerwy i złamania w obu sekwencjach • Górna cześć – Konsorcjum. • Dolna część

Przerwy i złamania w obu sekwencjach • Górna cześć – Konsorcjum. • Dolna część – Celera. • Czerwona kreska – przerwa co najmniej 10 Kb. • Niebieska kreska – złamanie (breakpoint): sprzeczność z co najmniej 5 stowarzyszonymi parami. 83

84

84