Poznanie genomu czowieka wg artykuw z Science i

Poznanie genomu człowieka (wg. artykułów z Science i Nature) Jerzy Tiuryn Instytut Informatyki Uniwersytet

Dwa artykuły • „Initial sequencing and analysis of the human genome”, International Human Genome

Plan wykładu • • • Historia poznania genomu człowieka. Metoda konsorcjum (hierarchiczne sekwencjonowanie metodą

Historia poznania genomu człowieka • 1953, James Watson, Francis Crick, : struktura DNA. 5

• 1977, F. Sanger (metoda dideoxy), 500 -750 bp. • 1977, F. Sanger:

• 1995, J. C. Venter (Heamophilus influenzae) 1. 8 Mb, metoda ‘whole-genome shotgun

• 1998, Sulston, Waterson (Caenorhabditis elegans) 100 Mb. • 1999, GB, Japonia, USA:

Główne trudności w sekwencjonowaniu genomu człowieka • Rozmiar genomu (~3 Gb). • Duża część

Metoda Konsorcjum map-based, BAC-based, clone-by-clone • Pozyskiwanie materiału genetycznego. • Budowa mapy fizycznej genomu

Pozyskiwanie materiału genetycznego • Ochotnicy (różne środowiska etniczne), ‘kto pierwszy ten lepszy’. • Samplig

Linia produkcyjna do przygotowywania próbek Whitehead Institute, Center for Genome Research 13

Klony • Plazmidy (~ 4 Kb). • Kosmidy (~ 40 Kb). • Yeast Artificial

Mapa fizyczna • Biblioteki klonów zbudowane z materiału genetycznego. (1. 400. 000 klonów BAC

Mapa fizyczna, c. d. • Linie papilarne klonów zostały użyte do budowy tzw. kontigów

Faza sekwencjonowania • Wybór klonów z kontigów, tak aby uzyskać pokrycie genomu (aby przyspieszyć

Faza sekwencjonowania: każdy klon metodą ‘shotgun’ • Klon powiela się w wielu kopiach. •

Uwagi na temat metody ‘shotgun’ • W praktyce wybór fragmentów nie jest jednorodny (powody

• Uzyskano 23 Gb danych w czystych odczytach. • Niektóre centra osiągnęły wydajność

• 7. 10. 00 w postaci finalnej było 835 Mb sekwencji genomu (wliczając

Składanie sekwencji (1) • Analiza nałożeń (overlap detection): dane dwa słowa W, V, znajdź

Składanie sekwencji (2) • Ułożenie podsłów (substring layout). Zachłanny algorytm: znajdź parę słów o

Składanie sekwencji (3) • Decydowanie konsensusu: uzgodnienie jaka litera ma stać na danej pozycji

Dwa rodzaje kontigów • Kontigi pochodzące z jednego klonu. • Mega-kontigi pochodzące z analizy

Logistyka składania genomu • Składanie pojedynczych klonów. • Związanie zsekwencjonowanych klonów z pozycjami na

Kroki w procesie składania genomu z kontigów pochodzących z klonów A i B. 29

Jakość draftu genomu zsekwencjonowanego przez konsorcjum • Użyto oprogramowanie PHRAP (program przypisuje każdemu nukleotydowi

Przerwy w sekwencji (3 rodzaje) • Pomiędzy kontigami w poszczególnych klonach: łącznie 2 -4%

Co wiadomo na temat liczby genów? • W małych genomach geny są ściśle związane

Geny RNA (nie-kodujące) • • • Takie jak t. RNA, r. RNA, itd. Nie

Przykład • Klasyczne (podręcznikowe) oszacowanie liczby genów t. RNA u człowieka to 1310, ale.

Dla innych organizmów liczba genów t. RNA wynosi: 35

Geny kodujące białka • Znanych jest obecnie nieco ponad 10. 000 sekwencji m. RNA

Geny kodujące białka (rozmiary) • Duży rozrzut w rozmiarach genów (eksony i introny) człowieka.

Trudności w znajdowaniu genów w genomie człowieka • Mały iloraz sygnał/szum w genach człowieka

Przewidywanie liczby genów (1) • W latach 80 -tych Gilbert zasugerował, że może być

Przewidywanie liczby genów (2) • Szacunki oparte o EST (EST = Expressed Sequence Tags)

Obecnie stosowane metody znajdowania genów • Wystąpienie znanego EST lub m. RNA. • Sekwencyjne

Skuteczność metod ab initio • Szacuje się, że dla muchy pojedyncze eksony mogą być

Initial Gene Index (IGI) • System Ensembl (używa Genscan, weryfikuje w oparciu o podobieństwo

Initial Gene Index (IGI) • W IGI jest 15. 000 znanych genów i 17.

Końcowe uwagi na temat liczby genów człowieka • Obecne szacunki liczby genów oparte na

Końcowe uwagi na temat liczby genów człowieka • Wydaje się, że człowiek ma dwa

Jaka jest naprawdę liczba genów u człowieka. . . ? Michael Zhang ze współpracownikami

Metoda firmy Celera Genomics sekwencjonowania genomu

Plan • Kontigi i rusztowania. • Dwie strategie asemblacji genomu (WGA, CSA). • Poszukiwanie

Celera • 3, 000 m. kw. • 175, 000 reakcji sekwencjonowania na dzień. •

Dane do obróbki • Biblioteka plazmidów (rozmiarów 2 Kb, 10 Kb, 50 Kb). •

Kontigi, rusztowania i stowarzyszone pary 52

Dwie strategie asemblacji genomu • Whole-genome assembly (WGA). • Compartmentalized shotgun assembly (CSA). 54

Asemblacja WGA • Analiza nakryć (overlaps) – 10, 000 h czasu CPU, 40 komputerów

Asemblacja CSA • (Matcher): Rozdzielenie danych Celery na te, które pasują do BAC’ów z

Asemblacja CSA, c. d. • (Combining Assembler): Dla tych z pierwszej grupy, dla każdego

Asemblacja CSA, c. d. • (WGA): Dla drugiej grupy (nowe dane) przeprowadzono WGA. •

Asemblacja CSA, c. d. • (WGA+Shredder): Dla każdej ze składowych zastosowano WGA, po poszatkowaniu

Ostatni krok: Mapowanie rusztowań do genomu • Do dalszej obróbki wybrano dane otrzymane z

Analiza genomu (wg. Celery) • Poszukiwanie genów. • Wstępny opis chromosomów. • Korelacja gęstości

Poszukiwanie genów • System ekspercki Otto - symulacja czynności wykonywanych przez człowieka opisującego chromosomy.

Poszukiwanie genów, c. d. • Oprócz Otto użyto trzech programów odgadujących geny: GRAIL, Genescan,

Cztery typy potwierdzeń dla predykcji genów • • Homologia ze znanym białkiem. Zawieranie ludzkiego

Ile jest genów? • Biorąc wszystkie predykcje Otto oraz predykcje w/w trzech programów spełniające

Wstępny opis Celery chromosomów Chr. 19 Chr. 21 Chr. 22 Chr. X Chr. Y

Chromosomy 11, 12, 13: Korelacja gęstości genów Z innymi wielkościami 68

Rozkład 26, 383 genów wg. molekularnej funkcji 69

Duplikacje względem chromosomu 19 – rekordowo dużo 72

Duplikacje względem chromosomu 22 – rekordowo mało 73

Porównanie sekwencji HGP i Celery • Praca: J. Aach, et. al. „Computational comparison of

Porównania wykonane przez Celerę • Zielony kolor: sekwencje Celery są w tej samej orientacji

Porównania wykonane przez Celerę, c. d. • Górna część wykresu – Konsorcjum (2 K,

Przerwy i złamania w obu sekwencjach • Górna cześć – Konsorcjum. • Dolna część

Slides: 84

Download presentation

Poznanie genomu człowieka (wg. artykułów z Science i Nature) Jerzy Tiuryn Instytut Informatyki Uniwersytet Warszawski

Dwa artykuły • „Initial sequencing and analysis of the human genome”, International Human Genome Sequencing Consortium, Nature, 15. 02, 2001 (860 -921). • „The sequence of the human genome”, J. C. Venter, et. al. , Science, 16. 02. 2001 (1304 -1351). 3

Plan wykładu • • • Historia poznania genomu człowieka. Metoda konsorcjum (hierarchiczne sekwencjonowanie metodą ‘shotgun’). Metoda Ventera ‘whole-genome shotgun approach’. Co wiadomo o liczbie genów w genomie człowieka? Porównanie obu metod. 4

Historia poznania genomu człowieka • 1953, James Watson, Francis Crick, : struktura DNA. 5

• 1977, F. Sanger (metoda dideoxy), 500 -750 bp. • 1977, F. Sanger: zsekewncjonowanie pierwszego ludzkiego genu. • 1977 -82, genomy bakteryjnych wirusów (φX 174, Lambda), genom wirusa zwierzęcego SV 40, ludzkie mitochondrium. • 1985, K. Mullis: technika PCR. • 1987, D. Burke, M. Olson, G. Carle: YAC. • 1989, Olson, Hood, Botstein, Cantor: strategia mapowania przy użyciu STS. 6

• 1995, J. C. Venter (Heamophilus influenzae) 1. 8 Mb, metoda ‘whole-genome shotgun sequencing’. • 1996, Międzynarodowe konsorcjum (Saccharomyces cerevisiae) 13. 5 Mb. • 1997, Blattner, Plunkett (Escherichia coli) 5 Mb. • 1998, Venter: założenie firmy Celera Genomics (deklaracja: sekwencja genomu człowieka w 3 lata, za 300 M$). 7

• 1998, Sulston, Waterson (Caenorhabditis elegans) 100 Mb. • 1999, GB, Japonia, USA: chromosom nr. 22, 35 Mb. • 2000, Venter (Drosophila melanogaster) 120 Mb, testowanie metody WGSS dla niezbyt dużego genomu. • 2000, Niemcy, Japonia: chromosom nr. 21, 34 Mb. • 2000, Międzynarodowe Konsorcjum (Arabidopsis thaliana), 100 Mb. • 2001, HGP i Celera publikują draft genomu człowieka, 3. 3 Gb. 8

Główne trudności w sekwencjonowaniu genomu człowieka • Rozmiar genomu (~3 Gb). • Duża część genomu zawiera repetytywne fragmenty. Przykładowo część genomu zawierająca repetytywne fragmenty dla różnych organizmów: – Bakterie: ~1. 5% – Muszka owocowa: ~3% – Człowiek: >50% 9

Metoda Konsorcjum map-based, BAC-based, clone-by-clone • Pozyskiwanie materiału genetycznego. • Budowa mapy fizycznej genomu w oparciu o klony. • Trawienie poszczególnych klonów enzymami restrykcyjnymi – ‘odcisk palca’. • Budowa kontigów i przypisanie ich do miejsc na chromosomach (STS). • Wybór klonów z kontigów do sekwencjonowania. • Sekwencjonowanie metodą ‘shotgun’ wybranych klonów. • Składanie genomu. 10

Pozyskiwanie materiału genetycznego • Ochotnicy (różne środowiska etniczne), ‘kto pierwszy ten lepszy’. • Samplig laboratory: usunięcie identyfikatorów, nadanie losowych oznaczeń, przesłanie do processing lab. • Processing laboratory: usuwa wszystkie oznaczenia i zmienia je na inne, niszczy dokumentację oznaczeń, wybiera losowo 5 -10 próbek do dalszej analizy. 12

Linia produkcyjna do przygotowywania próbek Whitehead Institute, Center for Genome Research 13

Klony • Plazmidy (~ 4 Kb). • Kosmidy (~ 40 Kb). • Yeast Artificial Chromosome, YAC (do 500 Kb). • Bacterial Artificial Chromosome, BAC (100 -300 Kb). 14

Mapa fizyczna • Biblioteki klonów zbudowane z materiału genetycznego. (1. 400. 000 klonów BAC lub PAC, 65 -krotne pokrycie genomu). Każdy klon rozmiaru 100 -200 Kb. • Wybrano ~ 350. 000 klonów do budowy mapy fizycznej. (20 krotne pokrycie genomu). • Każdy klon poddano trawieniu enzymem restrykcyjnym i zmierzono rozmiary fragmentów przy pomocy elektroforezy na żelu z agarozy. Tak powstaje linia papilarna (fingerprint) klonu. • Linie papilarne są użyte do identyfikacji klonów i do szacowania wielkości nałożenia jednego klonu na drugi. 15

Mapa fizyczna, c. d. • Linie papilarne klonów zostały użyte do budowy tzw. kontigów (nakładające się na siebie spójne fragmenty utworzone z klonów). • Kontigi zostały przyporządkowane miejscom na chromosomach przy pomocy znaczników STS (STS = Sequence Tagged Site ~ 500 bp, jednoznaczna sekwencja na chromosomie, dla której są znane primery PCR). 16

Przykład dwóch kontigów 17

Faza sekwencjonowania • Wybór klonów z kontigów, tak aby uzyskać pokrycie genomu (aby przyspieszyć proces, zrezygnowano z poszukiwania minimalnego pokrycia). Wybrano ~ 30. 000 klonów. 18

Faza sekwencjonowania: każdy klon metodą ‘shotgun’ • Klon powiela się w wielu kopiach. • Wszystkie kopie tnie się na małe kawałki (enzymy restrykcyjne) ‘losowo’. Porządek i orientacja kawałków są tracone. • Wybiera się losowo dostatecznie dużo kawałków (5 -10 krotne pokrycie, zgodnie z formułą Landera/Watermana) i dla każdego kawałka sekwencjonuje się prefiks o długości ~ 500 bp. Powstają tzw. czyste 19 odczyty.

Uwagi na temat metody ‘shotgun’ • W praktyce wybór fragmentów nie jest jednorodny (powody molekularnobiologiczne, a nie probabilistyczne). To powoduje powstawanie dziur w odczytywanej sekwencji. • Są dwa stopnie jakości metody ‘shotgun’: – ‘half-shotgun’ 4 -5 krotne pokrycie, w wyniku mamy draft genomu. – ‘full-shotgun’ 8 -10 krotne pokrycie, w wyniku mamy podstawę do dokładnego opisu genomu. 20

• Uzyskano 23 Gb danych w czystych odczytach. • Niektóre centra osiągnęły wydajność 100. 000 reakcji sekwencjonowania na 12 godzin. • Wydajność wszystkich centrów osiągnięta w czerwcu 2000: 1 pokrycie genomu na 6 tygodni (1 Kb/sek. przez 24 h/dobę, cały czas). • Każdy nukleotyd był odczytany średnio 4. 5 raza. 21

• 7. 10. 00 w postaci finalnej było 835 Mb sekwencji genomu (wliczając chromosomy 21 i 22). Na koniec roku 2000 było ~ 1 Gb sekwencji w finalnej postaci (finalna postać = prawdopodobieństwo błędu odczytu nukleotydu < 1/10. 000, żadnych dziur) 22

Składanie sekwencji (1) • Analiza nałożeń (overlap detection): dane dwa słowa W, V, znajdź sufiks w W oraz prefiks w V o maksymalnym podobieństwie (w sensie uliniowienia; mogą być wstawiane spacje). Jest to problem natury algorytmicznej. Dane o nałożeniach przechowujemy. 23

Składanie sekwencji (2) • Ułożenie podsłów (substring layout). Zachłanny algorytm: znajdź parę słów o maksymalnym podobieństwie sufiks/prefiks. Później następną parę. Albo powstają dwa kontigi, albo jeden o trzech słowach. Podobne do wielokrotnego uliniowienia. Dodawanie nowych par powoduje wstawianie spacji (rozsuwanie). W ten sposób powstają kontigi nakrywające większość odtwarzanej sekwencji. 24

Składanie sekwencji (3) • Decydowanie konsensusu: uzgodnienie jaka litera ma stać na danej pozycji w kontigu. Stosowane są różne podejścia, często metoda większościowa (tu są subtelne problemy). • W projekcie średnie pokrycie klonu kontigami wynosiło 96%, a średnie przerwy pomiędzy kontigami miały ~ 500 bp. 25

Dwa rodzaje kontigów • Kontigi pochodzące z jednego klonu. • Mega-kontigi pochodzące z analizy linii papilarnych poszczególnych klonów. 26

Logistyka składania genomu • Składanie pojedynczych klonów. • Związanie zsekwencjonowanych klonów z pozycjami na fizycznej mapie genomu. • Poprawianie niezgodności. 27

Kroki w procesie składania genomu z kontigów pochodzących z klonów A i B. 29

Jakość draftu genomu zsekwencjonowanego przez konsorcjum • Użyto oprogramowanie PHRAP (program przypisuje każdemu nukleotydowi prawdopodobieństwo błędu). • 91% sekwencji ma błąd < 1/10. 000. • 96% sekwencji ma błąd < 1/1. 000 • Są przerwy w sekwencji. 30

Przerwy w sekwencji (3 rodzaje) • Pomiędzy kontigami w poszczególnych klonach: łącznie 2 -4% genomu jest zawarte w takich przerwach (~80 Mb). Tych przerw jest ~145. 000. • Pomiędzy klonami w mega-kontigach: 5% genomu (~150 Mb). Jest ich ~4. 000. • Pomiędzy mega-kontigami (szacowanie na podstawie chr. 21 i 22) ~4% genomu. 31

Co wiadomo na temat liczby genów? • W małych genomach geny są ściśle związane z ORFami (ORF = Open Reading Frame). • U człowieka średnia długość eksonu ~145 bp, natomiast introny są długie (średnio ~3300 bp, ale zdarzają się introny długości > 10 Kb). Przykładowo: introny (średnio) – u robaka (267 bp), – u muchy (487 bp). 32

Geny RNA (nie-kodujące) • • • Takie jak t. RNA, r. RNA, itd. Nie mają ORFów. Są małe i nie zawierają ogonów poly(A). Trudne do odróżnienia od pseudogenów. Łącznie znaleziono w drafcie ~700 genów RNA. 33

Przykład • Klasyczne (podręcznikowe) oszacowanie liczby genów t. RNA u człowieka to 1310, ale. . . okazało się, że jest ich w drafcie genomu tylko 497. 34

Dla innych organizmów liczba genów t. RNA wynosi: 35

Geny kodujące białka • Znanych jest obecnie nieco ponad 10. 000 sekwencji m. RNA w bazie Ref. Seq (część bazy Gen. Bank). Zrobiono uliniowienie z draftem genomu. Nieco ponad 9. 000 dało się (przynajmniej częściowo) uliniowić. 16% sekwencji m. RNA wykazało podobieństwo do więcej niż jednego wystąpienia w drafcie genomu (paralogi, pseudogeny). 36

Geny kodujące białka (rozmiary) • Duży rozrzut w rozmiarach genów (eksony i introny) człowieka. Wiele jest dłuższych niż 100 Kb (rekordzista: gen dystrofiny (DMD) ma 2. 4 Mb. • Długość kodującej sekwencji też podlega dużym wahaniom. Np. gen titiny (najdłuższa obecnie znana długość kodującej sekwencji) ma 80. 780 bp, liczba eksonów 178, najdłuższy ekson 17. 106 bp. 37

Trudności w znajdowaniu genów w genomie człowieka • Mały iloraz sygnał/szum w genach człowieka w związku z krótkimi eksonami i bardzo długimi intronami. Ponadto kodujące sekwencje stanowią bardzo małą część genomu. Tak nie jest w drożdżach, robaku i muszce. • Znając nawet dokładnie genom (tak jak to jest dla chr. 21 i 22) nadal będzie bardzo trudno odkrywać geny ‘ab initio’. 38

Przewidywanie liczby genów (1) • W latach 80 -tych Gilbert zasugerował, że może być ~100. 000 genów w genomie człowieka. Jest to tzw. rachunek ‘back-of-the-envelope’ Typowy gen ma rozmiar ~30. 000 bp, rozmiar genomu jest ~3 Gb, więc otrzymujemy ~100. 000 genów. • Analiza na podstawie szacunku liczby wysp Cp. G oraz częstości związków z genami dała ~70. 000 -80. 000 genów. 39

Przewidywanie liczby genów (2) • Szacunki oparte o EST (EST = Expressed Sequence Tags) dawały rozrzut liczby genów w granicach 35. 000 -120. 000. 40

Obecnie stosowane metody znajdowania genów • Wystąpienie znanego EST lub m. RNA. • Sekwencyjne podobieństwo do znanych genów lub białek. • Ab initio metoda oparta na ukrytych modelach Markowa (HMM) – używają one statystycznej informacji na temat miejsc splicingu, kodowego odchylenia (coding bias), długości eksonów i intronów (Genscan, Genie, FGENES). 41

Skuteczność metod ab initio • Szacuje się, że dla muchy pojedyncze eksony mogą być odgadywane poprawnie z prawdopodobieństwem 90%, ale wszystkie eksony danego genu tylko z prawdopodobieństwem 40%. • Dla człowieka podobne liczby wynoszą: 70% i 20%. • Niektórzy uważają też, że w/w liczby są zbyt optymistyczne. . . 42

Initial Gene Index (IGI) • System Ensembl (używa Genscan, weryfikuje w oparciu o podobieństwo do białek, m. RNA, EST i białkowych motywów (zawarte w bazie Pfam) dla wszystkich organizmów). System ten wygenerował 35. 000 predykcji genów oraz 44. 860 transkryptów. • Po wykonaniu pewnej redukcji fragmentacji otrzymano 31. 778 predykcji genów. To stanowi podstawę do pierwszej wersji IGI. 43

Initial Gene Index (IGI) • W IGI jest 15. 000 znanych genów i 17. 000 predykcji nowych genów. • Przyjmuje się, że bardziej realna liczba genów w IGI to 24. 500 genów (20% błędnych predykcji lub pseudogenów, 1. 4 współczynnik fragmentacji). • Przyjmując, że predykcje genów zawierają 60% wcześniej nieznanych genów, można oszacować łączną liczbę genów człowieka na ~31. 000. 44

Końcowe uwagi na temat liczby genów człowieka • Obecne szacunki liczby genów oparte na próbkowaniu dają przedział 30. 000 -35. 000. • Jeśli w genomie człowieka jest 30. 00035. 000 genów i średnia długość kodującej sekwencji wynosi 1. 400 bp oraz średnia długość całego genu wynosi 30 Kb, to 1. 5% całego genomu zajmują sekwencje kodujące, a 30% zajmują geny. 45

Końcowe uwagi na temat liczby genów człowieka • Wydaje się, że człowiek ma dwa razy więcej genów niż robak lub mucha. Geny człowieka są bardziej rozciągnięte po genomie i są one używane do budowy większej liczby alternatywnych transkryptów. Łącznie, być może, człowiek wytwarza 5 razy więcej białkowych produktów niż robak czy mucha. 46

Jaka jest naprawdę liczba genów u człowieka. . . ? Michael Zhang ze współpracownikami (Cold Spring Harbour Laboratory): opracowali program First Exon Finder (grudzień 2001, Nature Genetics). Program ten wyszukuje odcinki zawierające nie-kodujące pierwsze eksony oraz sekwencje promotorowe genów. Program poprawnie zlokalizował 90% genów w zsekwencjonowanych chromosomach 21 i 22. First Exon Finder wytypował 68, 000 genów w genomie człowieka. Autorzy szacują, że całkowita liczba genów w genomie człowieka waha się w granicach 50, 000 -60, 000. Co będzie dalej. . . ? 47

Metoda firmy Celera Genomics sekwencjonowania genomu

Plan • Kontigi i rusztowania. • Dwie strategie asemblacji genomu (WGA, CSA). • Poszukiwanie genów. • Analiza genomu. • Porównanie sekwencji Konsorcjum i Celery. 49

Celera • 3, 000 m. kw. • 175, 000 reakcji sekwencjonowania na dzień. • Wirtualna Farma Obliczeniowa (Compaq Alpha): – 440 CPU (EV 6 (400 MHz), EV 67(667 MHz)). – Każdy 2 -8 GB RAM. – 100 TB HD. 50

Dane do obróbki • Biblioteka plazmidów (rozmiarów 2 Kb, 10 Kb, 50 Kb). • Konstrukcja stowarzyszonych par (mate pairs) – sekwencje 500 -600 bp, z każdego końca sekwencji z biblioteki plazmidów (27. 27 milionów odczytów). • Kontigi zbudowane z BAC’ów dostępnych z publicznych danych Konsorcjum (4. 4 Gb). 51

Kontigi, rusztowania i stowarzyszone pary 52

Dwie strategie asemblacji genomu • Whole-genome assembly (WGA). • Compartmentalized shotgun assembly (CSA). 54

Asemblacja WGA • Analiza nakryć (overlaps) – 10, 000 h czasu CPU, 40 komputerów (4 -procesorowy Alpha), 4 GB RAM każdy. Równoległość. • Wybór jednoznacznych kontigów (unitigi) – 73. 6% genomu. • Wykorzystanie par stowarzyszonych do budowy rusztowań (scaffolds). • Uzupełnianie dziur w rusztowaniach (fazy ‘rocks’ oraz ‘stones’). 55

Asemblacja CSA • (Matcher): Rozdzielenie danych Celery na te, które pasują do BAC’ów z danych publicznych i na resztę (21 milionów odczytów pasowało, a 3 miliony były nowe). 56

Asemblacja CSA, c. d. • (Combining Assembler): Dla tych z pierwszej grupy, dla każdego BAC’a wzięto kontigi z HGP oraz pasujące odczyty Celery. – Użyto WGA do zbudowania rusztowań (zwykle 1 lub 2) pokrywających w ~95% ten BAC. Asemblacja wysokiej jakości. 57

Asemblacja CSA, c. d. • (WGA): Dla drugiej grupy (nowe dane) przeprowadzono WGA. • (Tiler): Analiza porządku i nakryć dla rusztowań pochodzących z BAC’ów i z rusztowań zbudowanych dla nowych danych. Użyto: pary stowarzyszone dla klonów 50 Kb i dla BAC’ów oraz markery STS. Powstało w ten sposób 3845 składowych (components) obejmujących ~2. 92 Gb. 58

Asemblacja CSA, c. d. • (WGA+Shredder): Dla każdej ze składowych zastosowano WGA, po poszatkowaniu danych na kawałki. Dzięki poszatkowaniu możliwa była dodatkowa korekta błędów oraz eliminacja fragmentów chimerycznych z danych HGP. 59

Ostatni krok: Mapowanie rusztowań do genomu • Do dalszej obróbki wybrano dane otrzymane z CSA. • Wykorzystano dwie mapy fizyczne genomu: mapa markerów STS oraz mapa linii papilarnych BAC’ów. • W ten sposób większość rusztowań została przyporządkowna pozycjom w genomie (~98% genomu). Powstało ~21, 600 przerw 61 pomiędzy rusztowaniami.

Analiza genomu (wg. Celery) • Poszukiwanie genów. • Wstępny opis chromosomów. • Korelacja gęstości genów z innymi wielkościami. • Rozkład genów wg. molekularnej funkcji. • Duplikacje genomu w skali makro. 62

Poszukiwanie genów • System ekspercki Otto - symulacja czynności wykonywanych przez człowieka opisującego chromosomy. Otto wykrył 6538 genów homologicznych do znanych genów oraz 11, 226 nowych fragmentów podejrzanych o bycie genem. Łącznie: 17, 764 geny. 63

Poszukiwanie genów, c. d. • Oprócz Otto użyto trzech programów odgadujących geny: GRAIL, Genescan, Fgenes. H. Zrobiły one łącznie 76, 410 różnych predykcji, z czego 57, 935 predykcji nie pokrywało się z predykcjami Otto. • Dodatkowy filtr: co najmniej jedno potwierdzenie z następującej listy. 64

Cztery typy potwierdzeń dla predykcji genów • • Homologia ze znanym białkiem. Zawieranie ludzkiego EST. Zawieranie EST gryzonia. Występowanie w genomie myszy. 65

Ile jest genów? • Biorąc wszystkie predykcje Otto oraz predykcje w/w trzech programów spełniające dodatkowo warunek: – Co najmniej 1 potwierdzenie: 39, 114 genów – Co najmniej 2 potwierdzenia: 26, 383 geny. – Co najmniej 3 potwierdzenia: ~23, 000 genów. 66

Wstępny opis Celery chromosomów Chr. 19 Chr. 21 Chr. 22 Chr. X Chr. Y 67

Chromosomy 11, 12, 13: Korelacja gęstości genów Z innymi wielkościami 68

Rozkład 26, 383 genów wg. molekularnej funkcji 69

Duplikacje względem chromosomu 1 70

Duplikacje względem chromosomu 6 71

Duplikacje względem chromosomu 19 – rekordowo dużo 72

Duplikacje względem chromosomu 22 – rekordowo mało 73

Porównanie sekwencji HGP i Celery • Praca: J. Aach, et. al. „Computational comparison of two draft sequences of the human genome. ”, Nature, 409, 15. 02. 2001, (856 -859). • HGP-nr (2. 9 Gb). • Celera Genomics (Human Genome D, 2. 9 Gb). 74

Porównania wykonane przez Celerę • Zielony kolor: sekwencje Celery są w tej samej orientacji i kolejności w obu sekwencjach. • Żółty kolor: sekwencje Celery są w tej samej orientacji, ale nie w tej samej kolejności w obu sekwencjach. • Czerwony kolor: sekwencje Celery nie są w tej samej orientacji w obu sekwencjach. 77

Porównania wykonane przez Celerę, c. d. • Górna część wykresu – Konsorcjum (2 K, 10 K, 50 K). • Dolna – Celera (2 K, 10 K, 50 K). • Seledynowe kreski – przerwa co najmniej 10. 000 b. • Stowarzyszone pary (niezgodności): – Czerwony – zła orientacja. – Żółty – zła odległość pomiędzy końcami. – Niebieskie kreski – złamania (breakpoint) 78

Porównanie dla chromosomu 21 79

Porównanie dla chromosomu 22 80

Porównanie dla chromosomu 19 81

Porównanie dla chromosomu 8 82

Przerwy i złamania w obu sekwencjach • Górna cześć – Konsorcjum. • Dolna część – Celera. • Czerwona kreska – przerwa co najmniej 10 Kb. • Niebieska kreska – złamanie (breakpoint): sprzeczność z co najmniej 5 stowarzyszonymi parami. 83