Bioinformatyczne bazy danych cz III Analiza sekwencji Grzegorz
Bioinformatyczne bazy danych cz. III – Analiza sekwencji Grzegorz Koczyk © 2003 -2004
Sukces bioinformatyki biologia molekularna (problemy i dane) walidacja odpowiedzi na gruncie statystyki biologia matematyka konkretyzowanie pytań na gruncie teorii ewolucji informatyka algorytmy i programy
Analiza sekwencji białkowych Poszukiwanie homologów (BLASTP, BLASTX, PSI-BLAST), aż do konwergencji (sprawdzając wyniki). Charakteryzacja domen Poszukiwanie zakonserwowanych motywów Próba charakteryzacji struktury
Domeny i motywy Motyw – krótki, zakonserwowany wzorzec w sekwencji białka Domena – niezależnie fałdująca jednostka struktury białka: ü domeny pełnią określoną funkcję ü domeny są jednostkami ewolucji struktury białka (struktura spokrewnionych domen, podobna nawet przy dywergentnych sekwencjach)
Multiple alignment Szukanie wspólnych motywów w sekwencjach danej rodziny. Identyfikacja konserwatywnych reszt np. miejsca aktywnego. Konstrukcja modeli białek danej rodziny. Zakonserwana reszta CLUSTALX poszukiwanie alignmentu metodą progresywną (porównania sekwencji parami, następnie budowanie alignmentu przez łączenie najbliższych par)
PSSM – Position Specific Scoring Matrix Macierz tworzona jako macierz podobieństwa, ale podstawienia aminokwasów są zależne od pozycji (tu: względem wzorca). Pozycja T R F I I T S A - - - - R - 5 - - - N - - - - D - - - - C - - - - Q - - - - E - - - - G - - - - H - - - - I - - 3 5 3 1 - L - - - - K - 1 - - - M - - - 1 1 - - F - - 2 - - P - - - - S 5 - - - 2 T 1 - - 5 4 W - - - - Y - - - - V - - 1 - 2 - -
PSI-BLAST Pojedyńcza sekwencja jest porównywana z bazą (normalny BLAST). Najlepsze trafienia są wybierane (według pewnego progu). Konstruowana jest PSSM, używając sekwencji zapytania jako wzorca według którego ustawia się lokalne alignmenty do trafień. Różne obszary zapytania mogą być reprezentowane przez różną liczbę sekwencji. Profil jest porównywany do bazy, używając PSSM zamiast zwykłej macierzy. Najlepsze trafienia są szacowane i zatrzymywane. Kroki 2 i 3 powtarza się aż do: - przeliczenie zadanej liczby przebiegów (PSI-BLAST iterations) - osiągnięcia konwergencji (żadnych nowych sekwencji w porównaniu z poprzednim krokiem)
PSI-BLAST uwagi Potężne narzędzie do wykrywania odległych homologów i zbierania białek tej samej rodziny. PSI-BLAST jest podatny na błędy. Gdy jakaś sekwencja wejdzie do profilu zaczyna wyławiać sekwencje podobne do niej samej. Wskazane jest użycie filtrów (np. SEG). Im więcej iteracji i mniejsza poprzeczka tym PSIBLAST czulszy, ale i mniej specyficzny (patrz wyżej – kumulacja błędów)
Progresywny, globalny alignment 2 1 1 2 3 3 3 Warunek: Sekwencje spokrewnione na całej długości. Ułożenie konserwatywnych motywów w przybliżeniu to samo, we wszystkich sekwencjach. Przykład: CLUSTAL W / CLUSTAL X
Blokowy globalny alignment 2 1 3 1 1 3 2 3 Warunek: Sekwencje mają konserwatywne bloki, przedzielone dużymi indelami. Bloki nie muszą być obecne we wszystkich sekwencjach, ale ich ułożenie jest ustalone we wszystkich sekwencjach. Przykład: ITERALIGN, DIALIGN
Bazujący na motywach lokalny alignment 1 1 3 2 1 Warunek: sekwencje dzielą pewne, konserwatywne obszary przy czym mają one rozproszony charakter i nie muszą występować wszystkie we wszystkich sekwencjach. Kolejność nie musi być zachowana. Przykład: MEME
Poszukiwanie motywówwyrażenia regularne <A-x-[ST](2)-x(0, 1)-V. Ala - cokolwiek - [Ser lub Thr] - (cokolwiek lub nic) - Val ü kod jednoliterowy (notacja IUPAC) ü x oznacza dowolny aminokwas ü [lista] oznacza dowolny z aminokwasów w nawiasie ü (n, m) oznacza n do m powtórzeń aminokwasu ü (n) oznacza dokładnie n powtórzeń aminokwasu ü </> oznacza położenie motywu na N/C-końcu białka ü. kończy wyrażenie regularne
PROSITE http: //us. expasy. org/prosite Baza danych motywów (wyrażeń regularnych). . ale wyrażenia regularne nie wyczerpują wszystkich motywów (są zbyt ograniczone).
PROSITE Bez filtrowania otrzymujemy bardzo dużą ilość potencjalnych miejsc glikozylacji, fosforylacji. . . z filtrowaniem – tych wzorców w ogóle nie będzie.
MEME – Multiple EM for Motif Elicitation **************************************** MOTIF 1 width = 30 sites = 166 llr = 7728 E-value = 7. 2 e-2471 **************************************** ----------------------------------------Motif 1 Description ----------------------------------------Simplified A : 1: : : : 2: : : : 7: 3: : : : : pos. -specific C : : : : : 1: : : : : probability D 1: : : : : : 111111: matrix E 4: : : : : 11: : 111: 1: : F : : : : : : 4: : 2: : : 6 G 2: 1: : 8: : a: 4 a: a: : 1: : : : 1: 1 H : : : : : : 1: 1: : : 1: I : 1: 34: 7: : : 6: : 5: : : 2: : : 1: : K 1: 1: : : a: : 21: : : 2: 112: L : : 1: 11: : : : 51: : 6: : : 31: : : M : : : 31: : 5: : : : : N 1: : : : : : 14: : 1: P : : : : : 32: : : : : Q : : 1: : : : : 2: : : 3: : : 1: R : 15: : : : 5: : 2: : 121 S : : : 1: 1: : 2: : 1: : : : 2: : 521: T : 1: 1: : : : : 99: : 1: : : : : V : 5: 24: 11: : 2: : : : 12: : : 2: : W : : : : 4: : : : : : Y : : : : 1: : : : 3: : : : Narzędzie do wyszukiwania motywów w zbiorze bits 6. 0 5. 4 4. 8 niezalignowanych sekwencji (na zasadzie 4. 2 ** Information 3. 6 * * **** nadreprezentacji). content 3. 0 * **** (67. 2 bits) 2. 4 ******** * 1. 8 ********* *** * 1. 2 ************* * * 0. 6 *************** 0. 0 --------------- http: //meme. sdsc. edu
MEME – Multiple EM for Motif Elicitation Simplified pos. -specific probability matrix A : 1: : : : 2: : : : 7: 3: : : : : bits 6. 0 C : : : : : 1: : : : : 5. 4 D 1: : : : : : 111111: 4. 8 E 4: : : : : 11: : 111: 1: : 4. 2 ** F : : : : : : 4: : 2: : : 6 Information 3. 6 * * **** content 3. 0 * **** G 2: 1: : 8: : a: 4 a: a: : 1: : : : 1: 1 (67. 2 bits) 2. 4 ******** * H : : : : : : 1: 1: : : 1: 1. 8 ********* *** * I : 1: 34: 7: : : 6: : 5: : : 2: : : 1: : 1. 2 ************* * * K 1: 1: : : a: : 21: : : 2: 112: 0. 6 *************** L : : 1: 11: : : : 51: : 6: : : 31: : : 0. 0 ---------------M : : : 31: : 5: : : : : Multilevel EVRMVGIWGMGGIGKTTLARALFNQLSVx. F N 1: : : : : : 14: : 1: consensus II PP V I K Y P : : : : : 32: : : : : sequence Q : : 1: : : : : 2: : : 3: : : 1: R : 15: : : : 5: : 2: : 121 S : : : 1: 1: : 2: : 1: : : : 2: : 521: T : 1: 1: : : : : 99: : 1: : : : : V : 5: 24: 11: : 2: : : : 12: : : 2: : W : : : : 4: : : : : : Y : : : : 1: : : : 3: : : : MEME konstruuje PSSMy za pomocą algorytmu EM (maksymalizacja wartości oczekiwanej). Maksymalizuje następnie PSSMy dla motywów, starając się jak najlepiej dopasować miejsce ich wystąpienia. Uczy się konserwatywnych motywów, niezależnie od ich wzajemnego układu.
MEME – Multiple EM for Motif Elicitation MEME przy ustawieniach domyślnych nie służy do wyłuskiwania wielokrotnie powtórzonych motywów. MAST – narzędzie do wyszukiwania znanych już motywów (z wyników MEME). Sequence name ------At 5 g 40100. 1_1 At 5 g 41540. 1_1 At 5 g 46470. 1_1 At 5 g 46510. 1_1 At 5 g 46520. 1_1 At 5 g 46270. 1_1 At 5 g 18360. 1_1 At 3 g 44480. 1_1 At 5 g 38350. 1_1 At 5 g 11250. 1_1 At 5 g 40060. 1_1 At 3 g 25510. 1_2 At 2 g 14080. 1_1 At 1 g 72860. 1_1 At 1 g 65850. 1_1 At 5 g 17680. 1_1 At 5 g 40910. 1_1 At 5 g 38340. 1_1 At 5 g 41550. 1_1 At 4 g 09360. 1_1 At 4 g 11170. 1_1 Start P-value Site ---------------------40 1. 73 e-32 SLLDMDSNND EVRMIGIWGMGGIGKTTIAKCLYDQLSSQF TASYFTQDIK 37 4. 62 e-32 LDSLLCLNSD EVKMIGIWGPAGIGKTTIARALYNQLSTNF QFKCFMGNLK 37 9. 40 e-32 MSSLLHLESE EVRMVGIWGPSGIGKTTIARALFSRLSCQF QSSVFIDKVF 38 2. 36 e-31 MSVLLQLEAE EVRMVGIWGSSGIGKTTIARALFNQLSRHF PVSKFIDRAF 38 2. 36 e-31 MSVLLKLEAE EVRMVGIWGSSGIGKTTIARALFNQLSRHF PVSKFIDRAF 37 2. 96 e-31 LDSLLCLEST EVKMVGIWGPAGIGKTTIARALFNRLSENF QHTIFMENVK 38 3. 70 e-31 LEQLLRLDLD EVRMIGIWGPPGIGKTTIARFLFNQVSDRF QLSAIMVNIK 34 4. 62 e-31 MESLLCLDSD EVRMIGIWGPSGIGKTTIARVLYSQFSENF ELSIFMGNIK 38 7. 16 e-31 MKPLLCLDTD EVRIIGIWGPPGIGKTTIARVVYNQLSHSF QLSVFMENIK 33 2. 09 e-30 MSSLLCLDSK EVRMVGIWGPSGIGKTTIARALFARLSRHF HCSVYIDRAF 38 3. 17 e-30 MELLLCLDSD EVRMIGIWGPSGIGKTTIARFLFSQFSDSF ELSAFMENIK 38 3. 17 e-30 LELLLCLDSC EVRMIGIWGPPGIGKTTIVRFLYNQLSSSF ELSIFMENIK 38 4. 79 e-30 SPLLSMDSEN EVRMIGIWGMGGIGKTTIAKCLFDQFSQGF PARCFLENVS 34 5. 87 e-30 MEPMLCLHSD EVRMIGIWGPSGIGKTTIARILFSQFSDSF ELSVFMENVK 37 8. 80 e-30 LQSMISIVDK DVRMLGIWGMGGVGKTTIAKYLYNQLSGQF QVHCFMENVK 37 1. 07 e-29 LDSFLCLESD DVKMIGIWGPAGIGKTTIARALFNQLSTGF RLSCFMGTID 38 1. 31 e-29 MKSLLSLHSN EVKMIGIWGPSGIGKTTIARVLYNRFSGDF GLSVFMDNIK 37 1. 94 e-29 LNSLLCFEGD DVKMIGIWGPAGIGKSTIARALYNQLSSSF QLKCFMGNLK 18 7. 45 e-29 NPLLSIESEN EVRMIGIWGMGGIGKTTIAKCLYEEYSRRF VHYCFIENVR 37 8. 99 e-29 MESLLCLESQ GVRIVGIWGPAGVGKTTIARALYNQYHENF NLSIFMENVR
Systemy uczące się w bioinformatyce Problem: dyskryminacja pomiędzy dwoma lub więcej możliwościami (np. kinaza – wszystkoco-nie-jest-kinazą). Przykładowe podejścia do problemu NN (neural networks) HMM (Hidden Markov Models) SVM (support vector machines) implementacja EM w MEME (expectation maximization)
Co robi klasyfikator ? NN (neural networks) SVM (support vector machines) Uczy się pewnej funkcji oddzielającej zbiór punktów (reprezentujących sekwencje treningowe) należących do jednej klasy od drugiej. Algorytm klasyfikujący sprawdza w którym obszarze leży punkt odpowiadający nowej sekwencji.
Co robi klasyfikator ? HMM (Hidden Markov Models) EM według MEME (expectation maximization) Podczas treningu, tworzy na podstawie zbioru treningowego pewien probabilistyczny model dla danej cechy (np. domeny). Algorytm klasyfikujący sprawdza, jakie klasy model przyporządkowuje sekwencji (i z jakim prawdopodobieństwem).
Taki sobie automacik. . . Automat przechodzi ze stanu do stanu, „zjadając” kolejne symbole z wejścia. . . A- A+ C- C+ START KONIEC G G - + T- T+ . . . jednocześnie dokonuje również emisji symboli na wyjściu.
(Stochastyczny) automat Mealy’ego Dlaczego stochastyczny ? Przejścia pomiędzy stanami nie są zdeterminowane tylko przez czytany symbol, ale również przez macierz prawdopodobieństw. Transition matrix A+ C+ G+ T+ ACGT- A+ C+ G+ T+ ACGT. . . . . . . . . . . . . . . . . . Trening to przetworzenie dwu multiple alignment: - dla sekwencji wysp Cp. G - dla sekwencji nimi nie będących.
(Stochastyczny) automat Mealy’ego Ten automat wykrywa wyspy Cp. G. Wejście: 0 -CCGCGGCGCGCATCACTC-e Wyjście: ++++++++------ Interesuje nas najbardziej prawdopodobna ścieżka przez automat. . . ale widziana przez nas ostatecznie tylko jako emitowane na wyjściu symbole.
Ukryte Modele Markowa Ukryty Model Markowa (Hidden Markov Model) Probabilistyczny odpowiednik PSSM Podobnie jak PSI-BLAST uczy się sekwencji np. kinaz (albo Cp. G) zmieniając macierz przejść. Ukryty, ponieważ obserwujemy wyłącznie wyemitowane symbole (a nie stany i przejścia).
Ukryte Modele Markowa - uwagi Potężne narzędzie do klasyfikowania fragmentów sekwencji (np. jako domen, peptydów sygnalnych). HMM jest podatny na błędy. Błędnie dodane sekwencje treningowe stworzą błędnie klasyfikujący automat. Podobnie, jak przy BLAST – możliwa ocena E-value. W wypadku HMM, osiąga się ją przez porównanie prawdopodobieństwa jakie HMM przyporządkowuje sklasyfikowanej, jako domena sekwencji – z prawdopodobieństwem jej przypadkowego powstania.
Specyficzność TN (true negatives) TP (true positives) FN (false negatives) FP (false positives) Specyficzność – jak często metoda się myli „na plus” SP = TP / (TP + FP)
Czułość TN (true negatives) TP (true positives) FN (false negatives) FP (false positives) Czułość – jak często metoda się myli „na minus” SN = TP / (TP + FN)
HMMer http: //hmmer. wustl. edu hmmpfam - search one or more sequences against HMM database HMMER 2. 3. 1 (June 2003) Copyright (C) 1992 -2003 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) - - - - - - - - - HMM file: Pfam_ls Sequence file: for_further_chr 02. faa - - - - - - - - Query sequence: 2434. m 00132 Accession: [none] Description: [none] Scores for sequence family classification (score includes all domains): Model Description Score E-value N -------------- --pkinase Protein kinase domain 174. 2 2. 1 e-49 1 lectin_leg. B Legume lectins beta domain 8. 7 2 e-09 1 Parsed for domains: Model Domain seq-f seq-t hmm-f hmm-t --------- ----lectin_leg. B 1/1 34 247. . 1 207 [] pkinase 1/1 381 663. . 1 294 [] score ----8. 7 174. 2 E-value ------2 e-09 2. 1 e-49 Publicznie dostępny, bezpłatny pakiet do generowania HMMów na podstawie multiple alignmentów.
Pfam zbiera zweryfikowane ręcznie (Pfam. A) i automatycznie uzyskane (Pfam. B) HMMy odpowiadające domenom. Pfam_ls – zbiór HMMów dla całych domen. Pfam_fs – zbiór HMMów dla fragmentów domen. Przeszukania większych zbiorów (<1000 sekwencji)
Pfam – wyniki: Domyślnie przy przeszukiwaniu Pfam używany jest gathering threshold, jako najlepszy (eksperymentalnie wyznaczony) kompromis pomiędzy czułością, a specyficznością. http: //pfam. wustl. edu
Pfam – uwagi: Możliwe jest przeszukiwanie sekwencji DNA (poddawane translacji we wszystkich ramkach odczytu). Nowe wersje Pfam, mniej więcej co pół roku. Domeny z alignmentów tworzonych w sposób automatyczny trafiają do Pfam-B, dopiero po ręcznej weryfikacji do Pfam-A.
SMART http: //smart. embl. heidelberg. de Koncentruje się na rzadkich i regulatorowych domenach (odmiennie niż Pfam). Nie ma możliwości dużych przeszukiwań (sekwencje trzeba przesyłać pojedyńczo). HMMy ze SMARTa są publicznie dostępne, ale gathering thresholds NIE !
Inter. Pro http: //ebi. ac. uk/Inter. Pro. Scan Zbiera m. in. Pfam, PROSITE, SMART, HMMy z TIGR Udostępnia przeszukiwanie sekwencji DNA (wszystkie ramki).
Predykcja struktury białek - PSIPRED http: //bioinf. cs. ucl. ac. uk/psipred Przewidywanie struktury drugorzędowej białka metodą profilową (porównywanie z PSSMami grup białek o znanej strukturze) Stosunkowo wysoka dokładność predykcji (rzędu 90%)
TMHMM http: //cbs. dtu. dk/services/TMHMM Przewidywanie odcinków transbłonowych przy pomocy HMMów. Możliwość przetwarzania do 4000 sekwencji.
TMHMM 2682. m 00140 551 i 2561. m 00136 2683. m 00156 2576. m 00145 2579. m 00162 2685. m 00127 2580. m 00136 22 o 859 -881 i 915 -937 o 2685. m 00137 2582. m 00191 2582. m 00193 2582. m 00201 269 i 2582. m 00203 2689. m 00115 2690. m 00127 2599. m 00147 2691. m 00149 266 i 2691. m 00150 306 o 2600. m 00118 2691. m 00157 2691. m 00158 2691. m 00159 2691. m 00162 224 i 245 -262 o 2691. m 00164 2691. m 00165 2691. m 00166 26 i 304 -326 o 2691. m 00167 len=964 Exp. AA=34. 23 First 60=1. 54 Pred. Hel=1 Topology=o 529 - len=955 len=371 len=1353 len=1294 Exp. AA=41. 23 Exp. AA=0. 03 Exp. AA=3. 46 Exp. AA=58. 95 First 60=22. 64 First 60=0. 00 First 60=1. 21 First 60=16. 39 Pred. Hel=1 Pred. Hel=0 Pred. Hel=3 Topology=i 13 -35 o Topology=o Topology=i 5 - len=384 len=379 len=589 len=646 Exp. AA=20. 97 Exp. AA=0. 01 Exp. AA=13. 60 Exp. AA=71. 83 First 60=20. 93 First 60=0. 00 First 60=19. 96 Pred. Hel=1 Pred. Hel=0 Pred. Hel=1 Topology=i 5 -27 o Topology=o 247 - len=531 len=214 len=292 len=600 Exp. AA=0. 89 Exp. AA=10. 87 Exp. AA=0. 15 Exp. AA=19. 67 First 60=0. 88 First 60=10. 87 First 60=0. 00 First 60=0. 05 Pred. Hel=0 Pred. Hel=1 Topology=o 244 - len=893 Exp. AA=25. 38 First 60=0. 32 Pred. Hel=1 Topology=i 284 - len=255 len=669 len=641 len=631 len=625 Exp. AA=0. 71 Exp. AA=1. 88 Exp. AA=15. 92 Exp. AA=16. 81 Exp. AA=46. 13 First 60=0. 70 First 60=0. 53 First 60=5. 59 First 60=1. 16 First 60=4. 08 Pred. Hel=0 Pred. Hel=2 len=403 len=712 len=663 Exp. AA=24. 57 Exp. AA=21. 04 Exp. AA=38. 15 First 60=17. 15 First 60=0. 93 First 60=15. 43 Pred. Hel=1 Topology=i 44 -66 o Pred. Hel=0 Topology=o Pred. Hel=2 Topology=o 4 - len=697 Exp. AA=5. 51 First 60=0. 00 Pred. Hel=0 Topology=o TMHMM nie przewiduje prawidłowo orientacji białek len=433 Exp. AA=15. 49 First 60=15. 15 Pred. Hel=0 Topology=o nie mających odcinków transbłonowych. len=454 Exp. AA=13. 39 First 60=13. 08 Pred. Hel=0 Topology=o Helisa TM w pierwszych 20 -40 AA najczęściej jest w rzeczywistości peptydem. First 60=2. 54 sygnałowym. Pred. Hel=0 Topology=o len=275 Exp. AA=3. 66 Topology=o Topology=o 202 -
Peptydy sygnałowe kierują peptyd na szlak sekrecyjny. N-terminalna część białka odcinana przy translokacji przez błonę komórkową. Typowa struktura to dodatnio naładowany n-region, hydrofobowy h-region i naładowany c-region. REGUŁA (-3, -1) Reszty 3 i 1 (licząc od miejsca cięcia, w kierunku Nkońca) muszą być małe i hydrofobowe.
Signal. P http: //cbs. dtu. dk/services/Signal. P-2. 0 Predykcja jest konsensusem z dwóch metod – opartej na NN i opartej na HMMach. Modele predykcji zależne od organizmów (inne peptydy sygnalne)!
Analiza sekwencji nukleotydowych Przewidywanie genów (gene prediction)
Przewidywanie genów eukariotycznych Trudniejsze niż Prokaryota (obecność intronów, regulacja, niefunkcjonalne pseudogeny) Predykcja in silico („klasyfikatory” np. FGENESH, Gen. Scan) Klastry EST TBLASTX sekwencji klonów z sekwencjami znanych genów (alignmenty wyznaczają potencjalne sekwencje kodujące)
Uni. Gene clusters http: //www. ncbi. nlm. nih. gov/Uni. Gene Klastry powiązanych EST i m. RNA Specyficzne gatunkowo obrazy
Uni. Gene - metoda Sekwencje EST są filtrowane (usuwane zanieczyszczenia – sekwencje bakteryjne etc. ) ESTy muszą być długości min. 100 nt Porównanie sekwencji EST (każdy z każdym, Mega Blast). Sekwencje muszą zachodzić na obszarze minimum 70 nt, identyczność musi wynosić co najmniej 96% na co najmniej 70% zachodzącego obszaru.
Uni. Gene - metoda m. RNA (Gen. Bank) genomowe CDS (Gen. Bank) ESTy z db. EST (NCBI) Wstępne klastry (zbiory zachodzących sekwencji) Łączenie 5’ i 3’ końcowych ESTów (tych samych klonów) Dołączanie „niezrzeszonych” do klastrów
Uni. Gene - metoda Dobrze skonstruowane klastry muszą być zakotwiczone (mieć sygnał poli. A, lub co najmniej 2 ESTy z 3’ końca)
Bioinformatyczne bazy danych Dziękuję za uwagę
- Slides: 45