Bioinformatyczne bazy danych Genomowe Proteomowe Publikacje pierwotne wtrne

Bioinformatyczne bazy danych • Genomowe • Proteomowe • Publikacje pierwotne wtórne Jako merytoryczna weryfikacja danych Biologiczne bazy danych przeszukuje się głównie w celu znalezienia: • sekwencji nukleotydowych • sekwencji białkowych • struktur białkowych • informacji merytorycznych i publikacji Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 1

Wyszukiwarki popularnych serwisów Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 2

Przeszukiwanie za pomocą słów kluczowych • Słowem kluczowym (keyword) może być dowolna fraza (np. hemoglobin) lub numer ID danego rekordu z bazy • Fraza, czyli zapytanie do wyszukiwania może mieć złożoną formę w celu precyzyjnego określenia celu poszukiwania w wyszukiwaniu zaawansowanym: (hemoglobin) AND ((human) OR (bovine)) NOT (alpha) • Do przeszukiwania konkretnej bazy w NCBI przydatnym narzędziem jest „historia wyszukiwania” Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 3

Historia wyszukiwania w NCBI Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 4

Przeszukiwanie za pomocą odnośników Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 5

Przeszukiwanie na podstawie wprowadzonej sekwencji • http: //www. ncbi. nlm. nih. gov/blast/producttable. shtml • http: //www. ncbi. nlm. nih. gov/BLAST/blastcgihelp. shtml Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 6

BLAST Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 7

Etapy dopasowywania sekwencji Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 8

Kryteria szacowania podobieństwa sekwencji Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 9

Kryteria szacowania podobieństwa sekwencji • Procent identyczności (względny udział odpowiadających sobie pozycji obsadzonych tymi samymi resztami) • Długość porównywanych sekwencji (liczba porównywanych pozycji) • Rozmieszczenie identycznych pozycji wzdłuż porównywanych sekwencji • Typ reszt okupujących pozycje konserwatywne (sekwencje białkowe) • Relacje genetyczne/strukturalne między resztami znajdującymi się w odpowiadających sobie nieidentycznych pozycjach (sekwencje białkowe) Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 10

Procedura oszacowania stopnia podobieństwa porównywanych sekwencji Bardzo często oszacowanie stopnia podobieństwa porównywanych sekwencji sprowadzane jest jedynie do określenia względnego udziału pozycji identycznych. Pozostałe kryteria analizy zazwyczaj nie są w ogóle brane pod uwagę (np. bezwzględna długość sekwencji, dystrybucja identycznych pozycji wzdłuż łańcucha). Podejście takie jest niekompletne i stwarza ryzyko błędnej interpretacji otrzymanych wyników. Przedstawiona niżej metoda oparta jest na prawdopodobieństwie przypadkowego pojawienia sie zadeklarowanego stopnia identyczności. Uwzględnia ona podstawowe parametry mające znaczenie dla opisu faktycznego związku między porównywanymi sekwencjami. Liczbę wszystkich możliwych stopni identyczności dla danych dwóch sekwencji opisuje poniższe równanie: Gdzie: x – ilość rodzajów jednostek występujących w sekwencjach (20 dla białek; 4 dla kwasów nukleinowych) n – długość sekwencji (liczba porównywanych par pozycji) a – ilość pozycji identycznych Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 11

Dopasowywanie dwóch sekwencji • Alignment, multiple alignment = dopasowanie (wielu) sekwencji • Dopasowywanie globalne dopasowanie, którego mechanizm zakłada porównanie całych sekwencji ze sobą • Dopasowywanie lokalne dopasowywanie na podstawie podobieństwa oddzielnych rejonów porównywanych sekwencji – ta metoda zakłada modularną strukturę białek i dopuszcza istnienie domen Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 12

Programowanie dynamiczne opiera się na podziale rozwiązywanego problemu na podproblemy względem kilku parametrów. Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 13

Dopasowanie globalne (1970) The Needleman and Wunsch Algorithm Mi, j = Mij + max(Mk, j+1 , Mi+1, I) Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 14

Powstawanie dot-matrix Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 15

Dot-matrix ścieżka i alignment Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 16

FASTA Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 17

Dot-matrix Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 18

Dlaczego FAST? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 19

Podobieństwa biochemiczne i biofizyczne aminokwasów Diagram Venn-a Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 20

Macierze substytucji (podstawień) • Jak za pomocą liczby określić podobieństwa biochemiczne i biofizyczne poszczególnych aminokwasów tak, aby liczba ta wyrażała jednocześnie realny wpływ na całe białko podstawienia danego aminokwasu innym w łańcuchu polipeptydowym? !!! MACIERZE SUBSTYTUCJI !!! Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 21

PAM i BLOSUM Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 22

PAM Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 23

BLOSUM (62) Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 24

Kara za przerwy (gap costs, gappenalty) Kara za otwarcie przerwy – G Kara za przedłużenie przerwy – L Kara = G + Ln gdzie: n – długość przerwy Standardowo: G = 10 - 15 L=1 -2 Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 25

Programowanie dynamiczne – local alignment Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 26

Algorytmy i narzędzia dopasowań lokalnych • FASTA (FAST Alignment): – Pierwszy program do przeszukiwania baz w celu znalezienia podobnej sekwencji – Używa szablonów słów (wielkość słowa) – Łączenie słów i prosta algorytmiczna optymalizacja • BLAST (Basic Local Alignment Search Tool ) – Idea sąsiadujących słów (podobne, nie identyczne słowa) – pozwala stosować słowa o dużych rozmiarach – Kilka wersji BLAST-a • Clustal. W – multiple alignment Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 27

Jak używać BLAST do wyszukiwania sekwencji? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 28

Jakiego BLAST-a wybrać? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 29

Formatka BLAST w NCBI Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 30

BLAST – ustawienia zaawansowane Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 31

Jak używać BLAST do wyszukiwania sekwencji? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 32

Jak analizować wyniki z BLAST w NCBI Graficzny przegląd wyników Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 33

Jak analizować wyniki z BLAST w NCBI Szczegóły znalezionych dopasowań Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 34

Jak analizować wyniki z BLAST w NCBI Alignmenty czyli zestawienia sekwencji Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 35

BLAST w EBI Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 36

Clustal. W w EBI Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 37

Analiza wyników Clustal. W Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 38

Podstawy genetyczne algorytmów do zestawień aminokwasów? Replacement PAM 250 BLOSUM 62 Arg/Lys 3 2 Lys/Gln 1 1 Arg/Gln 1 1 Lys/Glu 0 1 Arg/Glu -1 0 ? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 39

Diagram of of amino codon acid genetic relationships Algorytm semihomologiczny Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 40

Dot matrix pairwise alignment Internal homology (gene multiplication) SEMIHOM BLAST 2 SEQUENCES Chicken ovoinhibitor precursor (7 domains) Chicken ovomucoid precursor (3 domains) Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 41

Fin Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM 42