Bioinformatyczne bazy danych cz I Grzegorz Koczyk 2003
Bioinformatyczne bazy danych cz. I Grzegorz Koczyk © 2003
Bazy danych informacji biologicznej Zoorganizowane zbiory dużych ilości danych biologicznych. Z reguły połączone z oprogramowaniem do manipulacji tymi danymi: przeszukiwania odzyskiwania dołączania Cechy dobrej bazy danych Łatwy dostęp Możliwość precyzyjnego uzyskiwania pożądanych informacji
Bazy danych informacji biologicznej Bioinformatyczne bazy danych Primary - zautomatyzowane - zbieranie rekordów bezpośrednio z badań NCBI, DDBJ, EMBL Secondary -poświęcone konkretnemu organizmowi (TAIR) lub danym (Uni. Gene, db. SNP) - tworzone automatycznie (NCBI Uni. Gene) lub nadzorowane (NCBI Ref. Seq)
„Jeden wpis, jeden plik” – FASTA Pojedyńczy plik reprezentuje pojedyńczą sekwencję. Przykład: FASTA Accession. Version >gi|37993870|gb|CF 805616. 1|CF 805616 Ta. RGA. C 2 [. . . ] ACAATTGGTTTATGCCCATGAGGAGAAAGACAACAAGGTCAC TTCGACCTGGTTATGTGGGTCCATGTCTCTCAGAGTTTTAGTGTGGGCGACATCT Numer GI TCAAGGAGTTGTATGAGGCAGCTTCAGAGCCTAAGGTTGCATGCCCTCAATTTCA TAACCTGAATGCCTTGGAAAAGGAATTGGAGAGGAAACTAGATGGAAAAAGATTC CTTCTAGTACTAGATGATGTCTGGTGCAACAAGGATGTCGGTAACGAGGAGCTAC CAAAGTTACTCCACTGAAGAAAGAGAGGAAGCAAGATCCTAGTGAC AACTCGAAGTAAATTTCCATTGTCGGATCAAGGTCCCGGTGTGCGGCATACTGCA ATGCCAATAAATGAGGTTAATGATACTGCCTTCTTCGAGCTATTCATGCACTATG CCCTCGAAGAAGGCCAAGACTGGAGCCTGTTCAAGACCATTGGTGAGGAGATTGC AGAAAAGCTG
Struktura przechowywanych danych Baza danych KLUCZ unikalny identyfikator Rekord bazy danych (sekwencja, publikacja) Rekord = Wpis (sekwencja, publikacja) Adnotacje (geny, nazwiska autorów) Pole = Adnotacja (geny, nazwiskaautorów) (geny, nazwiska autorów) Adnotacje (geny, nazwiska autorów) Kolejne poziomy adnotacji (geny, nazwiska autorów). . podtyp POWIĄZANIE (niekoniecznie z wpisem tej samej bazy)
„Jeden wpis, jeden plik” – model „flat file” Pojedyńczy plik reprezentuje pojedyńczy wpis (np. sekwencję). Przykład: Gen. Bank Flat File Format LOCUS 2003 DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM NC_000932 Accession. Version 154478 bp DNA circular PLN 06 -AUG- Identyfikator Gen. Bank Arabidopsis thaliana chloroplast, complete genome. NC_000932. 1 GI: 7525012. chloroplast Arabidopsis thaliana (thale cress) Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids II; Brassicales; Brassicaceae; Arabidopsis. REFERENCE 1 (sites) AUTHORS Sato, S. , Nakamura, Y. , Kaneko, T. , Asamizu, E. and Tabata, S. TITLE Complete structure of the chloroplast genome of Arabidopsis thaliana JOURNAL DNA Res. 6 (5), 283 -290 (1999) MEDLINE 20039611 PUBMED 10574454 FEATURES Location/Qualifiers source 1. . 154478 /organism="Arabidopsis thaliana" /organelle="plastid: chloroplast" /mol_type="genomic DNA" /cultivar="Columbia" /db_xref="taxon: 3702" Powiązanie z bazą Pub. Med Powiązanie z wpisem taksonu
„Jeden wpis, jeden plik” – model „flat file” FEATURES source gene CDS Location/Qualifiers 1. . 154478 /organism="Arabidopsis thaliana" /organelle="plastid: chloroplast" /mol_type="genomic DNA" /cultivar="Columbia" /db_xref="taxon: 3702" complement(join(97999. . 154478, 1. . 69724)) /locus_tag="Arth. Cp 001" complement(join(97999. . 98024, 98562. . 98793, 69611. . 69724)) /locus_tag="Arth. Cp 001" /codon_start=1 /transl_table=11 /product="ribosomal protein S 12" /protein_id="NP_051037. 1" /db_xref="GI: 7525080" /translation="MPTIKQLIRNTRQPIRNVTKSPALRGCPQRRGTCTRVYTITPK Adnotacja (feature) Adnotacja niższego poziomu (qualifier) K PNSALRKVARVRLTSGFEITAYIPGIGHNLQEHSVVLVRGGRVKDLPGVRYHIVRGT L Adnotacja (base count) DAVGVKDRQQGRSKYGVKKPK„. . . . . BASE COUNT 48546 a 28496 c 27570 g 49866 t Sekwencja 1 atgggcgaac ORIGIN gacgggaatt gaacccgcga tggtgaattc acaatccact gccttaatcc 61 acttggctac atccgcccct acgctactattctttt ttgtattgtc taaaaa 121 aaaaaataca aatttcaata aaaaataaaa aaaggtagca aattccacct tatttt
Wady modelu„flat file” - brak możliwości ograniczenia zapytania do pewnych pól (bez przeglądania całych plików) - powolne zapytania, powolne dołączanie nowych wpisów (ponownie konieczność przeglądania całych plików) - jednoczesność (co będzie jak kilka osób zmodyfikuje jednocześnie ten sam wpis) - spójność (jak sprawdzać czy wprowadzane wartości są prawidłowe – np. czy powiązania wskazują na istniejące zapisy)
Indeksowanie Arabidopsis thaliana Triticum aestivum Hordeum vulgare Mus musculus Canis lupus Xenopus laevis Homo sapiens identyfikator #1 identyfikator #2 identyfikator #3 Indeks umożliwia dotarcie do kluczy wpisów zawierających żądaną adnotację / słowo kluczowe (tu: nazwę taksonu) – bez przeszukiwania całej bazy.
NCBI Entrez – system naczyń połączonych http: : //www. ncbi. nlm. nih. gov/entrez Zintegrowany system dostępu do informacji (sekwencje, struktury, literatura. . . )
Powiązania, a sąsiedztwo Powiązania to statyczny, zakodowany we wpisie związek pomiędzy nim a innymi wpisami (w tej samej bazie lub innych). Sąsiedztwo to dynamiczny związek pomiędzy wpisem, a podobnymi do niego wpisami. Przykłady sąsiedztw: - podobne sekwencje (BLAST) - podobne struktury (VAST) - podobne artykuły (word weighting)
NCBI Entrez – system naczyń połączonych Word weight Pub. Med abstracts Phylogeny 3 -D 3 -D Structure Taxonomy VAST Genomes BLAST Nucleotide sequences Protein sequences BLAST
Zapytania w Entrez Pojedyńcze zapytanie tworzy się dodając do słowa kluczowego informację do jakiego zindeksowanego pola ma się odnosić. wheat [Organism] wheat (domyślnie zapytanie odnosi się do wszystkich zindeksowanych pól) W przypadku zapytania o liczby lub daty, zakres podaje się oddzielając wartości „: ”. 1980/01/01: 2000/01/01[Publication Date]
Zapytania w Entrez - spójniki wheat [Organism] AND (Feuillet [Author] OR Keller[Author]) NOT 1980/01/01: 2000/01/01[Publication Date] Poszczególne zapytania cząstkowe łączone są przy pomocy spójników (operatorów logicznych) AND obydwa warunki muszą być spełnione (spójnik domyślny) OR przynajmniej jeden z warunków musi być spełniony NOT dany warunek nie ma być spełniony (interpretowane jako AND NOT)
Zapytania w Entrez - nawiasy wheat [Organism] AND (Feuillet [Author] OR Keller[Author]) NOT 1980/01/01: 2000: /01/01[Publication Date] a to już coś innego: wheat [Organism] AND Feuillet [Author] OR Keller[Author] NOT 1980/01/01: 2000: /01/01[Publication Date] - zapytania interpretowane są od lewej do prawej - wszystkie spójniki są równej wagi (nie ma pierwszeństwa) - nawiasy powodują traktowanie zawartości jako odrębnego zapytania
Zapytania w Entrez – ciągi wyrażeń „Triticum aestivum” [Organism] Ciąg słów jest interpretowany, jako całość tylko jeśli stanowi poprawną wartość w indeksie. W innym wypadku, cudzysłowy NIE WYMUSZAJĄ interpretowania ciągu jako całości ! 121212 233448 324438 Zapytanie w postaci ciągu liczb (tylko i wyłącznie liczb) jest interpretowane jako lista unikalnych identyfikatorów wpisów, połączona spójnikiem OR. Wszystkie wpisy o podanych identyfikatorach zostaną odzyskane z bazy !
Dane literaturowe - Pub. Med Streszczenia i cytacje z ponad 4500 periodyków Większość wpisów pochodzi z anglojęzycznych źródeł lub posiada angielskie streszczenia.
Dane literaturowe - Books www. ncbi. nlm. nih. gov/books około 30 tytułów, gł. tematyka biomedyczna między innymi: - „Molecular Biology of the Cell” - „Molecular Cell Biology” - „Introduction to Genetic Analysis” - „Genomes”
Dane literaturowe – Pub. Med Central www. pubmedcentral. nih. gov archiwum artykułów, dostępnych bez opłaty ponad 50 periodyków (+47 pozycji Bio. Med Central), w tym: - Plant Cell - Plant Physiology - PNAS - Nucleic Acids Research
Pub. Med - zapytania Pierwotnie słowa nieokreślone co do pola są sprawdzane względem trzech indeksów: Terminów biomedycznych z Me. SH (słownik hierarchiczny = same terminy i słowa oznaczające ich synonimy oraz podkategorie) Nazw znanych periodyków np. („New England Journal of Medicine”) odpowiada skrótowi „N Engl J Med” Autorów - o ile zapisany ciąg pasuje do formatu: <nazwisko> <inicjały> (np. Crick F)
Pub. Med – znaleźć artykuł [TI] Article Title [DP] Publication Date [TA] Journal Title [VI] Volume [UID] Unique Identifier [IP] Issue [PG] Pagination
Pub. Med – znaleźć autora [AU] Author [AD] Affiliation Pub. Med – znaleźć słowo [TI] Title [AB] Abstract [TIAB] Title/ Abstract [TW] Text Word
Narzędzia pomocnicze Limits (ograniczenia) pozwala ograniczyć przeszukiwanie do określonego(zindeksowanego) pola Preview/Index (podgląd) pozwala przejrzeć zindeksowane pola i ich możliwe wartości History przechowuje poprzednie rezultaty – można się do nich odwoływać Clipboard (schowek) pozwala przeglądać zachowane cytacje Details pozwala przejrzeć szczegóły zapytania i wynikłe błędy
Powiązania z innymi wpisami Powiązania z wpisami innych baz, oraz powiązania zewnętrzne (Link. Out) Poszukiwanie pokrewnych artykułów (ważenie słów kluczowych = word weighting)
Pub. Med - Limits Ograniczenie zapytania do wybranego pola Ograniczenie do typu publikacji, np. Journal Data publikacji
Pub. Med – Preview/Index Wstępnie przetwarza zapytanie (pokazuje ilość znalezionych wpisów) Wyświetla kolejną partię możliwych wartości pola
Pub. Med - History Można używać dawnych zapytań, jako terminów
Pub. Med - Details Modyfikacja zapytania, widoczne końcowe łączenie terminów Modyfikacje wprowadzone przez Entrez
Pub. Med - Clipboard Możliwości: Text, File, Clipboard
Dane sekwencji - bazy Początkowy format baz danych był formatem flat-file. Równolegle funkcjonowało kilka inicjatyw. Entrez SRS Gen. Bank EMBL DDBJ getentry
Gen. Bank – pierwotna baza danych NCBI pełne uaktualnienia co dwa miesiące uaktualnienia przyrostowe codziennie obecnie dostępna tylko przez Internet ftp: //ncbi. nlm. nih. gov
Nucleotide - Limits Ograniczenie do określonego typu cząsteczki (np. r. RNA) Sposób pokazywania wpisów „składanych” Ograniczenie do określonej bazy danych np. sekwencji referencyjnych Ref. Seq
Protein – Limits Wybór lokalizacji (jądro, organelle)
Zbiorcze zapytania (Batch Entrez) Zbiorcze zapytania
Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [ACCN] Accession unikalny kod Accession przyporządkowany rekordowi [ALL] wszystkie terminy znajdujące się w dowolnym polu bazy All [AUTH] Author autorzy powiązanych publikacji [ECNO] EC/ RN Number numery klasyfikacji enzymów (EC lub CAS) [FKEY] Feature Key adnotowane na wpisach sekwencji „features” [FILT] przefiltrowane podzbiory danej bazy Filter
Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [GENE] Gene Name standardowe/potoczne nazwy genów w bazie [ISS] Issue numer periodyku w którym opublikowano dane [JOUR] Journal nazwa (skrócona) lub ISSN periodyku [KYWD] Keyword słowa kluczowe ze słowników Gen. Banku, EMBL, DDBJ, SWISS-Prot, PIR, PRF lub PDB. [MDAT] Modification Date daty ostatniej modyfikacji rekordów (YYYY/MM/DD)
Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [MOLWT] Molecular Weight waga białka (pole 6 -cyfrowe, uzupełniane zerami) [ORGN] Organism nazwa taksonu do którego odnosi się wpis [PAGE] Page numery pierwszych stron powiązanych publikacji [PROP] Properties własności sekwencji białkowej lub nukleotydowej (typ molekuły, pododdział Gen. Banku itp. ) [PROT] Protein Name nazwy białek zawartych w bazie
Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [PDAT] Publication Date daty powiązanych publikacji w formacie YYYY/MM/DD [SQID] Seq. ID String unikalne identyfikatory wszystkich wpisów [SLEN] Length długość sekwencji [SUBS] Substance Name nazwy substancji powiązanej z wpisem (rejestr CAS lub nazwa MEDLINE) [TITL] Title word słowa znalezione w liniach definicji rekordów (organizm, nazwa genu/produktu, symbol genu, typ molekuły. . . )
Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [UID] Uid unikalne identyfikatory publikacji powiązanych z wpisami [WORD] Text word dowolne zindeksowane słowo w opisie wpisu [VOL] Volume tomy periodyków związane z wpisami bazy
Bazy sekwencji – poznać wpis po artykule [AUTH] Author [PDAT] Publication Date [JOUR] Journal Name [VOL] Volume [UID] Unique Identifier [ISS] Issue [PAGE] Page
Bazy sekwencji –poznać wpis po opisie [TITL] Title (słowa w definicji rekordu) [WORD] Text Word (dowolne słowo w opisie rekordu) [ACC] Accession [SLEN] Sequence Length [MDAT] Modification Date [MOLWT] Molecular Weight [GENE] Gene (rekordy białek) [ECNO] EC/RN Number (rekordy białek) [PROT] Protein
Gen. Bank divisions – gbdiv_XXX [PROPS] Tradycyjne (pseudo-taksonomiczne): BCT (bacteria) INV (invertebrate) MAM (other mammals) PHG (phages) PLN (plants, fungi, algae) PRI (primate) ROD (rodents) SYN (synthetic) UNA (unannotated) VRL (viral) VRT (other vertebrate) Podział ze względu na naturę sekwencji: PAT Patent EST Expressed Sequence Tags STS Sequence Tagged Sites GSS Genome Survey Sequences HTG High Throughput Genome HTC High Throughput c. DNA CON Contig
Kilka uwag – Protein & Nucleotide - poszukiwanie „synonimów” (sekwencji identycznych) – BLAST bez maskowania - rekordy powiązane PDB i SWISSPROT nie są oryginalnymi rekordami i należy je dodatkowo sprawdzić w bazach macierzystych http: //mia. sdsc. edu Molecular Information Agent (masowe przeszukiwanie >50 baz) Sekwencje genomowe ciąg nieznanych nukleotydów N dłuższy niż 100 wskazuje w rzeczywistości na przerwę nieznanej długości
Ref. Seq – baza sekwencji referencyjnych - poprawione transkrypty i białka. - Homo sapiens - Mus musculus - Rattus norvegicus - Drosophila melanogaster - Danio rerio - Arabidopsis thaliana - ludzkie modelowe transkrypty i białka - kontigi - „szkic” genomu ludzkiego i genom mysi - zapisy genomów: - genomy bakteryjne - genomy organellarne - genomy eukariotyczne Zapytanie przez: zakładkę Limits słowo kluczowe srcdb_refseq[PROPS]
Bioinformatyczne bazy danych Dziękuję za uwagę
Rezerwowy slajd - „Jeden wpis, jeden plik” – model „flat file” FEATURES source Powiązanie z wpisem w bazie białek Location/Qualifiers 1. . 154478 /organism="Arabidopsis thaliana" /organelle="plastid: chloroplast" /mol_type="genomic DNA" (wpisy Gen. Banku są skoncentrowane /cultivar="Columbia" na sekwencji DNA [DNA-centric] ) /db_xref="taxon: 3702" gene complement(join(97999. . 154478, 1. . 69724)) /locus_tag="Arth. Cp 001" CDS complement(join(97999. . 98024, 98562. . 98793, 69611. . 69724)) /locus_tag="Arth. Cp 001" /codon_start=1 /transl_table=11 /product="ribosomal protein S 12" /protein_id="NP_051037. 1" /db_xref="GI: 7525080" /translation="MPTIKQLIRNTRQPIRNVTKSPALRGCPQRRGTCTRVYTITPK Lokalizacja na sekwencji Adnotacja (feature) Adnotacja niższego poziomu (qualifier) K PNSALRKVARVRLTSGFEITAYIPGIGHNLQEHSVVLVRGGRVKDLPGVRYHIVRGT L Adnotacja (base count) DAVGVKDRQQGRSKYGVKKPK„. . . . . BASE COUNT 48546 a 28496 c 27570 g 49866 t Sekwencja 1 atgggcgaac ORIGIN gacgggaatt gaacccgcga tggtgaattc acaatccact gccttaatcc 61 acttggctac atccgcccct acgctactattctttt ttgtattgtc taaaaa 121 aaaaaataca aatttcaata aaaaataaaa aaaggtagca aattccacct tatttt
- Slides: 46