Ricerca di similarit di sequenza FASTA e BLAST
Ricerca di similarità di sequenza (FASTA e BLAST) Allineamento di due sequenze Allineamento multiplo di sequenze
RICERCA DI SIMILARITA’ E ALLINEAMENTO DI SEQUENZE BLAST e PSI-BLAST http: //www. ncbi. nlm. nih. gov/blast/ FASTA http: //fasta. bioch. virginia. edu/ oppure http: //www. ebi. ac. uk/fasta 33/
Alcune caratteristiche dei tools più usati: BLAST (Basic Local Alignment Search Tool), sviluppato dal National Center for Biotechnology Information, NCBI): - allineamento locale - estremamente veloce - parte cercando brevi frammenti della sequenza, che poi prova ad estendere - usa una matrice di sostituzione in entrambe le fasi del processo di allineamento (scansione del database e estensione della subsequenza): più preciso ha quattro opzioni fondamentali: BLASTP: confronta sequenze proteiche contro un database proteico BLASTN: confronta sequenze nuclotidiche contro un database nucleotidico TBLASTN: confronta una sequenza proteica contro un database nucleotidico, traducendo ciascuna sequenza del database nucleotidico nei suoi 6 frames di lettura BLASTX: confronta una sequenza nucleotidica contro un database proteico, dopo averla tradotta nei suoi 6 frames di lettura.
BLAST:
BLASTP
Seconda parte della pagina di BLAST: Numero atteso di HSP (Highscoring Segment Pair) valutato su base statistica Dimensione delle parole Scelta della matrice di sostituzione I valori di default usati da BLAST sono W=3, T=13, Matrice=BLOSUM 62 Penalità assegnata ai gap
Terza parte della pagina di BLAST:
FASTA: http: //www. ebi. ac. uk/fasta 33/ Ktup: lunghezza delle parole Align: numero di allineamenti finali Open e residue: Penalità per i gap Vari database Sequenza in formato FASTA
Allineamento di due sequenze: BLAST: bl 2 seq LALIGN: http: //www. ch. embnet. org/software/LALIGN_form. html EMBOSS: http: //www. ebi. ac. uk/emboss/align/
LALIGN:
ALLINEAMENTO MULTIPLO DI SEQUENZE Informazione biologica maggiore rispetto a quella riportata l’allineamento di due sole sequenze: i residui più importanti dal punto di vista strutturale o funzionale saranno estremamente conservati tra tutte le sequenze dell’allineamento. “Una sequenza amminoacidica fa la timida; un paio di sequenze omologhe sussurrano; molte sequenze allineate gridano”. Per essere informativo un allineamento multiplo dovrebbe contenere una distribuzione di sequenze sia strettamente sia lontanamente correlate: Svantaggi: • tutte strettamente correlate => ridondanza • tutte lontanamente correlate => allineamento inaccurato => inutilità
ALLINEAMENTO MULTIPLO DI SEQUENZE
Programmi per l’allineamento multiplo globale: CLUSTALW: http: //www. ebi. ac. uk/clustalw/ o scaricare il programma eseguibile KALIGN Multalin TCOFFEE http: //msa. cgb. ki. se/cgi-bin/msa. cgi http: //bioinfo. genopole-toulouse. prd. fr/multalin. html http: //www. ch. embnet. org/software/TCoffee. html
CLUSTAL W: -il tool più comune utilizzato per l’allineamento multiplo di sequenza: - potenziato per allineamenti di sequenze proteiche divergenti favorisce l’apertura di gaps in regioni in cui è potenzialmente presente un loop piuttosto che una struttura secondaria ordinata (in base a una penalità residuo-specifica e a una penalità ridotta in regioni idrofiliche) favorisce l’apertura di gaps nelle stesse posizioni.
- Slides: 14