Servizi web per la bioinformatica strutturale Silvio Tosatto
Servizi web per la bioinformatica strutturale Silvio Tosatto Bio. Computing Dipartimento di Biologia URL: http: //protein. bio. unipd. it/
Bioinformatica strutturale Proteine Sequenza Struttura Funzione (? !) MERPEPELIRQSWRAVSRSPLEHGTV LFARLFALEPDLLPLFQYNCRQFSSP EDCLSSPEFLDHIRKVMLVIDAAVTN VEDLSSLEEYLASLGRKHRAVGVKLS SFSTVGESLLYMLEKCLGPAFTPATR AAWSQLYGAVVQAMSRGWDGE ligando Modelli in silico… Strutture note ( < 50, 000) Sequenze note ( > 6, 000) sito attivo
L‘esperimento CASP: Critical Assessment of Techniques for Protein Structure Prediction • Blind test che si svolge ogni due anni (dal 1994) e coinvolge tutta la community. – Ca. 200 gruppi partecipanti • Cerca di misurare lo stato dell‘arte ed i miglioramenti in tutti i maggiori settori della predizione di strutture proteiche – Stabilisce un ranking dei migliori gruppi – Dal 1998 valuta i predittori automatici (web server) • Il gruppo Bio. Computing partecipa dal 2002 – Primo gruppo italiano – Risultati nel top 10% su varie categorie
Target sequence NO Backvalidated ? FOld e. Xtractor (FOX) (Stefano Toppo, Paolo Fontana) Iterative search Sequence space Hits < 10 -3 A C Found Template B H D E Trailing end sequences < 20% ID Back validation using PSSM vs. target Sequence space >= 20% ID PSI-Blast 4 iterations vs NR 60 (>=20% ID first tested) Back validation using PSSM vs. target and starting query Backvalidated ? Jump start + 4 iteration vs NR 60 NO J S B I M K U G V N A Z Un metodo per il riconoscimento di fold con bassa similarità di sequenza. • Sfrutta il carattere trasitivo delle ricerche in banca dati con PSI-BLAST (ca. 5 minuti su 1 CPU). • La ricerca viene ripetuta fino ad esaurimento dello spazio di sequenze disponibili. • Una volta identificata una struttura, questa deve essere confermata con una ricerca inversa. YES • I tempi di calcolo richiedono l’esecuzione di decine o centinaia di ricerche con PSI-BLAST (ore di tempo macchina). PSI-Blast 1 iteration vs. Fold library YES PDB hits found ? NO
Servizi web URL: http: //protein. bio. unipd. it/ Attualmente 12 servizi web • Ulteriori servizi in fase di sviluppo • Tempo di calcolo variabile tra secondi (p. es. FRST) e ore (p. es. FOX) Statistiche 2007 (incremento sul 2006): • ca. 13, 000 visite (+120%) • ca. 92, 000 pagine (+50%) • ca. 3, 500 esecuzioni servizi web locali (+50%) • ca. 9, 000 esecuzioni in remoto (SPRITZ, calcolo a Dublino) (+50%)
Servizi web: grid computing (Fabiano Cimarosti) I servizi web stanno passando da una gestione diretta sul web server a un modello di calcolo distribuito. • web server gestisce solo I/O • calcolo su un cluster di 8 biprocessori Xeon • file system condiviso • Sun Grid
- Slides: 6