Almacenamiento y representacin de la informacin biomdica 2006
Almacenamiento y representación de la información biomédica © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Puntos a tratar: v Tipos de datos biomédicos v Formatos de presentación de datos v Envío de datos v Formatos de secuencias v Sistemas gestores de bases de datos © 2006 Plataforma Bioinformàtica de la UAB
El genoma humano como registro electrónico Milenio Libro 1 er Religiosos: Biblia, Corán, . . . 2º El origen de la especies 3 er El genoma humano Human Genome DB © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Bases de datos biomédicas v Tipos de datos Literatura v Secuencias v Estructuras v 3 D v 2 D v Geles 2 D v. Asociación genética (Desequilibrio) v Tecnología informática de almacenamiento y recuperación de datos v Archivo de texto v Base de datos relaciones v Base de datos deductivas v Base de datos orientada a objetos v © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Evolución de las bases de datos moleculares Categoría de base de datos Contenido de los datos Ejemplos Bases de datos de literatura Citaciones bibliográficas Revistas on-line MEDLINE (1971) Bases de datos factuales o datos brutos Seq. ácidos nucleicos, Seq. Aminoácidos Estructuras moleculares 3 D Gen. Bank (1982), EMBL (1982), DDBJ (1984), PIR (1968), SWISS-PROT (1986), PDB (1971) Base de datos de conocimientos Biblioteca de motivos Clasif. molecular Rutas metabólicas PROSITE (1988) SCOP (1994) KEGG (1995) v v v © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Niveles de secuencia proteica y organización estructural Primarias Secundarias Terciarias Secuencia Motivo Dominio AVILDRYFH [A S] - [IL ] 2 -X [ DE ] – R- [FYW ] 2 -H Módulo A, b, c @, *, # © 2006 Plataforma Bioinformàtica de la UAB Base de datos primarias Base de datos secundarias Base de datos de estructuras
Almacenamiento y representación de la información Formato presentación datos v Formato de archivo de texto (flat file) o html (Gen. Bank, EMBL) v Formato gráfico o applets (PDB, Drosophila Gene. View, Human Genoma Map. Viewer) v Formato código binario o texto interpretable por aplicaciones de visualización (archivo dnd de Clusta. W) © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Recopilación de las Secuencias de las grandes bases de datos Envío de secuencias a las bases de datos por el investigador v. Vía Web en Bank. It v. Usar programa Sequin en Mac, Windows, UNIX v. E-mail Obsoleto v. En disquete por correo v v Revisión de las nuevas entradas o actualización Asignación de número de acceso de la base de datos a las nuevas entradas v Intercambio de las nuevas secuencias entre las tres principales bases de datos v © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Fiabilidad de las secuencias Se suelen enviar las secuencias previo a la publicación v Proyectos genomas (High Throughtput Sequence, HTG): v Borrador (draft): 1 error en 1 kb (4 x-5 x) v Acabado (finished): 1 error en 10 kb (8 x-9 x) v v Genome Survey Sequence (GSS) Una única lectura de secuencias de clones genómicos al azar v v v 1 error en 100 bp ESTs (Expressed Tagged Sites) Una única lectura de secuencias de clones de c. DNA al azar v 1 error en 100 bp v © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Códigos de bases de ácidos nucleicos IUB/GCG ------A C G T/U M R W S Y K V H D B X/N. Significado Complemento ----------A T C G G C T A A or C K A or G Y A or T W C or G S C or T R G or T M A or C or G B A or C or T D A or G or T H C or G or T V G or A or T or C X not G or A or T or C. © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Códigos de aminoácidos Símbolo de una y tres letras G Glycine Gly P Proline Pro A Alanine Ala V Valine Val L Leucine Leu I Isoleucine Ile M Methionine Met C Cysteine Cys F Phenylalanine Phe Y Tyrosine Tyr W Tryptophan Trp H Histidine His K Lysine Lys R Arginine Arg Q Glutamine Gln N Asparagine Asn E Glutamic Acid Glu D Aspartic Acid Asp S Serine Ser T Threonine Thr © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Formatos de secuencias Ficheros ASCII (editor de texto) v Fasta v Gen. Bank v GCG v. . . Fasta Múltiples secuencias © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Formato Gen. Bank © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Más formatos de secuencias ASN. 1 EMBL Swiss Prot FASTA GCG-MSF GCG-RSF Gen. Bank/Gen. Pept NEXUS PHYLIP NBRF y PIR Definición de formatos de secuencias: http: //www. genomatix. de/online_help/sequence_formats. html © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Conversor de formatos v. Read. Seq: http: //iubio. indiana. edu/cgi-bin/readseq. cgi v. Conversores de formato © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Tecnología informática de almacenamiento y recuperación de datos Base de datos v Sistema gestor de la base de datos v Especifica la estructura lógica de la base de datos en función de la definición de los datos v Archivo de texto v Base de datos relaciones v Base de datos orientada a objetos v Base de datos deductivas © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Base de datos relaciones (Codd 1970) Todos los datos se organizan en tablas v Álgebra relacional v Intuitivo y comprensible v Consultas en lenguaje SQL (Structured Query Language, vestándar 1986, 1992, 1999, 2003) v Lenguaje declarativo de acceso a bases de datos v cuatro operaciones básicas: INSERT, UPDATE, DELETE y SELECT lista de atributos FROM lista de relaciones WHERE condición SELECT * FROM TABLA_CITACION WHERE year = ‘ 2005’ © 2006 Plataforma Bioinformàtica de la UAB
Paper 1 SELECT * FROM TABLA_CITACION WHERE year = ‘ 2005’ Year Pages Volume Journal MUID Almacenamiento y representación de la información 2004 2005 Pages Volume Journal MUID Paper 4. . . . 2005 PROJECT © 2006 Plataforma Bioinformàtica de la UAB Year Paper 3 SELECT Year 2003 2005 2004 MUID Paper 2
Year Pages Volume Journal MUID Almacenamiento y representación de la información Author MUID JOIN Author 1 -1 Author 1 -2 Author 2 -1 16777514 Author 2 -2 16777514 Author 2 -3 16777514 Author 3 -1. . . . © 2006 Plataforma Bioinformàtica de la UAB Author Year Pages Volume Journal MUID 16777514
Almacenamiento y representación de la información SELECT Ejemplo 1: SELECT * FROM TABLA_NOMBRE ORDER BY ID, FECHA, NOMBRE Ejemplo 2: SELECT NOMBRE, DESCRIPCION FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' ORDER BY ID, FECHA, NOMBRE Ejemplo 3: SELECT NOMBRE, COUNT(*) AS CANTIDAD FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' GROUP BY NOMBRE DELETE Este comando SQL elimina registros de una tabla especifica. Ejemplo 1: DELETE FROM TABLA_NOMBRE WHERE ID = 2 © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información DPDB DATA MODEL © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Ejemplos SGBD relacionales v Comerciales ORACLE v. SQLServer v. Access v v Código abierto My. SQL v. Postgre. SQL v © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información Integración de Bases de datos v. Integración basada en Links Base de datos: entrada Base de datos 1: entrada 1 Base de datos 2: entrada 2 © 2006 Plataforma Bioinformàtica de la UAB
Almacenamiento y representación de la información • Internet y la interoperabilidad de datos Evolución de Internet Desarrollos de estándares en XML Servicios de aplicaciones Web (Visual Studio. Net, Java JBoss, SAD, Bio. MOBY) © 2006 Plataforma Bioinformàtica de la UAB Programación Java, C#, Visual Basic, JScript, AJAX, . .
- Slides: 24