Bioinformatique modlisation et analyse des donnes gnomiques et
Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann
Génome ADN ARN Transcriptome régulation Protéines Protéome enzymes ATP N N O O O P O P O N N O O O Métabolome
Le codage de l’information génomique • macromolécule d’ADN ≈ enchaînement d’acides nucléiques – adénine : A – thymine : T – cytosine : C – guanine : G • génome ≈ texte écrit dans l’alphabet de ces quatre lettres
Cellules procaryotes
ADN double brin transcription messager traduction chaîne d’acides aminés repliement
Le code génétique Deuxième position U C A G U UUU Phe (F) UUC " UUA Leu (L) UUG " UCU Ser (S) UCC " UCA " UCG " UAU Tyr (Y) UAC UAA Ter UAG Ter UGU Cys (C) UGC UGA Ter UGG Trp (W) U C A G C CUU Leu (L) CUC " CUA " CUG " CCU Pro (P) CCC " CCA " CCG " CAU His (H) CAC " CAA Gln (Q) CAG " CGU Arg (R) CGC " CGA " CGG " U C A G A AUU Ile (I) AUC " AUA " AUG Met (M) ACU Thr (T) ACC " ACA " ACG " AAU Asn (N) AAC " AAA Lys (K) AAG " AGU Ser (S) AGC " AGA Arg (R) AGG " U C A G G GUU Val (V) GUC " GUA " GUG " GCU Ala (A) GCC " GCA " GCG " GAU Asp (D) GAC " GAA Glu (E) GAG " GGU Gly (G) GGC " GGA " GGG " U C A G Première position Troisième position
Cellules eucaryotes
ADN double brin ARN prémessager intron exon transcription intron exon messager traduction chaîne d’acides aminés repliement maturation (excision épissage)
GATCACCTCACTACGG GTCAGGGGAAA GGGGAACTGAGAGATT TGTCAGTGTGAGAAGC AGTCCCAGGAGTTAGA AGTAGTGGCTCCATGA CTCACAAATTAACTTCC CTTTCAGGGCTT CTTATTTTCCTTAGCAT CCCTGTCTTGATCCCA GCCTGCTCAGACCCCT GCCTCTCACTGCAAGA TGTGCTT Génome ADN ARN Transcriptome régulation Protéines Protéome enzymes ATP N N O O O P O P O N N O O O Métabolome
De très nombreux domaines de recherche en informatique, automatique et mathématiques appliquées sont concernés Ø algorithmique sur les séquences, sur les graphes… Ø statistique, analyse de données Ø apprentissage symbolique et numérique Ø visualisation de données Ø modélisation et simulation dynamiques Ø calcul parallèle Ø bases de données et de connaissances
Le projet HELIX « Informatique et génomique » • Projet de l’unité de recherche INRIA Rhône-Alpes – à Grenoble (Montbonnot) et Lyon (campus de La Doua, UMR CNRS UCB 5558) – 40 chercheurs, ingénieurs et doctorants • Quatre exemples – Geno. Star : plate-forme de génomique exploratoire – Génomique comparative et synténie – Modélisation et simulation de réseaux d’interactions – Pep. Map et la bioinformatique de la protéomique
Le consortium Genostar
Les objectifs du consortium Concevoir et développer une plate–forme bioinformatique de génomique exploratoire
La plate-forme Genostar • Des modules interopérables Geno. Expert. Bacteria • autour d’un noyau qui assure – la gestion et la persistance des données et des connaissances – l’enchaînement de l’exécution des méthodes d’analyse
La plate-forme Genostar • Des données structurées dans un modèle à objets et relations
gene mnemo is-located-on type dna. A sec. G sec. D sec. G chromosome size shape is-located-on Basu Hepy Basu Bobu
inheritance class slots Protein MW Length Sequence “is-A” regulated-prot roles Regulator regulator Regulates association N-ary associations Km association slots Compound effector
La plate-forme Genostar • Des données structurées dans un modèle à objets et relations • Un ensemble de méthodes d’analyse et de visualisation • Des tâches paramétrables enchaînant ces méthodes sur les données
Un exemple : la recherche de CDS bactériennes ORF CDS RBS STOP START STOP
Recherche des ORF Recherche de CDS Recherche des RBS Enregistrement et visualisation des objets créés
Le consortium Genostar a bénéficié du soutien du Ministère de la Recherche – Direction de la Recherche : programme Génomique – Direction de la Technologie : programme Gen. Homme
• Genostar est mis à disposition des laboratoires de recherche publics • Le consortium est ouvert aux partenariats avec les sociétés privées
http: //www. genostar. org
Comparative genomics B. subtilis S. aureus bio. A bio. W bio. D bio. A bio. F bio. B bio. D bio. F bio. B bio. W Pimelate EC 6. 2. 1. 14 Gene order conservation: NO Gene cluster conservation: YES Pimeloyl-Co. A EC 2. 3. 1. 47 Bio. W Bio. F 8 -Amino-7 -Oxononanoate EC 2. 6. 1. 62 Bio. A EC 6. 3. 3. 3 Bio. D 7, 8 -Diaminonanoate Dethiobiotin EC 2. 8. 1. 6 Biotin Bio. B
Unformal definition of a synton A synton is a maximal set of pairs of homolog genes with conserved organization on two chromosomes (two species) conserved organization = similar relative location on both chromosomes (permutation - insertion/deletion) B B A A
a 1 a 2 a 3 a 4 b 1 b 2 b 3 b 4 a 5 a 6 A B b 5 b 6 b 7 b 8 b 9 B A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes A synton is defined by a double path in the plane d : gap parameter b 9 b 8 b 7 b 6 b 5 b 4 b 3 b 2 b 1 =0 a 1 a 2 a 3 a 4 a 5 a 6 A
a 1 a 2 a 3 a 4 b 1 b 2 b 3 b 4 a 5 a 6 A B b 5 b 6 b 7 b 8 b 9 B A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes A synton is defined by a double path in the plane = maximal set of gene couples such that a path exits on A and B axes b 9 b 8 b 7 b 6 b 5 b 4 b 3 b 2 b 1 (a 4, b 9) (a 3, b 8) (a 6, b 4) (a 1, b 2) (a 5, b 3) (a 2, b 1) a 1 a 2 a 3 a 4 a 5 a 6 A
a 1 a 2 a 3 a 4 b 1 b 2 b 3 b 4 a 5 a 6 A B b 5 b 6 b 7 b 8 b 9 (a 4, b 9) Design of an O(n 2) algorithm on graphs (a 3, b 8) (a 6, b 4) n = number of pairs of homolog genes (a 1, b 2) (a 5, b 3) (a 2, b 1)
a 1 a 2 a 3 a 4 b 1 b 2 b 3 b 4 a 5 a 6 A B = 0 (a 3, b 8) (a 1, b 2) b 6 b 7 b 8 = 2 (a 3, b 8) (a 4, b 9) (a 6, b 4) (a 2, b 1) b 5 (a 5, b 3) = 3 (a 1, b 2) (a 3, b 8) (a 4, b 9) (a 6, b 4) (a 2, b 1) b 9 (a 5, b 3) (a 4, b 9) (a 6, b 4) (a 2, b 1) (a 1, b 2) (a 5, b 3)
Simulation of gene interaction networks Sin. R/Sin. I H A Sin. R spo 0 A + + H kin. A - Spo 0 A Signal + Sin. I Kin. A sin. R + - Spo 0 E spo 0 E H sig. H (spo 0 H) A spo. IIA Abr. B abr. B A + F Spo 0 A˜P - H sin. I + phosphorelay - A H Hpr A A + A hpr (sco. R) Regulatory network controling the initiation of sporulation in B. subtilis - -
Piece-wise linear differential equations Ø Cellular concentration of gene product i at time-point t represented by variable xi(t) Ø Regulatory interactions modeled by differential equations . xi = fi(x) – i xi xi 0, 1 i n where fi(x) is the synthesis term and – i xi the degradation term Ø Synthesis term fi(x) : sum of products of step functions s+/-(xj , ij) weighted by rate constants kij > 0 s+(xj , ij) 1 0 ij xj
Phase space box and volumes x 3 Equations in shaded volume: max 3 33 23 12 0 21 31 max 1 x 2 max 2 . x 1 = - 1 x. 2 = - 2 x 2. x 3 = k 33 - 3 x 1 Ø Within a volume, the model simplifies to linear differential equations. x i = i – i x i 1 i n i is sum of products of rate constants
Example of simulation x 3 Equations in shaded volume vinit : max 3 33 23 x 2 max 2 . 0 12 21 31 max 1 = - 1 x 1. x 2 = - 2 x 2. x 3 = k 33 - 3 x 3
Example of simulation x 3 Equations in shaded volume : max 3 33 x 2 max 2 . 23 0 12 21 31 max 1 = - 1 x. 2 = - 2 x 2. x 3 = k 31 + k 33 - 3 x 3
Example of simulation x 3 max 3 . 33 23 x 2 max 2 12 0 21 31 max 1
Example of simulation x 3 max 3 . 33 23 x 2 max 2 12 0 21 31 max 1
Example of simulation x 3 max 3 . 33 23 x 2 max 2 12 0 21 31 max 1
Example of simulation x 3 Equations in shaded volume : max 3 . 33 x 2 max 2 23 12 0 21 31 max 1 = - 1 x 1. x 2 = - 2 x 2. x 3 = k 31 + k 33 - 3 x 3
Example of simulation x 3 max 3 . 33 23 x 2 max 2 12 0 21 31 max 1
Example of simulation x 3 Equations in shaded volume : max 3 . 33 x 2 max 2 23 . x 1 = - 1 x. 2 = - 2 x 2. x 3 = k 31 + k 33 - 3 x 3 12 0 21 31 max 1 Volume contains a steady state
GNA : Gene Networks Analyser
Un dernier exemple en protéomique • Collaboration – CEA – GENOME express – INRIA Rhône-Alpes • Contexte de la plate-forme protéomique à haut-débit de Rhône-Alpes Genopole
fragments spectrométrie de masse courte séquence digestion analyse de spectres peptidique trypsique m. N « cocktail » de protéines GLIF masses des séquences adjacentes m. C étiquettes peptidiques
fragments spectrométrie de masse digestion recherches en bioinformatique analyse de spectres trypsique « cocktail » de protéines « mapping » sur les chromosomes étiquettes peptidiques
code génétiaue GAT CAC acide histidine aspartique = His == Asp H =D m. N. . . D H L R GLIF T G Q G G L m. C I F T E R F. . . GAT CAC CTC ACT ACG GGT CAG GGC CTA AGG ATA ACT GAG AGA TTT. . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC. . .
m. N. . . D H L R GLIF T G Q G G L m. C I F T E R F. . . GAT CAC CTC ACT ACG GGT CAG GGC CTA AGG ATA ACT GAG AGA TTT. . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC. . .
? gène ? 1) « mapping » des étiquettes pb. algorithmique 2) « clustering » pb. statistique
- Slides: 48