Gnomique comparative Nadia El Mabrouk I Introduction Les

Génomique comparative Nadia El- Mabrouk

I. Introduction Les génomes évoluent par: – Mutations locales: Au niveau de la séquence; substitutions, insertions, suppressions de nuc. – Mutations globales: Au niveau du génome; insertions, suppressions, duplications, déplacements de gènes ou de fragments de chromosomes

Pour étudier les mutations globales: • Exploiter l’information contenue dans tout le génome. • Considérer la structure générale du génome (linéaire/circulaire, uni-chromosomique/multi-chromosomique). • Représenter un chromosome par un ordre de gènes (ou autres éléments constitutifs, ou blocs conservés). • Comparer deux génomes revient à comparer des ordres de gènes (ou des ordres de blocs).

Mutations globales Figure: Eichler et Sankoff, Science (2003) Conserved synteny blocks from the mouse genome (MGSCv. 3. 0) are overlaid on human chromosomes (April 2003, assembly). All conserved sytenic blocks >10 kb are shown.

Inversion: Transposition inversée:

Types de génomes 1. Génome circulaire a 1. Ordre des gènes signé 2. Non signé f g e c 2. Génome linéaire 1. 1 ou plusieurs chromosomes 2. Signé 3. Non signé b d +a -b -c +d +e -f -g

Types de mutations génomiques • Réarrangements Intra-chromosomales: - Inversion: a b c d e f g h i j a b -e -d -c f g h i j Origine possible: Erreur de réplication

§ Transposition: Segment supprimé et réinséré à un autre endroit dans le génome

Réarrangements inter-chromosomiques: • Translocation, fusion, fission Translocation réciproque: Fusion: Fission:

Translocation http: //smabiology. blogspot. com/

Opérations modifiant le contenu § Pertes (inactivation, dégradation, élimination). Origine possible: cross-over inégal –> duplication locale et suppression § Duplications (en tandem ou transposées) a b c d e a b a b c d e f g h a b c d e f b c d g h

Duplication, Délétion http: //www. daviddarling. info/encyclopedia/D/duplication. html

Duplication de génome Model of WGD followed by massive gene loss predicts gene interleaving in sister regions. From Manolis Kellis, Bruce W. Birren and Eric S. Lander; Nature 428, 617 -624, 2004

Duplication de génome Rice Chro num. 12 Brome Chro num. 5 Weat Chro num. 7 Sorghum Chro num. 10 Maize Chro num. 10

http: //www-etud. iro. umontreal. ca/~lafonman/MAGE 2013/program. php

II. Distance d’inversion Deux génomes G et H contenant les mêmes gènes mais dans un ordre différent. Distance d’inversion entre G et H: Nombre minimal d’inversions pour passer de G à H.

8 7 6 5 4 3 2 1 11 10 9 8 7 1 2 3 4 5 6 11 10 9 4 3 2 1 7 8 5 6 11 10 9 4 3 2 8 7 1 5 6 11 10 9 Réduction: Comment transformer une permutation en l’identité?

Bibliographie: • Kececioglu et Sankoff, 1993: Première heuristique, gènes non signés • Caprara 1997: Problème NP-difficile pour les gènes non signés • Hannenhalli et Pevzner, 1995: Algo polynomial pour les gènes signés • Kaplan, Shamir, Tarjan, 1999; Bader, Moret, Yan, 2001: optimisations, algo linéaire pour calculer la distance et quadratique pour trouver un scénario d’inv. • Bergeron 2001; Bergeron, Mixtacki, Stoye 2005: Représentations plus simples du problème • …

Points de cassure • Distance naturelle: Distance de points de cassures (Breakpoints) 1 5 6 3 2 4 7 Gènes non signés +1 +5 +6 +3 +2 +4 +7 Gènes signés • i i+1 ou –(i+1) –i : Adjacences • Sinon: Breakpoint.

Inversion • Une inversion d’un intervalle change l’ordre et le signe des gènes dans l’intervalle 0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -6 1 2 3 4 7 0 -5 -4 -3 -2 -1 6 7 0 1 2 3 4 5 6 7 5 inversions

0 3 1 6 5 -2 4 7 0 -5 -4 -3 -2 -1 6 7 • Une paire orientée est une paire consécutive de gènes de signes différents. • Algorithme simple: Choisir, à chaque étape, une paire orientée (pi, pj) – Si pi + pj = +1, (pi pi+1 …. pj-1)pj – Si pi + pj = -1, pi (pi+1 …. pj-1 pj) • Une inversion créant une adjacence agit nécessairement sur une paire orientée. Mais pas toujours possibles, et pas toutes équivalentes.

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -6 1 2 3 4 7 0 -5 -4 -3 -2 -1 6 7 0 1 2 3 4 5 6 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -6 1 2 3 4 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 1 6 5 2 3 4 7 Impossible de continuer

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -4 2 3 1 6 7 0 -1 -3 -2 -4 5 6 7 0 -1 -3 -2 4 5 6 7 0 -1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 6 inversions au lieu de 5: Pas minimal

Résultat, Bergeron 2001 • Le score d’une inversion est le nombre de paires orientées dans la permutation résultante. Algorithme: Choisir, à chaque étape, une paire orientée (pi, pj) de score maximal.

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -4 2 3 1 6 7 Score = 2 Score = 4

Résultat, Bergeron 2001 • Le score d’une inversion est le nombre de paires orientées dans la permutation résultante. Algorithme: Choisir, à chaque étape, une paire orientée (pi, pj) de score maximal. Théorème: Si Agorithme applique k inversions à une permutation p donnant lieu à une permutation p’, alors d(p) = d(p’) +k. Mais on est bloqué si on n’a pas de paire orientée!

Graphe de points de cassure, gènes non signés (Bafna 1995) • Décomposition maximale en c cycles alternés d’arcs disjoints • d(G, H): distance d’inversion; b: nb d’arcs noirs (gènes) d(G, H) ≥ b – c • Problème de la décomposition d’un graphe en un maximum de cycles disjoints: NP-difficile

Gènes signés – Graphe de Hannenhalli et Pevzner (1995) G = +1 +4 -6 +9 -7 +5 -8 +10 +3 +2 +11 -12 H = +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 t h +a h t -a Si génome non-circulaire, rajouter des bornes fictives

Nombre de cycles maximal lorsque les deux génomes sont identiques Inversions possibles: (A) Inversion sur deux arêtes de deux cycles différents (B) Inversion sur une paire non-orientée (ou convergentes) d’ arêtes (c) Inversion sur une paire d’arêtes orientées (ou divergentes)

Lien avec les paires orientées +1 +4 -6 +9 -7 +5 -8 +10 +3 +2 +11 -12 5 h 6 t 6 t 5 h

Cycle orienté Cycle non-orienté § {B, C, D} , {F} : Composantes orientées (bonne composante) § {A, E} : Composante non-orientée Cas général: d(G, H) ≥ b-c Si que des bonnes composantes: d(G, H) = b-c

§ Bonnes composantes: peuvent être résolues par b-c ``bonnes inversions’’ § Bonne inversion (safe): Inversion sur deux arêtes orientées, qui ne crée pas de mauvaise composante.

Mauvaises composantes • Composante B sépare A et C. • Non-obstacle: Mauvaise composante qui sépare deux mauvaises composantes • Obstacle (hurdle): Mauvaise composante qui ne sépare pas deux mauvaises composantes A B C

Forteresse • Un obstacle A protège un non-obstacle B si la suppression de A transforme B en obstacle. • Super-obstacle: Obstacle A qui protège un nonobstacle B B A Forteresse: Graphe qui contient un nb impair d’obstacles, tous des super-obstacles.

Résultat de Hannenhalli et Pevzner • • • d(G, H): distance d’inversions b(G, H): nb de gènes c(G, H): nb de cycles du graphe h(G, H): nb d’obstacles f(G, H): 1 si le graphe est une forteresse, 0 sinon. d(G, H) = b(G, H)-c(G, H)+h(G, H)+f(G, H)

Résolution des obstacles: Deux opérations: • Fusion: Un cycle de moins, mais un obstacle de moins • Coupure: Même nb de cycles, mais un obstacle de moins.

Algorithme HP: 1. Si G contient h(G, H) obstacles 2. Si h(G, H) est pair 3. Considérer des paires d’obstacles non consécutifs, et les fusionner deux à deux; 4. Si h(G, H) est impair et il existe un obstacle simple O 5. Couper O; 6. Fusionner deux à deux les obstacles restants; 7. Sinon (forteresse) 8. Fusionner deux à deux les obstacles non-consécutifs 9. (si possible), et couper le dernier obstacle restant; 10. Pour chaque bonne composante C faire 11. Résoudre C en choisissant une inversion sûre à chaque étape.

• Une inversion est bonne si D(b-c+h+f)=-1 • L’algorithme n’effectue que des bonnes inversions: – Inversion sure: D(c)=1; D(h)=0; D(f)=0; donc D(b-c+h+f)=-1 – Fusion de deux obstacles: D(c)=-1; D(h)=-2; D(f)=0; donc D(b-c+h+f)=-1 – Coupure d’un obstacle: D(c)=0; D(h)=-1; D(f)=0; donc D(b-c+h+f)=-1 – Coupure du dernier obstacle de la forteresse: D(c)=0; D(h)=0; D(f)=-1; donc D(b-c+h+f)=-1

Complexité • Construire la structure, trouver les cycles et les composantes, déterminer leurs orientations: temps O(n 2) => trouver la distance d’inversion en O(n 2) • La partie la plus coûteuse: résolution des bonnes composantes. Méthode brutale: Essayer toutes les inversions (n 2) et vérifier le graphe obtenu. Effectuer ce travail d(G, H) fois => O(n 5)

Alternative à la représentation par graphe HP – Bergeron 2005 • Intervalle élémentaire: Pour chaque paire (k, k+1) intervalle Ik dont les deux extrémités sont: – Droite de k si positif, et gauche sinon; – Gauche de k+1 si k+1 est positif, droite sinon 0 -2 -1 4 3 5 -8 6 7 9 I 0

Alternative à la représentation par graphe HP – Bergeron 2005 • Intervalle élémentaire: Pour chaque paire (k, k+1) intervalle Ik dont les deux extrémités sont: – Droite de k si positif, et gauche sinon; – Gauche de k+1 si k+1 est positif, droite sinon 0 -2 -1 4 3 5 -8 6 7 9 I 0 I 1

Alternative à la représentation par graphe HP – Bergeron 2005 • Intervalle élémentaire: Pour chaque paire (k, k+1) intervalle Ik dont les deux extrémités sont: – Droite de k si positif, et gauche sinon; – Gauche de k+1 si k+1 est positif, droite sinon 0 -2 -1 4 3 5 -8 6 7 9 I 0 I 2 I 5 I 1 I 3 I 6 I 7 I 4 I 8

Intervalles orientés • Adjacence: Intervalle vide. • Si paire orientée, alors intervalle orienté. Sinon, intervalle non-orienté. • Les seules inversions créant une nouvelle adjacence sont celles agissant sur des intervalles orientés. 0 -2 -1 4 3 5 -8 6 7 9 I 0 I 2 I 5 I 1 I 3 I 6 I 7 I 4 I 8

Les cycles • On dit que deux intervalles qui partagent une même extrémité se rejoignent à ce point. • Exactement deux intervalles se rejoignent à chaque point de cassure. • Un cycle est une séquences b 1, b 2, … bk de points tels que deux points successifs sont les points de rencontre de deux intervalles (sauf les deux extrémités). 0 -2 -1 4 3 5 -8 6 7 9 I 0 I 2 I 5 I 1 I 3 I 6 I 7 I 4 I 8

Les cycles • On dit que deux intervalles qui partagent une même extrémité se rejoignent à ce point. • Exactement deux intervalles se rejoignent à chaque point de cassure. • Un cycle est une séquences b 1, b 2, … bk de points tels que deux points successifs sont les points de rencontre de deux intervalles (sauf les deux extrémités). 0 -2 -1 4 3 5 -8 6 7 9 I 0 I 2 I 5 I 1 I 3 I 4 I 8 I 6 I 7

Les cycles • Ce sont les mêmes que les cycles du graphe HP I 0 I 2 I 1 I 8 I 4 I 3 I 5 I 7 I 6 0 -2 -1 4 3 5 -8 6 7 9 I 0 I 2 I 5 I 1 I 6 I 7 I 3 I 4 I 8

Les cycles • Une inversion modifie de -1, 0 ou 1 le nombre de cycles. • L’objectif est d’obtenir que des cycles d’un seul sommet, donc n cycles (où n est le nombre de gènes). Si on en a c au départ, alors: nombre d’inversion est d’au moins n-c 0 -2 -1 4 3 5 -8 6 7 9 I 0 I 2 I 5 I 1 I 3 I 4 I 8 I 6 I 7

Les composantes • Une composante (aussi appelée sous-permutation « sub -permutation » ) est un intervalle de i à i+j pour un certain j (ou de –(i+j) –i) dont les éléments sont {i, i+1, … i+j}, et qui n’est pas l’union de composantes. 2 composantes. 0 -2 -1 4 3 5 -8 6 7 9 I 0 I 2 I 5 I 1 I 3 I 4 I 8 I 6 I 7

Les composantes • Deux composantes sont soit disjointes, soit emboîtées avec des extrémités différentes, soit chevauchantes sur un élément. • Par définition, posons qu’un point p. q appartient à la plus petite composante contenant à la fois p et q. Alors, tous les points d’un cycle appartiennent à la même composante. 0 -3 1 2 4 6 5 7 -15 -13 -14 -12 -10 -11 -9 8 16

Les composantes • Un breakpoint p. q est positif si p et q sont positifs et négatif si p et q sont négatifs. Une composante est non-orientée si elle contient des breakpoints et tous sont du même signe. Sinon, la composante est orientée. I 0 I 2 I 1 I 8 I 4 I 3 I 5 Orientées I 7 I 6 0 -2 -1 4 3 5 -8 6 7 9 I 0 I 2 I 5 I 1 I 6 I 7 I 3 I 4 I 8

Les composantes • Deux composantes chevauchantes sont dites jointes. Des composantes jointes forment une chaine. Une chaine maximale ne peut pas être prolongée. 0 -3 1 2 4 6 5 7 -15 -13 -14 -12 -10 -11 -9 8 16

Les composantes représentées en PQ-tree • TP définit pour permutation P comme suit: – Chaque composante est représentée par un nœud rond; – Chaque chaine maximale par un nœud carré dont les nœuds (ordonnés) sont les composantes de la chaine; – Un nœud carré est le fils de la plus petite composante contenant la chaine. • Pour une permutation avec deux extrémités fixes, TP est un arbre enraciné en un nœud carré.

0 -3 1 2 4 6 5 7 -15 -13 -14 -12 -10 -11 -9 8 16 (0… 4) (-15…-12) (1… 2) (o) (0… 4) (4… 7) (7… 16) (n) (4… 7) (o) (1… 2) (o): orienté; (n) non-orienté (-12…-9) (n) (-15…-12) (7… 16) (o) (-12…-9) (n)

Les composantes • Si une C composante est non-orientée, aucune inversion avec les deux extrémités dans C ne peut augmenter le nombre de cycles. • Si C est non-orientée, une inversion d’un intervalle élémentaire dont les deux extrémités sont dans C oriente C et ne change en rien le nombre de cycles. • Une inversion dont les deux extrémités sont dans deux composantes différentes A et B affecte uniquement les composantes qui sont sur l’unique chemin qui relie A à B dans TP.

Résultats – Bergeron 2001 • Le score d’une inversion est le nombre d’intervalles élémentaires orientés dans la permutation résultante. Théorème: L’inversion d’un intervalle élémentaire orienté de score maximal ne crée pas de composante non-orientée. Corollaire: Si la permutation P n’a pas de composante non-orientée et c cycles, alors d(P) = n-c

Résultats – Bergeron 2005 • Def: Une couverture C de TP est un ensemble de chemins joignant les composantes non-orientées de P, tel que chaque nœud terminal n’appartient qu’à un seul chemin. • Résultat: Une couverture correspond à un ensemble d’inversions permettant d’orienter toutes les composantes de P. • Def: Un chemin contenant plus d’une composante est long: score 2; Un chemin contenant une seule composante est court: score 1. • Def: Une couverture optimale est une couverture de score maximal: Score t.

Résultats – Bergeron 2005 • Théorème: d(P) = n-c+t d(P) peut-être calculé en temps O(n).

III. Inférence d’ordres ancestraux ? ? E 1 ? E 2 E 3 E 4

a b a c b c a b a b a c a b E 1 a –a –b c a b E 2 a b a c b c E 3 a b a –b –c c E 4

Méthode • Approche globale: Basée sur la notion de distance (réarrangement, breakpoint, DCJ…). Trouver les génomes ancestraux qui permettent de minimiser la somme des distances des arêtes de l’arbre. • Différentes versions ont été publiées: BPAnalysis de Blanchette et Sankoff, GRAPPA de Moret…)

Approche globale Méthode générale de Sankoff 1996 • Méthode générale: • Commencer par un ordre initial « raisonnable » des nœuds internes; • Assigner un nouvel ordre à chaque nœud interne, par un calcul de la médiane des trois génomes adjacents au nœud considéré; • Continuer un nombre fixé de fois ou jusqu’à convergence. Étant donnée une distance d et trois génomes G 1, G 2, G 3, la médiane des trois génomes est un génome G minimisant d(G, G 1)+d(G, G 2)+d(G, G 3)

W W Y Y Amélioration de X X A B W Amélioration de Y X A C Y B C X A B C I 7 I 6 I 4 I 5 I 2 I 1 A B C D I 3 E F G H

Calcul de la médiane • Même contenu en gènes, gènes uniques, distance des points de cassure (BP): NP-difficile pour des permutations signées ou non, circulaires (Pe’er et Shamir 1998) ou linéaires (Bryant 1998) • Meilleures heuristiques bornées: 7/6 pour permutations signées (Pe’er et Shamir 2000) et 5/3 pour permutations non signées (Caprara 2002) • Algorithme exact proposé par Blanchette et Sankoff, 1998: Réduction au problème du commis voyageur. Étendu à des génomes contenant des gènes différents (Sankoff et Bryant 2000).

Calcul de la médiane Algorithme de Blanchette et Sankoff 1998 1 A: 1 3 4 2 5 B: 1 4 5 3 2 C: 1 2 3 4 5 1 1 2 5 2 2 1 1 4 1 1 3 1 1 4 1 3 • Poids d’une arête: nb de génomes où les gènes ne sont pas voisins. • Trouver un chemin de poids minimal passant par chaque sommet une unique fois • Problème du commis voyageur (Traveling Salesman Problem, ou TSP). Peut-être résolu en temps O(n 2 2 n). Mais plusieurs heuristiques efficaces existent.

Calcul de la médiane Distance d’inversion • • Étudié uniquement dans le cas de permutations signées. Introduit par Sankoff et Kececioglu, 1996 NP-difficile, même pour 3 génomes (Caprara 1999) Caprara 2001 combine les stratégies branch-and-bound et divide-and-conquere sur une généralisation du graphe des BP. • Moret et. al 2001 recherchent l’espace des réarrangements par une stratégie branch-and-bound. Implémenté dans GRAPPA. • Bourque et Pevzner 2002 utilisent une stratégie « gready »