Gnralits sur le gnome Gnome Ensemble du matriel

Généralités sur le génome Ø Génome: Ensemble du matériel génétique d’une espèce (ADN + protéines) Ø Le génome a été cartographié et séquencé ØCartographie de liaison ou physique consiste à établir des distances - Génétiques entre les marqueurs en exploitant le pourcentage de recombinaison à la meiose • Le marqueur idéal est un marqueur tres polymorphe, présent à l’état hétérozygote et si possible codominant • Les marqueurs phénotypiques sont peu polymorphes et rarement codominants • Les marqueurs moléculaires sont nombreux, polymorphes, codominants et requièrent les techniques de biologie moléculaire pour etre détectés • Permet de localiser les marqueurs et les gènes d’interet ou des régions associées à un marqueur phénotypique (recherche des gènes candidats) - Les cartes physiques permettent d’établir des distances physiques entre les gènes en pbs, méga, giga ou Kbs

Généralités sur le génome Ø Cartographie génétique chez l’homme : Haplotype et déséquilibre de liaison - L’haplotype est une combinaison d’allèles de gènes préférentiellement associés sur un meme chromosome - L’haplotype traduit le fait que certaines mutations SNP sont préférentiellement associées dans la population= Déséquilibre de liaison - Applications exemple génotypage rapide du risque d’etre porteur de l’allèle Δ 508 du gène CFTR associé à la mucoviscidose par RFLP - Le projet Hap. Map : projet international de la carte d’haplptype du GH - Application : Etudes de liaison et études d’association - La carte Haplotype du génome humain a permis la découverte de gènes associés à des maladies complexes - Les maladies complexes sont souvent causées par des variations communes dans la population - On estime qu’il existe dans le GH plus de 7 millions de variations communes (fréquence>5% de la population). La plupart des variations sont des SNP

Généralités sur le génome ØMarqueur génétique ou moléculaire - Séquence d’ADN repérable spécifiquement - En cartographie, le marqueur est utilisé pour « baliser » le génome - La détection d’un marqueur peut s’effectuer par hybridation avec une sonde ou par expression phénotypique - Il existe plusieurs types de marqueurs: RFLP, SNP, microsatellites, VNTR, minisatellites, gènes… Ø Les SNP (Single Nucleotide Polymorphism) - Est un polymorphisme stable qui constitue la forme la plus abondante de variations génétiques dans le GH (plus de 90% de toutes les différences entre individus/ populations) - Deux génomes pris au hasard ne présentent que 0, 1% de variation de séquence, plus de 90% de ces variations sont des SNP ou snips - Sur les 3 milliards de pbs, 3 à 4 millions diffèrent entre 2 individus pris au hasard - Les autres variations sont des insertions/déletions et translocations

Généralités sur le génome Ø SNP - Mutations ponctuelles isolées - Variation du génome par une seule base tout les 100 -300 b du génome - Ces variations sont associées • à la diversité génétique entre populations/individus différents • Une différence de sensibilité aux maladies à hérédité complexe (cancers, asthme, diabète…) • Une différence de réponse individuelle aux médicaments (susceptibilité individuelle aux médicaments) - Localisations possibles des SNP: • Zone codante (silencieuse, faux-sens, non-sens) • Zone non codante (pas de conséquence sur le plan phénotypique) - Situés sur la totalité du génome, les SNP représentent autant de marqueurs essentiels pour la localisation des gènes surtout ceux impliqués dans les maladies - Recherche de causalité entre un gène et une maladie à l’intérieur d’une famille

Généralités sur le génome Ø SNP Consortuim - Crée en 1999 - Alliance entre l’industrie pharmaceutique et des laboratoires de génomique publics pour financer une carte de marqueurs SNP librement accessible aux chercheurs - Des cartes SNP ont été établies, et la banque de données propose 1, 8 millions de SNP - Une carte SNP a plusieurs applications: • Identifier des groupes à risque pour une pathologie • Recruter des patients pour des essais cliniques en fonction non pas des symptomes mais de la prédisposition génétique • Tres précieuse en pharmacogénomiqe (réponse aux médicaments sur la base du profil SNP)

• • • Généralités sur le génome La détection des SNP se fait par : Séquençage direct (PCR) RFLP (digestion enzymatique, Southern blot) A plus grande échelle (Puces à ADN) ØRFLP ( Restriction Fragment Lenght Polymorphism) - Variation entre deux génomes dans le profil d’ADN obtenu après coupure par divers enzymes de restriction (carte de restriction) - Polymorphisme de taille des fragments de restriction - Variation de séquence (cartes génétiques et physiques) - SNP (abolition ou création d’un site de restriction)

Généralités sur le génome Ø Polymorphisme - Toute variation de séquence génomique entrainant l’existence au meme locus d’au moins 2 formes différentes de la séquence = Allèles (fréquence d’au moins 1% dans la population) - Le polymorphisme peut se détecter au niveau phénotypique ou au niveau chromosomique ou moléculaire: • SNP: substitution d’un nucléotide • Polymorphisme de répétitions • Insertion/Déletion ou Inversion ØPolymorphisme de répétitions en tandem - Séquences dont le nombre de répétitions varie d’un individu à l’autre - Polymorphisme de longueur - VNTR (Variable Number Tandem Repeats) ou minisatellite, motif répété 11 -16 pbs - STR (Short Tandem repeats) ou microsatellite, motif répété 2 - pbs - Mise en évidence par PCR et Southern blot

Généralités sur le génome ØApplications - Etudes de liaison (au niveau des familles) Le déséquilibre de liaison vise à mesurer une différence de fréquence allélique entre un groupe témoin/groupe cas) - Etudes d’association (au niveau de la population) Certains minisatellites sont associés à des maladies - Diabète et minisatellite 5’ du gène de l’Insuline - Troubles du comportement et VNTR du HLA DRD 4 - Empreinte génétique - Profil spécifique d’un individu obtenu grace à une combinaison de marqueurs de type VNTR et plus particulièremnt des minisatellite tres informatifs ou en associant plusieurs microsatellites - Interets: En médecine légale, criminologie, identification des restes d’individus, tests de paternité

Organisation du génome humain Ø Organisation physique - Nucléosomes, Chromatine, hétérochromatine, euchromatine, Chromosomes (origine de réplication, télomère, centromère) - Les gènes sont présents dans un génome diploide en 2 exemplaires (allèles) - Il y a quelques gènes répétés (ARNr, histones…), ce sont des gènes dont les produits sont necessaires en grande quantité - La distribution des gènes sur un chromosome semble etre aléatoire, cependant: - Des gènes peuvent etre regroupés pour une régulation d’expression coordonnée - Des régions pauvres en gènes ( centromères) - Des régions dépourvues de gènes ( télomères)

Organisation du génome humain Ø Caryotype est un arrangement standard des chromosomes métaphasiques d’une cellule à partir d’une vue microscopique. • Les chromosomes sont photographiés et disposés selon un format standard : - Par paire - Classés par taille + position du centromère • Donne le sexe et révèle les aberrations chromosomiques Ø Banding consiste à colorer des segments d’ADN (identifier les chromosomes et les différents segments) • Les régions riches en gènes sont également riches en nts GC, les régions riches en AT sont pauvres en gènes. Ces différentes régions peuvent etre visualisées • Respectivement les bandes R clairs et bandes G sombres • Dans le cas de cancers ou des syndomes de malformations, on peut déceler par exemple les réarrangements.

Organisation du génome humain Ø Génome humain (3200 Mb) • • • ADN hautement répété ( ADN satellite, STR, VNTR) Répété en tandem N’est pas codant 10 -15% du GH ADN hétérochromatique (centromères et télomères) ADN moyennement répété ADN dispersé En grande majorité non codant 25 -40% du GH Motifs de 100 -1000 pbs dispersés dans le génome Séquences Alu, LINE, SINE…. Séquences codantes : gènes présents en plusieurs copies (jusqu’à 200 copies) exp: qui codent pour l’ARNr sur les chms 13, 14, 15, 21, 22 - ADN non répété : séquences uniques gènes Plus la complexité d’un organisme augmente plus la quantité d’ADN répété augmente

Caractéristiques du génome humain Ø PGH ( Projet du Génome Humain) ou Hu. GO (Human Genome Organisation) - A commencé en 1990 sous la direction de James Watson - Projet lancé en Suisse par la communauté scientifique pour le séquençage du GH - Consortuim mondial de 20 institutions publiques ont divisé le travail - Une dizaine de donneurs anonymes dont l’ADN a été prélevé par deux laboratoires américains et distribué aux différentes équipes à travers le monde - Les premières années ont été consacrées à la cartographie - Le séquençage proprement dit n’a commencé qu’en 1998 pour s’achever en 2003( avec 2 ans d’avance) - Les 1 ers résultats mis en accès libre pour les scientifiques sur internet - La version complète à 99, 9% de la séquence du GH accessible en ligne - La partie séquencée correspond à l’euchromatine (2, 9 milliards de l’ADN) - Le 1% non séquencé est de l’ADN hautement répété (hétérochromatine)

Caractéristiques du génome humain Ø Bilan du PGH: 1 génome= 100 tonnes, 1 tonne=500 pages, 1 page=300 bases - 3 milliards de pbs - 0, 1% de variabilité entre les génomes humains - 5% de séquences codantes - 50% éléments transposables (Line et Alu) - 25 -30000 gènes ( on avait prédit 50 -100000 gènes) - >40% des gènes identifiés à fonction inconnue - Les gènes ne sont pas uniformément distribués : • Le chromosome 19 a la plus forte densité génique • Le chromosome 13 et Y sont de faible densité génique - L’organisation des gènes sur les bras longs des chromosomes 21 et 22 montre une différence de densité génique pour une longueur similaire: • 49, 9 Mb sur le chm 21=337 gènes (1 gène/140 Kb) • 49, 5 Mb sur le chm 22=693 gènes (1 gène/70 Kb)

Caractéristiques du génome humain Ø Bilan du PGH: 1 génome= 100 tonnes, 1 tonne=500 pages, 1 page=300 bases - Les gènes humains sont les plus grands et contiennent le plus d’introns et les plus grands introns/invertébrés: • Nombre d’introns varie de 0(histones)-234 (Titine une protéine musculaire) • Le plus grand gène humain est celui qui code la Dystrophine (2, 5 Mb) • Plus les organismes sont élaborés, plus leurs gènes contiennent des introns. Les memes protéines chez des espèces différentes ont des roles semblables et sont codées par le meme ARNm mais par des gènes « analogues » , cad des gènes qui comportent les memes exons mais diffèrent par les introns et leur longueur. Exemple : pour un meme gène, on peut trouver 0 intron chez la levure, 5 -50 chez l’homme. - Les bases A, T, C et G ne sont pas équireprésentés : 59, 7% AT - Les regions riches en GC sont riches en genes - Les régions riches en AT pauvres en gènes

Génome-Transcriptome-Protéome Les gènes codants des protéines ont été prédits grace à l’analyse informatique des données du séquençage, par comparaison de séquences : aux EST( séquences complémentaires de messagers) , séquences de protéines et des programmes de prédiction tel que GENESCAN grace à certains caractéristiques des gènes : • ORFs : partie d’un cadre de lecture susceptible d’encoder une protéine ou un peptide ( au moins 100 codons après le début et avant le codon stop). La lecture de la séquence codant une protéine, se produit par groupe de 3 nucléotides (codon). Il existe 3 façons de lire une séquence donc 3 ORFs (en débutant par le 1 er ou 2ème ou 3ème nucléotide). Puisque l’ADN est double brin, et seul un des deux brins est transcrit, donc nous avons 6 ORFs potentiels. • Caractéristiques des bordures exons-introns. La plupart des introns commencent par la séquence consensus 5’ GU (site donneur lors de l’épissage) et finissent par la séquence consensus AG 3’(site accepteur lors de l’épissage), et une séquence riche en pyrimidines ( C et U) en amont du site AG. • Composition en bases : Le génome est une mosaique de régions de diverses compositions en ( G+C) qu’on appelle les « isochores » : riches, peu riches et pauvres ( bandes R et G). Les régions riches en GC sont riches en gènes.

Génome-Transcriptome-Protéome • Le nombre de gènes humains estimé actuellement à environ 25 à 30 000 gènes seulement. Ce nombre est à peine plus grand que celui du nombre de gènes de la souris et inférieur à celui du riz ! • 100. 000 ARNSs et ARNnc • La complexité de notre génome ne découle pas du nombre de gènes, mais de ses mécanismes de fonctionnement. L’un des principaux mécanismes est l’épissage alternatif. Ce mécanisme contribue à cette complexité par le fait que la structure en mosaique de nos gènes, permet à la cellule de produire plusieurs protéines différentes à partir d’un seul et meme gène. • En moyenne 1 gène produit 3 ARN différents en changeant les différentes combinaisons des exons, lors de la maturation du prémessager. 2/3 des ARNs intervenant dans la synthèse des proteines subissent ce mécanisme. • Un grand nombre de gènes non comptabilisés dans les 25000 prédits ne codent pas de protéines, mais sont transcrits en ARNs non codants. Ces ARNs constituent plus du 1/3 des ARNs présents dans le cytoplasme. • Une grande partie de ces ARNs dont la taille est inférieur à 100 pbs, donnent de petits ARNs régulateurs, mi. ARN (250 -300 connus chez l’homme actuellement). • Certains gènes codent des ARNs non codants de grande taille. C’est le cas du gène Xist situé sur le chromosome X. Dans les cellules femelles ce gène déclenche l’inactivation d’un des chromosomes X homologues dès le début le la vie embryonnaire. • 1 gène= 2 -3 ARNs différents, 1 ARN= 5 -10 protéines différents (modifications post-traductionnnelles)

Génome-Transcriptome-Protéome • Les « omiques » sont des approches complémentaires - Génomique structurale: Analyse de la fonction des gènes et autres parties du génome - Génomique fonctionnelle: Analyse de la fonction des gènes et autres parties du génome. Inclut aussi la transcriptomique (analyse du transcriptome) - Protéomique: Analyse du protéome • La transcriptomique et la protéomique contribuent aussi à l’annotation des gènes et l’identification des séquences informatives. • Ces études utilisent les outils de la biologie moléculaire afin de décrire et comprendre - Le fonctionnement biologique d’un organisme - Les causes, au cœur du génome, de l’expression et de la variabilité observée • On peut distinguer les études : structurales et fonctionnelles pour chaque omique: - Génomique: - Séquençage (séquençage à haut débit et puces à ADN) - Annotation : caractériser les portions importantes des séquences (gènes, séquences régulatrices…) - Répertorier la variabilité de l’ADN (SNPs et autres) - Etudes d’association

Génome-Transcriptome-Protéome • La transcriptomique: - Etudes ciblées à 5% du génome (la portion codante) - Banques d’ADNc issues de différents tissus - Annoter les gènes - Lieu de leur expression (tissus) - Niveaux de leur expression (Microarrays) - Etudes comparées de la transcription des gènes o Chez des individus différents o Dans des conditions d’environnement différentes Dans le but de caractériser de façon physiologique une voie métabolique

Les « omiques » et maladies (exemple maladies cardiovasculaires) • Les « omiques » (génomique, transcriptomique, protéomique, métabolomique) permettent de caractériser les variations de l’expression des gènes, des ARNs, des protéines et des métabolites associés à une pathologie, de façon précise, par comparaison contrôles/cas (analyse comparative entre echantillons. Exemple: Maladies cardiovasculaires (sang, serum, plasma…) • Permettent la caractérisation d’un type cellulaire, d’un état et aussi la comparaison de deux états, afin de - Recher des biomarqueurs (marqueurs biochimiques ou moléculaires d’un processus biologique, physiologique ou pathologique) ou de la réponse pharmacologique à un traitement. - Etablir de nouveaux mécanismes physio-pathologiques - Identifier de nouvelles cibles thérapeutiques (nutrigénomique, pharmacogénomique, toxicogénomique) Exemple: les biomarqueurs cardiovasculaires circulant dans le sang, sont utilisés pour améliorer la prise en charge de la pathologie, prédire son risque de survenue, la dépister précocement, établir un diagnostic précis, pronostic et réponse au traitement, surveiller l’évolution …

Génomique et Maladies cardiovasculaires - Etudes de test par association sur le génome entier GWA (Genome Wilde Association) en utilisant des tags SNPs pour identifier les gènes de prédisposition sur de grandes cohortes (au moins 3000 cas/3000 témoins) Exemple: L’étude de l’analyse de la variabilité du génome de milliers de victimes d’infarctus a révélé une combinaison de polymorphismes de 3 gènes adjacents au chm 6 associés à une augmentation significative d’infarctus du myocarde. Considérés séparément, ces polymorphismes ne sont pas associés à la maladie. 2 des gènes ainsi identifiés, codent pour des lipoprotéines jouant un role dans le métabolisme du cholestérol, mais dont le role dans l’infarctus du myocarde n’est pas bien établi.

Transcriptomique et Maladies cardiovasculaires • La transcriptomique détermine le profil d’expression des gènes et donc une classification des patients avec identification de marqueurs utiles au pronostic et au traitement. • Cette approche est limitée par la disponibilité du tissu cardiaque, d’où l’utilisation de cultures cellulaires de cardiomyocytes pour criblage. Exemple: Identification de biomarqueurs à partir de plaquettes circulants tels que la protéine MRP-14 chez les individus atteints de pathologies cardiovasculaires Un taux élevé de MRP-14 et protéine C est associé à un risque élevé de mort cardiovasculaire ou infarctus du myocarde/patients avec des taux plus faibles de ces marqueurs. * Etude des micro. ARNs : ce sont des ARNs non codant de 22 nts qui régulent 30% des gènes. A l’heure actuelle, 695 mi. ARN humains ont été identifiés.

Protéomique/Métabolomique et Maladies cardiovasculaires • La protéomique est une approche complémentaire à la transcriptomique. Exemple: Les études sur le remodelage du ventricule après infarctus ont révélé une expression plus abondante de variants post-traductionnels de la chaine α 1 de l’haptoglobine chez les patients présentant un fort remodelage, et une expression plus abondante de l’Hb chez les patients ne remodelant pas • La métabolomique est complémentaire à la protéomique. Le métabolome humain estimé à 3000 métabolites - Analyse de substances biochimiques telles que les lipides, les sucres, nucléotides, acides aminés (< 3000 Da) - Reflètent le statut d’une cellule ou un organe à un moment donné Exemple: Etude du sérum de patients atteints d’insuffisance cardiaque a révélé la présence de plusieurs métabolites tels que la pseudouridine et 2 - oxoglutatrate

Epigénétique et Maladies ØLes cellules contiennent la meme information génétique, elles n’en font visiblement pas toutes le meme usage: une cellule de la peau ne ressemble pas à un neurone; une cellule du foie n’a pas la meme fonction qu’une cellule du cœur; deux jumeaux ne sont pas toujours parfaitement identiques… • L’épigénétique définit comment les gènes sont utilisés par une cellule ou ne le sont pas • C’est l’étude des changements dans l’activité des gènes sans modifier des séquences d’ADN et pouvant etre transmis lors des divisions cellulaires • Ces changements , contrairement aux mutations, sont réversibles Ø Un gène est dit « actif » , lorsqu’il s’exprime (une synthèse a lieu). Mais il existe différents niveaux d’expression entre « actif » et « éteint » : tres actif, sur-exprimé (synthèse importante) et partiellement réprimé (synthèse faible)

Epigénétique et Maladies Ø Ces changements peuvent etre aussi liés à l’environnement: les modifications épigénétiques sont induites par l’environnement au sens large • Différents signaux pour : - Différenciation cellulaire au cours du développement embryonnaire - Ou juste ajuster l’activité à la situation • Signaux liés à notre comportement: Alimentation, Tabagisme, Stress Ø Ces modifications peuvent etre transitoires ou perennes (persistent lorsque le signal qui les a induit disparait) Ø Ces modifications (marques biochimiques) sont apposées par : • Des enzymes sur l’ADN : variations de l’accès des complexes protéiques pour la transcription (méthylation de l’ADN) • Ses protéines histones : variations du niveau de compactage par modifications post-traductionnelles des histones ( code histones) , afin de favoriser ou limiter l’accès aux gènes - Hétérochromatine correspond à des régions tres compactées (gènes non exprimés) - Euchromatine correspond à des zones accessibles aux complexes protéiques permettant l’expression des gènes * D’autres systèmes de régulation épigénétique existent, en particulier ceux qui mettent en jeu des petites molécules d’ARN.

Epigénétique et Maladies Ø La régulation épigénétique permet le bon déroulement de différents processus cellulaires : division cellulaire, différenciation cellulaire, survie, mobilité …. Ø Les anomalies épigénétiques contribuent au développement et à la progression de maladies et cancers (altération de la régulation épigénétique) • Cancers: Transformation de cellules saines en cellules cancéreuses à cause de : o Anomalies épigénétiques : Activant les oncogènes et/ou inhibant les suppresseurs de tumeurs o Mutations affectant des gènes codant des enzymes responsables du marquage épigénétique (identifiées dans les cellules tumorales) • Syndromes héréditaires: exemple ICF (Immunodeficiency Centromeric region instability Facial anomalies) du à une instabilité de l’hétérochromatine, liée à des mutations de genes codant les ADN methylases • Maladies complexes et multifactorielles: - Maladies neurodégénératives (Alzheimer, Parkinson…) - Maladies métaboliques (Obésité, Diabète de type 2…) • Des liens existent entre diverses expositions au cours de la vie intra-uterine (ou fécondation) et la survenue de maladies chroniques à l’age adulte. Exemples: - Des erreurs épigénétiques durant le développement embryonnaire, peuvent conduire à la formation d’un nombre insuffisant de nephrons ou de cellules β du pancréas, ce qui augmente de manière significative le risque de HTA ou diabète à l’age adulte.

Epigénétique et Maladies Ø De la meme manière qu’on peut obtenir la séquence du GH, il est possible de connaitre l’ensemble des modifications épigénétiques qui le caractérise: Epigénome et donc faire le lien entre les maladies et l’épigénome Ø Les modifications épigénétiques , contrairement aux mutations, sont réversibles et donc les erreurs de marques épigénétiques associées à des maladies peuvent etre corrigées Ø Les épidrogues ou épimédicaments sont des molécules qui agissent sur mécanismes épigénétiques pour les corriger et éliminer les marquages. Il existe pricipalement deux familles de molécules: • Inhibent la méthylation de l’ADN (inhibiteurs des ADN méthyltransférases) • Ciblent la modification des histones (inhibiteurs des déacétylases d’histones)
- Slides: 26