1 LADN et linformation gntique lADN linformation gntique

  • Slides: 40
Download presentation
1. L’ADN et l’information génétique

1. L’ADN et l’information génétique

l’ADN l’information génétique est contenue dans l’ADN (ADN) A G T (ARN) C U

l’ADN l’information génétique est contenue dans l’ADN (ADN) A G T (ARN) C U

traduction l’information génétique est organisée par triplets (codons)

traduction l’information génétique est organisée par triplets (codons)

le code génétique 1 triplet = 1 codon = 3 lettres = 1 acide

le code génétique 1 triplet = 1 codon = 3 lettres = 1 acide aminé

le gène unité de l’information génétique gène introns : non codants exons : codants

le gène unité de l’information génétique gène introns : non codants exons : codants

le gène unité de l’information génétique gène

le gène unité de l’information génétique gène

le génome organisation de l’information génétique chez la bactérie : Escherichia Coli 4938920 bps

le génome organisation de l’information génétique chez la bactérie : Escherichia Coli 4938920 bps 4732 gènes

le génome organisation de l’information génétique chez l’homme : • 3 milliards de pbs

le génome organisation de l’information génétique chez l’homme : • 3 milliards de pbs • ~20000 gènes • < 2 % d’ADN codant ! codant non codant pseudogènes séquences répétées

le génome pourcent d’ADN non codant et « complexité » des organismes quantité d’ADN

le génome pourcent d’ADN non codant et « complexité » des organismes quantité d’ADN codant en fonction de la taille du génome

ADN codant et non codant en résumé : ADN « poubelle » exons introns

ADN codant et non codant en résumé : ADN « poubelle » exons introns pourquoi autant d’ADN non codant ? peut-on en comprendre le rôle ?

2. étudier les séquences d’ADN approche « déterministe » : comparaison entre séquences /

2. étudier les séquences d’ADN approche « déterministe » : comparaison entre séquences / alignement de séquences : • recherche de gènes • recherche de similarités entre espèces - évolution • recherches de motifs répétés - régulation, organisation approche statistique : à la recherche de caractéristiques « globales » : • différencier les régions codantes et non codantes • recher un « ordre » dans le désordre apparent…

analyse statistiques des séquences qu’est-ce qui différencie les séquences d’ADN de simples séquences aléatoires

analyse statistiques des séquences qu’est-ce qui différencie les séquences d’ADN de simples séquences aléatoires ? mesurer l’ordre dans l’ADN 1. information mutuelle 2. fonction de corrélation / densité spectrale de puissance 3. techniques basées sur la « marche ADN » 4. …

de la séquence symbolique à une séquence numérique choisir un code binaire : par

de la séquence symbolique à une séquence numérique choisir un code binaire : par exemple double liaison A hydrogène T triple liaison hydrogène ou purines pyrimidines G C A G T C +1 -1 on peut donc étudier la variable numérique binaire n = 1 où n = position on obtient : n=1 2 3 4 5 6 7 8 9 10… A T C G G T C A T +1 A… = +1 +1 -1 -1 -1 +1 +1 +1… -1 n

le signal n (ADN) signal aléatoire signal déterministe signal corrélé

le signal n (ADN) signal aléatoire signal déterministe signal corrélé

3. fonction de corrélation et densité spectrale de puissance (DSP) T xx( ) Sxx(

3. fonction de corrélation et densité spectrale de puissance (DSP) T xx( ) Sxx( f ) 1/T

fonction de corrélation soit (t) signal aléatoire fonction du temps t, stationnaire : 1.

fonction de corrélation soit (t) signal aléatoire fonction du temps t, stationnaire : 1. on peut définir la fonction de corrélation de (t) 2. si « ergodique » , on peut remplacer la moyenne d’ensemble par une moyenne sur le temps : chaque t 0 initial considéré comme une nouvelle réalisation

fonction de corrélation Signal temporel Périodicités cachées Signal musical (Strauss) : La fonction de

fonction de corrélation Signal temporel Périodicités cachées Signal musical (Strauss) : La fonction de corrélation présente de pics pour des retards multiples du « tempo » t (sec) fonction de corrélation

fonction de corrélation Signaux persistants : la fonction de corrélation décroît plus lentement pour

fonction de corrélation Signaux persistants : la fonction de corrélation décroît plus lentement pour des signaux qui ont tendance à varier lentement Signal temporel fonction de corrélation Une mesure de la « mémoire » du signal

(bruit blanc) Signal « sans mémoire » : chaque valeur est indépendante de la

(bruit blanc) Signal « sans mémoire » : chaque valeur est indépendante de la précédente b(t) • b(t) signal stationnaire, • b(t) = 0 (centré), • bb( ) = ( ) d’où fonction de corrélation b 2 = bb( ) = +

effet du bruit

effet du bruit

densité spectrale de puissance (DSP) 3. on peut passer à la représentation en fréquence

densité spectrale de puissance (DSP) 3. on peut passer à la représentation en fréquence par transformée de Fourier (TF) : on obtient la densité spectrale de puissance 4. Théorème de Wiener-Khintchine : où limitée à l’intérvalle [0, T] 5. On peut alors évaluer S ( f ) directement à partir du signal : estimateur de la DSP d’un signal réel :

Fonction de corrélation et DSP pic à la fréquence 1/T 1. périodicité « cachée

Fonction de corrélation et DSP pic à la fréquence 1/T 1. périodicité « cachée » = T T f xx( ) Sxx( f ) 2. échelle de « mémoire » = a 1/T largeur de bande 1/a largeur de bande f ( ) ~ exp(- /a) exponentielle S ( f ) ~ 1/( 1+(2 a f )2 ) lorentzienne

4. corrélation à longue portée http: //www. scholarpedia. org/article/1/f_noise

4. corrélation à longue portée http: //www. scholarpedia. org/article/1/f_noise

corrélation à longue portée si l’échelle de mémoire est infinie ( xx( ) n’est

corrélation à longue portée si l’échelle de mémoire est infinie ( xx( ) n’est pas intégrable) on parle de corrélation à longue portée. Typiquement, loi de puissance : pente 1/ (échelle log) S(f) (échelle log) ( ) (échelle log) pente 1/ f (échelle log)

5. corrélation et ADN

5. corrélation et ADN

ADN : résultat 1 – périodicité 3 C(d) périodicité dans la fonction de corrélation

ADN : résultat 1 – périodicité 3 C(d) périodicité dans la fonction de corrélation positions n = 3 i+1, 3 i+2 d lié à la structure en triplets (codons) du code génétique ; mais comment ? pourquoi ?

résultat 2 – corrélation à longue portée cytomégalovirus, 230000 pbs (codant) f=1/3 le résultat

résultat 2 – corrélation à longue portée cytomégalovirus, 230000 pbs (codant) f=1/3 le résultat semble (variation de la méthode : plutôt construction de 4 sous-séquences général… 0/1 pour A, T, C, G) (non codant) résultat 2 : DSP 1/f échelle log-log : log(DSP) - log(f) R. F. Voss, PRL, 1992 résultat 1 : pic à f = 1/3

pour l’ADN codant des résultats controversés : pas de corrélation ? (Stanley group, 1992

pour l’ADN codant des résultats controversés : pas de corrélation ? (Stanley group, 1992 -1995) L’ADN codant est sans doute moins corrélé que le non codant

revenons à la fonction de corrélation pour bien analyser les résultats obtenus : C(d)

revenons à la fonction de corrélation pour bien analyser les résultats obtenus : C(d) séquence codante positions n = 3 i+1, 3 i+2 d d comment évolue l’amplitude des pics en position 3 i ? on la reporte en échelle log : décroissance en d corrélation longue portée pour « une base sur trois » ?

séquences codantes : H calculé sur différentes échelles q la dégénérescence du code laisse

séquences codantes : H calculé sur différentes échelles q la dégénérescence du code laisse « passer » un peu de corrélation longue portée dégénérescence la position 3 introns : H≈0. 6 sur ladutroisième codon, du codon libre, position 3 du codon : H≈0. 58 lettreplus peut suivre la contrainte position 2 du codon : H≈0. 55 « globale » position 1 du codon : H≈0. 55 Arnéodo group, 1995 -1996

pourquoi une mémoire étendue ? procaryotes (bactéries et archea) 4 600 000 bps 2

pourquoi une mémoire étendue ? procaryotes (bactéries et archea) 4 600 000 bps 2 cm d’ADN taille de la cellule 1 m ratio = 5 10 -5 ADN : un filament hautement compacté

pourquoi une mémoire étendue ? eucaryotes : CHROMATINE ! fibre de chromatine DNA noyau

pourquoi une mémoire étendue ? eucaryotes : CHROMATINE ! fibre de chromatine DNA noyau cellulaire nucléosomes fibre de chromatine DNA chromatine histones boucles Goodsell parties verrouillées parties transcrites une structure fonctionnelle hautement organisée

d’autres images

d’autres images

un rôle pour les séquences non codantes la corrélation à longue portée indique la

un rôle pour les séquences non codantes la corrélation à longue portée indique la présence d’un ordre global ; les séquences non codantes montrent toujours une corrélation à longue portée l’ADN « poubelle » participe à l’établissement d’un arrangement fonctionnel de l’ADN dans le noyau/la cellule !

interprétation • rôle de la fonction biologique : corrélation longue portée : en général,

interprétation • rôle de la fonction biologique : corrélation longue portée : en général, reflet d’une contrainte sur l’ordre global de l’ADN séquences non codantes codage d’une protéine : représente une contrainte sur le choix des bases, lié à la bonne séquence d’a. a. séquences codantes soumises à deux contraintes : peut-on les « simuler » ?

signal discret fonction de corrélation de n n = 1 2 3 4 5

signal discret fonction de corrélation de n n = 1 2 3 4 5 6 7 8 9 10 11… A T C G G T C A T A C… n= +1 +1 -1 -1 -1 +1 +1 +1 -1… n signal aléatoire discret fonction de la position n plutôt que du temps t : si < n>=0 (autrement, on soustrait la moyenne) alors la fonction de corrélation s’écrit d = distance entre 2 sites le long de la séquence moyenne d’ensemble moyenne sur n

 fonction de corrélation de n en pratique : sur un ordinateur, le signal

fonction de corrélation de n en pratique : sur un ordinateur, le signal est toujours discret ! z(t) (z 1, z 2, z 3, z 4, … z. N) = z pour nous, le signal est intrinsèquement discret (pas=1), car c’est la séquence. sous scilab, il donc d’utiliser la fonction : corr(z, dmax) = fonction de corrélation de x, en fonction de la distance d, pour d = 0, 1, 2, … d max-1 sous scilab, corr soustrait automatiquement la moyenne de z

 DSP de n – 1. calculer la TF : Signal Spectre x(t) |X(f)|

DSP de n – 1. calculer la TF : Signal Spectre x(t) |X(f)| t f Signal échantillonné ∆t Spectre périodique de période ƒe = 1/∆t Transformée de Fourier Rapide : FFT xk tk Signal echantillonné : xk = k t de 0 à Te = N ∆T -fe 0 fe/2 FFT du signal : �ƒ n = n ƒ de 0 à ƒe = N ∆ƒ f

 DSP de n – 2. déduire la DSP: FFT = transformée de Fourier

DSP de n – 2. déduire la DSP: FFT = transformée de Fourier Rapide sous scilab : fft(z, -1) = fft(z) = TF de z donne la TF pour f = 0, ∆f, 2∆f, … f e-1 Wiener-Khintchine : estimateur DSP = d’où |fft(z)|2 / N ≈ DSP de z sous scilab, commencer par soustraire la moyenne de z

fin

fin