cours 1 modlisation des systmes biologiques un cours
cours 1
modélisation des systèmes biologiques un cours sur quoi, par qui, comment, pour qui ? comment un physicien théoricien étudie la biologie par une physicienne théoricienne (maria barbi) qui ne connaît qu’un peu de biologie ! sur des sujets de son travail (mémoire habilitation) présenté par diapositives avec des applications de modélisation (TP, projets) pour des L 3 PI et FP qui ont (on l’espère) des bases communes en physique/informatique…
modélisation des systèmes biologiques un cours pourquoi ? les messages : • un petit échantillon de biologie • un petit échantillon de physique • modéliser c’est choisir un problème • modéliser c’est choisir des variables • à chaque question ses outils • faire les comptes avec les expériences • modéliser c’est négliger ! mais il ne faut pas oublier le contexte…
modélisation des systèmes biologiques notre exemple : l’ADN, complexe et multi-échelle Programme détaillé (disponible sur Sakai) biologie / physique et modélisation / résultats / expériences 0. I. III. IV. V. Introduction cours 1 ADN comme information La molécule d’ADN L’ADN en fonction. Exemple : la transcription L’électrostatique du système ADN-protéine Ranger l’ADN : la chromatine
0. comprendre les processus biologiques La tâche est difficile car : • il y a du grand et du petit (aspects multi-échelles) • il y a plein de monde (aspects systémiques) • ça bouge tout le temps (aspects dynamiques/stochastiques) • et dans tous les cas : difficultés d'observation/mesure cellule 1. Nucléole 2. Noyau 3. Ribosome 4. Vésicule 5. Réticulum endoplas. rugueux 6. Appareil de Golgi 7. Microtubule 8. Réticulum endoplasmique lisse 9. Mitochondrie 10. Lysosome 11. Cytoplasme 12. Peroxysome
ordres de grandeur (un atome de 12 C a une masse de 12 Daltons) http: //bionumbers. hms. harvard. edu et observations
à l’intérieur d’une cellule 10 -30 m 30% du volume occupé par la matière sèche distance moyenne entre macromolécules de l’ordre de leur taille Moran, L. A. and Scrimgeour K. G. Biochemistry (1994) (see http: //mgl. scripps. edu/people/goodsell)
macromolécules ADN, protéines, glucides, lipides énergie information génétique 30000 protéines différentes membranes
protéines
protéines des rôles multiples… Enzymes. catalyseurs qui accélèrent les vitesses de réaction en abaissant la barrière énergétique entre les réactifs et de produits. Protéines régulatrices. impliqués dans la communication moléculaire et le contrôle des voies biochimiques. Protéines de transport. rôle spécifique dans la liaison et le transport de molécules dans et hors de la cellule. Beaucoup sont des protéines membranaires, mais aussi globulaires. Exemple : hémoglobine. Protéines de stockage. matières premières pour d'autres réactions biochimiques. Exemple : l’ovalbumine est une source de nutriments pour l'embryon d'oiseau. Protéines mobiles et contractiles. protéines capables de mouvement et de contraction. Souvent protéines fibreuses, en raison de leur résistance à la traction. Protéines architecturales. impliquées dans l’organisation des structures cellulaires, par exemple dans l’organisation de l’ADN à l’intérieur du noyau (chromatine) Protéines structurales. une grande partie de la «colle» et «fibres» qui vous permet de rester ensemble implique des protéines fibreuses. Tendons, cartilages, cheveux, ongles, peau. . . Protéines d'échafaudage. sur lesquelles molécules impliquées dans le transfert des signaux viennent se fixer simultanément avec l’orientation qui leur permet d’interagir. Protéines de protection. chargées de protéger l'organisme contre virus, bactéries pathogènes, extrêmes de température ou de p. H, molécules toxiques.
comment est faite une protéine ? structure primaire (chaîne d’a. a. ) • toutes les protéines sont des chaînes d'acides aminés (a. a. ). • il y a 20 acides aminées différents. • hélice alpha feuillet beta • la longueur moyenne d’une protéine est d'environ 300 -400 a. a. (la masse de 30 -45 k. Dalton*). structure secondaire (sous-structures régulières) structure tertiaire (structure tridimensionnelle) structure quaternaire (complexes de protéines) • la structure fonctionnelle de la protéine résulte du repliement de la chaîne et eventuellement de l’association de plusieurs sous-unités *1 Dalton = 1 u. m. a. = 1/12 masse 12 C
comment fait-on une protéine ? ADN DNA transcription ARN épissage ARN messager ARN de transfert translation acide aminé
I - l’ADN et l’information génétique ADN transcription ARN
l’ADN l’information génétique est contenue dans l’ADN (ADN) A G (ARN) T C
transcription
le code génétique 1 codon = 3 lettres = 1 acide aminé le code génétique est dégénéré : 43 = 64 > 20 !
le gène unité de l’information génétique gène introns : non codants exons : codants
le génome organisation de l’information génétique… au sens large ! séquences codantes % AT ou GC pseudogènes et chez l’homme : 3 milliards séquences mobiles position (paires de bases) 20000 à 25000 gènes pour 1, 5 t. ARN % et r. ARN
ADN codant et non codant ADN « poubelle » exons introns pourquoi autant d’ADN non codant ? peut-on en comprendre le rôle ?
étudier les séquences d’ADN approche « déterministe » : comparaison entre séquences / alignement de séquences : • recherche de gènes • recherche de similarités entre espèces - évolution • recherches de motifs répétés - régulation, organisation • etc… approche statistique : à la recherche de caractéristiques « globales » : • différencier les régions codantes et non codantes • recher un « ordre » dans le désordre apparent…
analyse statistiques des séquences que différencie les séquences de simples séquences aléatoires ? mesurer l’ordre dans l’ADN 1. information mutuelle 2. de la séquence de symboles à la séquence numérique 3. fonction de corrélation 4. densité spectrale de puissance et d’autres….
1. information mutuelle probabilité jointe d’avoir les symboles i et j à distance d probabilités d’avoir les symboles i et j (densités) zéro si indépendants car Pij(d)=Pi. Pj remarque : en thermo, S = -k. B∑pilnpi … c’est une mesure d’entropie! voir « entropie de Shannon »
2. de la séquence symbolique à une séquence numérique choisir un code binaire : par exemple double liaison hydrogène triple liaison hydrogène ou purines pyrimidines A T G C A G T C +1 -1 on peut donc étudier la variable numérique binaire n = 1 où n = position on obtient : n=1 2 3 4 5 6 7 8 9 10… A T C G G T C A T +1 A… = +1 +1 -1 -1 -1 +1 +1 +1… -1 n comment étudier n ?
3. fonction de corrélation soit x(t) un signal aléatoire fonction du temps t stationnaire : ses propriétés statistiques sont indépendantes du temps : x(t) = m (x(t)-m)2 = 2(t) = 2 etc. alors on peut définir la fonction de corrélation de x(t) discret… on peut (souvent) remplacer par une moyenne sur le temps : … ou continu chaque t 0 initial considéré comme une nouvelle réalisation moyennes sur l’ensemble des réalisations
3. fonction de corrélation Signal temporel Périodicités cachées Signal musical (Strauss) : La fonction de corrélation présente de pics pour des retards multiples du « tempo » t (sec) fonction de corrélation (msec)
3. fonction de corrélation Signaux persistants : la fonction de corrélation décroît plus lentement pour des signaux qui ont tendance à varier lentement Signal temporel fonction de corrélation Une mesure de la « mémoire » du signal
3. fonction de corrélation Anti-persistance: la fonction de corrélation peut changer de signe pour des signaux qui ont tendance à changer de signe (anticorrélés) fonction de corrélation Température globale ? Signal cyclique, présence d’une périodicité dans ( ) Cours boursiers ?
4. densité spectrale de puissance Sxx( f ) (DSP) de la représentation temporelle à la représentation en fréquence : Sxx( f ) = transformée de Fourier de la fonction de corrélation
4. densité spectrale de puissance Sxx( f ) (DSP) conséquences : 1. périodicité « cachée » = T pic à la fréquence 1/T T xx( ) f Sxx( f ) 2. échelle de « mémoire » = a 1/T largeur de bande 1/a largeur de bande f xx( ) ~ exp(- /a) exponentielle Sxx( f ) ~ 1/( 1+(2 a f )2 ) lorentzienne
4. densité spectrale de puissance Sxx( f ) (DSP) évaluer Sxx( f ) directement à partir du signal : estimateur de la DSP d’un signal réel : éventuellement moyenné sur plusieurs réalisations
fonction de corrélation de n n = 1 2 3 4 5 6 7 8 9 10 11… A T C G G T C A T A C… n= +1 +1 -1 -1 -1 +1 +1 +1 -1… n signal aléatoire discret fonction de la position n plutôt que du temps t : si < n>=0 (autrement, on soustrait la moyenne) alors la fonction de corrélation s’écrit d = distance entre 2 sites le long de la séquence moyenne d’ensemble moyenne sur n
fonction de corrélation de n en pratique : sur un ordinateur, le signal est toujours discret ! x(t) (x 1, x 2, x 3, x 4, … x. N) = x sous scilab, il suffit donc d’utiliser les fonctions : corr(x, dmax) = fonction de corrélation de x pour d = 0, 1, 2, … d max-1 fft : fft(x, -1) = fft(x) = TF de x pour f = 0, ∆f, 2∆f, … f e-1 d’où |fft(x)|2 / N = DSP de x (pas=1) ∆f = 1/N fe = N/N=1 attention : on commence par soustraire la moyenne de x
résultat 1 - séquences codantes : périodicité 3 dans la fonction de corrélation C(d) positions n = 3 i+1, 3 i+2 d lié à la structure en triplets (codons) du code génétique ; mais comment ?
résultat 2 : DSP, plus longues séquences cytomégalovirus, 230000 pbs (codant) f=1/3 le résultat semble (variation de la méthode : plutôt construction de 4 sous-séquences général… 0/1 pour A, T, C, G) (non codant) résultat 2 : DSP 1/f échelle log-log : log(DSP) - log(f) R. F. Voss, PRL, 1992 résultat 1 : pic à f = 1/3
C’est quoi ? théoriquement on montre que la « mémoire » du signal s’étend sur des longues distances : corrélation à longue portée remarque : : il n’existe pas d’échelle typique la séquence de bases à un endroit dépend donc des séquences lointaines ? et pourquoi ?
pourquoi une mémoire étendue ? procaryotes (bactéries et archea) 4 600 000 bps 2 cm d’ADN taille de la cellule 1 m ratio = 5 10 -5 ADN : un filament hautement compacté
pourquoi une mémoire étendue ? eucaryotes : CHROMATINE ! fibre de chromatine DNA noyau cellulaire nucléosomes fibre de chromatine DNA chromatine histones boucles Goodsell parties verrouillées parties transcrites une structure fonctionnelle hautement organisée
pourquoi une mémoire étendue ? polymère compact sans nœuds en 3 D corrélation longue portée Grosberg, Europhys. Lett 1993 une interprétation :
résultat 2 « bis » : un rôle pour les séquences non codantes la corrélation à longue portée indique la présence d’un ordre global ; les séquences non codantes montrent toujours une corrélation à longue portée l’ADN « poubelle » participe à l’établissement d’un arrangement fonctionnel de l’ADN dans le noyau/la cellule !
et les séquences codantes ? des résultats controversés : cytomégalovirus, 230000 pbs corrélation à longue portée… pas de corrélation… (Voss, 1992) (Stanley group, 1992 -1995…)
revenons à la fonction de corrélation pour bien analyser les résultats obtenus : C(d) séquence codante positions n = 3 i+1, 3 i+2 d d comment évolue l’amplitude des pics en position 3 i ? on la reporte en échelle log : décroissance en d corrélation longue portée pour « une base sur trois » ?
séquences codantes : H calculé sur différentes échelles q la dégénérescence du code laisse « passer » un peu de corrélation longue portée dégénérescence la position 3 introns : H≈0. 6 sur la troisième du codon, lettreplus du libre, codon position 3 du codon : H≈0. 58 peut suivre la contrainte position 2 du codon : H≈0. 55 « globale » position 1 du codon : H≈0. 55 Arnéodo group, 1995 -1996
interprétation • rôle de la fonction biologique : corrélation longue portée : en général, reflet d’une contrainte sur l’ordre global de l’ADN séquences non codantes codage d’une protéine : représente une contrainte sur le choix des bases, lié à la bonne séquence d’a. a. séquences codantes soumises à deux contraintes : peut-on les « simuler » ?
une approche alternative peut-on construire artificiellement une séquences au mêmes propriétés statistiques? ingrédients : 1 : un processus qui « fabrique » une séquence corrélée à longue portée (la contrainte « globale » ) : zi (par exemple : suite déterministe) 2 : puis un deuxième processus qui « détruit » cette corrélation (la contrainte liée au codage génétique) : avec probabilité (1 - 3 : et on compare les propriétés du processus i à celles d’une vraie séquence d’ADN
une technique alternative : marche ADN imaginons n =± 1 comme une « vitesse » : un pas à gauche, un pas à droite… chaque position n correspondant à un instant de temps alors décrit une marche aléatoire : x(t) « marche ADN » (DNA walk)
une technique alternative : marche ADN si n est à moyenne zéro et stationnaire, on montre pour la variance de x : avec exposant de Hurst : Si H =1/2 : séquence décorrélée, diffusion normale Si 0 < H < 1/2 : séquence anti-corrélée, « sub-diffusion » Si 1/2 < H < 1 : séquence corrélée à longue portée, « super-diffusion » diffusion x(t) propriétés de corrélation longue portée
- Slides: 46