Statistique descriptive Doualeh Abdillahi Ali doualeh 1yahoo fr
Statistique descriptive Doualeh Abdillahi Ali doualeh 1@yahoo. fr FDEG, Université de Djibouti 25/05/2021 Introduction à la Statistique descriptive chapitre 3 1
Chapitre 4 : Caractéristiques de dispersion et de forme 25/05/2021 Introduction à la Statistique descriptive chapitre 3 2
Objectifs Savoir Étudier la structure interne de la distribution ou la variabilité de la série autour de sa moyenne Etudier la forme de la distribution d’une série statistique et la comparer avec la distribution d’une loi normale Savoir-faire Ø Déterminer les caractéristiques ou paramètres de dispersion d’une série Ø Déterminer les coefficients ou paramètres permettant de caractériser la forme de la distribution d’une série 25/05/2021 Introduction à la Statistique descriptive chapitre 3 3
Caractéristiques de dispersion Les caractéristiques de dispersion renseignent sur la structure interne de la distribution et la variabilité de la série autour de sa moyenne. Nous en étudierons cinq : Ø L’étendue, Ø Les intervalles interquartiles, Ø L’écart absolu moyen, Ø L’écart-type (lié à la variance) Ø Le coefficient de variation. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 4
Etendue L’étendue d’une série est la différence entre la plus grande et la plus petite valeur observée. Elle est notée : E = Max (xi) – Min (xi). C’est la première mesure de la dispersion d’une distribution. Cette mesure est la plus simple des caractéristiques de dispersion ; L’étendue permet une approche aisée de la dispersion d’une variable, mais ca reste très limitée, car elle ne prend en compte que les deux valeurs extrêmes de la série. dans le cas de séries continues, l’étendue n’est pas connue avec exactitude, puisque la perte d’information due au regroupement en classes ne permet pas de connaître les valeurs minimales et maximales réellement prises par la variable. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 5
Exemple Une étude récence le nombre de médecins pour 100000 habitants dans les 28 pays de l’union européenne, les résultats sont dans le tableau suivant : Ø Max (xi) = 570 Ø Min (xi) = 160 Ø Etendue = Max (xi) – Min (xi) = 570 – 160 = 410 Nombre de médecins pour 100 000 habitants Nombre de pays 160 220 250 300 340 400 440 570 TOTAL 1 3 4 8 6 2 3 1 28 25/05/2021 Introduction à la Statistique descriptive chapitre 3 6
INTERVALLES ET ÉCARTS INTERQUARTILES L’intervalle interquartile est l’intervalle [Q 1 ; Q 3] Il représente la zone centrale de la population Comprenant 50 % de la série ; L’amplitude de cet intervalle est appelée écart Interquartile; on le note : EIQ = Q 3 – Q 1. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 7
Exemple Une étude récence le nombre de médecins pour 100000 habitants dans les 28 pays de l’union européenne, les résultats sont dans le tableau suivant : Les quartiles d’ordre 1 et 3 pour cet exemple ont été déterminés dans le chapitre 2 : Q 1 = 250 Q 3 = 340 Ø L’intervalle interquartile = [250 ; 340] Ø Écart-interquartile EIQ = 340 – 250 = 90 Nombre de médecins pour 100 000 habitants Nombre de pays 160 220 250 300 340 400 440 570 TOTAL 1 3 4 8 6 2 3 1 28 25/05/2021 Introduction à la Statistique descriptive chapitre 3 8
Exemple L’INSEE étude la répartition d’un échantillon de 100 ménages par classe de Revenu mensuel En euros. Le résultat se trouve dans le tableau ci dessous. Les quartiles d’ordre 1 et 3 pour cet exemple ont été déterminés dans le chapitre 2 : Q 1 = 1687, 5 Q 3 = 3750 Ø Intervalle interquartile = [1687, 5 ; 3750] Ø Écart-interquartile EIQ = 3750 – 1687, 5 = 2062, 5 Classe de revenu Nombre de ménages Effectif cumulé croissant [0 ; 1500[ 20 20 [1500 ; 3000[ 40 60 [3000 ; 4500[ 30 90 [4500 ; 6000[ 10 100 Total 100 25/05/2021 Introduction à la Statistique descriptive chapitre 3 9
L’ÉCART ABSOLU MOYEN L’écart absolu moyen est le paramètre de dispersion le plus simple qui mesure les fluctuations de la série par rapport à la moyenne. L’écart absolu moyen de n observations est la moyenne arithmétique des valeurs absolues des écarts à la moyenne : L’écart absolu moyen de n observations, ordonnées dans un tableau statistique (xi ; ni), présentant r modalités, est la moyenne arithmétique pondérée des valeurs absolues des Écarts à la moyenne : 25/05/2021 Introduction à la Statistique descriptive chapitre 3 10
Exemple: écart moyen absolu variable quantitative discrète Une étude récence le nombre de médecins pour 100000 habitants dans les 28 pays de l’union européenne, les résultats sont dans le tableau suivant : La moyenne arithmétique = 319, 6428 est déterminée dans le chapitre 2. Écart absolu moyen = 1788, 5712 / 28 = 63, 877 Nombre de médecins pour 100 000 habitants 160 220 250 300 340 400 440 570 Somme 25/05/2021 Nombre de pays 1 3 4 1 × |160 -319, 6428| = 159, 6428 8 6 8 × |300 -319, 6428| = 157, 1424 2 3 1 2 × |400 -319, 6428| = 160, 7144 28 1788, 5712 Introduction à la Statistique descriptive chapitre 3 3 × |220 -319, 6428| = 298, 9284 4 × |250 -319, 6428| = 278, 5712 6 × |340 -319, 6428| = 122, 1432 3 × |440 -319, 6428| = 361, 0716 1 × |570 -319, 6428| = 250, 3572 11
Exemple: écart moyen absolu variable quantitative continue L’INSEE étude la répartition d’un échantillon de 100 ménages par classe de Revenu mensuel en euros. Les résultats se trouvent dans le tableau ci dessous. La moyenne arithmétique = 2700 est déterminée dans le chapitre 2. Ø Ecart absolu moyen = 114000 / 100 = 1140 Classe de revenu Nombre de ménages Centre de classe [0 ; 1500[ 20 (1500 + 0) / 2 = 750 20 × |750 -2700| = 39000 [1500 ; 3000[ 40 (3000 + 1500) / 2 = 2250 40 × |2250 -2700| = 18000 [3000 ; 4500[ 30 (4500 + 3000) / 2 =3750 30 × |3750 -2700| = 31500 [4500 ; 6000[ 10 (6000 + 4500) /2 = 5250 10 × |5250 -2700| = 25500 Somme 100 25/05/2021 114000 Introduction à la Statistique descriptive chapitre 3 12
Variance et écart-type L’écart-type ou écart quadratique moyen est de loin l’indicateur de dispersion le plus utilisé. La variance est le carré de l’écart-type. Dans le cas de n observations, la variance et l’écart-type sont données par: Dans le cas de n observations, ordonnées dans un tableau statistique (xi ; ni), présentant r modalités : 25/05/2021 Introduction à la Statistique descriptive chapitre 3 13
Variance et écart-type Afin de faciliter les différentes étapes de calcul de la variance, il est possible d’utiliser la formule développée de la variance. Cette formule est issue du théorème de Koenig. Formules développées de la variance : 25/05/2021 Introduction à la Statistique descriptive chapitre 3 14
Propriétés La variance et l’écart-type ne sont pas linéaires comme la moyenne, mais possèdent des propriétés très importantes. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 15
Exemple: variable quantitative discrète Une étude récence le nombre de médecins pour 100000 habitants dans les 28 pays de l’union européenne, les résultats sont dans le tableau suivant : La moyenne arithmétique = 319, 6428 est déterminée dans le chapitre 2. Ø Variance = 199296, 428/ 28 = 7117, 729 Ø Écart-type = √(7117, 72959184) = 84, 366 Nombre de médecins pour 100 000 habitants 160 220 250 300 340 400 440 570 Somme 25/05/2021 Nombre de pays 1 3 4 1 × (160 -319, 6428)ˆ2 = 25485, 82 8 6 8 × (300 -319, 6428)ˆ2 = 3086, 71 2 3 1 2 × (400 -319, 6428)ˆ2 = 12914, 55 28 Introduction à la Statistique descriptive chapitre 3 3 × (220 -319, 6428)ˆ2 = 29786, 06 4 × (250 -319, 6428)ˆ2 = 19400, 47 6 × (340 -319, 6428)ˆ2 = 2486, 49 3 × (440 -319, 6428)ˆ2 = 43457, 56 1 × (570 -319, 6428)ˆ2 = 62678, 72 199296, 42857152 16
Exemple: variable quantitative continue L’INSEE étude la répartition d’un échantillon de 100 ménages par classe de revenu mensuel en euros. Les résultats se trouvent dans le tableau ci dessous. La moyenne arithmétique = 2700 est déterminée dans le chapitre 2. Ø Variance = 182250000 / 100 = 1822500 Ø Écart-type = √(1822500) = 1350 Classe de revenu Nombre de ménages Centre de classe [0 ; 1500[ 20 (1500 + 0) / 2 = 750 20 × (750 -2700)ˆ2 = 76050000 [1500 ; 3000[ 40 (3000 + 1500) / 2 = 2250 40 × (2250 -2700)ˆ2 = 8100000 [3000 ; 4500[ 30 (4500 + 3000) / 2 =3750 30 × (3750 -2700)ˆ2 = 33075000 [4500 ; 6000[ 10 (6000 + 4500) /2 = 5250 10 × (5250 -2700)ˆ2 = 65025000 Somme 100 25/05/2021 182250000 Introduction à la Statistique descriptive chapitre 3 17
LE COEFFICIENT DE VARIATION La comparaison directe de deux écarts-types peut donner une impression fausse Concernant La dispersion des deux séries dont les valeurs des moyennes sont différentes. De plus, l’écart type dépend De l’unité choisie. C’est pourquoi le coefficient de variation, qui mesure la dispersion relative à la moyenne, est utilisé pour comparer la dispersion de plusieurs séries. Le coefficient de variation est un nombre sans dimension, indépendant de l’unité de mesure ; il Permet de mesurer la dispersion de séries exprimées en unités ou ordres de grandeur différents. Il Mesure l’homogénéité des données. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 18
Exemple Le coefficient de variation de l’exemple d’étude de la variable quantitative discrète ( « nombre de médecins pour 100000 habitants » dans 28 pays de l’union européenne). 319, 6428 est la moyenne de la variable et 84, 366637 son écart type. Ø Coefficient de Variation (CV) = 84, 366 / 319, 6428 = 0, 2639 Le coefficient de variation de l’exemple d’étude de la variable quantitative continue ( « revenu mensuel d’un échantillon de 100 ménages » . 2700 est la moyenne de la variable et 1350 son écart-type. Ø Coefficient de Variation (CV) = 1350 / 2700 = 0, 5 25/05/2021 Introduction à la Statistique descriptive chapitre 3 19
Caractéristiques de forme Nous définirons différents coefficients, introduits par Karl Pearson, le père de la statistique moderne, George Yule et Ronald Fisher, permettant de caractériser la forme d’une distribution. Le but est de comparer les formes de plusieurs distributions, ces comparaisons n’ayant de sens que si elles sont faites à partir des mêmes coefficients appliqués aux différentes distributions. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 20
Coefficient de YULE et KENDALL Le coefficient de Yule et Kendall – couramment appelé coefficient de Yule – compare l’étalement de la courbe à droite et à gauche de la médiane. Le coefficient de Yule sert à mesurer l’asymétrie de la distribution en tenant compte des positions relatives des quartiles par rapport à la médiane. Il est défini par : Ce coefficient Cᵧ est indépendant de l’unité de mesure. En outre, il est toujours compris entre – 1 et 1, car la médiane est située entre Q 1 et Q 3. • Si Cᵧ = 0, la distribution est symétrique. • Si Cᵧ > 0, la distribution est étalée à droite. • Si Cᵧ < 0, la distribution est étalée à gauche. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 21
Coefficients de Pearson Les coefficients de Pearson étudient l’étalement de la courbe à partir des valeurs de la moyenne, du mode et de l’écart-type. Le coefficient S de Pearson mesure l’asymétrie d’une distribution par une comparaison entre les valeurs de la moyenne et du mode. Il se note Il s’agit d’un coefficient sans dimension. L’interprétation de la valeur du S de Pearson se fait comme suit : • Si S = 0, la distribution est symétrique. • Si S > 0, la distribution est étalée à droite. • Si S < 0, la distribution est étalée à gauche. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 22
Coefficients de Pearson • 25/05/2021 Introduction à la Statistique descriptive chapitre 3 23
Coefficients de Pearson Le coefficient d’asymétrie γ₁ de Fisher est défini par σ : désigne l’écart-type μ₃ désigne le moment centré d’ordre 3, soit : Ce coefficient, sans dimension, a le même signe que μ₃. L’interprétation de la valeur du γ₁ de Fisher se fait comme suit : • Si γ₁ est proche de 0, la distribution est approximativement symétrique. • Si γ₁ > 0, la distribution est étalée à droite. • si γ₁ < 0, la distribution est étalée à gauche. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 24
L’aplatissement (KURTOSIS) L’aplatissement d’une distribution est un indicateur de la dispersion autour des valeurs centrales. Plus la dispersion est grande, plus la courbe sera « plate » . On définira deux coefficients, celui de Pearson et celui de Fisher, ces coefficients étant des coefficients de comparaison par rapport à la distribution normale. La figure 4. 5 montre les trois formes d’aplatissement possibles. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 25
Coefficients de Pearson Le coefficient β₂ de Pearson sert à mesurer l’aplatissement. Il est défini par σ : désigne l’écart-type μ₄ désigne le moment centré d’ordre 4, soit : Il s’agit d’un coefficient sans dimension. β₂ ≥ 1 et dans le cas d’une distribution normale β₂ = 3. Interprétation : • Si β₂ < 3, la courbe est dite platicurtique, c’est-à-dire plus plate que la loi normale. • Si β₂ = 3, la courbe est proche de la courbe normale. • Si β₂ > 3, la courbe est leptocurtique, c’est-à-dire plus pointue que la loi normale. 25/05/2021 Introduction à la Statistique descriptive chapitre 3 26
Coefficients de Fisher Le coefficient γ₂ de Fisher sert à mesurer l’aplatissement. Il est défini par Ou encore, de manière équivalente, γ₂ = β₂ − 3. La constante 3 est choisie de façon à obtenir un coefficient nul pour une distribution normale ; par ailleurs, γ₂ ≥ – 2. Interprétation : • Si γ₂ < 0, la courbe est dite platicurtique, c’est-à-dire plus plate que la loi normale. • Si γ₂ = 0, la courbe est proche de la courbe normale. • Si γ₂ > 0, la courbe est leptocurtique, c’est-à-dire plus pointue que la loi normale. On notera que γ₂ mesure l’importance des « queues de distribution » . 25/05/2021 Introduction à la Statistique descriptive chapitre 3 27
Conclusion Ce chapitre nous a enseigné que les paramètres de dispersion sont incontournables pour appréhender la structure interne de la série. On notera le rôle prépondérant de la variance et de l’écart-type et on s’attachera à retenir leurs propriétés algébriques. On retiendra que le coefficient de variation et la est un outil extrêmement précieux dans le cadre de la comparaison des séries. Nous nous sommes attachés à caractériser la forme de la distribution pour une comparaison avec la distribution normale 25/05/2021 Introduction à la Statistique descriptive chapitre 3 28
- Slides: 28