Statistiques IUP1 Statistiques I Gnralits II Dcrire III

  • Slides: 94
Download presentation
Statistiques IUP-1

Statistiques IUP-1

Statistiques I. Généralités II. Décrire III. Notion de probabilités IV. Tester V. De la

Statistiques I. Généralités II. Décrire III. Notion de probabilités IV. Tester V. De la corrélation à la cause VI. Évaluation de risques – Prise de décision VII. Pièges

I Généralités ✔ Mots clés : élément, population, échantillons, variable

I Généralités ✔ Mots clés : élément, population, échantillons, variable

Étymologie Allemand Statistik : Relatif à l'État Latin Status, us : état, mais aussi

Étymologie Allemand Statistik : Relatif à l'État Latin Status, us : état, mais aussi État Japonais, Chinois Gérer, Commander 統計 Calculer, Mesurer

Définition Statistiques = Science du dépouillement des données, de l'extraction d'information synthétisant un jeu

Définition Statistiques = Science du dépouillement des données, de l'extraction d'information synthétisant un jeu de données.

Les statistiques dans la vie quotidienne Sondages Économie Comptabilité Ce cours. . .

Les statistiques dans la vie quotidienne Sondages Économie Comptabilité Ce cours. . .

Un exemple Pour estimer la qualité du tri sélectif des déchets, la mairie décide

Un exemple Pour estimer la qualité du tri sélectif des déchets, la mairie décide de mener une étude statistique. Un sondage est réalisé auprès de 800 personnes, en leur demandant combien de déchets en verre ils ont déposés dans le bac prévu à cet effet les 8 jours précédant le sonde.

Démarche statistique L'exemple précédent est typique d'une démarche statistique

Démarche statistique L'exemple précédent est typique d'une démarche statistique

Démarche statistique 1) On cherche à caractériser un phénomène qui concerne une certaine population:

Démarche statistique 1) On cherche à caractériser un phénomène qui concerne une certaine population: Pour estimer la qualité du tri sélectif des déchets, la mairie décide de mener une étude auprès des habitants de la ville. Un sondage est réalisé auprès de 800 personnes, en leur demandant combien de déchets en verre ils ont déposés dans le bac prévu à cet effet.

Démarche statistique 2) On ramène ce phénomène à la mesure d'une ou plusieurs variables,

Démarche statistique 2) On ramène ce phénomène à la mesure d'une ou plusieurs variables, mesuré sur un élément. Pour estimer la qualité du tri sélectif des déchets, la mairie décide de mener une étude auprès des habitants de la ville. Un sondage est réalisé auprès de 800 personnes, en leur demandant combien de déchets en verre ils ont déposés dans le bac prévu à cet effet.

Démarche statistique 3) Malheureusement, on ne peut pas faire les mesures sur toute la

Démarche statistique 3) Malheureusement, on ne peut pas faire les mesures sur toute la population (ce serait alors un recensement). On se restreint à un sous-ensemble, l'échantillon Pour estimer la qualité du tri sélectif des déchets, la mairie décide de mener une étude auprès des habitants de la ville. Un sondage est réalisé auprès de 800 personnes, en leur demandant combien de déchets en verre ils ont déposés dans le bac prévu à cet effet.

Démarche statistique 4) On obtient un ensemble de valeurs, appelée la série statistique.

Démarche statistique 4) On obtient un ensemble de valeurs, appelée la série statistique.

Démarche statistique 5) Le statisticien synthétise les données (statistique descriptive)

Démarche statistique 5) Le statisticien synthétise les données (statistique descriptive)

Démarche statistique 6) Le statisticien généralise les résultat de l'échantillon à toute la population

Démarche statistique 6) Le statisticien généralise les résultat de l'échantillon à toute la population (statistique inductive) La majeure partie de la population reste inconnu. Toute estimation statistique est donc accompagnée d'une incertitude, quantifiée grâce à la théorie des probabilités

Induction - Déduction

Induction - Déduction

Démarche statistique Vous devez être en mesure de déterminer ces 4 paramètres pour toute

Démarche statistique Vous devez être en mesure de déterminer ces 4 paramètres pour toute étude statistique.

Exemple

Exemple

Exemple

Exemple

Définitions Population = ensemble sur lequel porteront les conclusions de l'étude. Échantillon = Sous-ensemble

Définitions Population = ensemble sur lequel porteront les conclusions de l'étude. Échantillon = Sous-ensemble de la population dans lequel seront collectées les données de l'étude. Variable = Quantité mesurée lors de l'étude.

Déjà apparaissent les premiers problèmes. . . ● En quoi l'échantillon est-il représentatif de

Déjà apparaissent les premiers problèmes. . . ● En quoi l'échantillon est-il représentatif de la population ? Tirage aléatoire = l'échantillon est pris au hasard pour éviter d'introduire un biais statistique ● Comment mesurer les variables?

Objet du cours Le but du cours est que vous maîtrisiez les deux volets

Objet du cours Le but du cours est que vous maîtrisiez les deux volets du travail interprétatif du statisticien : 5) Statistique descriptive 6) Statistique inductive

II Statistique descriptive ✔ Mots clés : distribution statistique, {diagramme en barre, histogramme}, {moyenne,

II Statistique descriptive ✔ Mots clés : distribution statistique, {diagramme en barre, histogramme}, {moyenne, médiane, mode}, {variance, écart type}, {kurtose, quartile} ✔ Présenter des données statistiques. . ✔ Savoir calculer et interpréter les différents paramètres statistiques

Une nécessité. . . 800 valeurs, c'est tout de même fastidieux à manipuler. .

Une nécessité. . . 800 valeurs, c'est tout de même fastidieux à manipuler. . .

Notations sur les séries statistiques {. . . } = collection d'éléments {xi}1≤i≤n est

Notations sur les séries statistiques {. . . } = collection d'éléments {xi}1≤i≤n est un raccourci pour {x 1, x 2, . . . , xi, . . . , xn} Je le noterai parfois simplement {xi}n ou {xi} Les notations où interviennent des majuscules se réfèrent à des recensements (directement sur toute la population). Ainsi : {Xi}N

Méthodes Plusieurs techniques sont disponibles : Classification des données Visualisation graphique Quantification à l'aide

Méthodes Plusieurs techniques sont disponibles : Classification des données Visualisation graphique Quantification à l'aide de paramètres statistiques Difficulté croissante avec le nombre de variables

Séries statistiques Série statistique simple = ensemble de données relatives à une variable mesurée

Séries statistiques Série statistique simple = ensemble de données relatives à une variable mesurée sur un échantillon ou une population d'éléments Série statistique double = ensemble de couples de données relatives à deux variables mesurées sur un échantillon ou une population d'éléments Série statistique multiple = ensemble de multiplets de données relatives à plusieurs variables mesurées sur un échantillon ou

II – 1 Statistique descriptive d'une série statistique simple

II – 1 Statistique descriptive d'une série statistique simple

II – 1 a) Hiérarchisation Simple Classification Double Graphique

II – 1 a) Hiérarchisation Simple Classification Double Graphique

Méthode de classement Il est plus commode de regrouper les données en quelques classes

Méthode de classement Il est plus commode de regrouper les données en quelques classes plus maniables. Par exemple, pour les résultats du sondage Simple Classification Double Graphique La stratégie de classification dépend du type de variable

Variables quantitatives, variables qualitatives Variable quantitative = Variable dont les valeurs possibles sont comparables

Variables quantitatives, variables qualitatives Variable quantitative = Variable dont les valeurs possibles sont comparables et que l'ont peut formuler de manière numérique Ex : Nombre d'enfants, volume, . . . Variable qualitative = Variable non qualitative. Elle se réfère souvent à une caractéristique (espèce, genre). Ex : Carottes, navets, . . . Simple Classification Double Graphique

Variables discrètes, Variables continues Variable discrète = Variable dont les valeurs possibles sont discontinues,

Variables discrètes, Variables continues Variable discrète = Variable dont les valeurs possibles sont discontinues, c'est dire séparées. Ex : Nombre d'enfants, d'objets, . . . Variable continue = Variable dont les valeurs peuvent passer continûment Ex : Masse, volume, concentration, . . . Simple Classification Double Graphique

Intervalles de classe On définit un critère : Variable quantitative = 1 intervalle de

Intervalles de classe On définit un critère : Variable quantitative = 1 intervalle de classe = [borne inférieure borne supérieure] La valeur centrale est l'indice de classe Variable qualitative 1 critère qualitatif = 1 classe Simple Classification Double Graphique

Méthode de classement Simple Classification Double Graphique

Méthode de classement Simple Classification Double Graphique

Quantifier le contenu des classes Effectif = Fréquence absolue (d'une classe) = f= Nombre

Quantifier le contenu des classes Effectif = Fréquence absolue (d'une classe) = f= Nombre d'éléments appartenant à la classe Fréquence relative (d'une classe) = frel = Effectif rapporté à l'effectif total de l'échantillon (n) frel =f/n Simple Classification Double Graphique Pourcentage = fréquence relative exprimée en % 100 xfrel=100 xf/n

Distributions statistiques On crée ainsi une distribution statistique formée d'une série de couples (intervalle

Distributions statistiques On crée ainsi une distribution statistique formée d'une série de couples (intervalle de classe , fréquence) Simple Classification Double Graphique

Tableaux de distribution de fréquences Un tableau montrant les couples (critère, fréquences) s'appelle un

Tableaux de distribution de fréquences Un tableau montrant les couples (critère, fréquences) s'appelle un tableau de distribution de fréquences Simple Classification Double Graphique

Notations sur les distributions Une distribution est donnée par une série de couples (indice,

Notations sur les distributions Une distribution est donnée par une série de couples (indice, effectif) Conformément aux notations des séries statistiques, je les noterai sous la forme {vi, fi}1≤i≤D Simple Classification Double Graphique Contrairement aux séries statistiques, il est implicite que les valeurs sont rangées par ordre croissant v <v

Propriétés des distributions La classification doit être complète. Notamment, on doit retrouver pour toute

Propriétés des distributions La classification doit être complète. Notamment, on doit retrouver pour toute distribution {vi, fi}1≤i≤D construite sur la série statistique {xi}1≤i≤n Le nombre des éléments dispersés dans les classes est égal à l'effectif initial Simple Classification Double Graphique

Optimisation du choix de l'intervalle de classe Dans le cas des variables continues, le

Optimisation du choix de l'intervalle de classe Dans le cas des variables continues, le choix des intervalles de classe est délicat : Trop petits: le nombre de classe est trop grand pour être maniable Trop grands: des détails sont dissimulés au sein d'une même classe Simple Classification Double Graphique

Optimisation du nombre de classes (Variable continue) Règles empiriques Règle de Sturge Règle de

Optimisation du nombre de classes (Variable continue) Règles empiriques Règle de Sturge Règle de Yule Simple Classification Double Graphique

Optimisation du choix de l'intervalle de classe (variables continues) La plupart des études sont

Optimisation du choix de l'intervalle de classe (variables continues) La plupart des études sont réalisées avec : Des intervalles de classes de longueur aussi égales que possible Les classes de fréquence nulle sont évitées Simple Classification Double Graphique

Distributions cumulées Une distribution cumulée {vi, fcum, i}1≤i≤ D dérivée de la distribution {vi,

Distributions cumulées Une distribution cumulée {vi, fcum, i}1≤i≤ D dérivée de la distribution {vi, fi}1≤i≤D : A les mêmes intervalles de classe Les fréquences cumulées sont la somme de la fréquence de la classe et des fréquences de toutes les classes la précédant Simple Classification Double Graphique

Distributions cumulées Simple Classification Double Graphique

Distributions cumulées Simple Classification Double Graphique

II – 1 b) Représentations graphiques Simple Classification Double Graphique

II – 1 b) Représentations graphiques Simple Classification Double Graphique

Diagramme en bâtons Simple Classification Double Graphique Préférentiellement pour des variables discrètes

Diagramme en bâtons Simple Classification Double Graphique Préférentiellement pour des variables discrètes

Diagramme en bâtons Simple Classification Double Graphique

Diagramme en bâtons Simple Classification Double Graphique

Polygone de fréquence Simple Classification Double Graphique Préférentiellement pour des variables discrètes

Polygone de fréquence Simple Classification Double Graphique Préférentiellement pour des variables discrètes

Polygone de fréquence Simple Classification Double Graphique

Polygone de fréquence Simple Classification Double Graphique

Histogramme Simple Classification Double Graphique Préférentiellement pour des variables continues histos = tissu

Histogramme Simple Classification Double Graphique Préférentiellement pour des variables continues histos = tissu

Histogramme Simple Classification Double Graphique

Histogramme Simple Classification Double Graphique

II – 1 c) Paramètres statistiques Simple Classification Double Graphique

II – 1 c) Paramètres statistiques Simple Classification Double Graphique

Paramètres statistiques Dans l'ordre : (1) Position (2) Dispersion (3) Symétrie (4) Aplatissement. .

Paramètres statistiques Dans l'ordre : (1) Position (2) Dispersion (3) Symétrie (4) Aplatissement. . . Simple Classification Double Graphique

Paramètres de position Moyenne Médiane Mode Simple Classification Double Graphique

Paramètres de position Moyenne Médiane Mode Simple Classification Double Graphique

Moyenne arithmétique = moyenne (d'une série statistique {xi}) = somme des valeurs de la

Moyenne arithmétique = moyenne (d'une série statistique {xi}) = somme des valeurs de la série rapportée à son nombre d'éléments ( = effectif, ici noté N) Position Dispersion e Moyenne Médiane Mod

Moyenne arithmétique Il existe d'autre type de moyenne. Par exemple, la moyenne géométrique :

Moyenne arithmétique Il existe d'autre type de moyenne. Par exemple, la moyenne géométrique : Mais la moyenne arithmétique présente l'immense avantage que la somme des écart à la moyenne sont alors nuls. Position Dispersion e Moyenne Médiane Mod

Moyenne et distributions Même si la série statistique {xi}N a été réorganisée en distribution,

Moyenne et distributions Même si la série statistique {xi}N a été réorganisée en distribution, il est possible de retrouver la valeur de la moyenne à partir des valeurs de la distribution {vi, fi}1≤i≤D Position Dispersion e Moyenne Médiane Mod C'est la formulation du barycentre des indices pondérés par les fréquences

Moyenne arithmétique Avantages ✔Simple à calculer ✔Linéarité : ✔Additivité : ✔La somme des écarts

Moyenne arithmétique Avantages ✔Simple à calculer ✔Linéarité : ✔Additivité : ✔La somme des écarts à la moyenne est plus faible que la somme des écarts à la médiane ou au mode Position Dispersion e Moyenne Médiane Mod Désavantages ✗Sensibilité aux valeurs extrêmes (ex: {2, 10, 3, 3, 5, 3, 4, 1, 4, 2}) ✗Si la distribution est dissymétrique, la moyenne représente mal la valeur centrale

Médiane = valeur de la variable qui sépare la série statistiques en deux groupes

Médiane = valeur de la variable qui sépare la série statistiques en deux groupes d'égal effectif. En pratique : 1) On classe les données par ordre croissant 2) La médiane est la valeur qui se trouve au milieu des données triées ex: {2, 10, 3, 3, 5, 3, 4, 1, 4, 2} Position Dispersion e Moyenne Médiane Mod

Médiane et fréquences cumulées Elle se détermine aussi à partir des fréquences relatives cumulées.

Médiane et fréquences cumulées Elle se détermine aussi à partir des fréquences relatives cumulées. Position Dispersion e Moyenne Médiane Mod

Médiane Avantages ✔ Peu sensibles aux valeurs extrêmes. ✔Linéarité : Position Dispersion e Moyenne

Médiane Avantages ✔ Peu sensibles aux valeurs extrêmes. ✔Linéarité : Position Dispersion e Moyenne Médiane Mod Désavantages ✗Se prête mal aux calculs :

Médiane d'une distribution Si la série a déjà été groupée en classes : 0)

Médiane d'une distribution Si la série a déjà été groupée en classes : 0) On détermine la classe médiane 1) On interpole la valeur médiane Position Dispersion e Moyenne Médiane Mod

Mode = indice de la classe ayant la fréquence la plus élevée. En pratique

Mode = indice de la classe ayant la fréquence la plus élevée. En pratique : 1) On trace l'histogramme 2) On recherche le maximum Position Dispersion e Moyenne Médiane Mod

Distributions monomodales, bimodales, . . . Monomodale Bimodale À quoi ressemblera une distribution multimodale

Distributions monomodales, bimodales, . . . Monomodale Bimodale À quoi ressemblera une distribution multimodale ? Position Dispersion e Moyenne Médiane Mod

Mode Avantages ✔Faible sensibilité aux valeurs extrêmes ✔Si la population est très hétérogène (p.

Mode Avantages ✔Faible sensibilité aux valeurs extrêmes ✔Si la population est très hétérogène (p. ex. distribution bimodale), il vaut mieux deux modes qu'une moyenne ou qu'une médiane Position Dispersion e Moyenne Médiane Mod Désavantages ✗Extrême sensibilité aux choix des intervalles de classe ✗Ne se prête pas aux calculs.

Cas d'une distribution dissymétrique Position Dispersion Mode Moyenne Médiane

Cas d'une distribution dissymétrique Position Dispersion Mode Moyenne Médiane

Paramètres de dispersion Amplitude Variance Écart type Simple Classification Double Graphique

Paramètres de dispersion Amplitude Variance Écart type Simple Classification Double Graphique

Amplitude = Étendue = écart entre la valeur maximale et la valeur minimale de

Amplitude = Étendue = écart entre la valeur maximale et la valeur minimale de la distribution. Position Amplitude Dispersion Variance Écart-

Variance d'une population Variance (d'une population {Xi}) = moyenne des carrés des écarts des

Variance d'une population Variance (d'une population {Xi}) = moyenne des carrés des écarts des valeurs à la moyenne de la population. Position Amplitude Dispersion Variance Écart-

Variance d'un échantillon Variance (d'un échantillon {xi}) = somme des carrés des écarts des

Variance d'un échantillon Variance (d'un échantillon {xi}) = somme des carrés des écarts des valeurs à la moyenne de l'échantillon, ramenée au nombre de degrés de liberté de l'échantillon (n-1, si n est l'effectif de l'échantillon). Position Amplitude Dispersion Variance Écart-

Pourquoi cette différence ? La variance d'un échantillon est optimisée pour approcher aux mieux

Pourquoi cette différence ? La variance d'un échantillon est optimisée pour approcher aux mieux la variance de la population. Diviser par n et non par n-1 introduit un biais statistique. Par exemple, supposons que l'échantillon a un seul élément n=1. On ne peut alors pas déterminer la variance de la population. 2=0/0 est indéterminé. D'ailleurs � x Position Amplitude Dispersion Et non n! Variance Écart- Si par contre, on parle d'une population à un élément, sa variance est nulle. 2=0/1=0. D'ailleurs elle vaut �

Pourquoi cette différence ? Nous reverrons ce problème dans la partie sur la statistique

Pourquoi cette différence ? Nous reverrons ce problème dans la partie sur la statistique inductive. Nous expliquerons alors ce qu'est un degré de liberté et pourquoi c'est (n-1) et non n qui permet d'obtenir une estimation non biaisée de la variance de la population. Position Amplitude Dispersion Variance Écart-

Calcul de la variance En pratique : On remplace l'expression de par Position Amplitude

Calcul de la variance En pratique : On remplace l'expression de par Position Amplitude Dispersion Variance Écart-

Écart-type = racine carrée de la variance (homogène à une valeur) Population Position Amplitude

Écart-type = racine carrée de la variance (homogène à une valeur) Population Position Amplitude Dispersion Variance Écart- Échantillon

Écart-type Si la distribution est symétrique, on observe approximativement (1) Que 68% des valeurs

Écart-type Si la distribution est symétrique, on observe approximativement (1) Que 68% des valeurs sont dans [<x>-� , <x>+� ] Que 95% des valeurs sont dans [<x>-2� , <x>+2� ] Que 99% des valeurs sont dans [<x>-3� , <x>+3� ] (1) Position Amplitude Dispersion Variance Écart- On verra que ces valeurs dérivent en fait des propriétés d'une loi normale

Paramètres d'ordres supérieurs (3) Asymétrie (4) Aplatissement. . . Simple Classification Double Graphique

Paramètres d'ordres supérieurs (3) Asymétrie (4) Aplatissement. . . Simple Classification Double Graphique

Moments d'ordres supérieurs Moment d'ordre 3 Moment d'ordre 4 Population Position Amplitude Dispersion Variance

Moments d'ordres supérieurs Moment d'ordre 3 Moment d'ordre 4 Population Position Amplitude Dispersion Variance Écart- Échantillon

Moments d'ordres supérieurs Moment d'ordre 3 Moment d'ordre 4 Population Position Amplitude Dispersion Variance

Moments d'ordres supérieurs Moment d'ordre 3 Moment d'ordre 4 Population Position Amplitude Dispersion Variance Écart- Échantillon

Présenter ses résultats (a) Variable qualitative ou variable quantitative discrète prenant peu de valeurs

Présenter ses résultats (a) Variable qualitative ou variable quantitative discrète prenant peu de valeurs Tableau de distributions de valeurs (b) Variable qualitative ou variable quantitative discrète prenant beaucoup de valeurs Diagramme en bâtons Position Amplitude Dispersion Variance Écart-

Présenter ses résultats (c) Variable continue ou variable discrète prenant un grand nombre de

Présenter ses résultats (c) Variable continue ou variable discrète prenant un grand nombre de valeurs Préciser (1) Les valeurs centrales (moyenne) (2) La dispersion de vos résultats. Et si vous avez de la place, montrez un histogramme. Position Amplitude Dispersion Variance Écart-

Les sondages disent-ils n'importe quoi ? Voici un extrait d'une coupure de presse du

Les sondages disent-ils n'importe quoi ? Voici un extrait d'une coupure de presse du 12 avril 2001 : <coupure> Quelles informations manquent ?

II – 2 Statistique descriptive d'une série statistique double

II – 2 Statistique descriptive d'une série statistique double

II – 2 a) Hiérarchisation Simple Classification Double Graphique

II – 2 a) Hiérarchisation Simple Classification Double Graphique

Tableaux de corrélation L'équivalent du tableau de distribution de fréquences pour une série statistique

Tableaux de corrélation L'équivalent du tableau de distribution de fréquences pour une série statistique double est un tableau de corrélation Simple Classification Double Graphique

II – 2 b) Représentations graphiques Simple Classification Double Graphique

II – 2 b) Représentations graphiques Simple Classification Double Graphique

Stéréogramme Simple Classification Double Graphique

Stéréogramme Simple Classification Double Graphique

II – 2 c) Paramètres statistiques Simple Classification Double Graphique

II – 2 c) Paramètres statistiques Simple Classification Double Graphique

Induction - Déduction

Induction - Déduction

La démarche statistique est inductive Induction Population Échantillon

La démarche statistique est inductive Induction Population Échantillon

Définitions Population = ensemble sur lequel porteront les conclusions de l'étude. Échantillon = Sous-ensemble

Définitions Population = ensemble sur lequel porteront les conclusions de l'étude. Échantillon = Sous-ensemble de la population dans lequel seront collectées les données de l'étude.

III Probabilités ✔ Mots clés : moyenne, médiane, variance ✔ Savoir calculer ces valeurs

III Probabilités ✔ Mots clés : moyenne, médiane, variance ✔ Savoir calculer ces valeurs ✔ Connaître les principales fonctions statistiques

Théorie des ensembles

Théorie des ensembles

Hasard=Ensemble d'événements

Hasard=Ensemble d'événements

Probabilités

Probabilités

Théorie des ensembles

Théorie des ensembles