1 Louis Chauvel Pr Dr Universit du Luxembourg
1 Louis Chauvel Pr Dr Université du Luxembourg Statistiques Sociales LC 3 louis. chauvel@uni. lu http: //www. louischauvel. org 1
Présentation Séance 1 - Aujourd’hui : élaborer un questionnaire et le saisir sur Internet Séance 2 - 7/11/17 Les statistiques univariées sur EXCEL Séance 3 - 14/11/17 Eléments de statistique univariées Séance 4 - Les croisements de données (statistiques bivariées) Séance 5 - Introduction à SPSS / PSPP Séance 6 - Introduction à l’analyse des données approfondie
Séance 3 1 - Introduction : Analyse statistique : la mesure du social 2 - Les variables (quantitatives, qualitatives, etc. ) 3 - Statistiques sur variables quantitatives : tendance centrale (Moyenne, médiane, mode) et dispersion (déciles, écart-type) 4 - Fréquences / proportions / histogrammes / camemberts 5 - Echantillons et incertitude statistique : les bases 6 - Conclusion : récapitulatif
4 1 - Introduction : Mesurer le social Problèmes conceptuels, Problèmes épistémologiques, Problèmes sociaux, … 4
5 2 - Les variables (quantitatives, qualitatives, etc. ) 5
6 2 a – Variables « qualitatives » (dites nominales, catégoriques, etc. ) 1. Décrivent les individus selon des caractéristiques a priori non-hiérarchiques [=partition] 2. Exemples: sexe, canton de résidence, profession, etc. 3. On en fait: des pourcentages * Etiquettes, dénominations, catégorisations * Exhaustivité et exclusivité mutuelle des catégories * Codages numériques des catégories sans significations * Pas de hiérarchisation (a priori) entre catégories Attention: citoyenneté (plusieurs pays possibles) = variable multiple 6
7 2 b – Variables « quantitatives » (dites numérique, métrique, intervalle, etc. ) 1. Décrivent la position d’individus sur une échelle de mesure 2. Exemples: âge (en années), poids (kg), taille (m), revenu (€), etc. 3. On en fait: des histogrammes, moyennes, déciles, écart-types, etc. * Relation de distance * Transformations par calculs possibles * S’exprime souvent selon une unité de mesure 7
8 2 c – Variables de type mixte (ou ambigu) 1. Variables ordinales (très, beaucoup, ni-ni, pas trop, pas du tout) * Pas une relation de distance mais une relation d’ordre (hiérarchie) 2. Variables dichotomiques (0/1) * S’exprime souvent selon une unité de mesure 8
9 2 d – Autres variables Autres cas 1. Variables de ratio (pourcentages) 2. Variables de proportion (entre 0 et 1) 3. Etc. 9
10 3 - Statistiques univariées sur variables quantitatives : tendance centrale (Moyenne, médiane, mode) et dispersion (déciles, écart-type) 10
11 l 3 a. Les distributions de variables numériques : de l’histogramme à la densité La diversité des variables numériques : discrètes / continues ; additives / multiplicatives, etc. Les variables numériques continues et la difficulté de leur représentation => Exemple du revenu au Luxembourg (2011)
12 Exemple du revenu en France Enquête SILC 2000 : 11 451 ménages interrogés sur les revenus et les dépenses de l’année Problème : si on considère le revenu (au cents près) par tête dans le ménage (après impôt), on ne peut guère trouver deux ménages avec le même revenu => solution : on peut représenter la « distribution » par un histogramme fondé sur un découpage en tranches ni trop fines ni trop épaisses …
13 Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros), ici en tranches de 500 €
14 Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros), ici en tranches de 2000 €
15 Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros), ici en tranches de 500 €
16 Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an Queue de distribution En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros)
17 La « densité » = profil de l’histogramme Queue de distribution En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros)
18 l 3 b Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode, … La moyenne arithmétique : S x Moy (x) = n n = nombre d’individus : 11 407 dans l’enquête SILC 2011 La moyenne est la somme des valeurs divisée par n 37375 euros par unité de consommation UC
19 l. Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode, … La médiane : C’est la valeur qui divise en deux parties égales la population Ex : la médiane des revenus est le revenu qui divise en deux parties égales de 50 % la population : méd (revenu par tête) = 32 859 euros/an/tête
20 l. Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode, … Le mode : C’est la valeur qui regroupe le plus d’individus Ex : le mode des revenus est situé autour de 23 000 euros/an/tête
21 Mode 23 000 Médiane 32 859 Moyenne 37375 La moyenne est-elle trompeuse ? 1 - quand une distribution est très dissymétrique, la moyenne est très différente de la médiane 2 - lorsque la distribution est très « écrasée » à droite (riches), de nombreux individus sont loin de la moyenne
22 l 3 c Différents indicateurs de dispersion : Mode l. Quartiles / quintiles / déciles ( / centiles) l. Quantiles et groupes de quantiles l(Le rapport interquartile : q 3/q 1) l. Le rapport interdécile ; d 9/d 1 Médiane l « Seuil de pauvreté relative » = 1/2 médiane queue de distribution QG 1 QG 2 QG 3 q 3 Med d 1 q 1 =q 2 Moyenne QG 4 Med/2 = seuil de pauvreté relative d 9 25 % 10 %
23 l. Les statistiques de dispersion : écart-type L’écart-type : Ect (x) = S [x – moy(x)]2 n S’interprète comme la « distance moyenne à la moyenne » : Ex : l’écart-type des revenus est : Ect (revenu par tête) = 22 125
Exemple de la « loi normale » (taille, QI, notes dans une classe) Ect moy 68 % de la pop entre : (moy – Ect) et (moy + Ect) 95, 5 % de la pop entre : (moy – 2 Ect) et (moy + 2 Ect) 24
Exemple de la « loi normale » (la taille des conscrits, les notes, …) 25 Ect moy 2/3 de la pop entre : (moy – 0, 97 Ect) et (moy + 0, 97 Ect) 95 % de la pop entre : (moy – 1, 96 Ect) et (moy + 1, 96 Ect)
26 l Exemple : La taille des Néerlandais et des Portugais Est-il possible de discriminer Néerlandais et Portugais simplement sur leur taille ? Hommes, Pays-Bas : moy (taille) = 1, 80 m ect (taille) = 7, 79 cm Hommes, Portugal : moy (taille) = 1, 70 m ect (taille) = 7, 48 cm => Réponse : oui et non… Seuls 16 % des néerlandais sont sous la barre des 1, 72 m, donc un Portugais moyen a des chances d’être un peu reconnaissable, mais ce n’est pas systématique !…
27 Mode l. Différents indicateurs de dispersion : l. Quartiles / quintiles / déciles ( / centiles) l. Quantiles et groupes de quantiles l(Le rapport interquartile : q 3/q 1) l. Le rapport interdécile ; d 9/d 1 Médiane l « Seuil de pauvreté relative » = 1/2 médiane queue de distribution QG 1 QG 2 QG 3 q 3 Med d 1 q 1 =q 2 Moyenne QG 4 Med/2 = seuil de pauvreté relative d 9 25 % 10 %
28 4 - Statistiques univariées sur variables qualitatives : fréquences 28
29 5 - Echantillons et incertitude statistique : les bases 29
Echantillons et incertitude statistique : les bases Population (Universe) (size N) Unknown percentage p votes for A Known percentage f votes for A size n Random Sample (sampling rate n/N) Echantillon probabiliste (aléatoire) uniforme taux de sondage = n/N p=f ± 2 p f f (1 - f ) n
• • 2 candidates A & B Univers : votes A p=? % Echantillon probabiliste uniforme n=1000 size f=54% Then 54 -3. 2 < p < 54+3. 2 (95% confidence interval) find a more complete Gauss’ confidence interval at 95% there : www. louischauvel. org/tabledegauss. doc 31
32 4 - Histogrammes 3 c- Tris Croisés 4 - Pour la semaine prochaine : saisir votre questionnaire sur Google Forms 32
33 6 - Conclusion : Récapitulatif 33
- Slides: 33