chantillonnage STT2000 Section 5 Types derreur de sondage

  • Slides: 21
Download presentation
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003 STT-2000; Échantillonnage

Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003 STT-2000; Échantillonnage

Non-réponse l l l 2 Problème survenant dans plusieurs sondages. Peut varier considérablement dans

Non-réponse l l l 2 Problème survenant dans plusieurs sondages. Peut varier considérablement dans le temps, même pour un même sondage effectué à plusieurs reprises dans le temps. Pour la contrôler: entraînement des interviewers, déroulement de l’entrevue (longueur de l’entrevue, choix et formulation des questions, etc. ) STT-2000; Échantillonnage

Exemples de non-réponse l l l 3 Incapacité de contacter un individu, un ménage,

Exemples de non-réponse l l l 3 Incapacité de contacter un individu, un ménage, ou de manière générale unité. La personne peut décider de ne pas répondre; refus catégorique; incompréhension (langue, analphabétisme) Idéalement, l’interviewer tente d’obtenir de l’information démographique sur le nonrépondant (âge? , sexe? , ethnie? , lieu de résidence: rural/urbain? ) STT-2000; Échantillonnage

Effets de la non-réponse l Biais potentiel dans les estimateurs des paramètres de la

Effets de la non-réponse l Biais potentiel dans les estimateurs des paramètres de la population. l La non-réponse est particulièrement grave car la volonté de réponse est souvent liée à la variable d’intérêt y. 4 STT-2000; Échantillonnage

Facteurs principaux font que le biais est petit: Moyenne chez les non-répondants est similaire

Facteurs principaux font que le biais est petit: Moyenne chez les non-répondants est similaire à la moyenne chez les répondants. l Taux de non-réponse est raisonnablement petit. (Pour EPA = enquête population active, taux de nonréponse est d’environ 7%; 5% et moins est « acceptable » . ) l 5 STT-2000; Échantillonnage

Formalisation de la non-réponse l l 6 Contexte: On sélectionne s dans U avec

Formalisation de la non-réponse l l 6 Contexte: On sélectionne s dans U avec probabilité p(s), avec pk > 0 et pkl > 0. Après la collecte des données, yk est disponible seulement pour les unités pour et Dans une telle situation, nous sommes en présence de données manquantes ou de la non-réponse. STT-2000; Échantillonnage

Exemple Réponse aux deux questions. Échantillon s Réponse à une question mais pas aux

Exemple Réponse aux deux questions. Échantillon s Réponse à une question mais pas aux deux. (nonréponse par item) Non-réponse aux deux questions. (nonréponse par unité) Nonéchantillonné, partie U-s 7 STT-2000; Échantillonnage

Illustration du problème de biais: Enquête sur le revenu, où tous les hauts revenus

Illustration du problème de biais: Enquête sur le revenu, où tous les hauts revenus ont une probabilité de répondre plus faible. l Ceci implique une sous-représentativité des hauts revenus dans . Si tirage SI (n parmi N): Si on considère comme estimateur l où m est le nb de répondants: l l 8 STT-2000; Échantillonnage

Techniques pour contrôler le problème de la non-réponse l Sous-échantillonnage des répondants. l Techniques

Techniques pour contrôler le problème de la non-réponse l Sous-échantillonnage des répondants. l Techniques de réponses randomisées. l Techniques basées sur la modélisation de la non-réponse. l Imputation. 9 STT-2000; Échantillonnage

Imputation: on pose des valeurs plausibles pour les valeurs manquantes 10 l On connaît

Imputation: on pose des valeurs plausibles pour les valeurs manquantes 10 l On connaît l On impute l On obtient ainsi un ensemble de données complétées: STT-2000; Échantillonnage

Autre exemples d’imputation l l 11 Hot Deck: On choisit au hasard une valeur

Autre exemples d’imputation l l 11 Hot Deck: On choisit au hasard une valeur déjà obtenue pour remplir les trous. Cold Deck: Utilisation de données provenant de sources externes. Imputation par la moyenne: Chacun des trous est remplacé par la valeur moyenne des répondants. Imputation utilisant des modèles: par le ratio, par la régression, etc. STT-2000; Échantillonnage

Repondération comme une méthode d’ajustement pour la nonréponse l l 12 On accepte la

Repondération comme une méthode d’ajustement pour la nonréponse l l 12 On accepte la non-réponse. On ne tente pas d’imputer. Cependant, on cherche à redresser l’échantillon de répondants. On a besoin cependant d’information auxiliaire, permettant un découpage en catégories (exemple: âge, sexe) STT-2000; Échantillonnage

Repondération l l 13 On identifie G groupes, g = 1, 2, …, G.

Repondération l l 13 On identifie G groupes, g = 1, 2, …, G. L’échantillon s est découpé en s 1, s 2, …, s. G. Ainsi, ceci implique l’échantillon des répondants r est découpé en r 1, r 2, …, r. G. Pour , on doit donc pouvoir observer les caractéristiques qui définissent le regroupement. STT-2000; Échantillonnage

Repondération (suite) l l 14 Pour le groupe g, soit mg/ng le taux de

Repondération (suite) l l 14 Pour le groupe g, soit mg/ng le taux de réponse, où mg = taille de rg, et ng = taille de sg. Par repondération, on veut dire que le poids d’échantillonnage 1/pk (poids sans nonréponse) est remplacé (ou redressé) par la valeur (ng/mg)(1/pk) (avec non-réponse). STT-2000; Échantillonnage

Intuition derrière la méthode de redressement (plan SI) l 1/pk = N/n. On note

Intuition derrière la méthode de redressement (plan SI) l 1/pk = N/n. On note que . l Cependant . l On cherche q tel que l 15 STT-2000; Échantillonnage

Estimateur par repondération 16 l Estimateur: l Pour le plan SI: STT-2000; Échantillonnage

Estimateur par repondération 16 l Estimateur: l Pour le plan SI: STT-2000; Échantillonnage

Justification de l’estimateur par repondération l l 17 Pour s: Pour r, on pose:

Justification de l’estimateur par repondération l l 17 Pour s: Pour r, on pose: Dans le cas de l’estimateur par repondération par groupes, on suppose: L’estimateur est: STT-2000; Échantillonnage

Justification (suite) l l l 18 Sous les hypothèse suivantes: Pour chaque unité k

Justification (suite) l l l 18 Sous les hypothèse suivantes: Pour chaque unité k dans le groupe g, les unités répondent avec probabilité qg indépendamment (plan BE étant donné s). L’estimateur précédent est alors sans biais sous ce mécanisme de réponse. Puisque qg est inconnu, on l’estime par STT-2000; Échantillonnage

Exemple, T. P. 9, no. 5 19 STT-2000; Échantillonnage

Exemple, T. P. 9, no. 5 19 STT-2000; Échantillonnage

Solution l Estimateur: l On pose: l On obtient: l Estimateur repondéré: l Moyenne

Solution l Estimateur: l On pose: l On obtient: l Estimateur repondéré: l Moyenne des répondants: 20 STT-2000; Échantillonnage

Solution (suite et fin) l l 21 L’estimateur repondéré est mieux que la moyenne

Solution (suite et fin) l l 21 L’estimateur repondéré est mieux que la moyenne des répondants dans la mesure où l’estimateur repondéré tient compte des différences qu’il y a entre les groupes en rapport avec la volonté de répondre. Dans l’exemple, les hommes répondaient moins que les femmes. STT-2000; Échantillonnage