Vrifier la qualit des donnes qualit des donnes

  • Slides: 19
Download presentation
Vérifier la qualité des données

Vérifier la qualité des données

qualité des données Objectifs • Données doubles, données manquantes et valeurs exactes • Vérification

qualité des données Objectifs • Données doubles, données manquantes et valeurs exactes • Vérification des valeurs légales et extrêmes; nettoyage des données • Préférence numérique • Arrondissement de l'âge 2

qualité des données Qualité des données • Les tests de cette session peuvent s'appliquer

qualité des données Qualité des données • Les tests de cette session peuvent s'appliquer à tous les types de données 3

qualité des données Complétude des données • Les données manquantes peuvent introduire un biais

qualité des données Complétude des données • Les données manquantes peuvent introduire un biais • Intégrité structurale des : – – Grappes Ménages Enfants Dates de naissance 4

qualité des données Complétude des données • Exprimée en proportion • les numérateurs et

qualité des données Complétude des données • Exprimée en proportion • les numérateurs et les dénominateurs ainsi que les ratios qui en résultent devraient être présentés 5

qualité des données Complétude des données 6

qualité des données Complétude des données 6

qualité des données Vérification des valeurs légales et extrêmes • Parfois, les données sont

qualité des données Vérification des valeurs légales et extrêmes • Parfois, les données sont clairement erronées – Les décimales et les virgules manquent – Les données manquantes sont codées avec un numéro (9999) – Le sexe est codé avec des lettres ET des chiffres – Etc • Nous devons éditer quand c'est clairement faux. 7

qualité des données Vérification de données et valeurs légales 8

qualité des données Vérification de données et valeurs légales 8

Exercice 1 • Préparer le fichier ex 01. csv • Calculer le pourcentage de

Exercice 1 • Préparer le fichier ex 01. csv • Calculer le pourcentage de données manquantes pour le sexe • Calculer le pourcentage de données de poids manquantes • Calculer le pourcentage de données PB manquantes 9

qualité des données Préférence numérique • Analyse de l'arrondi du poids, du PB et

qualité des données Préférence numérique • Analyse de l'arrondi du poids, du PB et des mesures de taille. • Il est classique d’observer un nombre excessif de valeurs se terminant par 0 ou 5 pour la taille, le poids et le PB. • Analyse globale et analyse par équipes. • Les données de routine ou d'autres données peuvent également être examinées pour déterminer la préférence numérique. 10

qualité des données Préférence numérique Peut survenir en raison de l'arrondissement ou de la

qualité des données Préférence numérique Peut survenir en raison de l'arrondissement ou de la falsification des données. 11

qualité des données Score pour la Préférence Numérique (SPN) • Calcul numérique de la

qualité des données Score pour la Préférence Numérique (SPN) • Calcul numérique de la préférence numérique • Indice de dissimilarité 12

qualité des données Score pour la Préférence Numérique (SPN) • L'OMS ne fournit pas

qualité des données Score pour la Préférence Numérique (SPN) • L'OMS ne fournit pas de recommandations • SMART – – 0 ≤ DPS < 8 Excellent 8 ≤ DPS < 12 Bon 12 ≤ DPS < 20 Acceptable DPS ≥ 20 Problématique 13

qualité des données Arrondissement de l'âge • déclarer l'âge des enfants à l'année la

qualité des données Arrondissement de l'âge • déclarer l'âge des enfants à l'année la plus proche • Ou biais de sélection en faveur des enfants plus âgés/plus jeunes • Mauvais dossiers, rappel maternel, calendrier des événements • On observe souvent plus d‘arrondissement chez les enfants plus âgés. • La mortalité et les taux de fécondité peuvent la modifier 14

Arrondissement de l'âge • Les histogrammes sont un bon moyen de la vérifier January

Arrondissement de l'âge • Les histogrammes sont un bon moyen de la vérifier January 2019 Addis Ababa 15

Arrondissement de l'âge • Les histogrammes sont un bon moyen de la vérifier January

Arrondissement de l'âge • Les histogrammes sont un bon moyen de la vérifier January 2019 Addis Ababa 16

qualité des données Conclusions • La proportion de données manquantes est un indicateur utile

qualité des données Conclusions • La proportion de données manquantes est un indicateur utile de la qualité des données • L'arrondissement peut créer une mauvaise qualité de données. Il est possible de vérifier la préférence des chiffres du PB, le poids et la taille en utilisant le SPN. • L´arrondissement de l'âge est un phénomène courant : il peut être vérifié à l'aide d'histogrammes ou d'un test de chi carré. January 2019 Addis Ababa 17

Exercice 2 • Diviser en 4 groupes • Les fichiers ex 02 a. csv

Exercice 2 • Diviser en 4 groupes • Les fichiers ex 02 a. csv et ex 02 c. csv sont des fichiers CSV contenant des données anthropométriques sur les enfants d'un seul Etat d'un pays d'Afrique de l'Ouest dans une enquête démographique et sanitaire (DHS). • Le fichier ex 02 b. csv est un fichier CSV contenant les données anthropométriques de routine des programmes CMAM de 2018 au Camp de Dadaab. • Le fichier ex 01 d. csv est un fichier CSV contenant les données anthropométriques d'une enquête RAM-OP (Rapid Assessment Method for Older People) dans le camp de réfugiés de Dadaab à Garissa, Kenya. Il s'agit d'une enquête menée auprès de personnes âgées de soixante ans et plus. 18

Exercice 2 • Équipe A : calculer le SPN pour la taille et le

Exercice 2 • Équipe A : calculer le SPN pour la taille et le poids • Equipe B : calculer le SPN pour le PB • Équipe C : l'arrondissement de l'âge chez les enfants • Équipe D : l'arrondissement de l'âge chez les adultes 19