Lecture Automatique des Documents Recensement Gnral de la

  • Slides: 58
Download presentation
Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat Bouazza HASSAR

Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat Bouazza HASSAR Chef technique du Centre de Lecture Automatique de Documents 18/05/2008 www. hcp. ma 1

Plan q Les étapes du traitement des données 1. Réception des questionnaires 2. préparation

Plan q Les étapes du traitement des données 1. Réception des questionnaires 2. préparation des questionnaires 3. Numérisation 4. Traitement des images et OCR 5. Vidéo codage Normal 6. correction Inter documents 7. contrôle de qualité 8. Vidéo codage formules 9. Export data q Le recensement général de la population et de l’habitat 2004 1. Test 2. Implémentation 3. Production 18/05/2008 www. hcp. ma 2

1 - Réception des questionnaires La première étape est de recevoir les lots des

1 - Réception des questionnaires La première étape est de recevoir les lots des questionnaires , ce qui génère un numéro d’identification unique pour chaque lot. q Chaque lot contient environ 180 questionnaires. q Le numéro du lot reçu ainsi que son contenu est associé à un bordereau de réception. q Un bordereau de lot de traitement avec un code à barre est généré pour chaque lot. q 18/05/2008 www. hcp. ma 3

1 - Réception des lots L’opérateur prend une boîte d’archive, il saisit dans l’application

1 - Réception des lots L’opérateur prend une boîte d’archive, il saisit dans l’application le transport d’origine, le type de document et le numéro de district. Il ouvre la boîte pour vérifier le contenu et imprime immédiatement un bordereau de lot de traitement avec un code à barre. Ce bordereau est placé sur la pile de documents du lot. 18/05/2008 www. hcp. ma 4

2 - préparation des questionnaires q Les questionnaires composés de plusieurs pages sont massicotés.

2 - préparation des questionnaires q Les questionnaires composés de plusieurs pages sont massicotés. q Les questionnaires composés de papiers A 3 ou A 4 peuvent être numérisés sans aucune intervention. 18/05/2008 www. hcp. ma 5

Zone de séchage les lots de traitement sont placés dans une salle à atmosphère

Zone de séchage les lots de traitement sont placés dans une salle à atmosphère contrôlée (température et hydrométrie). 18/05/2008 www. hcp. ma 6

Chargement des questionnaires Il y a 3 zones de stockage : Chacune dispose d’une

Chargement des questionnaires Il y a 3 zones de stockage : Chacune dispose d’une capacité de un jour. Les lots sont placés dans des bannettes. 18/05/2008 www. hcp. ma 7

Chargement des questionnaires Les chariots sont utilisés pour organiser le transport des questionnaires à

Chargement des questionnaires Les chariots sont utilisés pour organiser le transport des questionnaires à la numérisation. Chaque chariot contient 30 lots d’environ 180 questionnaires chacun. 18/05/2008 www. hcp. ma 8

3 - La numérisation q Les Lots sont identifiés par leur code à barre.

3 - La numérisation q Les Lots sont identifiés par leur code à barre. q Les questionnaires sont numérisés avec les scanners Kodak ds Digital Science Scanner 3520 : - 40 à 85 pages par minute selon la résolution, l’orientation et la taille des documents. - Résolution 200 ou 300 dpi. - Taille des documents acceptée : min: chèque , max: A 3. - Capacité du scanner: 250 18/05/2008 www. hcp. ma 9

IHM de configuration des scanners 18/05/2008 www. hcp. ma 10

IHM de configuration des scanners 18/05/2008 www. hcp. ma 10

Les agents de numérisation identifient les lots par leurs code à barre. Outil de

Les agents de numérisation identifient les lots par leurs code à barre. Outil de tackage: Aligne les lots de questionnaires A 3 18/05/2008 www. hcp. ma 11

Scanner Kodak Ds Digital Science Scanner 3520, traite 52 questionnaires A 3 par minute.

Scanner Kodak Ds Digital Science Scanner 3520, traite 52 questionnaires A 3 par minute. Les agents de numérisation vérifient en temps réel la qualité des images scannées. . 18/05/2008 www. hcp. ma 12

IHM de la numérisation L’IHM de la numérisation permette de vérifier la qualité des

IHM de la numérisation L’IHM de la numérisation permette de vérifier la qualité des images scannées. 18/05/2008 www. hcp. ma 13

4 –Traitement de l’image q Traitement automatique des images (Pour chaque questionnaire A 3,

4 –Traitement de l’image q Traitement automatique des images (Pour chaque questionnaire A 3, 4 images sont produites) q Reconnaissance des limites de l’ image q Localisation des cellules q Reconnaissance Intelligente des Caractères. q Quelques images sont rejetées. Dans ce cas, Les agents concernés identifient les ancres de l’image et propose cette dernière à l’ICR. Si le problème persiste, l’image est renumérisée. 18/05/2008 www. hcp. ma 14

Questionnaire des ménages et des logements A 3 Ancres aux quatre coins du document

Questionnaire des ménages et des logements A 3 Ancres aux quatre coins du document Numéro de document 18/05/2008 www. hcp. ma 15

Questionnaire de la population et de l’habitat Chaque cellule a des coordonnées uniques par

Questionnaire de la population et de l’habitat Chaque cellule a des coordonnées uniques par rapport aux ancres du document. 18/05/2008 www. hcp. ma 16

Analyse manuelle L’application reconnaît la localisation des champs en se basant sur les ancres

Analyse manuelle L’application reconnaît la localisation des champs en se basant sur les ancres du document. Si l’application échoue dans cette opération, un agent exécute cette tâche via une interface dédiée. 18/05/2008 www. hcp. ma 17

OCR q A 2 i. A Field. Reader combine OCR, IWR pour la reconnaissance

OCR q A 2 i. A Field. Reader combine OCR, IWR pour la reconnaissance des données écrites / imprimées dans des documents structurés. q Entrée: images de formats : tiff G 4, bmp, Jpeg or Jpeg 2000 avec 200 DPI comme résolution minimale q Sortie: Données associées à des taux de confiance 18/05/2008 www. hcp. ma 18

Questionnaire de la population et de l’habitat Les contours des cellules ne sont pas

Questionnaire de la population et de l’habitat Les contours des cellules ne sont pas autorisés (Pour éliminer les bruits). Lors de la numérisation, le contraste est ajusté de manière à ce que les couleurs aveugles (i. e. bleu claire) des contours disparaissent de l’image. 18/05/2008 www. hcp. ma 19

Les images scannées sont en noir et blanc. Les champs à reconnaître sont complètement

Les images scannées sont en noir et blanc. Les champs à reconnaître sont complètement blanches sauf l’écriture qui apparaît en noir. 18/05/2008 www. hcp. ma 20

Reconnaissance Optique des Caractères La machine OCR reconnaît les caractères avec un taux de

Reconnaissance Optique des Caractères La machine OCR reconnaît les caractères avec un taux de confiance donné. Ensuite, elle applique les tests de cohérences. Les cellules reconnues avec un faible taux de confiance sont présentées pour vérification par un opérateur de vidéo codage. 18/05/2008 www. hcp. ma 21

5. Vidéo codage Normal (VCN) q q L’opérateur de VCN, valide/corrige les propositions de

5. Vidéo codage Normal (VCN) q q L’opérateur de VCN, valide/corrige les propositions de l’OCR. Deux taux de confiance sont utilisés: - 95% pour les cellules non associées aux tests logiques - 85% pour les cellules associées aux tests logiques. q 18/05/2008 Choisir 95 % comme taux de confiance pour l’ensemble des cellules augmente le nombre des cellules à passer par le VCN et par conséquent la coût de l’opération. www. hcp. ma 22

L’IHM de VCN OCR suggère la valeur 8 alors que la vrai valeur est

L’IHM de VCN OCR suggère la valeur 8 alors que la vrai valeur est 2. L’image montre 2 OCR propose 8 18/05/2008 www. hcp. ma 23

L’IHM de VCN L’opérateur de VCN corrige la valeur 18/05/2008 www. hcp. ma 24

L’IHM de VCN L’opérateur de VCN corrige la valeur 18/05/2008 www. hcp. ma 24

VCN q Codification des réponses ouvertes écrites en Arabe. q Questions sur la profession,

VCN q Codification des réponses ouvertes écrites en Arabe. q Questions sur la profession, L’activité économique, les diplômes, la migration. q Les codes sont proposés par les opérateurs (professionnel dans le domaine) à travers une interface dédiée. Il utilisent les information sur les images des questionnaires ainsi que les dictionnaires intégrés. q Les opérateurs ont l’option de visualiser d’autres variables de l’observation en cours de traitement. 18/05/2008 www. hcp. ma 25

L’ IHM du VCN Pas de proposition de l’OCR 18/05/2008 www. hcp. ma 26

L’ IHM du VCN Pas de proposition de l’OCR 18/05/2008 www. hcp. ma 26

L’ IHM du VCN L’opérateur de VCN cherche dans les dictionnaires (activité, diplôme. .

L’ IHM du VCN L’opérateur de VCN cherche dans les dictionnaires (activité, diplôme. . ) en utilisant des mots clés et par la suite il valide la réponse choisie. 18/05/2008 www. hcp. ma 27

Salle de Vidéo codage 18/05/2008 www. hcp. ma 28

Salle de Vidéo codage 18/05/2008 www. hcp. ma 28

6. Contrôle et correction Inter documents (CID) q 18/05/2008 Se fait pour vérifier la

6. Contrôle et correction Inter documents (CID) q 18/05/2008 Se fait pour vérifier la coordination statistique entre l’ensemble des documents d’un même lot. www. hcp. ma 29

7. Contrôle Qualité (CQ) q Le CQ permet de produire des données avec des

7. Contrôle Qualité (CQ) q Le CQ permet de produire des données avec des taux d’erreurs minimes contrôlés. q Cette étape suit celle de la reconnaissance optique et du VCN. q La norme Afnor NFX 06 -022 de October 1991, qui est en accord avec la norme internationale ISO 2859 -1 -1989, est appliquée. q Pour les cellules remplies, Le seuil de qualité acceptable est 0. 52%. 18/05/2008 www. hcp. ma 30

La norme Afnor NFX 06 -022 de October 1991 Selon la norme Afnor (Niveau

La norme Afnor NFX 06 -022 de October 1991 Selon la norme Afnor (Niveau de contrôle II): pour les lots de 10001 à 35000 observations, 315 obs. sont triées en modes normal et renforcé. 18/05/2008 www. hcp. ma 31

Contrôle Qualité avec la norme Afnor Si un lot est rejeté Mode normal :

Contrôle Qualité avec la norme Afnor Si un lot est rejeté Mode normal : - Contrôle 315 observations/lot - Rejette le lot si 5 erreurs existent Si 10 lots successifs sont acceptés Si 2 de 5 lots successifs sont rejetés Mode réduit: - Contrôle 125 observations/lot - Rejette le lot si 4 erreurs existent Mode renforcé: - Contrôle 315 observations/lot - Rejette le lot si 3 erreurs existent Si 5 lots success ifs sont accept és Si 5 lots successifs sont rejetés La production est arrêtée. Le problème est investigué. 18/05/2008 www. hcp. ma 32

IHM de Contrôle Qualité (CQ) L’opérateur de CQ vérifie que les valeurs du fichier

IHM de Contrôle Qualité (CQ) L’opérateur de CQ vérifie que les valeurs du fichier de données sont identiques à celles des images. 18/05/2008 Valeur de l’image: 1 Valeur dans le fichier de données: 1 www. hcp. ma 33

Zone de stockage Les Questionnaires Sont stockés dans le centre de traitement jusqu’à ce

Zone de stockage Les Questionnaires Sont stockés dans le centre de traitement jusqu’à ce qu’ils passent par l’étape du CQ. 18/05/2008 www. hcp. ma 34

8 - Vidéo codage de Formule (VCF) Permet aux opérateurs qualifiés de corriger ce

8 - Vidéo codage de Formule (VCF) Permet aux opérateurs qualifiés de corriger ce genre d’erreurs. L’IHM du Script des formules de cohérence. Les programmeurs expriment les règles de cohérences en utilisant un langage spécifique. 18/05/2008 www. hcp. ma 35

IHM du Vidéo codage de formule Exemple d’une erreur de logique: Alors que le

IHM du Vidéo codage de formule Exemple d’une erreur de logique: Alors que le logement est déclaré vide, le type de propriété est déclaré comme propriétaire. L’opérateur corrige cette inconsistance. 18/05/2008 Erreurs logiques www. hcp. ma 36

9 - Export Data q 18/05/2008 La dernière étape du traitement des questionnaires est

9 - Export Data q 18/05/2008 La dernière étape du traitement des questionnaires est l’export des données vers des fichiers texte et l’export des images documents traités. Le tout est gravé sur des DVDs et livré à l’exploitation statistique pour validation. www. hcp. ma 37

Le fichier d’Export Data Les données sont exportées vers un fichier texte, elles peuvent

Le fichier d’Export Data Les données sont exportées vers un fichier texte, elles peuvent être exploitées ultérieurement via CSPro/IMPS… Record type 18/05/2008 www. hcp. ma 38

Surveillance de l’espace disque A ce stade, les images sont supprimées des serveurs afin

Surveillance de l’espace disque A ce stade, les images sont supprimées des serveurs afin de libérer l’espace pour les images qui viennent. 18/05/2008 www. hcp. ma 39

IHM des statistiques Ce module offre les statistiques détaillés le long des différentes étapes

IHM des statistiques Ce module offre les statistiques détaillés le long des différentes étapes de la production agrégés par traitement / date. . . 18/05/2008 www. hcp. ma 40

Traitement du RGPH 2004 du MAROC q Objectif: Capture des données depuis les questionnaires

Traitement du RGPH 2004 du MAROC q Objectif: Capture des données depuis les questionnaires en une courte période de temps. q Le choix des stratégies : q Capture manuelle des données (utilisée dans les recensements précédents) q Reconnaissance optique des caractères (nouvelle technologie utilisée dans les pays développés). ð 18/05/2008 Partenariat avec le secteur privé pour développer une solution spécifique utilisant l’ OCR. www. hcp. ma 41

3 Phases q Phase de test – 3 mois q Phase d’implémentation – 2

3 Phases q Phase de test – 3 mois q Phase d’implémentation – 2 mois q Phase de production– 18 mois 18/05/2008 www. hcp. ma 42

Phase de test q Afin d’identifier les méthodes d’organisation à adopter et les ressources

Phase de test q Afin d’identifier les méthodes d’organisation à adopter et les ressources à mobiliser. q L’objectif secondaire était de comparer les deux scénarios: OCR et saisie manuelle par clavier. 18/05/2008 www. hcp. ma 43

Phase d’implémentation q Création d’un Centre de Lecture Automatique des documents q Installation des

Phase d’implémentation q Création d’un Centre de Lecture Automatique des documents q Installation des équipements matériels et logiciels nécessaires (110 PCs, 5 scanners and 5 serveurs)… q Recours à des ressources humaines adéquates (240 personnes: 50% était employé temporairement). 18/05/2008 www. hcp. ma 44

Centre de Lecture Automatique des Documents 18/05/2008 www. hcp. ma 45

Centre de Lecture Automatique des Documents 18/05/2008 www. hcp. ma 45

Zone de Numérisation Scanners Chariots à traiter OCR Chariots traités Stockage des Questionnaires non

Zone de Numérisation Scanners Chariots à traiter OCR Chariots traités Stockage des Questionnaires non encore scannés Stockage des questionnaires scannés Réception 18/05/2008 www. hcp. ma 46

Salles de Vidéo codage 18/05/2008 www. hcp. ma 47

Salles de Vidéo codage 18/05/2008 www. hcp. ma 47

L’architecture logique du matériel installé selon 4 grappes et une grappe centrale La production

L’architecture logique du matériel installé selon 4 grappes et une grappe centrale La production est organisée en 4 différentes grappes. Cette séparation réduit les risques des pannes et ruptures de toutes les grappes. 18/05/2008 www. hcp. ma 48

Ressources humaine, matérielle et logicielle utilisées pour la capture des données des questionnaires du

Ressources humaine, matérielle et logicielle utilisées pour la capture des données des questionnaires du RGPH 2004 Etapes du traitement R. hum R. Mat & Log 1. Réception des questionnaires 3 3 PCs 2. Préparation des Questionnaires 20 Massico, 16 chariots 3. Numérisation 18 5 scanners (1 spare) 4. Traitement des images et OCR 4 16 PCs, 12 OCR dongles 120 60 PCs 6. Contrôle Inter-documents 8 16 PCs 7. CQ 24 12 PCs 8. VCF 32 16 PCs 9. Export Data 2 2 PCs R. Partagées (superviseurs) 20 5 serveurs Total 297 125 PCs 5. VCN 18/05/2008 www. hcp. ma 49

Phase de production q 3 périodes: 1 - Questionnaires de la population urbaine et

Phase de production q 3 périodes: 1 - Questionnaires de la population urbaine et rurale traités en 1 mois. 2 - (seulement les chiffres) traités en 6 mois. 3 - Questionnaires A 4 de la population et de l’habitat (chiffres et lettres arabes) traités en 12 mois. q Cette séparation permet la diffusion les résultats obtenus aprés chaque étape. 18/05/2008 www. hcp. ma 50

Questionnaires du RGPH 2004, types, volumes et le temps alloué pour la capture des

Questionnaires du RGPH 2004, types, volumes et le temps alloué pour la capture des données Questionnaire Volumes: # des Questionnaires Type Champs /quest. Type des champs Temps* Population urbaine et rurale 38 000 A 4 (21 pages R/V) 3051 Chiffres arabes 1 mois Population et Habitat 6 800 000 A 3 R/V 248 Chiffres arabes 6 mois 5 800 000 A 4 R/V 12 54 Chiffres arabes Lettres arabes 12 mois Population comptée à part 12 500 A 3 R/V 260 Chiffres arabes 1 jour Population nomade 40 000 A 3 R/V 245 Chiffres arabes 1 jour 40 000 A 4 R/V 12 54 Chiffres arabes Lettres arabes 2 jour 39 888 000 pages A 4 Total t 0+ 19 mois *2 groupes par jour: de 7: 30 am à 1: 15 pm et de 1: 30 pm à 7: 30 pm 18/05/2008 www. hcp. ma 51

Production mensuelle des questionnaires A 3 de la Population et Habitat Jours travaillés Dec

Production mensuelle des questionnaires A 3 de la Population et Habitat Jours travaillés Dec 05 Jan 05 Fev 05 Mar 05 Avr 05 Mai 05 Total 23 20 20 23 19 10 115 Numérisation 1 227 321 921 631 1 256 348 1 437 295 1 232 712 762 294 6 837 601 VCN 1 100 991 1 050 629 1 244 457 1 512 467 1 366 139 909 376 7 184 059 CID 211 360 1 078 449 1 327 056 1 494 357 1 355 789 892 831 6 359 842 CQ 939 540 1 046 538 1 208 747 1 538 407 1 328 688 953 781 7 015 701 VCF 344 807 963 506 801 285 969 561 861 669 629 328 4 570 156 Export Data en DVD 277 739 1 310 466 1 325 687 1 487 121 1 442 570 1 151 285 6 994 868 18/05/2008 www. hcp. ma 52

Planning de la capture des données des questionnaires A 3 de la Population et

Planning de la capture des données des questionnaires A 3 de la Population et Habitat Dec 05 Jours travaillés Jan 05 Fev 05 Mar 05 Avr 05 Mai 05 Total 23 20 20 23 19 17 150 Objectif (# districts) 3 393 7 191 7168 7619 7115 6635 37 323 Réalisé (# districts) 1 370 7 287 7 192 7626 7213 6635 37 323 40% 101% 100% Pourcentage (%) 18/05/2008 www. hcp. ma 53

Production en Graphe, Décembre 2004 18/05/2008 www. hcp. ma 54

Production en Graphe, Décembre 2004 18/05/2008 www. hcp. ma 54

Employés du mois Chef de grappe technique Mr. Majid MRANI Chef de grappe fonctionnel

Employés du mois Chef de grappe technique Mr. Majid MRANI Chef de grappe fonctionnel Mlle. Zohra KARIM Réception M. Rachid BOUDERSA Numérisation Mme Meryem BENMOUSSA Mr. Abdelaziz EL FAKIR Numérisation Mme Saida MEKTOUM Mr. Ali AGOUZOUL CQ Mlle. Hanane ELHAIRECH VCN M. Naima TAOUFIK CID Mr. Mohamed AYAT VCF M. Driss ELKEDDARI 18/05/2008 www. hcp. ma 55

Employé du mois 18/05/2008 www. hcp. ma 56

Employé du mois 18/05/2008 www. hcp. ma 56

Equipe du traitement des données– Mai 2005 18/05/2008 www. hcp. ma 57

Equipe du traitement des données– Mai 2005 18/05/2008 www. hcp. ma 57

Merci 18/05/2008 www. hcp. ma 58

Merci 18/05/2008 www. hcp. ma 58