Saisie optique des donnes Reconnaissance optique de caractres

  • Slides: 21
Download presentation
Saisie optique des données : Reconnaissance optique de caractères (OCR) Reconnaissance intelligente de caractères

Saisie optique des données : Reconnaissance optique de caractères (OCR) Reconnaissance intelligente de caractères (ICR) Reconnaissance intelligente (IR) Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Sommaire: o o o o Concepts/Définitions Conception des formulaires Scanners & Logiciels Stockage Précision

Sommaire: o o o o Concepts/Définitions Conception des formulaires Scanners & Logiciels Stockage Précision OCR/ICR: Avantages et Inconvénients Reconnaissance Intelligente (IR) Fournisseurs commerciaux Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Définition de l’OCR o Le procedé OCR fournit aux systèmes d'imagerie et de numérisation

Définition de l’OCR o Le procedé OCR fournit aux systèmes d'imagerie et de numérisation la capacité de transformer les images de caractères imprimés à la machine en caractères lisibles par la machine. n Images des caractères imprimés à la machine sont extraites du « bitmap » de l’image scannée Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Définition de l’ICR o Le procedé ICR fournit aux systèmes d'imagerie et de numérisation

Définition de l’ICR o Le procedé ICR fournit aux systèmes d'imagerie et de numérisation la capacité de transformer les images de caractères écrits à la main en caractères lisibles par la machine. n Images des caractères écrits à la main sont extraites du « bitmap » de l’image scannée Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Différences entre OCR et ICR o L’OCR est moins précis que l’OMR, mais plus

Différences entre OCR et ICR o L’OCR est moins précis que l’OMR, mais plus précis que l’ICR o L’ICR exige la correction pour atteindre un niveau élevé de confiance semblable à celui de l’OCR Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Formulaires OCR/ICR o La conception du formulaire OCR/ICR est moins stricte par comparison à

Formulaires OCR/ICR o La conception du formulaire OCR/ICR est moins stricte par comparison à l’OMR: n n n Pas de repères de piste, mais des marques d’enegistrement L’image peut flotter sur la page o L’ICR exige que les cases cochées à la main soient remplis par un seul caractère alphanumérique par case Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Formulaires OCR/ICR (suite) n Le recours à des couleurs invisibles réduit la taille du

Formulaires OCR/ICR (suite) n Le recours à des couleurs invisibles réduit la taille du produit de sortie du scanner et améliore la précision n la technologie ICR / OCR fait souvent appel à des marques de calage sur les quatre coins d'un document pour la reconnaissance d'une image Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Atelier régional des Nations Unies sur le traitement des données du recensement : les

Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

OCR/ICR: Scanners et logiciel o Les formulaires peuvent être numérisés par le biais d'un

OCR/ICR: Scanners et logiciel o Les formulaires peuvent être numérisés par le biais d'un scanner et puis le moteur de reconnaissance OCR / ICR interprète les images et transforme les images de caractères manuscrits ou imprimés en données ASCII (caractères lisibles à la machine) o Les utilisateurs peuvent numériser sans faire de l'OCR o Gamme de vitesses: 85 -160 feuilles / min (selon le moteur de reconnaissance) Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

OCR/ICR: Caractéristiques du stockage o Stockage/ récupération n Les images sont scannées, stockées et

OCR/ICR: Caractéristiques du stockage o Stockage/ récupération n Les images sont scannées, stockées et conservées par voie électronique n Il n'est pas nécessaire de stocker les formulaires papier aussi longtemps que sont sauvegardés les fichiers électroniques n Avec OCR / ICR technologies, les images peuvent être scannées, indexées et stockées sur supports optiques Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Seuil de précision idéal pour OCR/ICR o Précision : n Précision atteinte par la

Seuil de précision idéal pour OCR/ICR o Précision : n Précision atteinte par la saisie au clavier des données par des agents (~ 99, 5%) est environ égal à OCR / ICR en parfait réglage (~ 99, 5%) n Elle peut atteindre jusqu’a 99. 9% de précision avec correction (comme pour l’OMR) o Le moteur de reconnaissance doit être réglé, testé et validé très soigneusement Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

OCR/ICR: Avantages n Les moteurs de reconnaissance utilisés avec la technique d'imagerie peut saisir

OCR/ICR: Avantages n Les moteurs de reconnaissance utilisés avec la technique d'imagerie peut saisir des ensembles de données hautement spécialisés n OCR/ICR reconnaît les caractères imprimés à la machine ou écrits à la main n La numérisation et la reconnaissance permettent une gestion efficace et une meilleure planification pour le reste de la charge de travail n Récupération rapide pour la correction et le redressement Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

OCR/ICR: Inconvénients o Technologie coûteuse o Peut exiger une intervention manuelle o Charge de

OCR/ICR: Inconvénients o Technologie coûteuse o Peut exiger une intervention manuelle o Charge de travail supplémentaire pour les collecteurs de données-l’ICR a de sérieuses limites quand il s'agit de l’écriture humaine o Les caractères doivent être écrits à la main/imprimés à la machine, séparement dans les cases o Inefficace lorsqu'il s'agit de caractères cursifs Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Comparaison: OMR-OCR/ICR Atelier régional des Nations Unies sur le traitement des données du recensement

Comparaison: OMR-OCR/ICR Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

OCR/ICR: Problèmes/Défis o A des problèmes similaires avec ceux de l’OMR o Développement d'algorithmes

OCR/ICR: Problèmes/Défis o A des problèmes similaires avec ceux de l’OMR o Développement d'algorithmes laborieux (préparation de la mémoire du dictionnaire) o Délai de traitement à considérer en raison du moteur de reconnaissance o Coût de développement onéreux Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Reconnaissance intelligente (IR) o Etat de l'art de la technologie de reconnaissance: n Donne

Reconnaissance intelligente (IR) o Etat de l'art de la technologie de reconnaissance: n Donne la numérisation et les systèmes d'imagerie la capacité de transformer les images de caractères cursifs écrits à la main en caractères lisibles par la machine n Les images de caractères cursifs écrits à la main sont extraites d'un fichier bitmap de l'image numérisée n La capacité de saisie des caractèrers cursifs fait que cette méthode soit unique Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Quelques concepts de l’IR o Huit éléments composent les trajectoires de toutes lettres cursives

Quelques concepts de l’IR o Huit éléments composent les trajectoires de toutes lettres cursives (fig. 1) o Exemple (fig. 2) Photo: Parascript LLC Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Concepts (suite) o Reconnaissance intelligente utilise le contexte de facon dynamique o Le contexte

Concepts (suite) o Reconnaissance intelligente utilise le contexte de facon dynamique o Le contexte est utilisé pendant le processus de reconnaissance, amélioriant la précision des résultats o Le contexte contribue à identifier les lettres où le symbole de segmentation d'une image est ambiguë Photo: Parascript LLC Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Evolution de la technologie FORM TYPES TEXT STYLES No special form design No constraining

Evolution de la technologie FORM TYPES TEXT STYLES No special form design No constraining boxes or combs Condensed strings Dirty & Noisy forms Bad quality paper Legacy Forms Cursive Bad quality machine print Unconstrained Handprint Specially designed for automatic recognition Constrained Handprint Constraining boxes or combs Drop out ink for preprinted text & boxes Machine Print OCR Intelligent Recognition TECHNOLOGY EVOLUTION Illustration: Conference on Technology Options for 2011 Census Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Fournisseurs commerciaux majeurs o Top Image Systems (TIS) (http: //www. topimagesystems. com) o Read.

Fournisseurs commerciaux majeurs o Top Image Systems (TIS) (http: //www. topimagesystems. com) o Read. Soft (http: //www. readsoft. com) o Teleform (http: //www. intelliscan. com/Tele. Form 1. htm) o Scanner Suppliers n Fujitsu, Canon, Bell & Howell, Kodak Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008

Merci! Atelier régional des Nations Unies sur le traitement des données du recensement :

Merci! Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3 -7 Novembre 2008