Catalogage dynamique des manuscrits arabes anciens numriss Mohammed
Catalogage dynamique des manuscrits arabes anciens numérisés Mohammed Ourabah SOUALAH ELICO - Lyon. med_soualah@yahoo. fr Mohamed HASSOUN ELICO -Lyon. France mohamed. hassoun@enssib. fr Collège Doctoral Européen, 5 – 6 Novembre 2015 10 e Colloque International ISKO France Systèmes d'organisation des connaissances et humanités numériques.
Sommaire 1. Le manuscrit arabe 2. Le catalogage du manuscrit arabe ancien 3. Caractéristique du manuscrit arabe ancien 4. Instabilité du document : Catalogage dynamique 5. Mise en œuvre du catalogage dynamique (Annotation, transcription, encodage)
Le manuscrit arabe Le manuscrit : § Une œuvre artisanale § Unique § Une œuvre considérée sous plusieurs angles Le manuscrit arabe : § 3 millions à travers le monde § Conditions de préservation dérisoires
Le manuscrit arabe Le manuscrit est une véritable source d'information et de connaissance. Nécessité de donner accès aux chercheurs et experts. Mais, comment ?
Le manuscrit arabe Le manuscrit est une véritable source d'information et de connaissance. Nécessité de donner accès aux chercheurs et experts. ü Accès par le contenu : Usage de la reconnaissance de caractère ü Accès en mode image : Usage du catalogue
Accès en ligne aux manuscrits numérisés Accès par le contenu § Problème d'indexation ü Analyse de la structure du manuscrit ü Reconnaissance de caractère Pseudo-mots Boites englobantes imbriquées Problèmes de voyellation Problèmes de diacritiques
Accès en ligne aux manuscrits numérisés Usage du catalogue § Efficace, simple et pratique § Communauté expérimentée Principe du catalogage de manuscrits § Description des caractéristiques du manuscrit selon un protocole de catalogage bien défini : Aspects paléographiques Aspects codicologiques Histoire du manuscrit
Accès en ligne aux manuscrits numérisés Usage du catalogue Le protocole de catalogage : Les métadonnées Paléographie : Science qui traite des écritures anciennes Aspects paléographiques § § § § Type d'écriture Qualité de l'écriture Changement de main Langue de l'écriture (arabe ou aj'amii) Abréviation Ligatures Signes utilisés (présence de la shadda, de la hamza, des diacritiques, de signes de voyellation) § Paragraphes et ponctuation § Numérotation des cahiers § … etc.
Accès en ligne aux manuscrits numérisés Usage du catalogue Le protocole de catalogage : Les métadonnées Codicologie : Etude des manuscrits reliés en codex en tant qu'objets matériels. Aspects codicologiques § § § § Instruments d'écriture, encre Matériaux de support : papyrus, parchemin, papier Forme des livres : Rouleau, codex Composition des cahiers : Signature Réglure : piqûre, lignes rectrices, lignes de justification. Reliure : Couture, Ais, … Etat du manuscrit : accident destructif, effritement de pages, Etude du volume : Auteur, copiste, titre du manuscrit, cote du manuscrit, § etc…
Accès en ligne aux manuscrits numérisés Usage du catalogue Le protocole de catalogage : Les métadonnées Histoire du manuscrit : Elle s'intéresse au parcours du manuscrit jusqu'à son acquisition par l'institution. § Histoire des éditions, § Marques de possession, Histoire du manuscrit § Inscription du Waqf § Notes : § Attestation de lecture. § Attestation de collation (Muqabalat). § Attestation d'audition (Sama't). § Certificat de transmission (Ijjaza) § …etc.
Processus d'accès en ligne aux manuscrits via le catalogue
Problèmes liés aux manuscrits Corrosion, insectes et effritement Lieu de sauvegarde inappropriés : Humidité et perte de folios, …
Impact sur le catalogage Absence d'information - Notices bibliographiques incomplètes, - Information relatives aux métadonnées inexistante Information inconnue Risque d'inaccessibilité au manuscrit numérisé
Aspects écdotiques du manuscrit ü Plusieurs études complémentaires sur le manuscrit : Edition critique § Possibilité d’existence de copies dans un autre lieu. § Possibilité de déchiffrement d’une information longtemps restée incompréhensible par un expert. § L’information peut être retrouvée à tout moment : D’où la possibilité de mise à jour du catalogue à tout moment. ü Solution : Adapter le modèle de catalogage § Document instable : Modèle de catalogage dynamique
Processus du catalogage dynamique ü Plateforme collaborative § Transcription des manuscrits (crowdsourcing) § Annotation Transcription Intégration des documents validés dans la base documentaire Expert Validation Annotateur Médiateur
Processus du catalogage dynamique Principe de mise à jour ou d'intégration de métadonnées Trois cas de figures peuvent se présenter : Cas 1 - : L'élément annoté/transcrit bibliographique est inexistant dans la notice Intégrer entièrement l'élément annoté dans la notice bibliographique Cas 2 : Une partie de la métadonnée annotée/transcrite est présente dans la notice bibliographique, mais le contenu du document-annotation ou du document-transcription est inexistant. - Deux structures non similaires, alors mise à jour de la notice bibliographique. Cas 3 : Modification du contenu de la notice bibliographique - Cas de mise à jour. Remplacer uniquement les contenus de la notice.
La transcription
Les annotation
Extraction de métadonnées à partir des annotation et de la transcription Principe : ü L’extraction de métadonnées est un concept dérivé de l’extraction d’information ü Elle consiste à extraire à partir de document annotation/transcription des métadonnées et les injecter dans un formulaire : La notice bibliographique.
Méthode d’extraction Principe : ü Elle est basée sur le principe de similarité structurelle de deux documents. ü La similarité structurelle permet de comparer deux document et de statuer sur le degré de ressemblance ou de différence entre les deux documents. ü Les notices bibliographiques sont sous format XML ü Mesure de similarité : La mesure de similarité entre deux arbres T 1 et T 2 est donnée par
Méthode d’extraction Principe : ü Comparaison de tous les nœuds de deux documents. ü Résultat : T 1 est équivalent à T 2 si sim(T 1, T 2) = 1 T 1 est différent de T 2 si sim (T 1, T 2) = 0
Usage de la similarité structurelle pour la mise à jour des notices bibliographiques Algorithme : Entrée : Document-Annotation/transcription (T 1) Notice bibliographique (T 2) Sortie : Notice bibliographique mise à jour. Calcul similarité : { Calculer la similarité sim (T 1, T 2); Si sim(T 1, T 2) = 0 Alors Intégrer le contenu du documentannotation/transcription (T 1) dans la notice (T 2) Sinon Remplacer le contenu de la métadonnée de la notice (T 2) par le contenu du document-annotation/transcription. Finsi }
Usage de la similarité structurelle pour la mise à jour des notices bibliographiques Phase 1 : Mapping du document XML : Extraction des termes + le contenu Phase 2 : Instanciation des métadonnées Phase 3 : Intégration des métadonnées
Conclusion ü Instabilité de document : nécessité d'un modèle de catalogage adapté. ü Le catalogage dynamique. § Modèle de catalogage continuel et évolutif. § Modèle de catalogage basé la dynamique des métadonnées.
Catalogage dynamique des manuscrits arabes anciens numérisés Merci pour votre attention Question ?
- Slides: 25