Multilinguisme question ternelle Khaldoun ZREIK Laboratoire PARAGRAPHE Universit
Multilinguisme : question éternelle Khaldoun ZREIK Laboratoire PARAGRAPHE Université Paris 8 zreik@univ-paris 8. fr http: //zreik. fr
Observation 1 : Mêmes Technologies vs Différents Homme Langage Commun H H Technologies Contenu “Normes” “Interopérabilité” H H Gestionnaires de Contenu T. I. C H H H Editeurs & Auteurs H H H : Auteur, Concepteur, Producteur, Utilisateur, … H
Observation 2 : Nouvel Espace Informationnel « Intelligent » « Interactif » « Réactif » « Multilingue » Contenu Numérique BD Système d'Information BD S. I. Evolutif BD(s)
Cadre de la recherche SI M. L. IHM E-Doc S. I. orienté document numérique évolutif
Multilinguisme ? Parcours de coïncidence Thématique de recherche : Document « Intelligent » Candidats : Jeunes Chercheurs Non Francophones Problèmes de communications (5 langues)! Nouvelle thématique : le Multilinguisme et le Web
Nouvelle orientation Comment faire face aux multilinguisme tout en évitant (autant que possible) la complexité de Traitements Automatiques des Langues Naturelles ? Sources et domaine d'études : WEB
Spécificité des ressources WEB ? Recherche multilingue / multilangage Approche méthodique de conception des sites web De + en + indépendante des langues (hypothèse)
Web Multilingue Développement croissant • Domaine de R&D toujours en pleine expansion • Objet de standardisation et de « normalisation » … • Constats hypothétiques : • Importance de la structuration des sites web multilingues • Possibilité de classification des nœuds hypertextuels (menus, textes, publicités) • Valeur prédictive des liens hypertextuels (nœuds de même langue) • Approches de catégories pouvant prédire le multilinguisme
Hypothèse semi-observable ! La structure d’un document web encapsule des informations qui sont indispensables pour toute démarche de recherche d’information ou de fouille de sites web. Le développement accéléré et standardisé de documents semi-structurés ou structurés ne peut que renforcer cette hypothèse.
Expérience 1 (ONG) Approche de catégorisation structurelle pour la reconnaissance et la recherche de documents Web multilingues Principe : il existe beaucoup de relations « internes » entre les hyperdocuments de même langue, et peu de relations entres les ceux qui sont de langues différentes. Ressource : Sites ONG (ex. UNESCO) Résultat : réalisation d’un logiciel d’analyses statisticodistributionnelles pour catégoriser les parcours (vecteurs) entre les hyperdocuments. Les catégories dominantes représentent le nombre des langues
Expérience 2 (Langue Juridique, 2009) Définition de descripteurs de catégorisation, indépendante de langues, pour la recherche de documents Principe : Prise en compte des caractéristiques structurels de documents pour l’extraction de catégories décisionnelles pouvant aider un juriste à prendre de décisions en classant un cas Ressource : Base Documentaire Juridique sous format XML Proposition : une méthode de catégorisation structurelle pouvant regrouper automatiquement les documents similaires sans aucune connaissance du domaine a priori.
Expérience 3 (Langue Arabe, 2009) Indexation de documents par des approches statistiques et distributionnelles semi-indépendantes de langues Constat : insuffisance des méthodes d’indexation des sites multilingues par les moteurs de recherche Principe : La performance des moteur de recherche en langue arabe est très problématique. Ceci est du à la spécificité de la langue arabe et tout particulièrement à la complexité d’extraction automatique des racines des mots. Réalisation : une étude expérimentale comparative des méthodes disponibles + dictionnaire Proposition : une approche combinant pludirurs méthoded.
Conclusion 1 Paradoxe 1 Priorité pour standardiser et normaliser la structuration de l’information sur le Web (Blogs, CMS, Générateurs Automatiques des Sites, Réseaux Sociaux, …) diminuer l’altérité de la dimension sémantique de la structure Démarches de standardisation d’usage des mots pour augmenter la visibilité du site web. réduire la performance des méthodes d’indexation et d’extraction d’information basées sur le principe de «sac de mots» .
Conclusion 2 Paradoxe 2 Un monde mono structurel (mono-représentation) et standardisé du document web qui est de plus en plus multimédia et multilingue. facilite les moyens d’accéder et de contribuer à l’information au détriment de sa spécificité culturelle. impose une perception et une conception forcée de l’information, chose qui rendrait la qualité de l’information, sa diversité et son évolution « du point de vue créative » très discutables.
Conclusion 3 FAITS La mondialisation est un fait. L’usage massif du web est un fait également. La standardisation s’est imposée. EXIGENCE Préserver la spécificité culturelle et linguistique de l’information PROPOSITION Accepter de revoir les critères et les pratiques de conception et d’assurance de la qualité de l’information, de sa diversité et de son évolution.
Merci
- Slides: 16