Qualit des Donnes multi Sources Dfi CNRS Mastodons

  • Slides: 14
Download presentation
Qualité des Données multi. Sources Défi CNRS Mastodons, 2016 Un double défi pour les

Qualité des Données multi. Sources Défi CNRS Mastodons, 2016 Un double défi pour les sciences Sociales et les sciences de l’Informatique QDo. SSI

Défi Mastodons ? � Appel à projet du CNRS, depuis 2012 � Une communauté

Défi Mastodons ? � Appel à projet du CNRS, depuis 2012 � Une communauté scientifique interdisciplinaire autour des Big Data et de la Science des Données, structurée au sein d’un nouveau Groupement de recherche crée en 2015, le GDR Ma. DICS. � 2016, troisième appel à projets ◦ Objectif : susciter des actions de recherche sur la qualité des données tant au niveau de leurs sources de production qu’au niveau de leurs processus de transformation et d’exploitation. ◦ 12 projets retenus, 1 seul avec les sciences sociales 02/11/2020 CEPED, Axe 2, 16. 6. 2016 2

SHS CEPED et MIGRINTE R Informatiqu e Consortium scientifique CRIL LIAS LIPADE LIRMM Une

SHS CEPED et MIGRINTE R Informatiqu e Consortium scientifique CRIL LIAS LIPADE LIRMM Une pluridisciplinarité : § § Sciences sociales : anthropologie, démographie, droit, géographie, histoire, sociologie, sciences d Sciences de l’informatique : bases de données, intelligence artificielle, fouille données/textuelles 02/11/2020 CEPED, Axe 2, 16. 6. 2016 3

 Six équipes Collecte et production de données CEPED et MIGRINTER Réparation et prétraitement

Six équipes Collecte et production de données CEPED et MIGRINTER Réparation et prétraitement des données LIAS, LIPADE & LIRMM Extraction de connaissances CRIL, LIRMM Analyse/Exploitation résultats CONSORTIUM 02/11/2020 CEPED, Axe 2, 16. 6. 2016 4

21 membres actuels Producteurs de données Réparation et Prétraitement des données CEPED, UMR 196,

21 membres actuels Producteurs de données Réparation et Prétraitement des données CEPED, UMR 196, IRD- Paris Descartes LIAS ENSMA-EA 631, Poitiers + Etienne Gérard (DR, IRD), sociologue + Brice Chardin (MC) + Véronique Petit (PR, Univ. Paris Descartes), démographe + Allel Hadjali (PR) + Franck Temporal (MCF, Univ. Paris Descartes), sociodémo + Stéphane Jean, (MC) Extraction des connaissances (fouilles de données statistiques et textuelles) MIGRINTER, UMR 7301, CNRS-Université de Poitiers Laboratoires et équipes CNRS associées + Adelina Miranda (PR, Univ. Poitiers), anthropologue + CRIL : Lakhdar Saïs (PR), Karim Tabia (MC), Said Jabbour (MC), Université d’Artois + Olivier Clochard (CR, CNRS)), géographe + Fabienne Lehouerou (DR, CNRS) historienne. /anthro. + Nelly Robin (CR, IRD), géographe + Cyril Roussel (CR, CNRS), géographe + Daniel Senovilla (IR, CNRS), juriste + LIMADE : Salima Benbernou, (PR), Mourad Ouzini (MC), Iona Illeana (MC), Université Paris Descartes + LIRMM : Mathieu Roche (DR), Maguelonne Teisseire (PR), Cirad, Montpellier + Doctorant(e)s : L. Bacon, M. Bakary Analyse et Exploitation des résultats . Laboratoires informatiques / MIGRINTER-CEPED Ø Reconstruire/Modéliser/Cartographier les parcours migratoires Ø Rendre les données coopératives 02/11/2020 CEPED, Axe 2, 16. 6. 2016 5

Objectifs u Questionner la qualité des données dont les modes d’acquisition sont variés et

Objectifs u Questionner la qualité des données dont les modes d’acquisition sont variés et présentent différentes imperfections u Mise en synergie de bases de données statistiques avec d’autres types de données (entretiens, législations, images, …) ➔Développer des prétraitements, des réparations et des extractions de connaissances avancées afin de mieux analyser les données 02/11/2020 CEPED, Axe 2, 16. 6. 2016 6

Démarche scientifique Un objet commun, le parcours migratoire du point de vue des acteurs,

Démarche scientifique Un objet commun, le parcours migratoire du point de vue des acteurs, sur des terrains différents, inscrits dans des temporalités variables Sur cette base, chacun s’est positionné sur • les différentes sources qu’il envisage de mobiliser • son positionnement par rapport aux 3 axes de recherche initiaux, à reformuler ou élargir éventuellement : • Les relations entre le droit des migrants et les politiques migratoires dans les pays de transit ou/et d’accueil, • L’implication des réseaux de traite des êtres humains dans la structuration de certains parcours migratoires, Les enjeux sociaux et politiques de la mobilité des mineur(e)s dits non accompagnés La migration des élites • • • les résultats attendus tant d’un point vue méthodologique d’un point de vue de la production de connaissances nouvelles • la manière de penser la/les relation(s) entre le qualitatif et le quantitatif à partir de sources hétérogènes (production/acquisition, qualité/représentativité, terrains/questionnements) 02/11/2020 CEPED, Axe 2, 16. 6. 2016 7

Sources hétérogènes � Statistiques + Instituts statistiques : Eurostat sur Directive de Dublin (2002

Sources hétérogènes � Statistiques + Instituts statistiques : Eurostat sur Directive de Dublin (2002 -2015) + Répertoires administratifs : Affaires judiciaires 2006 -2015 (Sénégal) + Recensements scientifiques : Personnes déplacées en Syrie et réfugies dans le Kurdistan irakien + Grandes enquêtes Migration, famille et vieillissement » , RUP de l’Europe / Mobilités des communautés scientifiques mexicaine + Biographies migratoires, Mineurs sur les routes transsahariennes et atlantiques / Migrants sur le Corridor des Balkans Récits / Entretiens + Migrants de Sangatte § + Mineurs isolés en France ( cf. Hors la rue) + Migrants dans les Balkans § Textes juridiques + Législations nationales des Etats membres de la CEDEAO + Directives de Dublin (2 et 3) Corpus textuels + Mineurs du Sahel aux rives sud de la Méditerranée + Accords et Protocoles internationaux (droits de l’homme et de l’enfant /droit pénal) Bases de données issues des Sciences Sociales de nature et de formats différents + Fortement structurées (grandes enquêtes), des corpus faiblement structurés (texte brut) ou semi-structurés (législations) Plusieurs régions du monde + l’Afrique de l’Ouest, les Balkans, le Moyen-Orient, l’Europe, Régions ultrapériphérique de l’Europe ( Mexique 02/11/2020 CEPED, Axe 2, 16. 6. 2016 8

Quelques exemples � Réglementation européenne dite de Dublin et mécanisme de relocalisation des Etats

Quelques exemples � Réglementation européenne dite de Dublin et mécanisme de relocalisation des Etats membres �Corpus juridique : trois versions de la réglementation européenne (1990, 2003 et 2013) : �Statistiques relatives aux transferts des DA entre les Etats membres (Eurostat, 2000 -2015) �Entretiens auprès des personnes « dublinnées » en France et en Bulgarie → Etablir une modélisation, en vue de la nouvelle modification réglementaire européenne à venir 02/11/2020 CEPED, Axe 2, 16. 6. 2016 9

Ex. 2 �Le « corridor des Balkans » , carrefour des parcours migratoires vers

Ex. 2 �Le « corridor des Balkans » , carrefour des parcours migratoires vers l’Europe ◦ Recensement auprès des personnes déplacées en Syrie et entretiens auprès des familles au Kurdistan irakien et en Turquie ◦ Biographies migratoires et entretiens dans les Balkans (Macédoine, Bulgarie, Serbie, Bosnie et Croatie) et en Allemagne ◦ Biographies migratoires et entretiens sur les routes transsahariennes ◦ Textes juridiques ◦ Dispositifs de contrôle des frontières 02/11/2020 CEPED, Axe 2, 16. 6. 2016 10

Ex. 3 �La construction des parcours de traite des mineur(e)s à des fins d’exploitation

Ex. 3 �La construction des parcours de traite des mineur(e)s à des fins d’exploitation sexuelle ou commerciale ◦ Biographies migratoires et entretiens sur les routes, dans les lieux d’exploitation et dans les centres de privation de liberté (institutionnel et informel) ◦ Bases de données judiciaires : affaires, individus et faits poursuivis ◦ Textes juridiques nationaux, régionaux, internationaux 02/11/2020 CEPED, Axe 2, 16. 6. 2016 11

Hétérogénéité des bases de données u Modes de production différents / Collecte de l’info

Hétérogénéité des bases de données u Modes de production différents / Collecte de l’info plus ou moins rigoureuse ➝données manquantes sur certains attributs cruciaux ➝ des imprécisions ou données mal orthographiées ➝ des incohérences ➝ données entachées d'incertitude (e. g. information oubliée ou dissimulée). ➝ Pour les récits de vie, au-delà de la richesse des informations qui s’y trouvent et la présence d’une forme de structure (recueil selon une grille d’entretien préétablie), la saisie est souvent perfectible, sans ponctuation, avec des noms de lieux et des mots incorrects. ➝La confidentialité des données est aussi une dimension essentielle à prendre en compte 02/11/2020 CEPED, Axe 2, 16. 6. 2016 12

Sources mises en jeu � sans relation directe � provenant de territoires différents �

Sources mises en jeu � sans relation directe � provenant de territoires différents � questionnements semblables et complémentaires ➠Interrogation d’un même phénomène avec des bases de données constituées différemment et de qualité inégale ➠Verrous scientifiques et techniques 02/11/2020 CEPED, Axe 2, 16. 6. 2016 13

Verrous scientifiques et techniques �Hétérogénéité des données et leur complexité intrinsèque �Mesurer, intégrer et

Verrous scientifiques et techniques �Hétérogénéité des données et leur complexité intrinsèque �Mesurer, intégrer et quantifier l’impact de la qualité des données sur le niveau d'intelligibilité des connaissances extraites � Des données aux connaissances 02/11/2020 CEPED, Axe 2, 16. 6. 2016 14