Conception dun modle danalyse multidimensionnelle de donnes spatialement




















































- Slides: 52
Conception d’un modèle d’analyse multidimensionnelle de données spatialement continues (SOLAP raster) Analyse de hotspots de criminalité Jean-Paul Kasprzyk, doctorant Réunion du comité de thèse: Jean-Paul Donnay, Thérèse Libourel, Marc Simon, Jef Wijsen Novembre 2013
Plan de l’exposé l Introduction: business intelligence l Modèle SOLAP raster l Application: analyse de hotspots de criminalité l Performance d’un SOLAP raster l Conclusions l Formation doctorale 2
Plan de l’exposé l Introduction: business intelligence l Modèle SOLAP raster l Application: analyse de hotspots de criminalité l Performance d’un SOLAP raster l Conclusions l Formation doctorale 3
Introduction: business intelligence Les données: aspect transactionnel 4
Introduction: business intelligence Les données: aspect décisionnel Le volume des données numériques croit exponentiellement 5
Introduction: business intelligence Business Intelligence Architecture d’un système BI (Badard et al, 2009) 6
Introduction: business intelligence SOLAP l Les outils SOLAP actuels ne gèrent l’information spatiale qu’à travers le mode vectoriel l l Pas de gestion de l’information spatialement continue Intérêt d’un SOLAP en mode maillé (raster) 7
Plan de l’exposé l Introduction: business intelligence l Modèle SOLAP raster l Application: analyse de hotspots de criminalité l Performance d’un SOLAP raster l Conclusions l Formation doctorale 8
Modèle SOLAP raster: généralités l Objet de l’article « Le raster en tant que mesure dans un modèle SOLAP relationnel » l l Etat de l’art: (Miquel et al, 2002 ; Ahmed & Miquel, 2005 ; Vaisman & Zimanyi, 2009 ; Gomez et al, 2012) Principes de base l l l Modèle Relationnel OLAP Schéma en étoile, en flocon de neige ou en constellation Cube de données = collection d’images géoréférencées couvrant un même territoire Une vue du cube = agrégation d’un ensemble d’images par opération locale de « map algebra » (Tomlin, 1983) La sélection des images à agréger dépend des dimensions non spatiales 9
Modèle SOLAP raster Relation fait raster l Un raster O = l r x c pixels de valeur v où et l Une fonction de géoréférenciation : l Propriété: l Une relation fait raster F = collection de mesures raster de même domaine Les dimensions non spatiales sont reliées à la table des faits comme dans un SOLAP classique 10
Modèle SOLAP raster Agrégation des mesures raster l Agrégation de n rasters Fonction d’agrégation α appliquée entre pixels homologues l Agrégation d’un raster en une valeur unique Fonction d’agrégation α appliquée sur l’ensemble des pixels de O l Agrégation spatiale d’un raster Cas 1: intersection avec un raster binaire (objet spatial) Cas 2: intersection avec un objet vecteur Fonction d’agrégation α appliquée à un sous-ensemble de pixels de O 11
Modèle SOLAP raster Schéma en étoile ou en flocon de neige D 2 D 1 Schéma en étoile Fait_raster Dn l l Dimension spatiale liée par jointure spatiale Dimension non spatiale liée par jointure relationnelle D spatiales (raster ou vecteur) Jointure d’une dimension non spatiale d’un schéma en flocon de neige 12
Modèle SOLAP raster Changement d’échelle Fact_table_NO Fact_table_NE Fact_table_SO Fact_table_SE 13
Modèle SOLAP raster Schéma en constellation Dimensions non spatiales l l l l Schéma en constellation Même nombre de faits par table Toutes les mesures sont des images de même taille Une table des faits une fonction de géoréférenciation Un niveau d’échelle une résolution (une bandwidth) Un jeu de dimensions spatiales raster par « coverage » Taille de l’entrepôt = F+4 F+16 F+32 F+… Alternative: une seule table des faits avec plusieurs mesures raster Tables des faits Dimensions spatiales vecteur Dimensions spatiales raster (F NO NE SO SE) 14
Modèle SOLAP raster Représentations l l Une vue d’un cube raster correspond à l’agrégation des mesures raster selon les membres de plusieurs dimensions La représentation d’une vue dépend du nombre de dimensions visibles « 0 » D 1 D 2 D 15
Modèle SOLAP raster Pourquoi du ROLAP? l ROLAP: opérations dans un SGBD relationnel l Traitements plus longs Grande capacité de stockage Supporte le format raster l MOLAP: opérations dans un système multidimensionnel l Traitements moins longs Capacité de stockage limitée Ne supporte pas (encore) le format raster Temps de traitement relatifs d’un SOLAP raster Sélection des données Agrégation des données Partie optimisée par un MOLAP négligeable dans un SOLAP raster 16
Plan de l’exposé l Introduction: business intelligence l Modèle SOLAP raster l Application: analyse de hotspots de criminalité l Performance d’un SOLAP raster l Conclusions l Formation doctorale 17
Application: analyse de hotspots de criminalité But de l’application Crime. csv Localisation Type de crime Date Serveur R-SOLAP raster Analyse de la criminalité spatialement continue (hotspots) ETL Entrepôt Serveur M-SOLAP vecteur Analyse de la criminalité spatialement discrète 18
Application: analyse de hotspots de criminalité Estimation de densité par noyau (KDE) l l l Technique très populaire pour la génération et la visualisation de hotspots Hotspots utilisés, entre autres, en criminalité pour de la prédiction Principe: l l l Transformation de données ponctuelles en un champ continu (raster) Chaque cellule a comme valeur une fréquence dépendant du nombre de points à proximité Les hotspots sont isolés par classification de l’image (quantiles) KDE Classification 19
Application: analyse de hotspots de criminalité Propriété d’un KDE Si = sont de même taille, même résolution, et même « bandwidth » + 20
Application: analyse de hotspots de criminalité Intérêt technique de l’application l l Performance d’un SOLAP raster diminue avec: l Nombre de dimensions non spatiales l Taille des images Génération de hotspots l Nécessite peu de dimensions l l Type de crime Temps (espace) KDE nécessite deux paramètres l l Bandwidth: indépendant de la taille de l’image dépendant de l’échelle d’analyse Résolution: influence sur la taille de l’image MAIS peu d’influence sur le résultat utilisation de « petites images » (entre 200 et 600 ko non compressé) § § (Chainey, 2013): 150 x 150 Arc. GIS: 250 x 250 21
Application: analyse de hotspots de criminalité Présentation des données l l l Données de criminalité londonienne provenant de la « Metropolitan Police » et de la « City of London Police » http: //www. police. uk/ Territoire d’environ 50 km X 50 km Année 2012 Fichiers CSV: l l Environ 1 200 000 crimes Données par mois et par type de crimes Latitude / longitude en WGS 84 Fichiers KML l Environ 7600 polygones des zones de police par mois 22
Application: analyse de hotspots de criminalité Types de crime Type de crime Occurrence s Anti-social behaviour 348806 Other theft 192893 Violent crime 136324 Vehicule crime 96843 Burglary 94679 Criminal damage and arson 60638 Drugs 48659 Other crime 48464 Shoplifting 37068 Robbery 35528 Public disorder 23
Application: analyse de hotspots de criminalité Modèle conceptuel (UML) SOLAP Raster SOLAP classique … Crime_fact Raster_fact ID_fact Month Crime_type Ch d’ an éc g he em lle en 1 0 -N t ID_crime Month Crime_type 0 -N 1 -N Force_boundary ID_force Month 24
Application: analyse de hotspots de criminalités Intégration des données l l l l l Alimentation de la table « crime_fact » (1200000 faits) Alimentation de la table « force_boundary » Suppression des données sans localisation Conversion latitude/longitude en « geometry » Projection dans British National Grid (SRID 27700) Suppression des données en dehors de la zone d’étude Etablissement du lien relationnel entre « crime_fact » et « force_boundary » Export de 132 shapefiles de points pour chaque croisement de dimension « crime_type-month » Génération de 132 images KDE l l l Resolution: 300 m Bandwidth: 1500 m Alimentation de la table « raster_fact » Mise à jour des dimensions de la table « raster_fact » … 25
Application: analyse de hotspots de criminalités Vue raster_column 26
Application: analyse de hotspots de criminalité Comparaison SOLAP raster – SOLAP vecteur « Quelle est la répartition spatiale de la criminalité générale pour l’année 2012? » Requête la plus lourde possible Entrepôt classique Entrepôt raster l Addition des 132 images: environ 35 sec l l l Sélection des 1200000 entrées: environ 27 sec KDE sur les données: environ 52 sec TOTAL: environ 79 sec 27
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les hotspots de criminalité liée à la drogue pour le premier trimestre 2012? » Stretch « standard deviation » Fact 107 + fact 207 + fact 307 28
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les hotspots de criminalité liée à la drogue pour le premier trimestre 2012? » Ajout de la couche « Pub raster » 29
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » - Slice couche « Pub raster » Zoom in Pub*(measure) 30
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » Ajout couche « Pub point » Shoreditch Soho 31
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue (poids: 2) et aux armes (poids: 1) pour le premier trimestre 2012? » Shoreditch Soho (2*(fact 107+fact 107)+(fact 106+fact 206+fact 306))*pub 32
Application: analyse de hotspots de criminalité Exemples de requête «Quel est le nombre de crimes liés à la drogue et aux armes par force de police de mars 2012? » -Drill across -Add dimension force_boundary 33
Application: analyse de hotspots de criminalité 3 mois plus tard… 34
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » -Retour à la vue précédente Shoreditch Soho (Fact 107 + fact 207 + fact 307)*pub 35
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le second trimestre 2012? » Cranbrook Estate Shoreditch Soho (Fact 407 + fact 507 + fact 607)*pub 36
Application: analyse de hotspots de criminalité Exemples de requête « Quelle est l’évolution des pubs générateurs de criminalité liée à la drogue entre le premier trimestre et le second trimestre 2012? » -Evolution avec la vue précédente -Zoom out Cranbrook Estate Shoreditch Soho Mesure - mesure(-1) 37
Application: analyse de hotspots de criminalité Exemples de requête « Quelle est l’évolution des hotspots de criminalité liée à la drogue entre le premier trimestre et le second trimestre 2012? » Suppression de la dimension spatiale pub (Fact 407 + fact 507 + fact 607) -(Fact 107 + fact 207 + fact 307) 38
Application: analyse de hotspots de criminalité Optimisation du paramétrage des KDE l l Prediction accuracy index (PAI) l Indice utilisé en crime mapping pour évaluer la qualité de prédiction de hotspots l PAI = (nombre de crimes dans hotspots / nombre de crimes total) (surface de hotspot / surface d’étude) PAI permet d’évaluer la qualité du paramètre « bandwidth » d’un KDE l l A exploiter pour optimiser le paramétrage des KDE au moment de l’intégration des données Rappel: une « bandwidth » par niveau d’échelle pour garder des images comparables 39
Plan de l’exposé l Introduction: business intelligence l Modèle SOLAP raster l Application: analyse de hotspots de criminalité l Performance d’un SOLAP raster l Conclusions l Formation doctorale 40
Performance d’un SOLAP raster Contrainte de performance d’un OLAP l l OLAP report: groupement de chercheurs sur le OLAP créé en 1994 Définition du OLAP en 5 mots-clés l l l Fast l Requête simple < 1 sec l Requête basique < 5 sec l Requête complexe < 20 sec Analysis Shared Multidimensionnality Information 41
Performance d’un SOLAP raster Performance d’un SOLAP classique Nombre de faits Nombre de données 42
Performance d’un SOLAP raster Temps d’agrégation Taille des rasters 43
Performance d’un SOLAP raster Nombre de faits Nombre de membres 44
Performance d’un SOLAP raster Nombre de faits Nombre de dimensions non spatiales 45
Performance d’un SOLAP raster Plusieurs solutions l Garcia Gutierrez & Baumann, 2008: l l l Pré-agrégation des données Impossible de couvrir toutes les possibilités (infinité) Kang et al, 2013: l l Etablissement de clusters de rasters Simplification des calculs d’agrégation l exemple: § l A + B + C + D = 2*A + 2*C Perte de précision du résultat final 46
Performance d’un SOLAP raster Network OLAP (NOLAP) l Solutions précédentes: l l simplification des calculs Solution proposée l l l Répartir les calculs sur plusieurs serveurs (cloud) Cube de données cube de serveurs Principe: l Requête divisée en sous-requêtes Agrégation des crime de type « drugs » et « violent crime » pour l’année 2012 = Agrégation des crimes de type « drugs » pour l’année 2012 + agrégation des crimes de type « violent crime » pour l’année 2012 l Temps d’agrégation divisé par nombre de serveurs 47
Performance d’un SOLAP raster Exemple d’architecture NOLAP Gestion dimension « type de crime » Gestion dimension « temps » Gestion dimensions spatiales « Quels sont les hotspots de criminalité pour 2012? » Client Sous-requêtes d’agrégation selon dimension « temps » pour chaque type de crime Requête principale Serveur maître Cloud Anti-social behaviour Other theft Violent crime Vehicule crime Image finale l Agrégation des images renvoyées selon dimension Chaque serveur « type de crime » renvoie son image d’agrégation Deux alternatives l l Un sous-cube par serveur du cloud table des faits du serveur maître = liste d’adresse vers le cloud Cube complet copié dans chaque serveur Burglary Criminal damage Drugs Weapons Shoplifting Robbery 48
Performance d’un SOLAP raster NOLAP: caractéristiques l Nombre de serveurs l l l Temps d’agrégation considérablement diminué MAIS il faut rajouter le temps de transfert des requêtes et des images à travers le réseau l l croît linéairement avec nombre de membres gérés par le serveur principal (exemple: types de crime) Privilégier cloud pour la dimension temporelle croît exponentiellement avec nombre de dimensions non spatiales Rester raisonnable Dans notre cas: une image < 600 ko, maximum 11 images transférées Utilisation d’un langage de programmation capable de gérer le « multi tâches » : Dot. Net, php, … 49
Plan de l’exposé l Introduction: business intelligence l Modèle SOLAP raster l Application: analyse de hotspots de criminalité l Performance d’un SOLAP raster l Conclusions l Formation doctorale 50
Conclusions l Modèle SOLAP raster théorique l l l Analyse multidimensionnelle de l’information spatialement continue Mesure raster Méthodes d’agrégations spécifiques Modèle en constellation pour le changement d’échelle Application: analyse de hotspots de criminalité l l l SOLAP raster adapté aux besoins et méthodes de la police (KDE) Application originale adaptée au système (petites images, peu de dimensions) Association d’un SOLAP raster et d’un SOLAP classique Intégration d’objets spatiaux à la volée A développer: l l Interface utilisateur Processus d’intégration des données (choix de la « bandwidth » ) Système NOLAP Autres applications possibles: reporting, data mining 51
Plan de l’exposé l Introduction: business intelligence l Modèle SOLAP raster l Application: analyse de hotspots de criminalité l Performance d’un SOLAP raster l Conclusions l Formation doctorale 52