Soutenance de thse de doctorat vendredi 15 octobre

Soutenance de thèse de doctorat – vendredi 15 octobre 2004 Fusion de données multicapteurs pour un système de télésurveillance médicale de personnes à domicile Florence Duchêne Co-Directeurs de Thèse : Catherine Garbayet Vincent Rialle Laboratoire des Techniques de l’Imagerie, de la Modélisation et de la Cognition TIMC–IMAG, UMR CNRS 5525, Grenoble, France

Télésurveillance médicale à domicile Pourquoi? Indépendance Confort, Sécurité Aide à la décision pour le personnel médical Pour qui? Personnes âgées situations Risques de dégradations motrices et cognitives critiques Soins médicaux spécifiques Comment? Une approche intégrée autour d’un système médical de communication et d’information Détection des Acteurs du système Domotique Interprétation Décision Capteurs (1) Habitat (2) Unité Locale de Traitement (3) Centre de Télévigilance 2

Détection des situations critiques Évaluation de l’état de santé et de la situation d’une personne à domicile Problème complexe Plusieurs niveaux de compréhension ► Situations critiques à ± long terme - D’une chute aux symptômes de démence… - À long terme : Difficile à détecter même par une visite quotidienne État de santé Activité Évaluation dans la pratique médicale ► Autonomie ► Activités de la Vie Quotidienne (AVQ): Sommeil, alimentation, toilette, etc. Dégradation de l’état de santé Troubles du comportement à domicile Évolution de la situation à long terme : Étude des habitudes de la vie quotidienne 3

Étude des habitudes de vie quotidienne Système d’apprentissage et de décision Apprentissage d’un profil comportemental Décision par comparaison au profil • Système d’apprentissage Capteurs Extraction d’informations sur les activités de la vie quotidienne : Régularités temporelles (motifs) Profil comportemental • Système de décision Capteurs Situation Reconnaissance des activités quotidiennes habituelle ou non (motifs) 4

Démarche de résolution du problème Apprentissage des habitudes de vie : Profil Comportemental I. Problème Décision III. Système de décision Contexte et Objectifs Collecte de données temporelles Expérimentation Régularités temporelles : Quelles sous-séquences représentatives des activités habituelles ? II. Simulation Séquences de données générées par des capteurs à domicile 5

Caractéristiques données Espace multidimensionnel de données hétérogènes Observation de séquences de données temporelles X 3 Qualitatives Capteurs Fusion de données hétérogènes t X 2 Quantitatives X 1 Composante temporelle Observation de données complexes • Dépendances mutuelles des paramètres observés • Importants facteurs d’influence 6

Contraintes du système de décision Contraintes pour l’acceptation du système • Sensibilité ► Toutes les situations critiques • Spécificité ► Faible taux de fausses alarmes • Temps de détection ► « Acceptable » Contraintes spécifiques au contexte • Manque de données expérimentales • Manque de connaissances a priori ► Évolutions conjointes des paramètres ► Situations critiques possibles • Nécessaire personnalisation de l’analyse dans le contexte de chaque personne Apprentissage non supervisé 7

Démarche de résolution du problème Apprentissage non supervisé des habitudes de vie : Profil Comportemental I. Problème Décision III. Système de décision Contexte et Objectifs Collecte de données temporelles Expérimentation Régularités temporelles : Quelles sous-séquences représentatives des activités habituelles ? II. Simulation Séquences de données générées par des capteurs à domicile 8

Contexte de Simulation Motivations • Peu de données collectées en environnement réaliste • Contrôle des paramètres de la simulation ► Plusieurs profils de patients ► Plusieurs types de situations Génération d’un grand nombre de données Test de l’efficacité des algorithmes de décision Objectifs • Simulation de séquences temporelles représentatives de conditions de vie habituelles • Simulation d’incidentsdans ces séquences Démarche • Cycle de développement du processus de simulation 1. Construction du modèle 2. Implémentation 3. Expérimentation • Validationà chaque étape 9

Méthodologie – Approche incrémentale Dans le cycle de résolution d’un problème… • Prise en compte du contexte et des objectifs de résolution Sélection des paramètres simulés • Facilement observables, par des capteurs non invasifs • Représentatifs de la situation de la personne • Sensibles à une dégradation de l’état de santé ► Déplacements ►Postures ►Niveau d’activité►Fréquence cardiaque Détermination du niveau de simulation : « Haut niveau » • Préserver la complexité des données étudiées ►Respect des variations conjointes des paramètres • Se limiter au niveau de détail strictement nécessaire à la résolution du problème posé ►Faible niveau de précision nécessaire dans les valeurs 10

Méthodologie – Approche hybride Hétérogénéité des sources d’information • Intégration de différents types de connaissances à chaque étape de construction et de validation du processus de simulation Données expérimentales Données de modélisation Guide… Connaissances Académiques Guide… Connaissances Extraites Vérification Quantification Données de validation Connaissances de sens commun Validation Quantification Construction et validation du modèle Validation opérationnelle 11

Modélisation Structure du modèle • Guidée par les connaissances a priori ► Dépendances entre les différents paramètres • Structure « en cascade » pour préserver la complexité ► Respect des variations conjointes des paramètres Connaissances de sens commun Connaissances Académiques 2 Données expérimentales 2 H. Monod et M. Pottier, « Adaptations respiratoires et circulatoires du travail musculaire » , Précis de physiologie du travail, Notions d'Ergonomie, 2 nd ed. , J. Scherrer et al. , Ed. Paris: Masson, pp. 159 --204, 1981. 12

Modélisation Sous-modèles de simulation ► Déplacements Modélisation ►Postures ► Niveau d’activité ► Fréquence cardiaque Rationalisme Réseaux de Pétri 3 Automates à états finis Empirisme Distributions ► Fcrepos(t) ► ∆Fc(t) Principe de « continuité physique » & Réorganisation temporelle Validation 3 Expertise Analyse statistique G. Virone, « Architecture et Simulation Locales du Système d’Information Domotique-Santé Intégré à Domicile (SID 2) pour la Détection de Situations à Risque et l’Aide à la Décision » , Thèse de doctorat, 26 Novembre 2003, Laboratoire TIMC – IMAG, Université Joseph Fourier – Grenoble 1. 13

Modélisation Sous-modèle de la fréquence cardiaque Entrées ►Instant ►Posture ► Niveau d’activité pendant les 2 minutes précédentes Modèle Empirisme Analyse statistique Analyse des variations de repos Analyse du Coût Cardiaque Distribution normale des valeurs du coût cardiaque Fréquence cardiaque de repos Moyennedu coût cardiaque pour la posture Écart-typedu coût cardiaque pour la posture 14

Expérimentation et Validation 15

Expérimentation et Validation de la préservation des variations conjointes Validation graphique Validation statistique • Coefficient de corrélation linéaire Niveau d’activité, Fréquence cardiaque Expérimentations nos 1 2 3 16

Expérimentation et Validation Modifications « normales » de comportement • (b) Interruption • (c) Déformation temporelle • (d) Variabilité dans les valeurs 17

Expérimentation et Validation Modifications « inquiétantes » • (b) Modification inhérente à la réalisation d’une activité • (c) Modification intrinsèque des variations d’un paramètre • (d) Modification de la relation entre plusieurs paramètres 18

Discussion sur la Simulation Démarche de simulation • Données expérimentales ► Peu de données, population ciblée, données bruitées • Construction du modèle ► ► Nombreux facteurs d’influence sur les paramètres étudiés Plusieurs hypothèses simplificatrices • Validation opérationnelle ► ► Validation incomplète par manque de données expérimentales Résultats appropriés au « haut niveau » d’analyse considéré Simulation dans le cycle de résolution d’un problème • Larges ensembles de données pour l’expérimentation ► Plusieurs profils d’individus et types de situations • Système de décision non basé sur le modèle de simulation ► ► ► Modèles simplifiés Validation incomplète Nécessité de faire évoluer l’ensemble des paramètres considérés • Connaissances a posteriori utiles à la décision ► ► Complexité des relations entre les différents paramètres Spécificité du comportement individuel 19

Démarche de résolution du problème Apprentissage non supervisé des habitudes de vie : Profil Comportemental I. Problème Décision III. Système de décision Contexte et Objectifs Collecte de données temporelles Expérimentation Régularités temporelles : Quelles sous-séquences représentatives des activités habituelles ? II. Simulation Séquences de données générées par des capteurs à domicile 20

Contexte de l’apprentissage Quelles habitudes dans la vie quotidienne ? Capteurs Extraction d’informations sur les activités de la vie quotidienne : Régularités temporelles (motifs) Profil comportemental 21

Caractéristiques de l’apprentissage Capteurs Extraction d’informations sur les activités de la vie quotidienne : Régularités temporelles (motifs) Profil comportemental Apprentissage non supervisé ● Spécificité individuelle de comportement ● Manque de données expérimentales ● Manque de connaissances a priori Caractéristiques des séquences ● Séquences de données temporelles multidimensionnelles ● Composantes hétérogènes (Quantitatives, Qualitatives) ● Séquences « mixtes » (Motifs et « Non-Motifs » ) Caractéristiques des représentants d’un motifs ● ● Grande variabilité dans les valeurs : « Haut Niveau » « Outliers » (Interruptions) Translation dans le temps Déformation temporelle 22

Méthodologie Système « classique » de reconnaissance Représentation Capteurs Extraction de caractères Prétraitements Classification Identification • « Haut Niveau » Abstraction Capteurs Données brutes Extraction de caractères Prétraitements Données prétraitées Classification Identification • Contexte non supervisé • Larges ensembles de données temporelles Données abstraites Fouille de données temporelles • Séquences « mixtes » Capteurs Prétraitements Extraction de caractères Fouille de caractères Classification non supervisée Tentatives de motifs Motifs Identification 23

Abstraction Notion d’interprétation de la représentation des données Données brutes • Mise en évidence des situations « stationnaires » • Description d’un signal par une succession de vecteurs discrets : (symbole, durée) Variations peu significatives pendant 1 h 45 3 1 ( , 1 h 45) 1 2 24

Abstraction Étapes de l’abstraction Prétraitement (1) (2)Discrétisation (3) Agrégation 25

Mesures de Similarité Abstraction Capteurs Données brutes Prétraitements Extraction de caractères Fouille de données Fouille de caractères Classification non supervisée Données prétraitées Données abstraites Tentatives de motifs Distance approchée Identification Motifs Distance réelle • Partitionner la séquence initiale en sous-séquences homogènes au regard de la décision • Comparaison de séquences hétérogènes • Agrégation en un seul symbole décrivant la continuité d’une même situation • Distance non métrique Distance discrète minimum ? 26

Distance réelle Distance basée sur la plus longue sous-séquence commune – LCSS 4 • Compter le nombres de « points » similaires : selon deux seuils de similarité pré-définis : , ► contrôle la similarité sur les valeurs ► la proximité dans le temps • Distance dans [0, 1]: Extension de la notion de similarité entre deux « points » • Multidimensionnalité ►Similarité entre chaque composante • Hétérogénéité ► Égalité des valeurs des paramètres qualitatifs 4 M. Vlachos, G. Kollios, ans G. Gunopulos, “Discovering Similar Multidimensional Trajectories, ” in Proc. of the 18 th ICDE, San Jose, CA, 2002, pp. 673– 684. 27

Fouille de caractères Extraction de sous-séquences récurrentes Données abstraites • Réduire l’espace de recherche des instances de motifs Critères de sélection 1. Fréquence 2. Signification 3. Non Redondance • Méthode des projections aléatoires 5 • Forte présomption de récurrence Valeurs de collisions > seuil • Extension aux séquences multidimensionnelles 5 Chiu, B. Keogh, E. , & Lonardi, S. (2003), “Probabilistic Discovery of Time Series Motifs, ” In the 9 th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 24 - 27, 2003. Washington, DC, USA. 28

Fouille de caractères 1. Fréquence 2. Signification 3. Non Redondance • Vérification de la présomption de récurrence : Distance réelle < seuil Sous-séquences récurrentes « de base » nombre fixe de symbole Pas forcément significatives en terme de la réalisation d’une activité 29

Fouille de caractères 1. Fréquence 2. Signification 3. Non Redondance • Extension des sous-séquences dites « de base » à partir de la matrice de collisions selon deux critères : ► Valeurs de collisions > seuil dans le voisinage des extensions ► Distance réelle < seuil entre les sous-séquences étendues Extrait d’une matrice de collisions ? ? Sous-séquence de base : 3 symboles 58 185 0 0 3 2 18 22 0 1 73 1 0 1 5 2 10 4 0 100 0 1 2 0 0 0 1 1 100 0 0 37 • Seuil minimum de durée 0 10 0 0 1 100 1 4 36 4 0 0 4 2 100 1 1 10 12 1 0 0 8 77 2 0 0 2 34 3 0 0 0 5 0 0 13 13 2 0 0 0 1 7 11 0 0 0 5 0 0 30

Fouille de caractères 1. Fréquence 2. Signification 3. Non Redondance Classification divisive des sous-séquences récurrentes • Groupes de sous-séquences représentatives d’une même instance de motif : « même activité au même moment » • Groupes représentés par des séquences toutes disjointes Tentatives de motifs 31

Classification ascendante hiérarchique Tentatives de motifs • Classification des tentatives de motifs en groupes de sousséquences représentatives d’une même activité Seuil maximum Le représentant de chaque classe définit un motif Motifs 32

Expérimentation et Validation Processus expérimental 1. Contexte Télésurveillance Médicale à Domicile 2. Données expérimentales Processus de Simulation Classe de séquences proches 3. Méthodes d’évaluation Classe de séquences différentes Qualité de la méthode — Mesure de similarité — Abstraction — Fouille de caractères Paramètres méthodologiques 33

Mesure de similarité – Validation Principe de Validation • Faibles distances entre des séquences correspondant à la réalisation d’une même activité, dans de bonnes conditions Classe 0: Séquences similaires à la séquence de référence n° 0 34

Mesure de similarité – Validation Principe de Validation • Distances plus élevées sinon : réalisation d’activités différentes ou d’une même activité mais dans de mauvaises conditions Classe 1: Séquences différentes ou dégradées 35

Mesure de similarité – Validation Classification basée sur le mesure de distance réelle l Distances LCSS bien réparties sur l’axe [0, 1] l Bon classement en particulier des séquences « dégradées » l Bonne discrimination des classes 36

Expérimentation et Validation Processus expérimental 1. Contexte 2. Données expérimentales 3. Méthodes d’évaluation Télésurveillance Médicale à Domicile Processus de Simulation Qualité de la méthode Qualité des résultats — Mesure de similarité — Abstraction — Fouille de caractères Paramètres méthodologiques Paramètres de réglage (seuils) 37

Paramètres de réglage Paramètres clés du système • Mesure de similarité • Identification des motifs Sélection des valeurs en fonction des objectifs de décision et des performances du système • Nombreuses expérimentations dans différentes configurations • Maximiser les performances de la classification 38

Expérimentation et Validation Processus expérimental 1. Contexte Télésurveillance Médicale à Domicile 2. Données expérimentales Processus de Simulation Séquences de “non-motifs” 3. Méthodes d’évaluation Qualité de la méthode — Mesure de similarité — Abstraction — Fouille de caractères Paramètres méthodologiques 4. Mesures de performances Sensibilité Qualité des résultats — Validation de l’extraction Paramètres de réglage (seuils) Spécificité “Identifier comme tentative de motifs “Ne pas identifier comme tentative de “Toutes les instances d’un même motif “Tous les éléments d’une classe doivent Identification des sous-séquences qui correspondent tentatives de motifs effectivement à des sous-séquences récurrentes dans la séquence initiale. ” Classification en motifs Sous-séquences représentatives de motifs doivent être regroupées dans une seule classe, sans fractionnement. ” motifs des sous-séquences issues d’intervalles de non-motifs. ” être représentatifs d’un seul motif, sans fractionnement. ” 39

Validation de l’extraction de motifs Illustration 40

Validation de l’extraction de motifs Performances en contexte faiblement bruité • Des résultats encourageants ► Identification et classification parfaite possible des motifs • Grande variabilité des résultats ► Diversité des motifs sélectionnés aléatoirement ? 41

Expérimentation et Validation Processus expérimental 1. Contexte Télésurveillance Médicale à Domicile 2. Données expérimentales Processus de Simulation Sous-séquences représentatives de motifs Séquences de “non-motifs” Modifications “normales” 3. Méthodes d’évaluation Qualité des résultats Qualité de la méthode — Mesure de similarité — Abstraction — Fouille de caractères — Validation de l’extraction — Test de sensibilité Paramètres méthodologiques 4. Mesures de performances Sensibilité Spécificité “Identifier comme tentative de motifs “Ne pas identifier comme tentative de “Toutes les instances d’un même motif “Tous les éléments d’une classe doivent Identification des sous-séquences qui correspondent tentatives de motifs effectivement à des sous-séquences récurrentes dans la séquence initiale. ” Classification en motifs Paramètres de réglage (seuils) doivent être regroupées dans une seule classe, sans fractionnement. ” motifs des sous-séquences issues d’intervalles de non-motifs. ” être représentatifs d’un seul motif, sans fractionnement. ” 42

Test de Sensibilité • Courbes COR 43

Expérimentation et Validation Processus expérimental 1. Contexte Télésurveillance Médicale à Domicile 2. Données expérimentales Processus de Simulation Sous-séquences représentatives de motifs Séquences de “non-motifs” Modifications “normales” 3. Méthodes d’évaluation Qualité des résultats Qualité de la méthode — Mesure de similarité — Abstraction — Fouille de caractères — Validation de l’extraction — Test de sensibilité Paramètres méthodologiques 4. Mesures de performances Sensibilité — Test de spécificité Paramètres de réglage (seuils) Spécificité “Identifier comme tentative de motifs “Ne pas identifier comme tentative de “Toutes les instances d’un même motif “Tous les éléments d’une classe doivent Identification des sous-séquences qui correspondent tentatives de motifs effectivement à des sous-séquences récurrentes dans la séquence initiale. ” Classification en motifs Modifications inquiétantes doivent être regroupées dans une seule classe, sans fractionnement. ” motifs des sous-séquences issues d’intervalles de non-motifs. ” être représentatifs d’un seul motif, sans fractionnement. ” 44

Test de Spécificité 45

Expérimentation et Validation Extraction de motifs de séquences simulées 46

Discussion sur l’Apprentissage Caractéristiques fondamentales de la méthode • Analyse multidimensionnelle et hétérogène ► • • Mesure de similarité appropriée, non métrique dans un contexte particulièrement bruité Aspect complètement non supervisé Peu de données d’apprentissage nécessaires Grande variabilité possible entre les instances d’un motif Décision « haut niveau » à partir de données « bas niveau » Expérimentation et Validation • Complexité de mise en pratique ► ► De nombreux paramètres, parfois interdépendants et impliqués à différents niveaux de l’analyse Spécificité individuelle des paramètres « de réglage » ? • Potentialités de la méthode dans une configuration par défaut ► ► ► Identification et classification parfaite possible des motifs Comportements récurrents identifiés à partir des données de simulation Nécessité d’enregistrements réels pour la validation 47

Conclusion Cycle de résolution du Problème • Apprentissage des habitudes de vie d’une personne à domicile Mise en place d’un processus de Simulation • Démarche incrémentale et hybride proposée • Limitation de la validation par le manque de données expérimentales Grande quantité de données correspondant à différents profils et situations, pour l’expérimentation d’un système de décision Apprentissage d’un profil comportemental • Méthode générique pour l’extraction de motifs ► Données temporelles, multidimensionnelles et hétérogènes ► Apprentissage complètement non supervisé ► Instances de motifs : déformation temporelle, variabilité, interruptions • Proposition d’une mesure de similarité appropriée • Démarche d’apprentissage ► Extension d’une méthode d’identification de sous-séquences récurrentes au contexte multidimensionnel et hétérogène ► Proposition d’une méthode d’extension de ces sous-séquences pour l’identification de récurrences significatives au regard de la décision ► Proposition d’une méthode de synthèse d’un ensemble des sous-séquences récurrentes non redondantes • Potentialités de la méthode montrées par l’expérimentation 48

Perspectives Validation de l’approche de résolution • Expérimentation sur des enregistrements réels ► Données collectées à partir de capteurs du même type dans le cadre du projet AILISA-2 • Nouveau cycle de résolution nécessaire ? A plus long terme • Caractérisation du profil comportemental en terme d’une succession de « motifs » et de « non-motifs » ► Graphes temporels • Détection des situations critiques ► ► Reconnaissance des motifs Comparaison de graphes temporels A très long terme… • Application au niveau de la télésurveillance médicale ► ► À d’autres paramètres que ceux de la simulation À d’autres niveaux de détail • Autres applications ► Les méthodes proposées s’inscrivent dans le cadre plus général des problématiques de surveillance d’une certaine « normalité » 49

Merci de votre attention. 50