Lapprentissage automatique quoi a sert David MERCIER CEA

  • Slides: 54
Download presentation
L'apprentissage automatique : à quoi ça sert ? David MERCIER CEA LIST, Laboratoire Intelligence

L'apprentissage automatique : à quoi ça sert ? David MERCIER CEA LIST, Laboratoire Intelligence Multi-capteurs et Apprentissage 13. 11. 2008 Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008

Attention : concepts contaminants 12/2005 (LETS) 09/2007 (LIMA) 01/2009 • • Jean-Denis MULLER David

Attention : concepts contaminants 12/2005 (LETS) 09/2007 (LIMA) 01/2009 • • Jean-Denis MULLER David MERCIER Stéphane GAZUT Anthony LARUE Laurence CORNEZ Frédéric SUARD Michaël AUPETIT • • • Karine AURIBAULT Nicolas GILARDI Baptiste BLANPAIN Frédéric SUARD Jean-Philippe POLI Emmanuel RAMASSO Nicolas PAUL Laurence BOUDET Sylvain LESPINAT Lorène ALLANO Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 2

Attention : concepts contaminants CEA DAM Séminaire d'instrumentation IRFU - D. Mercier 13. 11.

Attention : concepts contaminants CEA DAM Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 3

Mais concepts anciens et répandus • PAN : Plan d'Action Neuronal existe depuis 20

Mais concepts anciens et répandus • PAN : Plan d'Action Neuronal existe depuis 20 ans • CEA LIST, LIC 2 M sur données textuelles • CEA DEN, LGLS sur algo génétiques et propagation d'incertitudes • CEA DSV, plusieurs équipes en bioinformatique. • CEA LIST, LSVE sur identification de piétons et vidéosurveillance. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 4

Définition de l'apprentissage automatique ? 1. Synthétiser automatiquement des connaissances présentes dans des données

Définition de l'apprentissage automatique ? 1. Synthétiser automatiquement des connaissances présentes dans des données (calcul des paramètres d'un modèle) – Les poids d'un réseau de neurones ok – Les coefficients d'un modèle polynomial ? ? ? – La pente d'un modèle linéaire ? non? 2. S'assurer de la validité du modèle ainsi défini, estimer le risque associé – – Validation croisée et Leave one out Bootstrapping Variabilité de modèles, propagation d'incertitudes Priors Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 5

Plan Information • Fouille de données • Quelles informations ? • Codage • Représentation,

Plan Information • Fouille de données • Quelles informations ? • Codage • Représentation, identification • Discrimination • Exploitation & fabrication • Problématiques • Risques, parasites Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 6

Plan • Fouille de données – Sélection de variables • Prédispositions génétiques au cancer

Plan • Fouille de données – Sélection de variables • Prédispositions génétiques au cancer • Paramètres explicatifs de maladies – Utilisation de la topologie : • pour évaluer les projections en visualisation, • pour déterminer automatiquement des classes. • Codage • Discrimination • Problématiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 7

Fouille de données : sélection de variables • Human. Diag : – Détermination de

Fouille de données : sélection de variables • Human. Diag : – Détermination de prédispositions génétiques au cancer de la prostate via l'analyse de 27000 SNP pour 1300 personnes (50% témoins, 50% malades) – Difficultés : • Plus de variables que d'individus • Un témoin peut être un futur malade / un malade qui s'ignore. • Il n'y a pas un déterminisme de 100% – Objectifs : identifier des SNP significatifs pour • limiter les examens, • gérer au mieux le dépistage, • trouver des processus biologiques. SNP : Single Nucleotide Polymorphisms : variation d'une seule paire de base du génome. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 8

Fouille de données : sélection de variables • Premier SNP trouvé était inconnu !!

Fouille de données : sélection de variables • Premier SNP trouvé était inconnu !! Notre étude T AA Aa 186 345 Analyse classique aa A a 103 T 531 448 M 189 278 180 Log -0. 02 0. 22 -0. 55 ratio Les hétérozygotes sont protégés !? !? M 467 458 Log 0. 12 -0. 02 Ratio Pas de différence SNP : Single Nucleotide Polymorphisms : variation d'une seule paire de base du génome. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 9

Fouille de données : sélection de variables • Données de l'institut de la vision

Fouille de données : sélection de variables • Données de l'institut de la vision sur le décollement de la rétine • 38 échantillons humains analysés par puce Affymetrix U 133 plus 2 (54675 variables) • Objectifs : identifier quelques données liées à la maladie pour permettre aux médecins de construire un modèle du processus de la maladie (causes-effets). Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 10

Fouille de données : sélection de variables Données non informatives : corrélation fortuite Données

Fouille de données : sélection de variables Données non informatives : corrélation fortuite Données indépendantes Séminaire d'instrumentation IRFU - D. Mercier Données informatives déjà trouvées par corrélation Réf Données informatives mais non corrélées 13. 11. 2008 11

Fouille de données : sélection de variables Stade 3 Stade 2 Stade 1 Témoin

Fouille de données : sélection de variables Stade 3 Stade 2 Stade 1 Témoin outlier Relation non linéaire entre stade et grandeur Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 12

Fouille de données : utilisation de la topologie Séminaire d'instrumentation IRFU - D. Mercier

Fouille de données : utilisation de la topologie Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 13

Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in

Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 14

Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in

Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 15

Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in

Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 16

Fouille de données : utilisation de la topologie • Isolet database (base de données

Fouille de données : utilisation de la topologie • Isolet database (base de données audio des lettres en anglais). • Visualisation des voyelles Séminaire d'instrumentation IRFU - D. Mercier Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit • Détection automatique des frontières • Graphe de proximités : 13. 11. 2008 17

Plan • Fouille de données • Codage – Transformée en Noyaux Adaptés – Analyse

Plan • Fouille de données • Codage – Transformée en Noyaux Adaptés – Analyse en Composantes Adaptées • Discrimination • Problématiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 18

Codage : Transformée en Noyaux Adaptées 3 -2 2 Séminaire d'instrumentation IRFU - D.

Codage : Transformée en Noyaux Adaptées 3 -2 2 Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 19

Codage : Transformée en Noyaux Adaptés • L'originalité est que les noyaux sont appris

Codage : Transformée en Noyaux Adaptés • L'originalité est que les noyaux sont appris à partir d'une base de signaux d'intérêt, pas issus d'une expertise à priori. Noyaux à l'initialisation Noyaux après apprentissage Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 20

Codage : Transformée en Noyaux Adaptés Analyse de gestes par accéléromètres (données LETI) Séminaire

Codage : Transformée en Noyaux Adaptés Analyse de gestes par accéléromètres (données LETI) Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 21

Codage : Transformée en Noyaux Adaptés Séminaire d'instrumentation IRFU - D. Mercier 13. 11.

Codage : Transformée en Noyaux Adaptés Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 22

Codage : Transformée en Noyaux Adaptés Séminaire d'instrumentation IRFU - D. Mercier 13. 11.

Codage : Transformée en Noyaux Adaptés Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 23

Codage : Analyse en Composantes Adaptées • Application à des images MALDI : (spectrométrie

Codage : Analyse en Composantes Adaptées • Application à des images MALDI : (spectrométrie de masse, un pixel = un spectre). • Plus de décalage temporel, un noyau est un spectre. • Contraintes de positivité. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 24

Codage : Analyse en Composantes Adaptées Séminaire d'instrumentation IRFU - D. Mercier 13. 11.

Codage : Analyse en Composantes Adaptées Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 25

Codage : Analyse en Composantes Adaptées • Construction d'image pour chaque spectre à partir

Codage : Analyse en Composantes Adaptées • Construction d'image pour chaque spectre à partir des coefficients de la décomposition : Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 26

Codage : Analyse en Composantes Adaptées Séminaire d'instrumentation IRFU - D. Mercier 13. 11.

Codage : Analyse en Composantes Adaptées Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 27

Codage : Analyse en Composantes Adaptées Séminaire d'instrumentation IRFU - D. Mercier 13. 11.

Codage : Analyse en Composantes Adaptées Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 28

Codage : Analyse en Composantes Adaptées • On peut se poser la question :

Codage : Analyse en Composantes Adaptées • On peut se poser la question : un spectre par type de groupe de protéines ou bien un spectre par type de dosage ? • Toutefois résultats très prometteurs en une semaine. • Montage de projets en cours avec DEN sur spectrométrie IR ou LIBS : Laser Induced Breakdown Spectrometry Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 29

Plan • Fouille de données • Codage • Discrimination – Aide à la révision

Plan • Fouille de données • Codage • Discrimination – Aide à la révision des événements sismiques – Prédiction des pics de prix sur les marchés de l'énergie • Problématiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 30

Discrimination : événements sismiques CEA DAM, Laboratoire DSO Surveillance de l'activité sismique Discrimination automatique

Discrimination : événements sismiques CEA DAM, Laboratoire DSO Surveillance de l'activité sismique Discrimination automatique Prévenir les autorités de tout séisme potentiellement ressenti Bulletin sismique hebdomadaire Révision Précision Risque sismique DSO : Detection and Operational Seismology Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 31

Discrimination : événements sismiques Révision du bulletin pour earthquakes ("eq"), quarry blasts ("qb"), marine

Discrimination : événements sismiques Révision du bulletin pour earthquakes ("eq"), quarry blasts ("qb"), marine explosions ("me") rock bursts ("rb", "sr" if only suspected). Pas de ratés Première analyse Événement oui Même décision oui Classement automatique Décision sûre non L'événement est considéré bien classé Le moins possible L'événement doit être révisé non Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 32

Discrimination : événements sismiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 33

Discrimination : événements sismiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 33

Discrimination : événements sismiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 34

Discrimination : événements sismiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 34

Discrimination : événements sismiques • Grâce à la reconnaissance automatique, seulement 7% des événements

Discrimination : événements sismiques • Grâce à la reconnaissance automatique, seulement 7% des événements sont révisés pour trouver toutes les erreurs (15 sur 2967 événements en 2004). • Le risque de laisser passer un événement faux estimé à 1 tous les 9 ans. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 35

Discrimination : pics de prix • Objectifs final : aide à l'achat d'énergie sur

Discrimination : pics de prix • Objectifs final : aide à l'achat d'énergie sur les différents marchés : – Marché de l'énergie SPOT à 24 h … pics de prix pouvant atteindre des x 20, – Le but est de les anticiper pour acheter à terme (au moins 7 jours avant). • Approches antérieures : prédiction du prix – Bon apprentissage du comportement normal, mais pas du comportement anormal car trop peu de données et pas vraiment modélisable. • Nouvelle approche : prédire la situation anormale, pas le prix lui-même, par réseaux de neurones. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 36

Discrimination : pics de prix Problème de la définition d'un pic ! Séminaire d'instrumentation

Discrimination : pics de prix Problème de la définition d'un pic ! Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 37

Discrimination : pics de prix • Définition de ce qu'est un pic • Exploration

Discrimination : pics de prix • Définition de ce qu'est un pic • Exploration des données – Identification de 2 situations différentes : été et hiver – Sélection des variables pertinentes • Constitution des modèles • Validité des modèles Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 38

Discrimination : pics de prix • Pour l'été, le problème semble très abordable :

Discrimination : pics de prix • Pour l'été, le problème semble très abordable : Protocole Horizon Détection FA P 2 2 j 84% 18, 2% P 2 9 j 82% 25, 3% P 2 12 j 74% 25, 6% • Pour l'hiver, le problème semble plus complexe : Protocole Horizon Détection FA P 1 1 j 63, 5% 35% P 2 2 j 63, 5% 24, 9% P 2 9 j 64% 30, 9% P 3 1 j 51, 8% 26, 8% P 3 9 j 41, 2% 29, 6% Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 39

Plan • Fouille de données • Codage • Discrimination • Problématiques – Pertinence de

Plan • Fouille de données • Codage • Discrimination • Problématiques – Pertinence de la base de données : exhaustivité, parasitage et travail de l'expert. – Malédiction de la dimension. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 40

Problématiques : Exhaustivité • Il n’y a jamais création d’information non présente : il

Problématiques : Exhaustivité • Il n’y a jamais création d’information non présente : il faut des données qui permettent vraiment d’apprendre ou injecter des connaissances a priori. • Ainsi, à partir de la base d’apprentissage de droite, peut -on prédire correctement le pluriel de « caillou » ? Un fœtus Des fœtus Un cheveu Des cheveux Un pneu Des pneus Un animal Des animaux Un rail Des rails Une manche Des manches Une pelle Des pelles Un fenêtre Des fenêtres Une porte Des portes Un coucou Des coucous Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 41

Problématiques : Parasitage • A partir de la base suivante A A A B

Problématiques : Parasitage • A partir de la base suivante A A A B B B A A A B B • Que va-t-il être annoncé pour ? • 99% de chance que ce soit A … à cause du fond, information parasite exceptionnellement corrélée à notre problème et plus simple à analyser • Trois types de signaux (exemple en reconnaissance vocale) – Information pertinente (le message) – Information parasite (le locuteur) – Bruit (Micro, chute d’objet, carillon, etc. ). Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 42

Problématiques : Travail de l’expert On attend d’un expert du problème : • D’identifier

Problématiques : Travail de l’expert On attend d’un expert du problème : • D’identifier les informations pertinentes des informations parasites • Donner des idées (même non mathématiques) sur le moyens d’éliminer certaines informations parasites (exemple binarisation, normalisation en taille, etc. ). • Garantir que la base d’apprentissage est exhaustive. • Garantir qu’elle est assez complète pour que les informations parasites non éliminées au prétraitement soient indépendantes du problème traité. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 43

Problématiques : Malédiction de la dimension R. Belmann - 1961 Relations aux distances et

Problématiques : Malédiction de la dimension R. Belmann - 1961 Relations aux distances et volumes Pertinence de données synergiques Séminaire d'instrumentation IRFU - D. Mercier Quantité de données pour décrire un phénomène 13. 11. 2008 44

Problématiques : Malédiction de la dimension Distance Hyperplans Séminaire d'instrumentation IRFU - D. Mercier

Problématiques : Malédiction de la dimension Distance Hyperplans Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 45

Problématiques : Malédiction de la dimension 1 L'hypercube tend à devenir creux. Les données

Problématiques : Malédiction de la dimension 1 L'hypercube tend à devenir creux. Les données s'agglutinent dans les coins et donc globalement toutes à la même distance. d Hyperboule Hypercube 1 2 2 2 3. 14 4 3 4. 19 8 4 4. 93 16 5 5. 26 32 6 5. 17 64 7 4. 72 128 8 4. 06 256 Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 46

Problématiques : Malédiction de la dimension Ratio Ecorce / intérieur 1 d 1. 01

Problématiques : Malédiction de la dimension Ratio Ecorce / intérieur 1 d 1. 01 1 1. 00% 2 2. 01% 3 3. 03% 4 4. 06% 5 5. 10% 10 10. 46% 100 270. 48% 1000 ~ 21000 L'hyperboule tend à devenir creuse. Les données s'agglutinent sur l'écorce et donc globalement toutes à la même distance du centre. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 47

Problématiques : Malédiction de la dimension • Dans un espace de dimension N, il

Problématiques : Malédiction de la dimension • Dans un espace de dimension N, il est toujours possible de discriminer N+1 points quelque soit la distribution des classes (si pas « alignés » ). • Un discriminateur linéaire « explose » N+1 points mais pas plus: son VC (dimension de Vapnik. Chervonenkis) est donc de N+1. • Encore plus pour d’autres discriminateurs. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 48

Problématiques : Malédiction de la dimension On discrimine selon des variables non pertinentes. Séminaire

Problématiques : Malédiction de la dimension On discrimine selon des variables non pertinentes. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 49

Problématiques : Malédiction de la dimension Croissance exponentielle du nombre de données nécessaires pour

Problématiques : Malédiction de la dimension Croissance exponentielle du nombre de données nécessaires pour identifier ce qui se passe partout Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 50

L'apprentissage automatique • Ce n'est pas magique ! • Ce n'est pas plus facile

L'apprentissage automatique • Ce n'est pas magique ! • Ce n'est pas plus facile que n'importe qu'elle autre méthodes. • Il faut y réfléchir en terme d'information et de facteurs explicatifs. • Dès qu'il y a des phénomènes avec un minimum de déterminisme et des données pour l'illustrer, c'est une approche qui peut être intéressante. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 51

Merci de votre attention Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008

Merci de votre attention Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008

Présentation du LIMA Génomique Santé EEG-ECG Prédiction (maintenance, finance) Aide à la décision /

Présentation du LIMA Génomique Santé EEG-ECG Prédiction (maintenance, finance) Aide à la décision / au diagnostic Surveillance et industrie Capteurs intelligents Objets communiquant Radiothérapie Alerte rapide Sécurité et défense Anomalie Gestion de crise (erreurs, alarmes, home care) Séminaire d'instrumentation IRFU - D. Mercier Sécurisation de site 13. 11. 2008 53

Présentation du LIMA Sélection de variables Fouille de données Visualisation Significatif / informatif Regroupement

Présentation du LIMA Sélection de variables Fouille de données Visualisation Significatif / informatif Regroupement en sacs Aide à la décision / au diagnostic Prise de décisions Codage Adapté / optimal Apprentissage / enseignement Compact Explicabilité Séminaire d'instrumentation IRFU - D. Mercier Autocritique 13. 11. 2008 54