Lapprentissage automatique quoi a sert David MERCIER CEA
- Slides: 54
L'apprentissage automatique : à quoi ça sert ? David MERCIER CEA LIST, Laboratoire Intelligence Multi-capteurs et Apprentissage 13. 11. 2008 Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008
Attention : concepts contaminants 12/2005 (LETS) 09/2007 (LIMA) 01/2009 • • Jean-Denis MULLER David MERCIER Stéphane GAZUT Anthony LARUE Laurence CORNEZ Frédéric SUARD Michaël AUPETIT • • • Karine AURIBAULT Nicolas GILARDI Baptiste BLANPAIN Frédéric SUARD Jean-Philippe POLI Emmanuel RAMASSO Nicolas PAUL Laurence BOUDET Sylvain LESPINAT Lorène ALLANO Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 2
Attention : concepts contaminants CEA DAM Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 3
Mais concepts anciens et répandus • PAN : Plan d'Action Neuronal existe depuis 20 ans • CEA LIST, LIC 2 M sur données textuelles • CEA DEN, LGLS sur algo génétiques et propagation d'incertitudes • CEA DSV, plusieurs équipes en bioinformatique. • CEA LIST, LSVE sur identification de piétons et vidéosurveillance. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 4
Définition de l'apprentissage automatique ? 1. Synthétiser automatiquement des connaissances présentes dans des données (calcul des paramètres d'un modèle) – Les poids d'un réseau de neurones ok – Les coefficients d'un modèle polynomial ? ? ? – La pente d'un modèle linéaire ? non? 2. S'assurer de la validité du modèle ainsi défini, estimer le risque associé – – Validation croisée et Leave one out Bootstrapping Variabilité de modèles, propagation d'incertitudes Priors Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 5
Plan Information • Fouille de données • Quelles informations ? • Codage • Représentation, identification • Discrimination • Exploitation & fabrication • Problématiques • Risques, parasites Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 6
Plan • Fouille de données – Sélection de variables • Prédispositions génétiques au cancer • Paramètres explicatifs de maladies – Utilisation de la topologie : • pour évaluer les projections en visualisation, • pour déterminer automatiquement des classes. • Codage • Discrimination • Problématiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 7
Fouille de données : sélection de variables • Human. Diag : – Détermination de prédispositions génétiques au cancer de la prostate via l'analyse de 27000 SNP pour 1300 personnes (50% témoins, 50% malades) – Difficultés : • Plus de variables que d'individus • Un témoin peut être un futur malade / un malade qui s'ignore. • Il n'y a pas un déterminisme de 100% – Objectifs : identifier des SNP significatifs pour • limiter les examens, • gérer au mieux le dépistage, • trouver des processus biologiques. SNP : Single Nucleotide Polymorphisms : variation d'une seule paire de base du génome. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 8
Fouille de données : sélection de variables • Premier SNP trouvé était inconnu !! Notre étude T AA Aa 186 345 Analyse classique aa A a 103 T 531 448 M 189 278 180 Log -0. 02 0. 22 -0. 55 ratio Les hétérozygotes sont protégés !? !? M 467 458 Log 0. 12 -0. 02 Ratio Pas de différence SNP : Single Nucleotide Polymorphisms : variation d'une seule paire de base du génome. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 9
Fouille de données : sélection de variables • Données de l'institut de la vision sur le décollement de la rétine • 38 échantillons humains analysés par puce Affymetrix U 133 plus 2 (54675 variables) • Objectifs : identifier quelques données liées à la maladie pour permettre aux médecins de construire un modèle du processus de la maladie (causes-effets). Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 10
Fouille de données : sélection de variables Données non informatives : corrélation fortuite Données indépendantes Séminaire d'instrumentation IRFU - D. Mercier Données informatives déjà trouvées par corrélation Réf Données informatives mais non corrélées 13. 11. 2008 11
Fouille de données : sélection de variables Stade 3 Stade 2 Stade 1 Témoin outlier Relation non linéaire entre stade et grandeur Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 12
Fouille de données : utilisation de la topologie Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 13
Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 14
Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 15
Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 16
Fouille de données : utilisation de la topologie • Isolet database (base de données audio des lettres en anglais). • Visualisation des voyelles Séminaire d'instrumentation IRFU - D. Mercier Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit • Détection automatique des frontières • Graphe de proximités : 13. 11. 2008 17
Plan • Fouille de données • Codage – Transformée en Noyaux Adaptés – Analyse en Composantes Adaptées • Discrimination • Problématiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 18
Codage : Transformée en Noyaux Adaptées 3 -2 2 Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 19
Codage : Transformée en Noyaux Adaptés • L'originalité est que les noyaux sont appris à partir d'une base de signaux d'intérêt, pas issus d'une expertise à priori. Noyaux à l'initialisation Noyaux après apprentissage Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 20
Codage : Transformée en Noyaux Adaptés Analyse de gestes par accéléromètres (données LETI) Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 21
Codage : Transformée en Noyaux Adaptés Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 22
Codage : Transformée en Noyaux Adaptés Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 23
Codage : Analyse en Composantes Adaptées • Application à des images MALDI : (spectrométrie de masse, un pixel = un spectre). • Plus de décalage temporel, un noyau est un spectre. • Contraintes de positivité. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 24
Codage : Analyse en Composantes Adaptées Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 25
Codage : Analyse en Composantes Adaptées • Construction d'image pour chaque spectre à partir des coefficients de la décomposition : Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 26
Codage : Analyse en Composantes Adaptées Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 27
Codage : Analyse en Composantes Adaptées Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 28
Codage : Analyse en Composantes Adaptées • On peut se poser la question : un spectre par type de groupe de protéines ou bien un spectre par type de dosage ? • Toutefois résultats très prometteurs en une semaine. • Montage de projets en cours avec DEN sur spectrométrie IR ou LIBS : Laser Induced Breakdown Spectrometry Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 29
Plan • Fouille de données • Codage • Discrimination – Aide à la révision des événements sismiques – Prédiction des pics de prix sur les marchés de l'énergie • Problématiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 30
Discrimination : événements sismiques CEA DAM, Laboratoire DSO Surveillance de l'activité sismique Discrimination automatique Prévenir les autorités de tout séisme potentiellement ressenti Bulletin sismique hebdomadaire Révision Précision Risque sismique DSO : Detection and Operational Seismology Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 31
Discrimination : événements sismiques Révision du bulletin pour earthquakes ("eq"), quarry blasts ("qb"), marine explosions ("me") rock bursts ("rb", "sr" if only suspected). Pas de ratés Première analyse Événement oui Même décision oui Classement automatique Décision sûre non L'événement est considéré bien classé Le moins possible L'événement doit être révisé non Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 32
Discrimination : événements sismiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 33
Discrimination : événements sismiques Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 34
Discrimination : événements sismiques • Grâce à la reconnaissance automatique, seulement 7% des événements sont révisés pour trouver toutes les erreurs (15 sur 2967 événements en 2004). • Le risque de laisser passer un événement faux estimé à 1 tous les 9 ans. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 35
Discrimination : pics de prix • Objectifs final : aide à l'achat d'énergie sur les différents marchés : – Marché de l'énergie SPOT à 24 h … pics de prix pouvant atteindre des x 20, – Le but est de les anticiper pour acheter à terme (au moins 7 jours avant). • Approches antérieures : prédiction du prix – Bon apprentissage du comportement normal, mais pas du comportement anormal car trop peu de données et pas vraiment modélisable. • Nouvelle approche : prédire la situation anormale, pas le prix lui-même, par réseaux de neurones. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 36
Discrimination : pics de prix Problème de la définition d'un pic ! Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 37
Discrimination : pics de prix • Définition de ce qu'est un pic • Exploration des données – Identification de 2 situations différentes : été et hiver – Sélection des variables pertinentes • Constitution des modèles • Validité des modèles Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 38
Discrimination : pics de prix • Pour l'été, le problème semble très abordable : Protocole Horizon Détection FA P 2 2 j 84% 18, 2% P 2 9 j 82% 25, 3% P 2 12 j 74% 25, 6% • Pour l'hiver, le problème semble plus complexe : Protocole Horizon Détection FA P 1 1 j 63, 5% 35% P 2 2 j 63, 5% 24, 9% P 2 9 j 64% 30, 9% P 3 1 j 51, 8% 26, 8% P 3 9 j 41, 2% 29, 6% Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 39
Plan • Fouille de données • Codage • Discrimination • Problématiques – Pertinence de la base de données : exhaustivité, parasitage et travail de l'expert. – Malédiction de la dimension. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 40
Problématiques : Exhaustivité • Il n’y a jamais création d’information non présente : il faut des données qui permettent vraiment d’apprendre ou injecter des connaissances a priori. • Ainsi, à partir de la base d’apprentissage de droite, peut -on prédire correctement le pluriel de « caillou » ? Un fœtus Des fœtus Un cheveu Des cheveux Un pneu Des pneus Un animal Des animaux Un rail Des rails Une manche Des manches Une pelle Des pelles Un fenêtre Des fenêtres Une porte Des portes Un coucou Des coucous Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 41
Problématiques : Parasitage • A partir de la base suivante A A A B B B A A A B B • Que va-t-il être annoncé pour ? • 99% de chance que ce soit A … à cause du fond, information parasite exceptionnellement corrélée à notre problème et plus simple à analyser • Trois types de signaux (exemple en reconnaissance vocale) – Information pertinente (le message) – Information parasite (le locuteur) – Bruit (Micro, chute d’objet, carillon, etc. ). Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 42
Problématiques : Travail de l’expert On attend d’un expert du problème : • D’identifier les informations pertinentes des informations parasites • Donner des idées (même non mathématiques) sur le moyens d’éliminer certaines informations parasites (exemple binarisation, normalisation en taille, etc. ). • Garantir que la base d’apprentissage est exhaustive. • Garantir qu’elle est assez complète pour que les informations parasites non éliminées au prétraitement soient indépendantes du problème traité. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 43
Problématiques : Malédiction de la dimension R. Belmann - 1961 Relations aux distances et volumes Pertinence de données synergiques Séminaire d'instrumentation IRFU - D. Mercier Quantité de données pour décrire un phénomène 13. 11. 2008 44
Problématiques : Malédiction de la dimension Distance Hyperplans Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 45
Problématiques : Malédiction de la dimension 1 L'hypercube tend à devenir creux. Les données s'agglutinent dans les coins et donc globalement toutes à la même distance. d Hyperboule Hypercube 1 2 2 2 3. 14 4 3 4. 19 8 4 4. 93 16 5 5. 26 32 6 5. 17 64 7 4. 72 128 8 4. 06 256 Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 46
Problématiques : Malédiction de la dimension Ratio Ecorce / intérieur 1 d 1. 01 1 1. 00% 2 2. 01% 3 3. 03% 4 4. 06% 5 5. 10% 10 10. 46% 100 270. 48% 1000 ~ 21000 L'hyperboule tend à devenir creuse. Les données s'agglutinent sur l'écorce et donc globalement toutes à la même distance du centre. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 47
Problématiques : Malédiction de la dimension • Dans un espace de dimension N, il est toujours possible de discriminer N+1 points quelque soit la distribution des classes (si pas « alignés » ). • Un discriminateur linéaire « explose » N+1 points mais pas plus: son VC (dimension de Vapnik. Chervonenkis) est donc de N+1. • Encore plus pour d’autres discriminateurs. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 48
Problématiques : Malédiction de la dimension On discrimine selon des variables non pertinentes. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 49
Problématiques : Malédiction de la dimension Croissance exponentielle du nombre de données nécessaires pour identifier ce qui se passe partout Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 50
L'apprentissage automatique • Ce n'est pas magique ! • Ce n'est pas plus facile que n'importe qu'elle autre méthodes. • Il faut y réfléchir en terme d'information et de facteurs explicatifs. • Dès qu'il y a des phénomènes avec un minimum de déterminisme et des données pour l'illustrer, c'est une approche qui peut être intéressante. Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008 51
Merci de votre attention Séminaire d'instrumentation IRFU - D. Mercier 13. 11. 2008
Présentation du LIMA Génomique Santé EEG-ECG Prédiction (maintenance, finance) Aide à la décision / au diagnostic Surveillance et industrie Capteurs intelligents Objets communiquant Radiothérapie Alerte rapide Sécurité et défense Anomalie Gestion de crise (erreurs, alarmes, home care) Séminaire d'instrumentation IRFU - D. Mercier Sécurisation de site 13. 11. 2008 53
Présentation du LIMA Sélection de variables Fouille de données Visualisation Significatif / informatif Regroupement en sacs Aide à la décision / au diagnostic Prise de décisions Codage Adapté / optimal Apprentissage / enseignement Compact Explicabilité Séminaire d'instrumentation IRFU - D. Mercier Autocritique 13. 11. 2008 54
- Les outils pédagogiques pour faciliter lapprentissage
- A quoi sert le nickel
- A quoi sert la trigonométrie
- Degauchisseuse a quoi ca sert
- A quoi sert le pseudo
- à quoi sert le cvl
- A quoi sert le nickel
- Colle sans clou ni vis
- A quoi sert limparfait
- A quoi sert la qualité
- Julien clerc a quoi sert une chanson si elle est désarmée
- A quoi sert un carnet de lecture
- à quoi sert-il
- Manuel mercier
- Mercier's bar bladder
- Jean-christophe mercier
- Alexandre mercier-dalphond
- Clotilde mercier
- Ven espiritu santo llena los corazones de tus fieles
- Christel mercier
- Hugo mercier
- Diaporama automatique
- Arrosage automatique
- Chaine d'information et d'énergie portail automatique
- Portail automatique
- Hotmail synchronisation automatique
- Tp automatique
- Lecture automatique de questionnaires
- Encaisseuse semi-automatique
- Traitement automatique des langues cours
- Lad lecture automatique de document
- Outlook présence inconnue
- Chaine d'information et d'énergie portail automatique
- Automatique
- Doseur malaxeur automatique grafcet
- Ppsmania.net
- Chaine d'information et d'énergie portail automatique
- Automatique
- Sedef sert
- Süreksiz sert ünsüz yumuşaması
- Eser sert
- Eser sert
- ünsüz yumuşaması
- Malzemeler
- Suyu çeken maddeler
- Tundra iklimi özellikleri
- Sert plastics
- Eser sert
- Draga-mi esti mamico
- Cea juliette
- Metoda cua
- Ag carcino embrionale cea
- Test structura calculatorului online
- Adjectiv pronominal de departare
- Cea registry