A Cornujols Les rseaux connexionnistes Antoine Cornujols antoine

A. Cornuéjols Les réseaux connexionnistes Antoine Cornuéjols (antoine. cornuejols@agroparistech. fr) Agro. Paris. Tech &

Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC)

Les réseaux connexionnistes A. Cornuéjols Introduction : Pourquoi les réseaux de neurones ? •

Les réseaux connexionnistes Introduction : Pourquoi les réseaux de neurones ? • Les attraits

Les réseaux connexionnistes A. Cornuéjols Historique (très rapide) Prémisses – Mc Culloch & Pitts

Les réseaux connexionnistes Les réseaux de neurones : Types de réseaux • Interconnecté à

Les réseaux connexionnistes Modèles de base : le Perceptron Multi-Couches • Topologie typique A.

Les réseaux connexionnistes Discrimination linéaire : le Perceptron [Rosenblatt, 1957, 1962] A. Cornuéjols 10

Les réseaux connexionnistes Discrimination linéaire : le Perceptron A. Cornuéjols 11

Les réseaux connexionnistes Discrimination linéaire : le Perceptron A. Cornuéjols 12

Les réseaux connexionnistes Discrimination linéaire : le Perceptron Discrimination contre tous les autres A.

Les réseaux connexionnistes Discrimination linéaire : le Perceptron Discrimination entre deux classes A. Cornuéjols

Les réseaux connexionnistes A. Cornuéjols Le perceptron : critère de performance • Critère d’optimisation

Les réseaux connexionnistes L’apprentissage : Erreur quadratique • Interprétation géométrique A. Cornuéjols 16

A. Cornuéjols Les réseaux connexionnistes L’apprentissage : Erreur quadratique • La solution directe :

Les réseaux connexionnistes A. Cornuéjols Apprentissage direct : méthode de la pseudo-inverse 18

Les réseaux connexionnistes A. Cornuéjols Apprentissage direct : méthode de la pseudo-inverse 19

Les réseaux connexionnistes A. Cornuéjols Apprentissage direct : méthode de la pseudo-inverse 20

A. Cornuéjols Les réseaux connexionnistes Apprentissage direct : méthode de la pseudo-inverse • La

Les réseaux connexionnistes A. Cornuéjols Le perceptron : algorithme • Méthode d’exploration de H

Les réseaux connexionnistes Le perceptron : Illustration • Justification de l’algorithme Réduction de l’erreur

Les réseaux connexionnistes A. Cornuéjols Le perceptron : convergence et capacité mémoire • Questions

Les réseaux connexionnistes Capacité expressive : Séparations linéaires A. Cornuéjols 25

Les réseaux connexionnistes Capacité expressive : Séparations linéaires A. Cornuéjols 26

Les réseaux connexionnistes Le Perceptron Multi-Couches : propagation • Pour chaque neurone : wjk

Les réseaux connexionnistes Le Perceptron Multi-Couches : exemple du XOR A. Cornuéjols 29

Les réseaux connexionnistes Le PMC : puissance expressive A. Cornuéjols 30

Les réseaux connexionnistes Le PMC : puissance expressive A. Cornuéjols 31

Les réseaux connexionnistes Exemple de réseau (simulateur Java. NNS) A. Cornuéjols 32

A. Cornuéjols Les réseaux connexionnistes 34 Le PMC : l’apprentissage • Trouver des poids

Les réseaux connexionnistes L’apprentissage : Erreur quadratique • Interprétation géométrique A. Cornuéjols 35

A. Cornuéjols Les réseaux connexionnistes L’apprentissage : descente de gradient • Apprentissage = recherche

Les réseaux connexionnistes Le Perceptron Multi-Couches : apprentissage Objectif : Algorithme (rétro-propagation de gradient)

Les réseaux connexionnistes A. Cornuéjols Le Perceptron Multi-Couches : apprentissage 1. Présentation d’un exemple

Les réseaux connexionnistes A. Cornuéjols PMC : La rétro-propagation de gradient • Le problème

Les réseaux connexionnistes A. Cornuéjols PMC : La rétro-propagation de gradient 1. Evaluation de

A. Cornuéjols Les réseaux connexionnistes PMC : La rétro-propagation de gradient ai : activation

Les réseaux connexionnistes A. Cornuéjols PMC : La rétro-propagation de gradient • 2. Modification

A. Cornuéjols Les réseaux connexionnistes Le PMC : passes avant et arrière (résumé) ys(x)

Les réseaux connexionnistes A. Cornuéjols 45 PMC : La rétro-propagation de gradient • Efficacité

Les réseaux connexionnistes Analyse de la surface d’erreur A. Cornuéjols 46

Les réseaux connexionnistes Analyse de la surface d’erreur A. Cornuéjols 47

Les réseaux connexionnistes Analyse de la surface d’erreur A. Cornuéjols 48

Les réseaux connexionnistes Applications : la discrimination • Exemple : Mines cylindriques / roches

A. Cornuéjols Les réseaux connexionnistes Applications : la discrimination multiclasse Exemple : Reconnaissance de

Les réseaux connexionnistes Applications : optimisation multi-objectif • cf [Tom Mitchell] prédire à la

Les réseaux connexionnistes A. Cornuéjols 52 PMC : Les applications • Automatique : identification

Les réseaux connexionnistes A. Cornuéjols Application aux codes postaux (Zip codes) • [Le Cun

Les réseaux connexionnistes La base de données A. Cornuéjols 54

Les réseaux connexionnistes Application aux codes postaux (Zip codes) A. Cornuéjols 55

Les réseaux connexionnistes Les erreurs commises A. Cornuéjols 56

Les réseaux connexionnistes La régression A. Cornuéjols 57

Les réseaux connexionnistes Un échec : QSAR • Quantitative Structure Activity Relations Prédire certaines

Les réseaux connexionnistes Rôle de la couche cachée A. Cornuéjols 59

Les réseaux connexionnistes Rôle de la couche cachée A. Cornuéjols 60

Les réseaux connexionnistes PMC : Analyse • Rôle des cellules cachées • Efficacité calculatoire

Les réseaux connexionnistes Rôle de la couche cachée A. Cornuéjols 62

A. Cornuéjols Les réseaux connexionnistes PMC : Mise en pratique (1) • Problèmes techniques

Les réseaux connexionnistes A. Cornuéjols PMC : La rétro-propagation de gradient (variantes) • Ajout

Les réseaux connexionnistes Convergence • Réglage du pas d’apprentissage : A. Cornuéjols 66

Les réseaux connexionnistes PMC : Problèmes de convergence • Minimums locaux. “Ravins”. etc. Ajout

A. Cornuéjols Les réseaux connexionnistes PMC : Problèmes de convergence (gradients variables) • Gain

Les réseaux connexionnistes Le sur-apprentissage A. Cornuéjols 70

Les réseaux connexionnistes Le problème de la sélection de modèle A. Cornuéjols 71

A. Cornuéjols Les réseaux connexionnistes Contrôle de H : régularisation • Principe : limiter

Les réseaux connexionnistes A. Cornuéjols Contrôle par limite de l’exploration effective de H 73

Les réseaux connexionnistes Généralisation : optimiser la structure d’un réseau • Par croissance progressive

Les réseaux connexionnistes Introduction de connaissances a priori Invariances • Exemples obtenus par transformation

Les réseaux connexionnistes ANN Application Areas • Classification • Clustering • Associative memory •

Les réseaux connexionnistes ANN Classifier systems • • Learning capability Statistical classifier systems Data

Les réseaux connexionnistes Applications for ANN Classifiers • Pattern recognition Industrial inspection Fault diagnosis

Les réseaux connexionnistes Clustering with ANNs • • Fast parallel distributed processing Handle large

Les réseaux connexionnistes ANN Clustering Applications • Natural language processing Document clustering Document retrieval

Les réseaux connexionnistes Associative ANN Memories • Stimulus-response association • Auto-associative memory • Content

Les réseaux connexionnistes Application of ANN Associative Memories • Character recognition • Handwriting recognition

Les réseaux connexionnistes ANN Control Systems • • • Learning/adaptation capability Data driven Non-linear

Les réseaux connexionnistes ANN Control Schemes • ANN controller • conventional controller + ANN

Les réseaux connexionnistes ANN Control Applications • Non-linear process control Chemical reaction control Industrial

Les réseaux connexionnistes ANN Function Modelling • ANN as universal function approximator • Dynamic

Les réseaux connexionnistes ANN Modelling Applications • Modelling of highly nonlinear industrial processes •

A. Cornuéjols Les réseaux connexionnistes ALVINN Neural Network Approaches ALVINN - Autonomous Land Vehicle

A. Cornuéjols Les réseaux connexionnistes ALVINN - Developed in 1993. Output units Hidden layer

Les réseaux connexionnistes A. Cornuéjols PMC à fonctions radiales (RBF) • Définition Couche cachée

Les réseaux connexionnistes A. Cornuéjols 93 PMC à fonctions radiales (RBF) : apprentissage •

Les réseaux connexionnistes A. Cornuéjols Les réseaux récurrents • Tâches Reconnaissance de séquence E.

A. Cornuéjols Les réseaux connexionnistes Recurrent ANN Architectures • Feedback connections • Dynamic memory:

Les réseaux connexionnistes Les réseaux récurrents A. Cornuéjols 96

Les réseaux connexionnistes Les réseaux récurrents • Problèmes Notoirement difficiles à contrôler – Dynamique

A. Cornuéjols Les réseaux connexionnistes Une idée intrigante : le « reservoir computing »

Les réseaux connexionnistes Une idée intrigante : le « reservoir computing » • Semble

Les réseaux connexionnistes Conclusions • Limites Apprentissage lent et difficile Opacité – Réseaux appris

A. Cornuéjols Les réseaux connexionnistes ANN Summary Artificial Neural Networks Feedforward Unsupervised (Kohonen) Recurrent

A. Cornuéjols Les réseaux connexionnistes 103 Sources documentaires • Ouvrages / articles Dreyfus et.

Slides: 103

Download presentation

A. Cornuéjols Les réseaux connexionnistes Antoine Cornuéjols (antoine. cornuejols@agroparistech. fr) Agro. Paris. Tech & L. R. I. , Université d’Orsay 1

Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de l’apprentissage 7. Applications 8. Développements et perspectives 9. Conclusions A. Cornuéjols 2

Les réseaux connexionnistes A. Cornuéjols Introduction : Pourquoi les réseaux de neurones ? • Inspiration biologique Le cerveau naturel : un modèle très séduisant – Robuste et tolérant aux fautes – Flexible. Facilement adaptable – S’accommode d’informations incomplètes, incertaines, vagues, bruitées. . . – Massivement parallèle – Capable d’apprentissage Neurones – ≈ 1011 neurones dans le cerveau humain – ≈ 104 connexions (synapses + axones) / neurone – Potentiel d’action / période réfractaire / neuro-transmetteurs – Signaux excitateurs / inhibiteurs 4

Les réseaux connexionnistes Introduction : Pourquoi les réseaux de neurones ? • Les attraits pratiques Calculs parallélisables Implantables directement sur circuits dédiés Robustes et tolérants aux fautes (calculs et représentations distribués) Algorithmes simples D’emploi très général • Les défauts Opacité des “raisonnements” Opacité des résultats A. Cornuéjols 5

Les réseaux connexionnistes A. Cornuéjols Historique (très rapide) Prémisses – Mc Culloch & Pitts (1943) : 1 er modèle de neurone formel. Rapport neurone et calcul logique : base de l’intelligence artificielle. – Règle de Hebb (1949) : apprentissage par renforcement du couplage synaptique Premières réalisations – ADALINE (Widrow-Hoff, 1960) – PERCEPTRON (Rosenblatt, 1958 -1962) – Analyse de Minsky & Papert (1969) Nouveaux modèles – Kohonen (apprentissage compétitif), . . . – Hopfield (1982) (réseau bouclé) – Perceptron Multi-Couches (1985) Analyse et développements – Théorie du contrôle, de la généralisation (Vapnik), . . . 6

Les réseaux connexionnistes Les réseaux de neurones : Types de réseaux • Interconnecté à boucles (e. g. réseau de Hopfield) Fonctionnement en reconnaissance Apprentissage ? A. Cornuéjols 7

Les réseaux connexionnistes Modèles de base : le Perceptron Multi-Couches • Topologie typique A. Cornuéjols 8

Les réseaux connexionnistes Discrimination linéaire : le Perceptron [Rosenblatt, 1957, 1962] A. Cornuéjols 10

Les réseaux connexionnistes Discrimination linéaire : le Perceptron A. Cornuéjols 11

Les réseaux connexionnistes Discrimination linéaire : le Perceptron A. Cornuéjols 12

Les réseaux connexionnistes Discrimination linéaire : le Perceptron Discrimination contre tous les autres A. Cornuéjols 13

Les réseaux connexionnistes Discrimination linéaire : le Perceptron Discrimination entre deux classes A. Cornuéjols 14

Les réseaux connexionnistes A. Cornuéjols Le perceptron : critère de performance • Critère d’optimisation (fonction d’erreur) : Nb total d’erreurs de classification : NON Critère du Perceptron : Car nous voulons pour toutes les formes d’apprentissage : Proportionnel, pour toutes les formes mal classées, à la distance à la surface de décision Fonction continue et linéaire par morceaux 15

Les réseaux connexionnistes L’apprentissage : Erreur quadratique • Interprétation géométrique A. Cornuéjols 16

A. Cornuéjols Les réseaux connexionnistes L’apprentissage : Erreur quadratique • La solution directe : méthode de la pseudo-inverse (seulement pour un réseau linéaire et une fonction d’erreur quadratique) dérivation soit : d’où la solution : Pseudo-inverse de 17

Les réseaux connexionnistes A. Cornuéjols Apprentissage direct : méthode de la pseudo-inverse 18

Les réseaux connexionnistes A. Cornuéjols Apprentissage direct : méthode de la pseudo-inverse 19

Les réseaux connexionnistes A. Cornuéjols Apprentissage direct : méthode de la pseudo-inverse 20

A. Cornuéjols Les réseaux connexionnistes Apprentissage direct : méthode de la pseudo-inverse • La méthode de la pseudo-inverse requiert La connaissance de toutes les paires (xp, tp) Une inversion de matrice (souvent mal-configurée) • La solution directe : méthode de la pseudo-inverse (seulement pour un réseau linéaire et une fonction d’erreur quadratique) • Nécessité d’une méthode itérative sans inversion de matrice à Descente de gradient 21

Les réseaux connexionnistes A. Cornuéjols Le perceptron : algorithme • Méthode d’exploration de H Recherche par gradient – Minimisation de la fonction d’erreur – Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à chaque connexion quelque chose de proportionnel à l'entrée et à la sortie. – Apprentissage seulement si erreur de classification Algorithme : si la forme est correctement classée : ne rien faire sinon : boucler sur les formes d’apprentissage jusqu’à critère d’arrêt Convergence ? 22

Les réseaux connexionnistes Le perceptron : Illustration • Justification de l’algorithme Réduction de l’erreur A. Cornuéjols 23

Les réseaux connexionnistes A. Cornuéjols Le perceptron : convergence et capacité mémoire • Questions : Qu’est-ce qui est apprenable ? – Résultat de [Minsky & Papert, 68] : séparatrices linéaires Garantie de convergence ? – Théorème de convergence du Perceptron [Rosenblatt, 62] Fiabilité de l’apprentissage et nombre d’exemples – Combien faut-il d’exemples d’apprentissage pour avoir une certaine garantie sur ce qui est appris ? 24

Les réseaux connexionnistes Capacité expressive : Séparations linéaires A. Cornuéjols 25

Les réseaux connexionnistes Capacité expressive : Séparations linéaires A. Cornuéjols 26

Les réseaux connexionnistes Le Perceptron Multi-Couches : propagation • Pour chaque neurone : wjk : poids de la connexion de la cellule j à la cellule k poids ak : activation de la cellule k activation g : fonction d’activation g’(a) = g(a)(1 -g(a)) A. Cornuéjols 28

Les réseaux connexionnistes Le Perceptron Multi-Couches : exemple du XOR A. Cornuéjols 29

Les réseaux connexionnistes Le PMC : puissance expressive A. Cornuéjols 30

Les réseaux connexionnistes Le PMC : puissance expressive A. Cornuéjols 31

Les réseaux connexionnistes Exemple de réseau (simulateur Java. NNS) A. Cornuéjols 32

A. Cornuéjols Les réseaux connexionnistes 34 Le PMC : l’apprentissage • Trouver des poids permettant au réseau de réaliser une relation entrée -sortie spécifiée par des exemples de cette relation (Toujours le problème de la généralisation) • Apprentissage : Minimiser la fonction de coût E(w, {xl, ul}) en fonction du paramètre w Utiliser pour ceci une méthode de descente de gradient (algorithme de rétro-propagation de gradient) Principe inductif : On fait alors l’hypothèse que ce qui marche sur les exemples (minimisation du risque empirique), marche sur des données non vues (minimisation du risque réel)

Les réseaux connexionnistes L’apprentissage : Erreur quadratique • Interprétation géométrique A. Cornuéjols 35

A. Cornuéjols Les réseaux connexionnistes L’apprentissage : descente de gradient • Apprentissage = recherche dans l’espace multidimensionnel des paramètres (poids synaptiques) en vue de minimiser la fonction de coût • Quasi totalité des règles d’apprentissage pour les RNs = méthode de descente de gradient Solution optimale w* tq. : 36

Les réseaux connexionnistes Le Perceptron Multi-Couches : apprentissage Objectif : Algorithme (rétro-propagation de gradient) : descente de gradient Algorithme itératif : Cas hors-ligne (gradient total) : où : Cas en-ligne (gradient stochastique) : A. Cornuéjols 37

Les réseaux connexionnistes A. Cornuéjols Le Perceptron Multi-Couches : apprentissage 1. Présentation d’un exemple parmi l’ensemble d’apprentissage Séquentielle, aléatoire, en fonction d’un critère donné 2. Calcul de l’état du réseau 3. Calcul de l’erreur = fct(sortie - sortie désirée) (e. g. = (yl - ul)2) 4. Calcul des gradients Par l’algorithme de rétro-propagation de gradient 5. Modification des poids synaptiques 6. Critère d’arrêt Sur l’erreur. Nombre de présentation d’exemples, . . . 7. Retour en 1 38

Les réseaux connexionnistes A. Cornuéjols PMC : La rétro-propagation de gradient • Le problème : Détermination des responsabilités (“credit assignment problem”) Quelle connexion est responsable, et de combien, de l’erreur E ? • Principe : Calculer l’erreur sur une connexion en fonction de l’erreur sur la couche suivante • Deux étapes : 1. Evaluation des dérivées de l’erreur par rapport aux poids 2. Utilisation de ces dérivées pour calculer la modification de chaque poids 39

Les réseaux connexionnistes A. Cornuéjols PMC : La rétro-propagation de gradient 1. Evaluation de l’erreur Ej (ou E) due à chaque connexion : Idée : calculer l’erreur sur la connexion wji en fonction de l’erreur après la cellule j Pour les cellules de la couche de sortie : Pour les cellules d’une couche cachée : 40

A. Cornuéjols Les réseaux connexionnistes PMC : La rétro-propagation de gradient ai : activation de la cellule i zi : sortie de la cellule i i : erreur attachée à la cellule i Cellule cachée Cellule de sortie aj i zi wij ak zj j j wjk k yk k 41

Les réseaux connexionnistes A. Cornuéjols PMC : La rétro-propagation de gradient • 2. Modification des poids On suppose gradient à pas (constant ou non ): (t) Si apprentissage stochastique (après présentation de chaque exemple) Si apprentissage total (après présentation de l’ensemble des exemples) 42

A. Cornuéjols Les réseaux connexionnistes Le PMC : passes avant et arrière (résumé) ys(x) wis k neurones sur la couche cachée x 43

A. Cornuéjols Les réseaux connexionnistes Le PMC : passes avant et arrière (résumé) ys(x) wis y 1 (x) Biais w 0 x 0 w 1 x 1 yi(x) . w 2 x 2 w 3 x wd . xd 44

Les réseaux connexionnistes A. Cornuéjols 45 PMC : La rétro-propagation de gradient • Efficacité en apprentissage En O(w) pour chaque passe d’apprentissage, w = nb de poids Il faut typiquement plusieurs centaines de passes (voir plus loin) Il faut typiquement recommencer plusieurs dizaines de fois un apprentissage en partant avec différentes initialisations des poids • Efficacité en reconnaissance Possibilité de temps réel

Les réseaux connexionnistes Analyse de la surface d’erreur A. Cornuéjols 46

Les réseaux connexionnistes Analyse de la surface d’erreur A. Cornuéjols 47

Les réseaux connexionnistes Analyse de la surface d’erreur A. Cornuéjols 48

Les réseaux connexionnistes Applications : la discrimination • Exemple : Mines cylindriques / roches (http: //www. ics. uci. edu/mlearn/MLRepository. html) • 1 neurone de sortie {0, 1} [0, 1] – Erreur quadratique Probabilité [0, 1] – Critère entropique A. Cornuéjols 49

A. Cornuéjols Les réseaux connexionnistes Applications : la discrimination multiclasse Exemple : Reconnaissance de caractères manuscrits Reconnaissance de locuteurs y(x) • c-1 problèmes de discrimination • 1 neurone de sortie {0, 1, …, c} [0, 1] • n (≤ c) neurones de sortie 1 neurone / classe Code correcteur d’erreur x 50

Les réseaux connexionnistes Applications : optimisation multi-objectif • cf [Tom Mitchell] prédire à la fois la classe et la couleur plutôt que la classe seulement. A. Cornuéjols 51

Les réseaux connexionnistes A. Cornuéjols 52 PMC : Les applications • Automatique : identification et contrôle de processus (e. g. Commande de robot) • Traitement du signal (filtrage, compression de données, traitement de la parole (Identification du locuteur, . . . ) • Traitement d’images, reconnaissance des formes (reconnaissance de l’écriture manuscrite, Lecture automatique des codes postaux (Zip codes, USA), . . . ) • Prédiction (consommations d’eau, d’électricité, météorologie, bourse, . . . ) • Diagnostic (industrie, médecine, science, . . . )

Les réseaux connexionnistes A. Cornuéjols Application aux codes postaux (Zip codes) • [Le Cun et al. , 1989, . . . ] (ATT Bell Labs : très forte équipe) • ≈ 10000 exemples de chiffres manuscrits • Segmentés et redimensionnés sur matrice 16 x 16 • Technique des poids partagés (“weight sharing”) • Technique du optimal brain damage • 99% de reconnaissance correcte (sur l’ensemble d’apprentissage) • 9% de rejet (pour reconnaissance humaine) 53

Les réseaux connexionnistes La base de données A. Cornuéjols 54

Les réseaux connexionnistes Application aux codes postaux (Zip codes) A. Cornuéjols 55

Les réseaux connexionnistes Les erreurs commises A. Cornuéjols 56

Les réseaux connexionnistes La régression A. Cornuéjols 57

Les réseaux connexionnistes Un échec : QSAR • Quantitative Structure Activity Relations Prédire certaines propriétés de molécules (par exemple activité biologique) à partir de descriptions : - chimiques - géométriques - éléctriques A. Cornuéjols 58

Les réseaux connexionnistes Rôle de la couche cachée A. Cornuéjols 59

Les réseaux connexionnistes Rôle de la couche cachée A. Cornuéjols 60

Les réseaux connexionnistes PMC : Analyse • Rôle des cellules cachées • Efficacité calculatoire A. Cornuéjols 61

Les réseaux connexionnistes Rôle de la couche cachée A. Cornuéjols 62

A. Cornuéjols Les réseaux connexionnistes PMC : Mise en pratique (1) • Problèmes techniques : comment améliorer la performance de l’algorithme Le PMC en tant que méthode d’optimisation : variantes • • Ajout d’un moment Méthodes du 2° ordre Hessien Gradients conjugués Heuristiques • • • Apprentissage séquentiel vs en mode batch Choix de la fonction d’activation Normalisation des entrées Initialisation des poids Les gains d’apprentissage 64

Les réseaux connexionnistes A. Cornuéjols PMC : La rétro-propagation de gradient (variantes) • Ajout d’un moment 65

Les réseaux connexionnistes Convergence • Réglage du pas d’apprentissage : A. Cornuéjols 66

Les réseaux connexionnistes PMC : Problèmes de convergence • Minimums locaux. “Ravins”. etc. Ajout d’un terme de moment (inertie) Conditionnement des variables Bruiter les données d’apprentissage Algorithme stochastique (vs. total) Un pas de gradient variable (dans le temps et pour chaque cellule) Utilisation de la dérivée seconde (Hessien). Gradient conjugué. A. Cornuéjols 67

A. Cornuéjols Les réseaux connexionnistes PMC : Problèmes de convergence (gradients variables) • Gain adaptatif si le gradient ne change pas de signe, sinon Gain beaucoup plus faible en stochastique qu’en gradient total Gain propre à chaque couche (e. g. 1 / (# entrées cellule)1/2 ) • Algorithmes plus complexes Gradients conjugués – Idée : Essayer de minimiser indépendamment sur chaque axe, en utilisant un moment sur la direction de recherche Méthodes de second ordre (Hessien) Diminuent le nombre de pas mais augmentent le temps calcul. 68

Les réseaux connexionnistes Le sur-apprentissage A. Cornuéjols 70

Les réseaux connexionnistes Le problème de la sélection de modèle A. Cornuéjols 71

A. Cornuéjols Les réseaux connexionnistes Contrôle de H : régularisation • Principe : limiter l’expressivité de H • Nouveau risque empirique : Terme de pénalisation • Exemples de régularisateurs utilisés : – Contrôle de l’architecture du RN – Contrôle des paramètres • Soft-weight sharing • Weight decay • Réseaux à convolution – Exemples bruités 72

Les réseaux connexionnistes A. Cornuéjols Contrôle par limite de l’exploration effective de H 73

Les réseaux connexionnistes Généralisation : optimiser la structure d’un réseau • Par croissance progressive Cascade correlation [Fahlman, 1990] • Par élagage Optimal brain damage [Le Cun, 1990] Optimal brain surgeon [Hassibi, 1993] • Règle de l’arrêt prématuré A. Cornuéjols 74

Les réseaux connexionnistes Introduction de connaissances a priori Invariances • Exemples obtenus par transformation Translation / rotation / dilatation • Fonction de coût incorporant des dérivées (e. g. spatiales) A. Cornuéjols 75

Les réseaux connexionnistes ANN Application Areas • Classification • Clustering • Associative memory • Control • Function approximation A. Cornuéjols 77

Les réseaux connexionnistes ANN Classifier systems • • Learning capability Statistical classifier systems Data driven Generalisation capability Handle and filter large input data Reconstruct noisy and incomplete patterns Classification rules not transparent A. Cornuéjols 78

Les réseaux connexionnistes Applications for ANN Classifiers • Pattern recognition Industrial inspection Fault diagnosis Image recognition Target recognition Speech recognition Natural language processing • Character recognition Handwriting recognition Automatic text-to-speech conversion A. Cornuéjols 79

Les réseaux connexionnistes Clustering with ANNs • • Fast parallel distributed processing Handle large input information Robust to noise and incomplete patterns Data driven Plasticity/Adaptation Visualisation of results Accuracy sometimes poor A. Cornuéjols 80

Les réseaux connexionnistes ANN Clustering Applications • Natural language processing Document clustering Document retrieval Automatic query • Image segmentation • Data mining Data set partitioning Detection of emerging clusters • Fuzzy partitioning • Condition-action association A. Cornuéjols 81

Les réseaux connexionnistes Associative ANN Memories • Stimulus-response association • Auto-associative memory • Content addressable memory • Fast parallel distributed processing • Robust to noise and incomplete patterns • Limited storage capability A. Cornuéjols 82

Les réseaux connexionnistes Application of ANN Associative Memories • Character recognition • Handwriting recognition • Noise filtering • Data compression • Information retrieval A. Cornuéjols 83

Les réseaux connexionnistes ANN Control Systems • • • Learning/adaptation capability Data driven Non-linear mapping Fast response Fault tolerance Generalisation capability Handle and filter large input data Reconstruct noisy and incomplete patterns Control rules not transparent Learning may be problematic A. Cornuéjols 84

Les réseaux connexionnistes ANN Control Schemes • ANN controller • conventional controller + ANN for unknown or non-linear dynamics • Indirect control schemes ANN models direct plant dynamics ANN models inverse plant dynamics A. Cornuéjols 85

Les réseaux connexionnistes ANN Control Applications • Non-linear process control Chemical reaction control Industrial process control Water treatment Intensive care of patients • Servo control Robot manipulators Autonomous vehicles Automotive control • Dynamic system control Helicopter flight control Underwater robot control A. Cornuéjols 86

Les réseaux connexionnistes ANN Function Modelling • ANN as universal function approximator • Dynamic system modelling • Learning capability • Data driven • Non-linear mapping • Generalisation capability • Handle and filter large input data • Reconstruct noisy and incomplete inputs A. Cornuéjols 87

Les réseaux connexionnistes ANN Modelling Applications • Modelling of highly nonlinear industrial processes • Financial market prediction • Weather forecasts • River flow prediction • Fault/breakage prediction • Monitoring of critically ill patients A. Cornuéjols 88

A. Cornuéjols Les réseaux connexionnistes ALVINN Neural Network Approaches ALVINN - Autonomous Land Vehicle In a Neural Network Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© 2000 89

A. Cornuéjols Les réseaux connexionnistes ALVINN - Developed in 1993. Output units Hidden layer - Performs driving with Neural Networks. - An intelligent VLSI image sensor for road following. Input units - Learns to filter out image details not relevant to driving. Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© 2000 90

Les réseaux connexionnistes A. Cornuéjols PMC à fonctions radiales (RBF) • Définition Couche cachée de cellules à fonction d’activation radiale (e. g. gaussienne) – Idée : “paver” l’espace des entrées avec ces “champs récepteurs” Couche de sortie : combinaison linéaire sur la couche cachée • Propriétés Approximateur universel ([Hartman et al. , 90], . . . ) Mais non parcimonieux (explosion combinatoire avec la taille des entrées) Réservé aux problèmes de faible dimensionalité Liens étroits avec les systèmes d’inférence floue et les réseaux neuro-flous 92

Les réseaux connexionnistes A. Cornuéjols 93 PMC à fonctions radiales (RBF) : apprentissage • Paramètres à régler : Nb de cellules cachées Position des centres des champs récepteurs Diamètre des champs récepteurs Poids vers la couche de sortie (moyenne pondérée) • Méthodes Adaptation de la rétro-propagation (possible) Détermination de chaque type de paramètres par une méthode propre (souvent plus efficace) – Centres déterminés par méthodes de “clustering” (k-means, . . . ) – Diamètres déterminés par optimisation des taux de recouvrement (PPV, . . . ) – Poids par technique d’optimisation linéaire (calcul de pseudo-inverse, . . . )

Les réseaux connexionnistes A. Cornuéjols Les réseaux récurrents • Tâches Reconnaissance de séquence E. g. reconnaître le mot correspondant à un signal vocal Reproduction de séquence E. g. poursuivre la séquence quand une séquence initiale a été fournie (ex: prévision de consommation d’électricité) Association temporelle Production d’une séquence en réponse à la reconnaissance d’une autre séquence. Time Delay Neural Networks (TDNNs) Duplication des couches (artifice : pas vraiment récurrents) Réseaux récurrents 94

A. Cornuéjols Les réseaux connexionnistes Recurrent ANN Architectures • Feedback connections • Dynamic memory: y(t+1)=f(x(τ), y(τ), s(τ)) τ (t, t-1, . . . ) • Models : Jordan/Elman ANNs Hopfield Adaptive Resonance Theory (ART) 95

Les réseaux connexionnistes Les réseaux récurrents A. Cornuéjols 96

Les réseaux connexionnistes Les réseaux récurrents • Problèmes Notoirement difficiles à contrôler – Dynamique chaotique Mémoire du passé limitée Paramètres supplémentaires – Apprentissage mal compris A. Cornuéjols 97

A. Cornuéjols Les réseaux connexionnistes Une idée intrigante : le « reservoir computing » • Idée : Utiliser un réseau récurrent sans l’entraîner explicitement Mais entraîner une seule couche de sortie • Permet de rendre compte du temps Séries temporelles 98

Les réseaux connexionnistes Une idée intrigante : le « reservoir computing » • Semble prometteur : Demande encore beaucoup de recherches • Voir aussi – Liquid State Machines – Echo State Machines – Backpropagation-Decorrelation A. Cornuéjols 99

Les réseaux connexionnistes Conclusions • Limites Apprentissage lent et difficile Opacité – Réseaux appris très difficile à interpréter – Difficile d’utiliser de la connaissance a priori Apprentissage incrémental difficile : « catastrophic forgetting » • Avantages Souvent de très bonnes performances en généralisation A. Cornuéjols 101

A. Cornuéjols Les réseaux connexionnistes ANN Summary Artificial Neural Networks Feedforward Unsupervised (Kohonen) Recurrent Supervised (MLP, RBF) Unsupervised (ART) Supervised (Elman, Jordan, Hopfield) 102

A. Cornuéjols Les réseaux connexionnistes 103 Sources documentaires • Ouvrages / articles Dreyfus et. al (2001) : Réseaux de neurones. Méthodologie et applications. Eyrolles, 2001. Bishop C. (06) : Neural networks for pattern recognition. Clarendon Press - Oxford, 1995. Haykin (98) : Neural Networks. Prentice Hall, 1998. Hertz, Krogh & Palmer (91) : Introduction to theory of neural computation. Addison Wesley, 1991. Thiria, Gascuel, Lechevallier & Canu (97) : Statistiques et méthodes neuronales. Dunod, 1997. Vapnik (95) : The nature of statistical learning. Springer Verlag, 1995. • Sites web http: //www. lps. ens. fr/~nadal/ (point d’entrée pour de nombreux sites)