INTELLIGENCE ARTIFICIELLE IAR1001 Rseaux de neurones Introduction Rseaux

Réseaux de neurones • • Introduction Réseaux sans couches cachées Réseaux avec des couches

Introduction • Les réseaux de neurones permettent de simuler l’activité du cerveau humain •

Introduction • Un neurone est constitué d’un corps cellulaire, de dendrites qui reçoivent les

Introduction • Un neurone reçoit des signaux de plusieurs milliers de dendrites et émet

Introduction • De plus, les signaux en entrée proviennent de neurones d’une petite région

Introduction • Premier modèle mathématique d’un neurone (Mc. Culloch et Pitts) – Les entrées

Introduction • Les connexions avec des poids positifs sont excitatives et celles avec des

Introduction u Nous pouvons réécrire cette expression u Le poids w 0 est un

Introduction • Ce nouveau modèle est représenté

Introduction • L’entraînement des réseaux de neurones est l’aspect le plus difficile de leurs

Introduction (Taxonomie des réseaux de neurones)

Réseaux sans couches cachées • Ces réseaux sont aussi appelés réseaux à deux couches,

Réseaux sans couches cachées • Rosenblatt a crée un classificateur pouvant être entraîné (PERCEPTRON)

Réseaux sans couches cachées • Par exemple

Réseaux sans couches cachées • La fonction discriminante prend la forme

Réseaux sans couches cachées • Recherche (estimation) des poids wi – Nous cherchons les

Réseaux sans couches cachées • Recherche (estimation) des poids wi – L’algorithme MSE séquentiel

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud – L’algorithme

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud – Notions

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud (1 sortie)

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud (exemple de

Réseaux sans couches cachées • La procédure SDM (difficultés) – Choix des wi au

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud – Nous

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud – Choix

Réseaux sans couches cachées • L’algorithme MSE séquentiel à nœuds multiples • Pour chacune

Réseaux sans couches cachées • L’algorithme MSE séquentiel à nœuds multiples

Réseaux sans couches cachées u L’algorithme MSE séquentiel à nœuds multiples – Choix des

Réseaux sans couches cachées u L’algorithme MSE séquentiel à nœuds multiples – Remplacer wij

Réseaux avec couches cachées u En général, un réseau à plusieurs couches est caractérisé:

Réseaux avec couches cachées u Réseau à plusieurs couches

Algorithme de propagation-arrière u L’entraînement d’un réseau multicouche ne peut être fait par la

Algorithme de propagation-arrière Les sorties finales du réseau sont alors résistantes aux petites variations

Algorithme de propagation-arrière u Réseaux sans seuil

Algorithme de propagation-arrière u Nous pouvons trouver un compromis entre l’utilisation d’un seuil discontinu

Algorithme de propagation-arrière La fonction R à chaque nœud permet aux sorties du réseau

Algorithme de propagation-arrière L est le nombre de couches

Algorithme de propagation-arrière u Pour l’entraînement du réseau l’algorithme PA utilise la procédure SDM

Algorithme de propagation-arrière u Pour la couche d’entrée: xj(0) = xj pour j=1, …,

Algorithme de propagation-arrière u Les poids des connexions entre le nœud i de la

Algorithme de propagation-arrière u Étapes de l’algorithme PA – Phase d’alimentation-avant (feed-forward) par laquelle

Algorithme de propagation-arrière u 1) Initialisation des poids wij(k) à de petites valeurs aléatoires

Algorithme de propagation-arrière u 4) Propagation-arrière. Pour les nœuds de la couche de sortie

Algorithme de propagation-arrière u 5) Remplacer les poids u 6) Répéter les étapes 2

Algorithme de propagation-arrière u Si la valeur de sortie d’un nœud est proche de

Algorithme de propagation-arrière u Les dérivées partielles de E sont calculées par rapport aux

Algorithme de propagation-arrière u La fonction de correction j(K) découle

Application (Reconnaissance de visage) u Image initiale du visage de 30 X 30 en

Application (OCR) (Voir l’exemple mlp. py) u. Images initiales de chiffres manuscrits: sklearn. datasets.

Application (OCR) (Voir l’exemple mlp. py) u. Images exemples du data set et test

Application (Reconnaissance vocale) Reconnaissance de mots • Enregistrement • Analyse spectrale (60 harmoniques)

Application (Reconnaissance vocale) • Entraînement du réseau • Observations présentées en entrée de chaque

Application (Reconnaissance vocale) • Reconnaissance • Observations inconnues présentées en entrée • Sorties correspondent

Exemple d’implémentation Python d’un NN (NN. py)

Exemple d’implémentation Python d’un NN (NN. py) suite …. .

Convolutionnal Neural Network • Un RN convolutionnel (Conv. Net) est une succession de couches,

Convolutionnal Neural Network • Exemple d’architecture de Conv. Net (CIFAR-10) : • INPUT [32

Convolutionnal Neural Network • Exemple d’architecture de Conv. Net (CIFAR-10) : • http: //cs

Slides: 86

Download presentation

INTELLIGENCE ARTIFICIELLE IAR-1001

Réseaux de neurones • • Introduction Réseaux sans couches cachées Réseaux avec des couches cachées Algorithme de propagation-arrière CNN LECTURES: Chapitre 18 Russell & Norvig Notes de cours (site ftp UQTR)

Introduction • Les réseaux de neurones permettent de simuler l’activité du cerveau humain • Des tâches comme la reconnaissance de visages humains est accomplit facilement par un humain mais devient très difficile pour les ordinateurs conventionnels • Le cerveau humain est composé de cellules nerveuses (neurones) organisées de façon à travailler en parallèle sur le même problème

Introduction • Un neurone est constitué d’un corps cellulaire, de dendrites qui reçoivent les signaux en entrée et d’axones qui émettent les signaux en sortie • Les dendrites reçoivent des signaux des organes sensoriels (yeux, oreilles) ou d’axones d’autres neurones • Les axones émettent des signaux à des organes comme les muscles ou aux dendrites d’autres neuronnes

Introduction

Introduction • Un neurone reçoit des signaux de plusieurs milliers de dendrites et émet au travers de centaines d’axones • Avec le haut niveau de redondance des connexions entre neurones, les performances du cerveau sont robustes • Dans plusieurs régions du cortex cérébral, les neurones sont organisés en couches • Un neurone reçoit généralement des signaux des neurones de la couche adjacente

Introduction • De plus, les signaux en entrée proviennent de neurones d’une petite région proche du neurone récepteur, et le patron d’interconnexion est similaire pour chaque neurone récepteur • Les connexions entre les couches sont généralement dans une seule direction, partant du traitement bas-niveau (œil, oreille) jusqu’à un hautniveau de raisonnement

Introduction • Premier modèle mathématique d’un neurone (Mc. Culloch et Pitts) – Les entrées sont définies par x 1, …. . x. M. – Calcul d’une somme pondérée s en utilisant les poids w 1, …w. M. – Seuillage de s SI s > T ALORS sortie = 1 SI s <= T ALORS sortie = 0

Introduction • Les connexions avec des poids positifs sont excitatives et celles avec des poids négatifs sont inhibitives • La sortie d’un neurone est 1 SI

Introduction u Nous pouvons réécrire cette expression u Le poids w 0 est un poids biaisé

Introduction • Ce nouveau modèle est représenté

Introduction • L’entraînement des réseaux de neurones est l’aspect le plus difficile de leurs utilisations • L’entraînement revient à trouver les poids wi permettant aux réseaux de fonctionner avec une performance acceptable

Introduction (Taxonomie des réseaux de neurones)

Réseaux sans couches cachées • Ces réseaux sont aussi appelés réseaux à deux couches, une couche en entrée et une en sortie xi Dj wij

Réseaux sans couches cachées • Rosenblatt a crée un classificateur pouvant être entraîné (PERCEPTRON) • L’algorithme d’entraînement permet de déduire les poids du PERCEPTRON qui sont eux, identiques aux coefficients de la fonction discriminante

Réseaux sans couches cachées • Par exemple

Réseaux sans couches cachées • La fonction discriminante prend la forme

Réseaux sans couches cachées • Recherche (estimation) des poids wi – Nous cherchons les valeurs de poids qui minimise la fonction u dp: sorties désirées de l’observation p u xp 1, …. , xp. M: valeurs caractéristiques de l’observation p u Les poids sont optimisés d’un seul coup pour tout l’échantillon d’entraînement en posant les dérivées partielles E/ wi égale à 0 et en trouvant la solution du système d’équations linéaires résultant pour chaque wi

Réseaux sans couches cachées • Recherche (estimation) des poids wi – L’algorithme MSE séquentiel est une technique adaptative avec laquelle les observations d’entraînement sont présentées au système une à la fois – Une observation est classifiée par le réseau et le résultat (D) est comparé aux sorties (d) de la vraie classe de cette observation – Si l’observation est mal classée, les poids wi sont corrigés proportionnellement aux valeurs caractéristiques p multipliées par la différence entre les sorties désirées et celles actuelles

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud – L’algorithme MSE utilise la procédure steepest descent minimisation (SDM) pour corriger les poids de chaque observation – Les poids sont changés selon les directions qui permettent à la fonction E de décroître rapidement – La direction de décroissance maximale de la fonction d’erreur est donnée par le vecteur

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud – Notions de gradient

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud – Notions de gradient inversé

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud (1 sortie) (procédure SDM) – Choisir des poids de départ w 1, …w. M, et une constante c positive – Calculer les dérivées partielles F/ wi ( E/ wi) pour i=1, …, M, et remplacer wi par wi - c F/ wi pour i=1, …, M ( E/ wi) correction – Répéter l’étape précédente jusqu’à ce que les poids w 1, …, w. M ne changent plus significativement

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud (exemple de procédure SDM)

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud (exemple de procédure SDM) (c = 0. 1)

Réseaux sans couches cachées • La procédure SDM (difficultés) – Choix des wi au départ – Choix de la constante c • Le choix de wi peut influencer la convergence vers des minima locaux si wi est trop loin des valeurs wi qui donnent un minimum global • Si la constante c est trop petite la convergence est lente, si c est trop grand l’algorithme peut passer par dessus des minima sans converger

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud – Nous faisons une mise à jour séquentiel des poids en considérant une observation à la fois

Réseaux sans couches cachées • L’algorithme MSE séquentiel à un seul nœud – Choix des poids de départ w 0, …. w. M, et une constante c – Présenter les observations 1 à N au classificateur, revenant à l’observation 1 après N. En calculant pour chaque observation – Remplacer wi par wi - c(D-d)xi pour chaque i – Répéter les 2 étapes précédentes tant que les wi changent

Réseaux sans couches cachées • L’algorithme MSE séquentiel à nœuds multiples • Pour chacune des N observations nous avons: – un vecteur de caractéristiques x 0, x 1, …. x. M. – Un vecteur en sortie d 1, d 2, …, d. N. – Les poids wij correspondent à la connexion entre l’entrée i et le nœud de sortie j

Réseaux sans couches cachées • L’algorithme MSE séquentiel à nœuds multiples

Réseaux sans couches cachées u L’algorithme MSE séquentiel à nœuds multiples – Choix des poids de départ w 0, …. w. M, et une constante c – Présenter les observations 1 à N au classificateur, revenant à l’observation 1 après N. En calculant pour chaque observation

Réseaux sans couches cachées u L’algorithme MSE séquentiel à nœuds multiples – Remplacer wij par wij - c(Dj-dj)xi pour chaque entrées (lien) i – Répéter les 2 étapes précédentes tant que les wij changent u Les algorithmes MSE séquentiel à un et multiples nœuds sont reconnus pour être efficace lorsque les classes sont bien séparées

Réseaux avec couches cachées u En général, un réseau à plusieurs couches est caractérisé: – K+1 couches de nœuds, dénotées 0, 1, …. , K – La sortie du nœud i de la couche k est dénotée xi(k) et représente la valeur seuillée de la somme pondérée des entrées – La couche 0 est appelée couche rétine (entrée) – La couche K est la couche de sortie – Les couches entre les deux sont les couches cachées

Réseaux avec couches cachées u Réseau à plusieurs couches

Algorithme de propagation-arrière u L’entraînement d’un réseau multicouche ne peut être fait par la méthode SDM puisqu’une variation d’un poids ne change généralement pas les sorties du réseau u La sortie d’un nœud sera changée seulement si les poids changent suffisamment pour que la somme pondérée change de signe u Même si une sortie change de valeur dans une couche donnée cela ne signifie pas que les sorties de la prochaine vont changer

Algorithme de propagation-arrière Les sorties finales du réseau sont alors résistantes aux petites variations des poids dans le réseaux u Pour éliminer le besoin des seuils T nous pourrions être tenté d’éliminer ces seuils et de calculer simplement la somme pondérée à chaque nœud u Par contre, les réseaux à couches multiples deviennent inutiles puisque dans ce contexte nous pou-vons déduire un réseau à 2 couches équivalents u

Algorithme de propagation-arrière u Réseaux sans seuil

Algorithme de propagation-arrière u Nous pouvons trouver un compromis entre l’utilisation d’un seuil discontinu ou d’une combinaison linéaire à chaque nœud en utilisant une fonction sigmoïde de la forme

Algorithme de propagation-arrière La fonction R à chaque nœud permet aux sorties du réseau d’être des fonctions différentiables des poids. u L’ensemble des poids peut alors être déterminé par la méthode SDM u

Algorithme de propagation-arrière L est le nombre de couches

Algorithme de propagation-arrière u Pour l’entraînement du réseau l’algorithme PA utilise la procédure SDM et une fonction sigmoïde (logistique) u Les couches sont dénotées k=0, 1, …. K avec k=0 pour la couche d’entrée et k=K pour la couche de sortie u La sortie du noeud j dans la couche k est dénotée par xj(k) pour j=1, …Mk ou Mk est le nombre de nœuds de la couche k (sans compter le nœud avec un poids biaisé)

Algorithme de propagation-arrière u Pour la couche d’entrée: xj(0) = xj pour j=1, …, M 0 u Pour chaque couche sauf la couche de sortie la sortie du nœud à poids biaisé est x 0(k)=1 pour k=0, …, K-1 u Les sorties sont xj(K) pour j=1, …, MK u Les poids des connexions entre le nœud i de la couche k-1 et le nœud j de la couche k est wij(k)

Algorithme de propagation-arrière u Les poids des connexions entre le nœud i de la couche k-1 et le nœud j de la couche k est wij(k)

Algorithme de propagation-arrière u Étapes de l’algorithme PA – Phase d’alimentation-avant (feed-forward) par laquelle les sorties des nœuds sont calculées à partir de la couche 1 vers la couche K – Phase de propagation arrière où les poids sont ajustés pour que les sorties x 1(K) , …. , x. MK(K) et les sorties désirées d 1, …d. MK soient en accord

Algorithme de propagation-arrière u 1) Initialisation des poids wij(k) à de petites valeurs aléatoires et choix d’une constante c positive u 2) Pour chaque observation 1 à N, initialisée les entrées x 1(0) , …. , x. M 0(0) , revenant à l’observation 1 après avoir atteint l’observation N u 3) Alimentation-avant. Pour k=0, …, K-1 calculer

Algorithme de propagation-arrière u 4) Propagation-arrière. Pour les nœuds de la couche de sortie j= 1, …, MK calculer u Pour les couches k = K-1, …, 1 calculer

Algorithme de propagation-arrière u 5) Remplacer les poids u 6) Répéter les étapes 2 à 5 TANT QUE les poids changent significativement

Algorithme de propagation-arrière u Si la valeur de sortie d’un nœud est proche de 0 ou 1 la valeur de j(k) -> 0, cela signifie alors que la valeur des poids est stable u La phase de PA utilise la méthode SDM pour ajuster les poids de façon à minimiser la fonction d’erreur

Algorithme de propagation-arrière u Les dérivées partielles de E sont calculées par rapport aux poids de la couche K et ainsi de suite jusqu’à la couche 1 u De plus, les dérivées partielles de la couche k découlent de celles calculées de la couche k+1

Algorithme de propagation-arrière u La fonction de correction j(K) découle

Exemple (Algorithme PA) x = [2, -1] y=1

Exemple (Algorithme PA)

Application (Reconnaissance de visage) u Image initiale du visage de 30 X 30 en 256 niveaux de gris u Compression des données 900 ->40 u Réseau de classification à une couche cachée u Réseau entraîné avec 80 visages u Réseau testé avec 10 visages

Application (Reconnaissance de visage)

Application (OCR)

Application (OCR) (Voir l’exemple mlp. py) u. Images initiales de chiffres manuscrits: sklearn. datasets. load_digits(n_class=10, return_X_y=False)

Application (OCR) (Voir l’exemple mlp. py) u. Images exemples du data set et test set:

Application (Reconnaissance vocale) Reconnaissance de mots • Enregistrement • Analyse spectrale (60 harmoniques)

Application (Reconnaissance vocale) • Entraînement du réseau • Observations présentées en entrée de chaque personne (2) • Ajustement des poids

Application (Reconnaissance vocale) • Reconnaissance • Observations inconnues présentées en entrée • Sorties correspondent à la personne qui dit le mot

Exemple d’implémentation Python d’un NN (NN. py)

Exemple d’implémentation Python d’un NN (NN. py) suite …. .

Convolutional Neural Network

Convolutionnal Neural Network

Convolutionnal Neural Network • Un RN convolutionnel (Conv. Net) est une succession de couches, chaque couche transforme un volume d’activations à un autre niveau et ce par l’application d’une fonction différenciable. • Trois types de couches permettent de construire un Conv. Net: • Couche convolutionnelle (Convolutional Layer) • Couche d’échantilonnage (Pooling Layer) • Couche RN (Fully-Connected Layer)

Convolutionnal Neural Network • Exemple d’architecture de Conv. Net (CIFAR-10) : • INPUT [32 x 3]: image RGB de 32 X 32. • CONV: calcul de la convolution d’une petite région dans l’image avec un opérateur (filtre). Résultat: un volume de [32 x 12] avec par exemple 12 filtres. • RELU: Opération sur chaque élément d’un volume, ex: max(0, x), max(0, x) seuillage à zero. Le volume reste ([32 x 12]). • POOL: Échantillonnage (ex: 2 X 2). Le volume devient [16 x 12]. • FC: RN qui calcule le coefficient de chaque classe, résultant dans un volume de [1 x 1 x 10], donc 10 classes.

Convolutionnal Neural Network • Exemple d’architecture de Conv. Net (CIFAR-10) : • http: //cs 231 n. github. io/convolutional-networks/

Convolutionnal Neural Network • Exemple d’architecture de Conv. Net (CIFAR-10) : • http: //cs 231 n. github. io/convolutional-networks/ Couches convolutionnelles: 5 filtres

Convolutionnal Neural Network • Exemple d’architecture de Conv. Net (CIFAR-10) : • http: //cs 231 n. github. io/convolutional-networks/ Exemples de formes de filtre

Convolutionnal Neural Network • Exemple d’architecture de Conv. Net (CIFAR-10) : • http: //cs 231 n. github. io/convolutional-networks/ Principes de l’échantillonnage