Learning Non Supervisionato LEARNING NON SUPERVISIONATO Non c

  • Slides: 37
Download presentation
Learning Non Supervisionato

Learning Non Supervisionato

LEARNING NON SUPERVISIONATO ØNon c’è insegnante Reti con Input e Output, Nessun Feedback dall’ambiente

LEARNING NON SUPERVISIONATO ØNon c’è insegnante Reti con Input e Output, Nessun Feedback dall’ambiente ØLa Rete deve scoprire Da Sola Caratteristiche, Regolarità, Correlazioni, etc. nei dati di input. (AUTO-ORGANIZZAZIONE) ØDurante il Learning i pesi variano in accordo con una Regola Interna specificata A Priori LNS-1

Cosa possono individuare tali reti? LNS-2 Ø FAMILIARITA’ Quando un nuovo input è simile

Cosa possono individuare tali reti? LNS-2 Ø FAMILIARITA’ Quando un nuovo input è simile ai pattern visti in passato (ex: un output a valori continui) Ø ANALISI DELLE COMPONENTI PRINCIPALI estendendo il caso precedente a più unità porta ad una base lungo cui misurare la somiglianza a esempi precedenti Ø CLUSTERING Un set di output a valori binari può indicare a quale categoria appartiene un dato input Ø CODIFICA L’output può essere una versione codificata dell’input Ø FEATURE MAPPING Un output con una data struttura geometrica (ex: una matrice) può mappare gli input in punti diversi della struttura, realizzando una mappa topografica dell’input Input simili Output vicini

Quando utilizzare le Reti NON Supervisionate: LNS-3 Ø Quando il learning supervisionato non è

Quando utilizzare le Reti NON Supervisionate: LNS-3 Ø Quando il learning supervisionato non è possibile Ø Quando il learning supervisionato è troppo lento Ø In cascata ad una rete supervisionata

LEARNING HEBBIANO LNS-4 1940: Donald Hebb, studiando la comunicazione tra neuroni, verificò che l’eccitazione

LEARNING HEBBIANO LNS-4 1940: Donald Hebb, studiando la comunicazione tra neuroni, verificò che l’eccitazione ripetuta di un neurone i da parte di un neurone j portava all’abbassamento della soglia di eccitazione del neurone i. LA COMUNICAZIONE E’ FACILITATA DALL’ECCITAZIONE RIPETUTA xj yi wij j i Estensione ai sistemi neurali artificiali: Il peso della wij della connessione tra i neuroni i e j cresce al fluire di un segnale da j a i: Regola di Hebb

Ø 1 Strato ØD Input Ø 1 Output Lineare Gli Input più frequenti avranno,

Ø 1 Strato ØD Input Ø 1 Output Lineare Gli Input più frequenti avranno, a lungo termine, più influenza e produrranno un output maggiore. x 1 x 2 w 1 w 2 w. D LNS-5 S y x. D x y q grande y y=0 w L’ampiezza di y misura la somiglianza tra Input e Pesi Durante il learning, i pesi sono esposti ai dati di Input e condensano l’informazione in essi contenuta nel loro valore I PESI SONO LA MEMORIA A LUNGO TERMINE DELLA RETE

Per un singolo peso: LNS-6 PROBLEMA: I pesi crescono senza limite ed il learning

Per un singolo peso: LNS-6 PROBLEMA: I pesi crescono senza limite ed il learning non si ferma mai REGOLA DI OJA (versione stabile) Ø Vincolare la crescita dei pesi: 1. Rinormalizzazione dei pesi dopo l’aggiornamento: oppure 2. Aggiungere un termine proporzionale a y 2, nella formula di Hebb Regola di Oja

Regola di Oja Mantiene i pesi con norma unitaria LNS-10

Regola di Oja Mantiene i pesi con norma unitaria LNS-10

LNS-11 Dimostrazione: per h piccolo Posto: Input effettivo

LNS-11 Dimostrazione: per h piccolo Posto: Input effettivo

Hebb correlazione LNS-7 Learning on-line Learning batch Matrice di autocorrelazione degli Input Il learning

Hebb correlazione LNS-7 Learning on-line Learning batch Matrice di autocorrelazione degli Input Il learning Hebbiano aggiorna i pesi con una stima della funzione di autocorrelazione

Hebb potenza Set di dati Es: D=2 LNS-8 potenza in uscita V definita positiva

Hebb potenza Set di dati Es: D=2 LNS-8 potenza in uscita V definita positiva w 1 w 2 La regola di Hebb muove i pesi nella direzione del gradiente, nel campo di potenza dei dati di Input ØDivergenza (campo illimitato)

LNS-9 ØLegame Potenza - Varianza ØMassima Potenza Massima Varianza ØVarianza - Informazione Esempio: Nube

LNS-9 ØLegame Potenza - Varianza ØMassima Potenza Massima Varianza ØVarianza - Informazione Esempio: Nube di punti 2 -D Spazio a dimensione minore (Componente Principale) E’ la direzione a maggiore varianza

Esempio: LNS-12 x 2 w w 0 x 1 • I pesi partono da

Esempio: LNS-12 x 2 w w 0 x 1 • I pesi partono da piccoli valori random e vengono aggiornati secondo la regola di Oja: L’output finale è la proiezione dell’input x nella direzione di w È dovuto alla scelta di UNITA’ LINEARI

LNS-13 a) Input a media zero < x > = 0 Output a media

LNS-13 a) Input a media zero < x > = 0 Output a media zero < y > = 0 (qualunque sia la direzione di w) MA la direzione di w. Oja fa sì che <| y |> sia massimo b) Input a media diversa da zero Output con media massima in corrispondenza di w. Oja La direzione di w. Oja fa sì che <| y |> sia massimo

LNS-14 Significato di w. Oja R matrice di autocorrelazione l scalare reale w è

LNS-14 Significato di w. Oja R matrice di autocorrelazione l scalare reale w è un autovettore di R e l l’autovalore massimo x 2 a asse principale x 1

Ricapitolando: LNS-15 La regola di Oja converge ad un vettore peso che ha le

Ricapitolando: LNS-15 La regola di Oja converge ad un vettore peso che ha le seguenti proprietà: w ha la direzione dell’ autovettore di R con autovalore massimo w ha la direzione che massimizza la <y 2> La forma quadratica, per w fissato è massimizzata quando w ha la direzione dell’autovettore massimo di R Per dati con

LNS-16 ANALISI DELLE COMPONENTI PRINCIPALI (PCA) La regola di Oja produce un vettore di

LNS-16 ANALISI DELLE COMPONENTI PRINCIPALI (PCA) La regola di Oja produce un vettore di pesi nella direzione in cui si trova la maggiore informazione sui dati di input COMPONENTE PRINCIPALE Come trovare altre direzioni che tengono conto il più possibile della varianza dei dati di Input? Scopo Trovare un sistema di coordinate ORTONORMALE M vettori tra loro ortogonali M vettori di lunghezza unitaria che riduca la dimensione dei dati, massimando l’informazione contenuta

Esempio A PCA LNS-17 OB SECONDA COMPONENTE PRINCIPALE (A BASSA VARIANZA) B OA PRIMA

Esempio A PCA LNS-17 OB SECONDA COMPONENTE PRINCIPALE (A BASSA VARIANZA) B OA PRIMA COMPONENTE PRINCIPALE (AD ALTA VARIANZA) O La proiezione lungo OA consente di evidenziare i cluster v La prima componente principale si prende lungo la direzione a massima varianza; v La seconda lungo la direzione a massima varianza del sottospazio ortogonale alla prima; v La terza lungo …

LNS-18 Procedura: Sia C la matrice di covarianza di x : se dove: autovalori

LNS-18 Procedura: Sia C la matrice di covarianza di x : se dove: autovalori di C e colonne di Q: autovettori corrispondenti y vettore delle componenti principali di x matrice di autocorrelazione

LNS-19 Riassumendo: Scartando le combinazioni a piccola varianza: M D

LNS-19 Riassumendo: Scartando le combinazioni a piccola varianza: M D

PCA Algoritmi basati sulla risoluzione di equazioni matriciali Reti Neurali x 1 x 2

PCA Algoritmi basati sulla risoluzione di equazioni matriciali Reti Neurali x 1 x 2 w 11 w 21 w 31 w 1 D x. D w 2 D w. MD LNS-20 RETI NEURALI PCA S S S y 1 y 2 y. M Rete Lineare

LNS-21 Regola di Sanger i=1 w 1 j xj 1 y 1 I componente

LNS-21 Regola di Sanger i=1 w 1 j xj 1 y 1 I componente principale (regola di Oja) i=3 i=2 w 2 j xj 2 y 2 II componente principale proiezione in uno spazio ortogonale alla I componente

LNS-22 N. B. I pesi relativi alla II CP convergeranno solo dopo la convergenza

LNS-22 N. B. I pesi relativi alla II CP convergeranno solo dopo la convergenza dei pesi della I CP, e così via … PCA è il miglior “feature extractor” LINEARE 1 COMPRESSIONE DATI Non esiste un sistema lineare che fornisca migliori caratteristiche per la ricostruzione applicazione PCA per la compressione dei dati x T W al trasmettitore: compressione proiezione y R W-1 al ricevitore: decompressione

LNS-23 2 CLASSIFICAZIONE x 2 1 2 CLASSI 2 x 1 Direzione principale x

LNS-23 2 CLASSIFICAZIONE x 2 1 2 CLASSI 2 x 1 Direzione principale x 1 ricostruzione x 2 classificazione

Reti Competitive e di Kohonen

Reti Competitive e di Kohonen

CK-1 LEARNING NON SUPERVISIONATO COMPETITIVO ØSolo un’unità è attiva (vincitore) ØScopo: clusterizzare i dati

CK-1 LEARNING NON SUPERVISIONATO COMPETITIVO ØSolo un’unità è attiva (vincitore) ØScopo: clusterizzare i dati in ingresso ØCodifica ØCompressione ØElaborazione di immagini ØOttimizzazione combinatoria ØUn Output per ogni categoria ØNon sono robuste ØNon possono rappresentare una conoscenza gerarchica y 1 • Feature Mapping (Kohonen) x 1 x 2 x 3 x 4 y 2

CK-2 SEMPLICE LEARNING COMPETITIVO y 1 x = [x 1 , . . .

CK-2 SEMPLICE LEARNING COMPETITIVO y 1 x = [x 1 , . . . , x. N] (0 , 1) y = [y 1 , . . . , y. N] (0 , 1) y. M. . . x 1 x 2 x 3 VINCITORE x. N x wi wi • x IL VINCITORE E’ L’UNITA’ PIU’ VICINA ALL’INPUT

CK-3 IL LEARNING w(t = 0) = random x wi new x-wi 0<h<1 h

CK-3 IL LEARNING w(t = 0) = random x wi new x-wi 0<h<1 h (x-wi) wi REGOLA INSTAR Ø Sposta wi* verso x p Ø Fa sì che l’unità i* abbia maggiore probabilità di vincere in futuro per un Input simile a x

CK-4 Esempio di CLUSTERING P = 1, … , N numero di esempi p

CK-4 Esempio di CLUSTERING P = 1, … , N numero di esempi p 1 p 2 Input continui Input binari Stato iniziale Stato finale wi vettori prototipo - individuano dei punti nello spazio Tassellazione di Voronoi

CK-5 1 solo strato partizioni convesse dello spazio degli input N° di cluster da

CK-5 1 solo strato partizioni convesse dello spazio degli input N° di cluster da fissare a priori troppi cluster morti input simili in cluster diversi pochi cluster ogni unità rappresenta + di un cluster Problema delle unità morte COSCIENZA

CK-6 COMPETIZIONE SOFT Anche i neuroni vicini al vincitore possono essere attivi (bolla di

CK-6 COMPETIZIONE SOFT Anche i neuroni vicini al vincitore possono essere attivi (bolla di attività) Connessioni laterali funzione della distanza dal vincitore wij + - + i-j distribuzione a cappello messicano - E’ possibile un mappaggio topologico dallo spazio degli ingressi a quello delle uscite

CK-7 y 1 y. M + . . . + - x 2 x

CK-7 y 1 y. M + . . . + - x 2 x 1 y 2 x 1 x 2

CK-8 RETI DI KOHONEN -Cappello messicano SENZA connessioni laterali -Le relazioni di vicinato compaiono

CK-8 RETI DI KOHONEN -Cappello messicano SENZA connessioni laterali -Le relazioni di vicinato compaiono nel learning -Output organizzato secondo una griglia 2 vicini 1 - D 1 1 2 -D 0 Input 2 -D 1 0 Rete 1 -D 1

ALGORITMO DI LEARNING CK-9 y 1 x 2 … x. D y 2 x

ALGORITMO DI LEARNING CK-9 y 1 x 2 … x. D y 2 x wi - x wi wi • x L: funzione di vicinato Rete di Kohonen Rete elastica

CK-10 h (n) s (n) Vi(0) Vi(t 1) Vi(t 2) Scelta sperimentale del numero

CK-10 h (n) s (n) Vi(0) Vi(t 1) Vi(t 2) Scelta sperimentale del numero di neuroni Conservazione della DENSITA’ dei dati di Input

CK-11 Esempi

CK-11 Esempi

CK-12 Applicazioni: Ø Ø Controllo di motori Riconoscimento del parlato Ottimizzazione combinatoria Quantizzazione vettoriale

CK-12 Applicazioni: Ø Ø Controllo di motori Riconoscimento del parlato Ottimizzazione combinatoria Quantizzazione vettoriale (LBG algorithm) v Kohonen è un algoritmo ottimale per la quantizzazione vettoriale v. LVQ Learning Vector Quantization