Introduzione SelfOrganizing Map SOM Kohonen 1981 una tecnica

  • Slides: 14
Download presentation
Introduzione Self-Organizing Map (SOM Kohonen, 1981) è una tecnica di visualizzazione dei dati multidimensionali

Introduzione Self-Organizing Map (SOM Kohonen, 1981) è una tecnica di visualizzazione dei dati multidimensionali SOM è una mappa mono- (bi-)dimensionale che rappresenta le similarità fra gli elementi sfruttando sia la loro posizione reciproca, sia l’uso dei colori per accrescere il contenuto informativo, in maniera efficace dal punto di vista della comunicazione Fra le prime applicazioni di SOM vi sono stati problemi di trasformazione di discorso parlato in testo scritto SOM è un algoritmo di apprendimento non supervisionato

Le SOM possono essere viste come reti neuronali artificiali ad uno strato nascosto

Le SOM possono essere viste come reti neuronali artificiali ad uno strato nascosto

Il metodo (1) Mappa 2 X 4 La mappa consiste in una griglia regolare

Il metodo (1) Mappa 2 X 4 La mappa consiste in una griglia regolare di unità (i neuroni della rete) Gli elementi sono descritti da vettori La mappa cerca di rappresentare tutte le osservazioni disponibili in maniera “ottimale”, utilizzando un insieme ridotto di “modelli” Contemporaneamente i modelli vengono ordinati sulla griglia, in modo tale che modelli “simili” siano vicini (e modelli diversi siano lontani)

Il metodo (2) L’adattamento dei “vettori-modello” (model vectors) si ottiene mediante una successione di

Il metodo (2) L’adattamento dei “vettori-modello” (model vectors) si ottiene mediante una successione di regressioni Ponendo t = 1, 2, . . . l’indice relativo al passo della procedura, per ogni campione t si identifica da prima il “vincitore” c (miglior adattamento), sulla base della condizione: i Successivamente tutti i “vettori-modello” centrati attorno al nodo c=c(x) sono aggiornati in: dove è la funzione di “vicinanza” fra i nodi i e c, decrescente rispetto alla loro distanza sulla mappa La regressione è ripetuta sull’intero campione

UN ESEMPIO da: T. Honkela Self-Organizing Maps in Natural Language Processing Struttura di dati

UN ESEMPIO da: T. Honkela Self-Organizing Maps in Natural Language Processing Struttura di dati di ingresso tridimensionale: ogni vettore (campione) x consiste dei valori RGB (rosso-verde-blu) dei colori indicati nella colonna di destra R = <255, 255 0, 0> G = < G 0, 255, 255 0> B = <0, 0, 255> 255 165 042 marrone 222 184 135 legno 210 105 30 cioccolato 255 127 80 corallo 184 134 11 oro scuro 189 183 107 kaki scuro 233 150 122 salmone scuro. . .

L’architettura di base di SOM L’input x è completamente connesso all’array dei nodi della

L’architettura di base di SOM L’input x è completamente connesso all’array dei nodi della mappa che di solito è bidimensionale Ogni nodo della mappa, rappresentato con un cerchio sulla griglia, serve da modello mi, o, in altri termini da prototipo di una classe di input simili Il diagramma nei cerchi indica i tre valori RGB. Ad esempio, i nodi nell’angolo inferiore a sinistra corrispondo ai colori che hanno valori alti di tutte le componenti e, quindi, è l’angolo dei colori scuri

L’algoritmo Assumiamo di voler rappresentare l’insieme dei dati sui colori L’insieme dei campioni di

L’algoritmo Assumiamo di voler rappresentare l’insieme dei dati sui colori L’insieme dei campioni di input è descritto da un vettore reale x(t) n, con t indice del generico campione. Ogni nodo i nella mappa contiene un vettore-modello, che ha lo stesso numero di elementi del vettore input L’algoritmo SOM stocastico esegue una procedura di regressione I valori iniziali degli elementi vettore-modello possono essere scelti a caso, anche se nella pratica si preferisce inizializzarli con una qualche struttura di ordine, ad esempio lungo il sottospazio bidimensionale definito dai primi due autovettori principali dei vettori di input iniziali Si considera che ogni elemento in input debba essere collocato nella mappa in quella cella rispetto alla quale l’mi(t) si adatta meglio a x(t) nella metrica prescelta

Alcune considerazioni L’idea di base nel processo di apprendimento di una SOM è che

Alcune considerazioni L’idea di base nel processo di apprendimento di una SOM è che per ogni vettore di input x(t), il vincitore e i nodi nella sua vicinanza cambiano in modo da essere più vicini a x(t) nello spazio dei dati di input Durante il processo di apprendimento, i cambiamenti individuali possono apparire contraddittori, ma il risultato finale del processo è che si identificano valori ordinati per mi(t) Se il numero di campioni di input è limitato, i campioni possono essere elaborati reiteratamente dall’algoritmo SOM

Un esempio dei primi passi del processo di ordinamento in una mappa di dimensioni

Un esempio dei primi passi del processo di ordinamento in una mappa di dimensioni 7 per 11 Ogni cerchio è un nodo della mappa All’interno di ogni cerchio è riportato il vettore-modello formato dai suoi tre valori RGB Il valore iniziale di h 0, è posto pari a 0, 2 e la l’ampiezza della vicinanza è all’inizio pari a 5 Durante il processo di apprendimento il valore di entrambi i parametri decresce I valori in alto indicano il numero dei passi di apprendimento

L’adattamento dei vettori-modello nel processo di apprendimento avviene secondo le seguenti equazioni: dove Nc(t)

L’adattamento dei vettori-modello nel processo di apprendimento avviene secondo le seguenti equazioni: dove Nc(t) specifica la vicinanza del vincitore c All’inizio del processo di apprendimento, il raggio della vicinanza è piuttosto grande, ma è destinato a ridursi nel corso della procedura. Questo assicura che l’ordine globale è raggiunto già all’inizio, mentre, verso la fine, mano che la lunghezza del raggio si riduce, le correzioni locali sulla mappa diventano più specifiche. Anche il fattore h si riduce durante l’apprendimento

Una mappa per i colori basata sui loro valori RGB L’unità con il migliore

Una mappa per i colori basata sui loro valori RGB L’unità con il migliore adattamento sono ricercate per ogni vettore di input e i nodi sono etichettati conseguentemente Un metodo per valutare la qualità della mappa finale è calcolare l’errore di quantificazione medio, definito come dove c indica l’unità di best matching per x.

http: //websom. hut. fi/websom/

http: //websom. hut. fi/websom/

La funzione SOM in R 1: Inizializzazione dei centroidi 2: repeat 3: selezione del

La funzione SOM in R 1: Inizializzazione dei centroidi 2: repeat 3: selezione del centroide 4: si determina il centroide più vicina all’oggetto 5: si aggiornano i centroidi vicini all’interno di uno specifico vicinato 6: until i centroidi non cambiano molto, o non si supera una certa soglia 7: si assegna ciascun elemento al centroide più vicino e si restituiscono i centroidi e i gruppi som {som} http: //cran. r-project. org/