Perceptrony o duym marginesie bdu Wykad 10 Wodzisaw

  • Slides: 17
Download presentation
Perceptrony o dużym marginesie błędu Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google:

Perceptrony o dużym marginesie błędu Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch

Co było • Perceptron jednowarstwowy. • Uczenie się perceptronów • Demo w Neuro. Solutions

Co było • Perceptron jednowarstwowy. • Uczenie się perceptronów • Demo w Neuro. Solutions

Co będzie • Nieliniowa reguła delta • Adatron • Perceptron wielowarstwowy

Co będzie • Nieliniowa reguła delta • Adatron • Perceptron wielowarstwowy

Perceptron dla M klas Reguła uczenia perceptronu: • skończona liczba kroków • sensowna generalizacja

Perceptron dla M klas Reguła uczenia perceptronu: • skończona liczba kroków • sensowna generalizacja Granice decyzji perceptronu: dla klasy Ci wyjście gi(X) Decyzja: maxi gi(X), więc na granicy gi(X)=gj(X) Dla M klas jest M(M – 1)/2 granic; część jest redundantna. Obszary decyzyjne – zawsze wypukłe. Klasa Ci, wymagane gi(X)= 1, gj(X)= 0 Niektóre obszary – niesklasyfikowane bo wszystkie gi(X)= 0 lub kilka gi(X)=1 Przykład: granice decyzji perceptronu dla 3 klas.

Niestabilności Granice decyzji prostego perceptronu mogą się całkowicie zmienić pod wpływem jednego punktu, który

Niestabilności Granice decyzji prostego perceptronu mogą się całkowicie zmienić pod wpływem jednego punktu, który odpowiada wartości odstającej.

Reguła delta - nieliniowa Uczenie zgodne z regułą perceptronu: skoki, niestabilne granice. Błąd przy

Reguła delta - nieliniowa Uczenie zgodne z regułą perceptronu: skoki, niestabilne granice. Błąd przy prezentacji pary (Xp, Yp) dla jednego perceptronu: Funkcja błędu: Szukamy minimum błędu ze względu na Wi

Reguła delta cd. Poprawki do wag: Dla funkcji logistycznej Dla tangh Przykłady działania takiej

Reguła delta cd. Poprawki do wag: Dla funkcji logistycznej Dla tangh Przykłady działania takiej reguły w Neurosolutions: trening 10 perceptronów do rozpoznawania cyfr (każdy cyfra-reszta); efekty dodawania szumu do znaków – granice się poprawiają!

Adatron i maksymalizacja marginesu Cel: maksymalizacja odległości granicy decyzji od danych. Trening z szumem

Adatron i maksymalizacja marginesu Cel: maksymalizacja odległości granicy decyzji od danych. Trening z szumem regularyzacji – prosty, ale kosztowny. Dla 2 klas i funkcji liniowej WX+b marginesy powinny być jak największe by zapewnić generalizację. Znajdź wektor najbliższy granicy i wagi zwiększające margines. Rozwiązanie: • • liniowe - Adatron nieliniowe - SVM (Support Vector Machines)

Marginesy i hiperpłaszczyzny.

Marginesy i hiperpłaszczyzny.

Odległość od hiperpłaszczyzny W.

Odległość od hiperpłaszczyzny W.

Adatron: algorytm Przyjmijmy (Xi, Yi), i=1. . N, oraz Yi = ± 1 Progowe

Adatron: algorytm Przyjmijmy (Xi, Yi), i=1. . N, oraz Yi = ± 1 Progowe neurony, f(X)=sgn(g(X; W, b)) = sgn(W·X+b) Margines rośnie dla min ||W|| pod warunkiem poprawnej klasyfikacji. Problem można sformułować jako minimalizację bez ograniczeń; ai = mnożniki Lagrange’a; f. dyskryminująca jest liniową kombinacją iloczynów

Adatron: algorytm cd. Wstawiając za W i b poprzednie wartości Adatron minimalizuje: dodatkowe warunki

Adatron: algorytm cd. Wstawiając za W i b poprzednie wartości Adatron minimalizuje: dodatkowe warunki Zdefiniujmy pomocnicze funkcje (najpierw policzmy il. skalarne): Algorytm iteracyjny: start a = 0. 1, h, t = 0. 01 mały próg czyli Xi jest odsunięte od granicy Jeśli ai + Dai 0 to zmień lub jeśli < 0 nic nie zmieniaj.

Sieciowa realizacja Adatronu Efekt działania algorytmu: większość wsp. się zeruje, zostają niezerowe tylko przy

Sieciowa realizacja Adatronu Efekt działania algorytmu: większość wsp. się zeruje, zostają niezerowe tylko przy wektorach granicznych. Wektory danych pamiętane są w węzłach jako wagi. Węzły obliczają iloczyny skalarne. Wagi ai łączą z neuronem wyjściowym obliczającym g(x)

Adatron – efekty • • Tyko pary klas są rozróżniane; potrzeba m(m-1)/2 klasyfikatorów dla

Adatron – efekty • • Tyko pary klas są rozróżniane; potrzeba m(m-1)/2 klasyfikatorów dla m klas, lub dla rozróżnienia 1 reszta tylko m. • Wektory, dla których ai >0 to wektory brzegowe (Support Vectors). • Uczenie – na końcu procesu głównie w pobliżu granic decyzji. • Złożoność O(n 2) redukuje się do O(nsv 2) • Złożoność minimalizacji – eksponencjalna w N (wymiar wektora). • Rezultaty podobne jak z perceptronem z gładką funkcja zamiast skokowej (znaku).

Uczenie na brzegach Dla algorytmu Adatron pozostają tylko wektory brzegowe. Dla neuronów logicznych f.

Uczenie na brzegach Dla algorytmu Adatron pozostają tylko wektory brzegowe. Dla neuronów logicznych f. błędu zmienia się skokowo. Dla neuronów sigmoidalnych o dużym nachyleniu największy gradient jest w pobliżu granicy decyzji.

Co dalej? • Perceptrony wielowarstwowe • Samoorganizacja • Sieci Hopfielda • Perceptrony wielowarstwowe •

Co dalej? • Perceptrony wielowarstwowe • Samoorganizacja • Sieci Hopfielda • Perceptrony wielowarstwowe • Sieci Hebbowskie i modele mózgu

Koniec wykładu 10

Koniec wykładu 10