Wykad 9 Neuropsychologia komputerowa Percepcja I Wzrok Wodzisaw
- Slides: 17
Wykład 9 Neuropsychologia komputerowa Percepcja I: Wzrok Włodzisław Duch UMK Toruń Google: W Duch
Motywacje Percepcja jest stosunkowo najłatwiejsza do zrozumienia chociaż na wiele szczegółowych pytań nie ma jasnych odpowiedzi. Pytania ogólne: • W jaki sposób rozpoznajemy obiekty w różnych miejscach, orientacji, odległości, przy różnych rzutach obrazu na siatkówkę? • Dlaczego pierwotna kora wzrokowa reaguje na zorientowane krawędzie? • Dlaczego układ wzrokowy rozdziela informacje na szlak grzbietowy związany z działaniem i określaniem miejsca, i szlak brzuszny, związany z rozpoznawaniem obiektów? • Dlaczego uszkodzenia kory ciemieniowej prowadzą do zaburzeń orientacji przestrzennej i uwagi (zaniedbanie stronne)?
System wzrokowy Wzrok u zwierząt różnego gatunku realizowany jest na wiele sposobów: ślimak ma komórki światłoczułe bez soczewek, owady złożone oko i 10 -30. 000 heksagonalnych fasetek, ssaki mają oko z siatkówką i soczewką, człowiek ok 120 M receptorów. Organizacja hierarchiczna zaczyna się w siatkówce, przechodzi przez ciało kolankowate boczne (część wzgórza), docierając do pierwotnej kory wzrokowej V 1, skąd rozsyłana jest dalej.
Szlaki wzrokowe: siatkówka => ciało kolankowate boczne wzgórza (LGN) => promienistość wzrokowa => obszar pierwotnej kory V 1 => wyższe piętra układu wzrokowego => obszary kojarzeniowe i wielomodalne. Kora obszaru V 1, zwana jest również korą prążkowaną (białe paski na szarym tle, aksony promienistości wzrokowej kończące się w warstwie 4). Komórki V 1 zorganizowane są w kolumny dominancji dwuocznej i kolumny orientacyjne, retinotopicznie. Proste komórki warstwy 4 reagują na paski o określonym nachyleniu, kontrastowe krawędzie, pobudzenia z jednego oka. Znaczna część środkowego obszaru V 1 reaguje na sygnały z okolic plamki żółtej (dołka środkowego) oka, gdzie gęstość receptorów jest największa.
Co/gdzie „Co widzimy" = szlak drobnokomórkowy zmierzający do obszarów IT, "gdzie to jest" = szlak wielkokomórkowy, zmierzający do płata ciemieniowego. Milner i Goodale (1995): szlaki wzrokowe nie tyle określają co i gdzie, co umożliwiają działanie i percepcję. Jest jeszcze stary szlak limbiczny, umożliwiający szybkie działanie w niebezpiecznych sytuacjach (po którym następuje fala strachu).
Dwa strumienie Ungerleider i Mishkin (1982): istnieją dwa w znacznej mierze rozdzielone szlaki przetwarzania informacji wzrokowej, biegnącej już od oka. Wielkoziarniste komórki PA siatkówki, 3 typy stożków fotorecepcyjnych, duże pola recepcyjne, szybko przewodzące aksony, pobudzenie dla światła w szerokim paśmie. Drobnoziarniste komórki PB, 1 lub 2 typy stożków fotorecepcyjnych, małe pola recepcyjne, wolno przewodzące aksony, rozpoznają opozycje barw. Szlak wielkokomórkowy: biegnie do dwóch wielkokomórkowych warstw LGN, charakteryzuje go niska rozdzielczość przestrzenna, wysoka wrażliwość na kontrast, szybkie przesyłanie sygnałów, bez informacji o kolorze. Szlak drobnokomórkowy ma 4 drobnoziarniste warstwy w LGN, duża rozdzielczość przestrzenna, kolor, wolniejszy przesył informacji, niska wrażliwość na kontrast.
Siatkówka • Siatkówka nie jest pasywną matrycą rejestrującą obrazy. • Kluczowa zasada: wzmacnianie kontrastów podkreślających zmiany w • • przestrzeni i czasie, wzmacnianie krawędzi, jednolicie oświetlone obszary są mniej istotne. Fotoreceptory w czopkach i pręcikach, 3 -warstwowa sieć, komórki zwojowe =>LGN. Pole recepcyjne: obszar, który pobudza daną komórkę. Kombinacja sygnałów w siatkówce daje pola recepcyjne typu centrum-otoczka (on-center) i odwrotnie, wykrywa krawędzie. Każde z pól indywidualnych komórek można modelować Gaussem, więc takie pola otrzymuje się jako różnicę (DOG).
Ciało kolankowate boczne • Kompresja sygnału – częściowo już w siatkówce. • Informacje różnego typu trafiają do różnych warstw LGN. • Stacja pośrednia – wszystkie sygnały zmysłowe (oprócz węchowych) • • przechodzą przez różne jądra wzgórza. Dynamiczne przetwarzanie informacji: sterowanie uwagą i szybki wielkokomórkowy szlak reagujący na ruch. Wsteczne projekcje V 1=>LGN są o rząd wielkości bardziej liczne niż projekcje LGN=>V 1. Konkurencyjna dynamika wybiera sygnały z pola wzrokowego, zwłaszcza dotyczące ruchu. Steruje ruchem gałki ocznej przez połączenia z wzgórkami czworaczymi górnymi (sup. colliculus).
Detektory krawędzi Sygnały punktowo-kontrastowe z LGN kora V 1 organizuje w zorientowane pod określonym kątem detektory krawędzi. Proste komórki V 1 łączą się w detektory krawędzi, pozwalając określić kształty, inne komórki reagują na kolor i rodzaj powierzchni (teksturę). Własności detektorów krawędzi: różna orientacja; wysoka częstość = szybkie zmiany, drobne paski; niska częstość = łagodne zmiany, szerokie paski; polarność = ciemne-jasne lub vv, ciemne-jasne-ciemne lub vv.
Topografia kory Specyficzna budowa, uwarunkowana częściowo genetycznie, częściowo rozwija się dzięki stymulacji, organizacja retinotopiczna jak w LGN. Różne typy detektorów krawędzi i rodzaju tekstury upakowane są topograficznie w korze V 1 w hiperkolumny, obejmujące rozdzielone sygnały z lewego i prawego oka (widzenie 3 D, nie u wszystkich ssaków). Obszar plamek: sygnały koloru + częściowo kształtu, niskie częstości => V 4. Obszar między plamkami: detektory krawędzi, co 10 o, wysokie częstości. Hiperkolumna ~1 mm 2, połowa V 1 dla dołka środkowego!
Reprezentacja w korze V 1 Zorientowane detektory krawędzi mogą się utworzyć przez korelacyjne uczenie się za pomocą mechanizmów Hebbowskich w oparciu o naturalne sceny. Co dzieje się z informacją o kolorze, teksturach, ruchu?
Szlak grzbietowy Szlak wielkokomórkowy: przez płat potyliczny szlakiem grzbietowym do kory ciemieniowej. Dochodzi do warstwy 4 B w V 1, stąd do grubych ciemnych pasków obszaru V 2, analizuje informację o ruchu obiektu. W V 1, warstwa 4 B => V 5, lokalizacja w polu widzenia, ruch. V 5 pobudza płat ciemieniowy, PPC (tylna kora ciemieniowa), obszar 7 i 5; umożliwia to orientację przestrzenną, postrzeganie głębi i ruchu, połączenie z wzgórkami czworaczymi (orientacja oczu).
Szlak brzuszny Szlak drobnokomórkowy: szlak brzuszny, do kory dolnoskroniowej. V 1 => V 2 obszar międzyplamkowy, reaguje na orientację linii, daje dużą ostrość widzenia, bez koloru. V 1 => V 3 obszar plamkowy, reaguje na kształty, reakcja na kolor w neuronach w ciemnych prążkach V 3. V 2 => V 4, główny obszar analizy koloru, informacja dochodzi do kory dolnoskroniowej (IT). Obszar IT w płacie dolnoskroniowym ma neurony reagujące na złożone obiekty. Demo: laboratorium Keiji Tanaka, RIKEN.
Model v 1 rf. proj. gz, R. 8 W jaki sposób tworzą się pola recepcyjne? Skąd takie własności V 1? Wejścia: 12 x 12, sygnały z komórek LGN on (pos) i off (neg) center. Wzorce wejściowe: przypadkowo wybrane fragmenty 24 x 24 z 4 naturalnych obrazów 600 x 800. Warstwa ukryta 14 x 14; połączenia: przypadkowe z wejściem a pobudzające wewnątrz warstwy. Opis projektu w rozdz. 8. 3. 2. Naturalne kształty i tekstury prowadzą do specyficznych pól recepcyjnych: stąd reakcje na krawędzie.
Własności modelu Kora V 1 otrzymuje z LGN sygnał on/off o wzmocnionym kontraście, wejście do V 1 przez warstwę 4, przetwarzanie w tym modelu odpowiada procesom zachodzącym głównie w warstwach 2 i 3. Model obejmuje jedną hiperkolumnę, analizującą mały wycinek obrazu ze zdjęć krajobrazów i roślin => wszystkie elementy widzą to samo. Własności: geometria sferyczna, tzn. góra = dół, lewa = prawa; wejścia niezależne dla komórek on/off, zgodnie z biologią; silne i rozległe pobudzające połączenia horyzontalne – jak w SOM; k. WTA zostawia ~10% aktywnych neuronów. Kontrast dla wag jest mały ~1, bo to nie są neurony decyzyjne, progi są duże (~2) by wymusić rzadkie reprezentacje, silne korelacje. Szum pomaga w unikaniu słabych rozwiązań.
Ćwiczenia z v 1 rf Sprawdzić strukturę, wagi połączeń (r. wt): silne pobudzenia wewnątrz warstwy ukrytej, zawijanie pobudzeń na brzegach, przypadkowe połączenia z wejściami on/off. Load. Env by załadować obrazek 512 x 512 - do treningu użyto 10 obrazów, tu jest jeden przykładowy, przetworzony na kropki on/off. Step. Train – obserwacja oscylacji uczenia dla fazy – i + Komplementarność on/off: silniejsza aktywacja on dla obrazów jaśniejszych w środku niż na brzegach, ciemne = dodatnia aktywacja off. Pytanie: czego się można spodziewać jeśli horyzontalne połączenia będą dominować? Sprawdź swoje przypuszczenia zmieniając chwilowo lat_wt_scale 0. 04 => 0. 2. Load. Net by załadować wytrenowaną sieć, po 100. 000 prezentacji obrazów i paru dniach obliczeń. . .
Pola recepcyjne W jaki sposób tworzą się pola recepcyjne? Skąd takie własności V 1? Sprawdzić aktywacje r. wt, zmienić skalę koloru by lepiej widzieć orientację pól, sprawdzić kilka elementów ukrytych, bi- i tri-polarne pola obu rodzajów. Załadować wszystkie: View, RFIELDS aktywność on=czerwone, off=niebieskie. Orientacja, położenie, rozmiar, polarność to 4 różne cechy pól recepcyjnych. Widać promieniste zmiany orientacji (pinwheel), punkty osobliwe. View, PROBE_ENV pokazuje 4 różne próbne bodźce, Step. Probe pokaże aktywację jednostek ukrytych.