D wik w multimediach Ryszard Gubrynowicz Ryszard Gubrynowiczpjwstk
D� więk w multimediach Ryszard Gubrynowicz Ryszard. Gubrynowicz@pjwstk. edu. pl Wykład 7 1
Jak stany emocjonalne znajdują swoje odbicie w mowie ? 2
Interpretacja aktorska happy sad angry interested bored 3
Funkcje emocjonalne cech prozodycznych Słuchacz na ogół kontroluje w wypowiedzi swój stan emocjonalny. W jego wyrażeniu posługuje się przede wszystkim tempem mówienia, głośnością, wprowadzaniem dodatkowych pauz, przedłużaniem niektórych dźwięków, a także modulowaniem melodii. W wypowiedziach nacechowanych emocjonalnie wahania melodii są znacznie większe, niż w wypowiedziach o charakterze neutralnym. Neutralne – 3 -4 tony, z dużym ładunkiem emocjonalnym - > 1 oktawy. 4
Przykład opozycji szczęśliwy – smutny w konturze melodycznym 5
Przykład opozycji szczęśliwy – gniewny w konturze melodycznym 6
Przykład z dialogu typu HMIHY – How may I help you ? Very Frustrated Somewhat Frustrated 7
Trudności w określaniu emocji Nadanie wypowiedzi określonego typu emocji jest zadaniem bardzo złożonym. Osoby określające typ wypowiedzi pod względem emocji rzadko są zgodne w swych ocenach, z wyjątkiem krańcowych, lub wyraźnie kontrastowych typów emocji Słuchacze w swojej ocenie głównie opierają się na cechach prozodycznych, zwłaszcza na iloczasach i stylizowanym przebiegu F 0. 8
Interkorelacje między emocjami Emotion angry bored frust 0. 44 0. 26 0. 22 -0. 27 angry 0. 70 0. 21 -0. 41 bored 0. 14 -0. 28 0. 32 sad frustrated sad anxs friend anxious friendly conf happy inter encour -0. 42 -0. 33 -0. 37 -0. 09 -0. 32 -0. 17 -0. 32 -0. 42 -0. 27 -0. 43 -0. 09 -0. 47 -0. 16 -0. 39 -0. 14 -0. 25 -0. 17 0. 44 0. 77 -0. 32 -0. 14 0. 59 0. 75 confident 0. 45 0. 51 happy 0. 58 0. 73 interested 0. 62 encouraging (p < 0. 001) 9
Cechy emocji w sygnale mowy n n n Prozodia nie uwzględnia jakości głosu, która może również nieść informację o stanie emocjonalnym osoby mówiącej (chrypka, krzyk, szept itp. ) czy stylu mówienia (hyperartykulacja, wstawianie wydłużonych pauz…) Wydaje się, że cechy akustyczne emocji mogą być specyficzne dla języka Trudności w jednoznacznym określaniu emocji w sygnale mowy – często niesie równolegle szereg emocji jednocześnie, o podobnym charakterze 10
Emocje w płaszczyźnie subiektywnej 11
Emocje kontrastowe w płaszczyźnie akustycznej Strach/złość - zwiększona prędkość i głośność wypowiedzi - podwyższone F 0 - zwiększony zakres F 0 - zaburzony rytm mowy - dokładniejsza artykulacja - zwiększona energia w zakresie wyższych częstotliwości Smutek/odprężenie - zmniejszona prędkość i głośność wypowiedzi - obniżone F 0 - zmniejszony zakres F 0 - wyrównany rytm mowy, płynna mowa - niedokładna artykulacja - obniżona energia w zakresie wyższych 12 częstotliwości
Miary akustyczne emocji F 0: zakres zmian, wartość średnia, nachylenie konturu (w górę/w dół), kształt konturu na sylabach akcentowanych Struktura harmoniczna sygnału: udział szumów przydechowych, laryngalizacja (zwężone impulsy krtaniowe, duża zmienność okresu tonu krtaniowego) Jasność brzmienia: stosunek energii w górnym zakresie częstotliwości do energii w dolnym zakresie Głośność: zakres zmian, wartość średnia, kontur, plozji Iloczasy: pauz, wyrazów, samogłoska/spółgłoska, 13
Wpływ emocji na głos i mowę 14
Cechy mowy emocjonalnej 15
Udział cech mowy w detekcji stanu emocjonalnego - radość Dla języka niemieckiego F 0śred : +50% Zakres zmian F 0 : +100% Tempo : +30% Jakość głosu = normalny lub napięty, wskaźnik rozchylenia warg F 1/F 2: +10% 16
Cechy istotne w detekcji stanu emocjonalnego – złość Dla języka BE F 0śred : +10 Hz Zakres zmian F 0 : 9 półtonów Zmiana tempa mowy: +30 słów/min Głośność: +6 d. B Jakość głosu: laryngalizacja (+78%) Inne: wzrost F 0 na akcentowanych sylabach zależnie od stopnia emocji - 10, 20 i 40% (podkreślona) 17
Cechy istotne w detekcji stanu emocjonalnego – smutek Wg skali oceny subiektywnej – język AE F 0śred : „ 0” linia odniesienia - „-1”, końcowe obniżenie, co najmniej „-5” Zakres zmian F 0 : „-1 -5” Zmiana tempa mowy : „-10”, pauzy niezbyt długie „+5”, wahania (pauzy) „+10” Głośność: „-5” Jakość głosu: przydechowy „+10”, jasność „-9” Inne: podniesienie częstotliwości na sylabie akcentowanej „+1”, dokładność artykulacji „-5” 18
Cechy istotne w detekcji stanu emocjonalnego – zdziwienie Wg skali oceny subiektywnej – język AE F 0śred : „ 0” linia odniesienia - „-8” Zakres zmian F 0 : „+8”, skokowe zmiany konturu melodycznego Zmiana tempa mowy : „+4”, pauzy wydłużone „-510” Głośność: „+5” Jakość głosu: jasność „-3” 19
Ranking cech akustycznych emocji SFFS- Sekwencyjna selekcja podzbioru cech Cecha akustyczna SFFS-Rank Single Perf. F 0, maksymalne nachylenie 1 31. 5 FO, standardowe odchylenie odległości między przeciwstawnymi sobie punktami 2 23. 0 F 0, wartość średnia 3 25. 6 Sygnał, gęstość przejść przez zero 4 16. 9 F 0, odchylenie standardowe 5 27. 6 Iloczas pauz, wartość średnia 6 17. 5 Iloczas głosek dźwięcznych, wartość średnia 7 18. 5 Energia, średnia czasu opadania 8 17. 8 Energia, średnia odległość między przeciwstawnymi sobie punktami 9 19. 0 Energia, średnia czasu narastania 10 17. 6 20
Synteza mowy emocjonalnej 21 http: //emosamples. syntheticspeech. de/#big 4
Mechanizm percepcji dźwięków 22
Układ akustyczny odbiornik - ośrodek - źródło 23
Narząd słuchu W systemie percepcji dźwięków można wyróżnić 2 zasadnicze – układ peryferyjny słuchu i układ nerwowy tego narządu poprzez który dokonywane jest przetwarzanie bodźców na wyższych piętrach układu nerwowego (w mózgu). W narządzie słuchu dokonywane jest przetwarzanie zmian ciśnienia akustycznego na rozkład drgań na błonie podstawnej, który jest przekształcany na odpowiednie serie impulsów pobudzających nerw słuchowy. Informacje o odbieranych sygnałach docierających do narządu słuch są ekstrahowane 24 na różnych poziomach układu nerwowego.
Anatomia narządu słuchu 25
Zasadnicze elementy narządu słuchu 26
Schemat funkcjonalny organu słuchu 27
Charakterystyka częstotliwościowa ucha zewnętrznego Charakterystyka małżowiny – kąt 450 28
Ucho środkowe (przekrój) 1 – młoteczek 2 – kowadełko 3 – strzemiączko 4 – błona bębenkowa 5 – okienko okrągłe 6 – trąbka Eustachiusza (łączy z częścią gardłowonosową) 29
Ucho środkowe (od wewnątrz) 1 – młoteczek, 2 – jego ścięgno 3 – kowadełko, 4 – jego ścięgno 6 – stopa strzemiączka, 5 – mięsień strzemiączka 7 – błona bębenkowa Układ kosteczek słuchowych (1, 3, 6) jest układem mechanicznym dopasowującym drgania w powietrzu do drgań w płynie którym jest wypełnione ucho wewnętrzne. Bez tego układu 98% energii akustycznej uległoby odbiciu. 30
31
Funkcje kosteczek słuchowych Ø swoistego rodzaju układ przekładni mechanicznej dopasowujący drgania w powietrzu do drgań w cieczy. Zamienia duży ruch tłoka o dużej powierzchni (błona bębenkowa) na mały ruch tłoka o małej powierzchni (podstawa strzemiączka w okienku owalnym). Wzmocnienie siły wynosi 27 razy. Transmisja dźwięków jest najskuteczniejsza w przedziale częstotliwości 500 -4000 Hz. Ø układ zabezpieczający – powyżej 90 d. B(<1 -2 k. Hz), następuje wzrost napięcia mięśni usztywniających układ kosteczek, w wyniku czego następuje ograniczenie przepływu energii akustycznej (odruch strzemiączkowy). Odruch ten jest zbyt wolny by chronić ucho przed hałasem impulsowym, np. 32 wystrzał z broni palnej, gwałtowne pęknięcie ABS.
Jak działa ucho środkowe ? Niska częstotliwość fali Wysoka częstotliwość fali docierającej do ucha Strzemiączko jest tłokiem umieszczonym w ścianie kostnej ucha wewnętrznego (w okienku owalnym). Tłok pobudza do drgań nieściśliwą ciecz wypełniającą 33 przestrzenie ucha wewnętrznego.
Praca układu kosteczek ucha środkowego 34
Wzmocnienie w uchu środkowym Występują tu dwa efekty – efekt wzmocnienia tłokowego (S 1 /S 2 ) ≈ 20. S 1 = 0. 6 cm 2 Efekt dźwigni (kosteczki) - d 1/d 2=1. 3 Łączne wzmocnienie = 26 (28 d. B) 35
Charakterystyka transmitancji ucha środkowego 36
Funkcje transmitancji ucha zewnętrznego i środkowego Zewnętrzny przewód słuchowy (o długości 2 -3 cm, średnica 1 cm) ma skomplikowaną geometrię, co powoduje, że w jego charakterystyce transmitancji występuje szereg rezonansów (ok. 6) w zakresie od 3 do 12 k. Hz. Małżowina uszna wspomaga kierunkowe słyszenie dźwięków. Funkcja transmitancji ucha środkowego ma jeden dominujący rezonans w pobliżu 1 k. Hz. Razem, obie części narządu słuchu kształtują częstotliwościową charakterystykę czułości słuchu z szerokim maksimum położonym w pobliżu 3 k. Hz. 37
Porównanie charakterystyki czułości słuchu z łączną charakterystyką ucha zewnętrznego i środkowego Ucho wewnętrzne działa jak swoistego rodzaju detektor 38 poziomu o stałym poziomie detekcji
Budowa ślimaka 1 – kanał ślimakowy, 2 – schody przedsionka 3 – schody bębenka, 4 – zwój nerwowy 5 – nerw słuchowy 5 mm Ślimak płodu (5 mies) – 2, 5 zwojów o – okienko owalne, r – okienko okrągłe (struktura kostna usunięta) 39
40
41
The organ of Corti Basilar membrane: it moves according to the pressure wave induced by the movement of the Auditory nerve axons
Hair cells Two groups of hair cells: 1 row of Inner Hair Cells (IHC)and 3 rows of Outer Hair Cells (OHC) Hair cells have stereocilia or “hairs” at their top. Their height increases progressively along the cell. The longest is called “kinocilium” inner IHC connect to 90 -95% of afferent auditory fibers outer OHC are mostly efferent: top-down information modulates their response
Dynamics of hair cells 1. Movement of basilar membrane 3. Receptor potential. Depolarization because of the entry of Potassium ions (K+) and subsequent entry of Calcium ions (Ca++) 2. Hair cell movement: increasing tension opens the ionic channels in the hair cells. An ionic exchange happens 4. Synaptic vesicles release a neurotransmitter (glutamate), triggering the nervous impulse
Pobudzanie ślimaka Długość membrany podstawnej – ~35 mm 45
Drgania membrany podstawnej Przebieg sinusoidalny niskiej częstotliwości Przebieg sinusoidalny o wysokiej częstotliwości Membrana tu drga niemal Tu membrana drga tylko 46 do określonego miejsca na całej swej długości
Rozkład drgań na membranie podstawnej – 100 Hz 47
Rozkład drgań na membranie podstawnej – 400 Hz 48
Rozkład drgań na membranie podstawnej – 1200 Hz 49
Rozkład drgań na membranie podstawnej – 4800 Hz 50
Drgania membrany podstawnej przy pobudzeniu tonem sinusoidalnym podstawa osklepek Dźwięki o różnych częstotliwościach wywołują maksymalny ruch membrany w jej różnych miejscach. W ten sposób powstaje przełożenie częstotliwości dźwięku na miejsce i dalej na odpowiednio 51 zróżnicowanej odpowiedzi neuronów.
Pobudzanie membrany podstawnej przez dźwięk złożony 52
Przekrój zwoju ślimaka 53
Przekrój zwoju ślimakowego Schody przedsionka Organ Cortiego Schody bębenka 4 – błona Reisnera, 5 – membrana podstawna, 6 – błona pokrywkowa 54
Schemat organu Cortiego 1 - wewnętrzne komórki rzęskowe 2 - zewnętrzne komórki rzęskowe 3 - tunel Cortiego 4 - membrana podstawna 5 - błona siateczkowata 6 - błona pokrywkowa 7 - komórki Deitersa 8 - przestrzeń Nuela 9 - komórki Hensena Drgający ruch struktur organu Cortiego wywołuje pobudzenie neuronów, co powoduje, że słyszymy 55 dźwięk
Organ Cortiego i włókna nerwowe Graeme Clark The Bionic Ear Institute Zewnętrzne k. rz. Wewnętrzne k. rz. Blona podstawna Odśrodkowe nerwy słuchowe mózg 56
Płyny w ślimaku 3 zwoje ślimaka są wypełnione płynami – endolimfą i perylimfą. Mają one zasadnicze znaczenie dla działania komórek rzęskowych, które wytwarzają impulsy elektryczne Różnice w składzie jonowym endolimfy i perylimfy powoduje powstanie między nimi różnicy napięć około 57 80 m. V.
Komórki rzęskowe zewnętrzne i wewnętrzne zewnętrzne W ślimaku jest 3 500 wewnętrznych komórek rzęskowych i 12 000 zewnętrznych. Jest to znikoma ilość w porównaniu z receptorami narządu wzroku 58
Funkcje komórek rzęskowych Komórki rzęskowe wewnętrzne są przymocowane do doprowadzających włókien nerwu ślimakowego i ich funkcją jako „rzeczywistych komórek słuchowych” jest zamiana informacji akustycznej na sygnały nerwowe. Komórki rzęskowe zewnętrzne są w przeważającym stopniu stymulowane przez włókna odprowadzające nerwu ślimakowego i często są opisywane jako „silnik” ślimakowego wzmacniacza. Ich zadaniem jest spowodowanie, aby maksymalne uwypuklenie błony podstawnej było bardziej wyraźne tak, aby komórki rzęskowe wewnętrzne to zarejestrowały. Tak więc komórki rzęskowe zewnętrzne służą jedynie do tego by wzmocnić wędrującą falę, podczas gdy komórki rzęskowe wewnętrzne zamieniają bodźce mechaniczne na potencjał bioelektryczny. 59
Efekt współdziałania zewnętrznych i wewnętrznych komórek rzęskowych Tylko dzięki współdziałaniu i wzajemnym oddziaływaniu komórek rzęskowych wewnętrznych i zewnętrznych ucho posiada tak niski próg słyszenia (= podwyższenie amplitudy wędrującej fali) i taką czułość w rozróżnianiu częstotliwości(=strome przesunięcie wędrującej fali). 60
Uszkodzona komórka rzęskowa zewnętrzne Uszkodzona komórka rz. wewnętrzne 61
Przestrzenny rozkład drgań w błonie podstawnej Okienko owalne Kierunek rozchodzenia się fali bieżącej podstawa osklepek 62
Rozkład komórek rzęskowych na błonie podstawnej n o T y p o ot type 1 type 2
Nerwy słuchowe w uchu wewnętrznym Ludzki włos Zewnętrzne k. rz. 60 µm Wewnętrzne k. rz. Błona siateczkowata 20 µm Spiralny zwój nerwowy 64 Wise et al, The Bionic Ear Institute, 2003.
Mechaniczne i elektryczne własności komórek rzęskowych Przy podstawie (bliżej okienka owalnego) komórki rzęskowe rozmieszczone wzdłuż błony podstawnej są odpowiednio dostrojone częstotliwościowo elektrycznie jak i mechanicznie. Rzęski przy okienku owalnym są krótsze i sztywniejsze, te bardziej oddalone są dłuższe i bardziej elastyczne. Jednocześnie własności komórek rzęskowych, decydujące o częstotliwości wyładowań elektrycznych własnych, są zgodne z rozmieszczeniem komórek wzdłuż membrany podstawnej. Częstotliwość wyładowań jest zgodna z rozkładem rezonansów błony podstawnej. A każdy neuron ma swoją „częstotliwość charakterystyczną”. 65
Schemat działania organu Cortiego Rzęski zaczynają wychylać się w dwie strony (wychylenie czubków – 0. 3 nm). W tym samym czasie dochodzi do zamykania się i otwierania kanałów jonowych. Dzięki nim z endolimfy ślimaka do wnętrza rzęsek napływają jony potasu. W ten sposób zostają wywołane chwilowe zmiany potencjału. Na zmiany te reagują zakończenia komórek nerwowych, które powstałe pobudzenie przekazują dalej do 66 wyższych pięter układu słuchowego.
67
Rozkłady drgań na błony podstawnej w funkcji częstotliwości Poziom => głośny cichy f= 1000 Hz f= 8000 Hz f= 1000 Hz i 8000 Hz 68
Synchronizacja fazowa Komórki rzęskowe rozmieszczone wzdłuż błony podstawnej są odpowiednio dostrojone częstotliwościowo elektrycznie, jak i mechanicznie. 69
Synchronizacja fazowa
Odpowiedź neuronu słuchowego na dźwięki o niskiej częstotliwości Odpowiedź pozostaje zsynchronizowana dla dużego zakresu intensywności 71
Synchronizacja fazy z pobudzeniem sinusoidalnym Dla częstotliwości < 5 k. Hz, impulsy nerwowe pojawiają się z określoną fazą zgodnie z cyklem sygnału pobudzającego. Wyładowania te nie pojawiają się w każdym cyklu pobudzenia. Jednakże odległość między pojedynczymi impulsami może wynosić 2, 3 lub więcej cykli. 72
Schemat synchronizacji pobudzeń Schemat pobudzenia neuronu 73
Zsynchronizowana odpowiedź słuchowa • Włókna nerwowe synchronizują swoją odpowiedź w celu jej wyostrzenia w zakresie niskich częstotliwości i wygładzenia obwiedni w zakresie wysokich częstotliwości • Synchroniczność odgrywa istotną rolę w procesie lokalizacji źródeł dźwięków 74
Zakres dynamiczny słyszenia • Im większa jest liczba impulsów/s tym większe wrażenie głośności • Im większa jest liczba pobudzonych zakończeń 75 nerwowych, tym dźwięk jest odbierany jako głośniejszy
Częstotliwościowa czułość słuchu Pomiar dla pojedynczego nerwu. Charakterystyka jest symetryczna w skali log f. 76
Odpowiedź włókna nerwowego na 2 tony Pojawienie się tonu w strefie zakreskowanej powoduje zmniejszenie się liczby impulsów odpowiadającej tonowi testowemu, co zwiększa lokalny kontrast częstotliwości. 77
Częstotliwościowa zależność poziomu progowego włókien nerwowych Szerokość pasma zależy od częstotliwości środkowej. Częstotliwościowe zakresy odpowiedzi są asymetryczne. 78
Membrana podstawna – rozkład częstotliwości Od osklepka (szczytu) w kierunku podstawy błony podstawnej rozkład miejsc pobudzeń zmienia się proporcjonalnie do logarytmu częstotliwości 79
Membrana podstawna – rozkład częstotliwości pobudzeń Znaczna część długości błony podstawnej reaguje na niższy zakres częstotliwości (zakres F 1 w mowie), przy czym większość odpowiedzi neuronów jest w zakresie poniżej środkowych częstotliwości (2 -3 k. Hz). 80
Słuch, mowa w korze mózgowej Ośrodek Wernickego – słuchowy ośrodek mowy Obszar Broca – okolica ruchowa mowy 81
Kodowanie częstotliwości w mózgu Graeme Clark The Bionic Ear Institute 2 5 10 20 pole słuchowe 5 k. Hz 10 k. Hz ślimak 2 k. Hz 20 k. Hz 82
83
Implant ślimakowy – część zewnętrzna 1. mikrofon 2. przewód doprowadzający 3. procesor mowy 4 cewka odbiorcza 5. cewka odbiorcza wysyłająca poprzez skórę sygnały FM do implantowanego odbiornika pobudzającego 6. odbiornik pobudzający 7. elektrody pobudzające zakończenia nerwu słuchowego w ślimaku 8. nerw słuchowy 84
Implant ślimakowy – część wewnętrzna 85
Elektrody implantu ślimakowego 86
Wymiary elektrod 0. 45 mm 0. 3 mm 87
Procedura SPEAK /a/ Sygnał mowy 20 -kanałowy zestaw filtrów pasmowych Widmo chwilowe 6 maksymalnych napięć Powierzchnia elektrod osklepek 88 podstawa
Symulacja działania implantu ślimakowego From herrick_uedamodel/script_demo 1: best 6 of 16 channels, 250 Hz pulserate, 16 k. Hz sampling H/U filterbank 89
Wpływ liczby kanałów pobudzających na zrozumiałość mowy 1 2 4 8 16 90
- Slides: 90