D wik w multimediach Ryszard Gubrynowicz Ryszard Gubrynowiczpjwstk
D� więk w multimediach Ryszard Gubrynowicz Ryszard. Gubrynowicz@pjwstk. edu. pl Wykład 9 1
Maskowanie częstotliwościowe cd. 2
Krzywa progowa słuchu (słyszalność tonu w ciszy) 3
Szerokość pasma krytycznego a głośność (w skali logarytmicznej) 4
Głośność tonu wpływa na selektywność (asymetrię) filtru słuchowego (w barkach) 5
Wpływ poziomu sygnału na kształt charakterystyki częstotliwościowej filtru słuchowego 6
Funkcja „spłaszczająca” filtr słuchowy 7 dz= f(maskowana) – f(maskująca), LM = poziom sygnału maskowanego
Pasma krytyczne mają wpływ na: v Detekcję sygnału w ciszy v Percepcję głośności v Detekcję sygnału w szumie (maskowanie) v Czułość na przesunięcie fazowe v I wiele innych zjawisk ……. 8
Model przetwarzania sygnałów w układzie obwodowym słuchu 9
Cochleogram = słuchowy spektrogram 10
Czynniki wpływające na percepcję głośności • Głośność dźwięku zależy od poziomu ciśnienia akustycznego • Głośność dźwięku zależy od jego częstotliwości • Głośność dźwięku zależy od jego zakresu częstotliwości • Na wrażenie głośności dźwięku wpływają również czynniki czasowe 11
Pojęcie “rozdzielczości” Określa dokładność z jaką można wyróżnić bodziec z pośród innych, o zbliżonych wartościach wybranego parametru “Rozdzielczość częstotliwościowa” Zdolność wyodrębnienia jednej składowej częstotliwościowej w dźwięku złożonym 12
Zadania na podstawie, których określa się rozdzielczość częstotliwościową słuchu poziom (d. B) Detekcja tonu w szumie Odsłuchiwanie czy składowa 2100 Hz jest słyszalna? częstotliwość (Hz) 13
Badanie maskowania 14
Rozdzielczość częstotliwościowa a pasma krytyczne 15
Pasma krytyczne i maskowanie tonów • głośny dźwięk maskuje inne, które w skali częstotliwości znajdują się w bezpośrednim sąsiedztwie • pasmo krytyczne – pasmo wewnątrz którego nie słyszy się tonów o niższej, niż ton maskujący amplitudzie 16
Sygnały mogą być maskowane 17
Progowe badania wpływu zmian parametru fizycznego na percepcję dźwięku W klasycznym ujęciu progiem nazywamy pewien punkt graniczny, w którym bodziec o zmieniajającej się wartości określonego parametru (np. intensywności) lub wzrastająca różnica pomiędzy dwoma bodźcami stają się dostrzegalne (lub w którym bodziec lub malejąca różnica stają się niedostrzegalne). 18
Dwa progi w percepcji • Progiem absolutnym nazywana jest wartość bodźca mierzona w warunkach eksperymentalnych, przy której zaczyna lub przestaje wywoływać reakcję. • Progiem różnicowym (różnicy) nazywana jest minimalna (wzrastająca lub malejąca) różnica pomiędzy para bodźców, którą to różnicę można dostrzec w warunkach eksperymentalnych. W postrzeganiu i wartościowaniu bodźców akustycznych przez człowieka udział biorą dwa niezależne mechanizmy; sensoryczny i decyzyjny 19
Zastosowanie badań progowych Próg w ujęciu klasycznym, zarówno próg absolutny, jak i różnicowy, ma zastosowanie tylko w odniesieniu do badań prostych cech wrażeniowych takich jak głośność i wysokość. Można go również określać przy badaniu innych zjawisk psychoakustycznych, na przykład takich jak lokalizacji źródeł dźwięku przez człowieka, czy percepcji zniekształceń nielinearnych. 20
Próg różnicowy częstotliwości Jest to najmniejsza dostrzegalna różnica częstotliwości dwóch dźwięków. Oznacza się ją symbolem JND ( ang. Just Noticeable Difference). Ta zaledwie postrzegana różnica częstotliwości zależy od częstotliwości badanego dźwięku prostego, jego poziomu, czasu trwania oraz szybkości zmian jego częstotliwości. 21
Minimalnie odczuwalna różnica (JND) wysokości tonu • Minimalna różnica (DL) lub minimalnie odczuwalna różnica (JND) wysokości w funkcji częstotliwości dla 4 poziomów sygnału. • W znacznym zakresie percepcji człowiek jest zdolny odczuć zmianę częstotliwości tonu o zaledwie o 3 Hz, lub nawet mniej. 22
Zależność progu różnicy (JND) częstotliwości tonu prostego od częstotliwości i poziomu W funkcji poziomu [d. B], powyżej progu słyszalności. ~0. 6% powyżej 500 Hz 23
Przeciętne wartości progów różnicy częstotliwości dla różnych zakresów 24
Granice rozróżnialności dla dwóch jednocześnie występujących tonów o jednakowej amplitudzie ~7% dla niskich częstotliwości, ~15% dla wysokich częstotliwości 25
Liniowa superpozycja 2 tonów czystych 26
Dudnienia Dwa sygnały sinusoidalne różniące się minimalnie częstotliwością f 1 > f 2 27
Suma 2 tonów o bliskich częstotliwościach Słyszany ton sumaryczny ma średnią wysokość i 28 modulowaną amplitudę z częstotliwością różnicową
Częstotliwość dudnień = ∆f Sygnał ytot można interpretować jako sygnał o częstotliwości 29 fśr modulowany amplitudowo z częstotliwością ∆f
Percepcja liniowej superpozycji 2 tonów 400+400. 5 Hz 400+401 Hz 400+403 Hz 400+410 Hz 400+420 Hz 400+430 Hz 400+440 Hz 400+450 Hz (9: 8 sekunda wielka) 400+480 Hz (6: 5 tercja mała) 400+667 Hz (5: 3 seksta wielka) 400+800 Hz (2: 1 oktawa) 30
zakres słyszalności dudnień Dudnienia są wyraźnie słyszane, gdy różnica częstotliwości tonów pierwotnych jest < 15 Hz. Słyszy się tylko jeden ton o zmiennej amplitudzie. Gdy różnica się powiększa nieznacznie powyżej tej granicy dźwięk staje się nieprzyjemny („chropowaty”) bez wyraźnych dudnień. Do pewnej odległości ∆f. D między tymi tonami, nie jest odczuwalna zmiana jakości dźwięku. Jest to granica różnicowania częstotliwościowego. Przy dalszym zwiększaniu różnicy częstotliwości między tymi tonami, zaczynają one być wyraźnie słyszalne jako 2 oddzielne tony. Ma to miejsce dla odległości większych od pasma 31 krytycznego ∆f. CB.
Pasmo krytyczne, a próg odczuwalnej minimalnej różnicy częstotliwości Dla zadanej CZĘSTOTLIWOŚCI, pasmo krytyczne jest najmniejszym pasmem wokół której inne częstotliwości pobudzaja tę samą część błony podstawnej. Natomiast, próg różnicy jest minimalną zauważalną różnicą (JND) pojedynczej częstotliwości, zaś pasmo krytyczne reprezentuje zdolność słuchającego do rozróżniania jednoczesnych tonów lub składowych dźwięków. 32
Percepcja superpozycji 2 tonów Zjawisko dudnień wykorzystuje się przy strojeniu instrumentów muzycznych 33
Przykład dźwiękowy f 1 = 400 Hz, f 2 = 400 510 Hz – pierwsza częstotliwość poza pasmem krytycznym Początkowe dudnienie Końcowa nierówność 34
Superpozycja tonów na błonie podstawnej Wskutek nakładania się drgań na błonie podstawnej słyszane są dudnienia Maksima drgań są bardziej rozsunięte jednak słyszana jest „chropowatość” dźwięku Słyszane są tu 2 oddzielne tony 35
Zależność ∆f. CB i ∆f. D od częstotliwości środkowej pasma krytycznego 36
Co się dzieje, gdy ∆f > ∆f. CB ? Gdy są słyszane jednocześnie 2 tony, wskutek zachodzących zniekształceń w narządzie słuchu słyszane są często inne tony. Nazywane są róóżnicowymi tonami kombinacyjnymi. Tony te najczęściej są o częstotliwościach: f 2 – f 1 ; 2 f 1 - f 2 ; 3 f 1 – 2 f 2. Wymagany jest stosunkowo duży poziom obu tonów ~50 -60 d. B, jednakże słyszalność tonów kombinacyjnych przez słuchaczy jest bardzo różna. 37
Źródło tonów kombinacyjnych Różnicowe tony kombinacyjne nie są obecne w rzeczywistym sygnale. Powstają one w wyniku pobudzenia membrany w miejscach odpowiadających tonom składowym (nie są one wynikiem złudzeń słuchowych !) Są one wywołane „zniekształceniami” kształtu fali rozchodzącej się w płynie w kanale ślimakowym (powstają w nim turbulentne zawirowania). 38
Zakresy częstotliwości najlepiej postrzeganych tonów kombinacyjnych 39
Poziomy tonów kombinacyjnych występujących w układzie słuchowym 40
Tony Tartiniego (tony kombinacyjne) 133 Hz 200 Hz 533 Hz 400 Hz 600 Hz 500 Hz tercja wielka kwarta czysta kwinta czysta 41
Zauważalne tony kombinacyjne występują dla tonów składowych w zakresie 300 – 8000 Hz dla stosunku f 2 /f 1 = 0 do 3 42
Inne nieliniowe zniekształcenia słuchowe Pojedynczy bardzo głośny ton o częstotliwości f może spowodować wrażenie słuchowe obecności składowych 2 f, 3 f, 4 f, … Składowe te nazywają się słuchowymi harmonicznymi. 43
Percepcja dźwięków blisko siebie położonych w skali częstotliwości (podsumowanie) f 2 - f 1 (Hz) Gdy częstotliwość f 2 rośnie: Pasmo krytyczne Rosnąca różnica częstotliwości ~0. 5 -3 Słychać dudnienia. Pitch of f 1 and f 2 cannot be distinguished. Frequency perceived as the average of the two. ~4 -10 Słychać przebieg podobny do vibrato ~20 -300 (~ do małej tercji) Dźwięk chropawy (dysonansowy). Najbardziej Percepcja staje się mniej zależna od wydatny w częstotliwości. Zakres dysonansu obejmuje 0. 25 -0. 33 dźwięki, których częstotliwości są zawarte w obrębie 2 tonów. W pewnych przypadkach mogą być słyszalne tony różnicowe. >~małej tercji Słyszalne są 2 oddzielne dźwięki , niekiedy >1 współbrzmiące (konsonansy) 44
Czułość słuchu na zmiany częstotliwości w sygnale mowy Przy średnim poziomie w zakresie do 1000 Hz postrzegana jest zmiana wysokości głosu o 1 Hz, 2 Hz w pobliżu 2 k. Hz, 4 Hz w pobliżu 4 k. Hz. Powyżej 5 k. Hz szybko rośnie. W przypadku percepcji zmian częstotliwości drugiego formantu F 2, postrzegane zmiany są 20100 Hz, w zależności od odstępu F 1 -F 2 lub F 2 -F 3 w skali częstotliwości. 45
Symulacja redukcji rozdzielczości częstotliwościowej 46
Szerokość pasma krytycznego W przypadku uszkodzeń słuchu następuje spłaszczenie charakterystyki pasma krytycznego wskutek czego pogarsza się selektywność słuchu Numer pasma krytycznego dla częstotliwości f: N(f)=21. 3 log(0. 00437 f+1) 47
Wpływ zredukowanej rozdzielczości częstotliwościowej na widmo samogłoski /ae/ 48
Zniekształcenia obwiedni widma filtru słuchowego Ma to miejsce w przypadku uszkodzeń słuchu. • Szersze filtry słuchowe powodują powstanie „zamazanego” rozkładu pobudzenia, maksima stają się mniej wydatne, zmniejszony stosunek maksimów do minimów. • Wprowadzenie szumu powoduje dodatkowo zacieranie różnic między wierzchołkami i minimami w widmie i zmniejsza cechy dystynktywne obwiedni widma 49
Wpływ czasu bodźca na percepcję jego wysokości Istnieje pewna minimalna długość bodźca, dla której słuchacz jest w stanie określić jego wysokość Ton sinusoidalny 1 k. Hz, o długości początkowo 40 ms, malejącej krokowo co 2 ms do 2 ms 50
Wpływ czasu bodźca na percepcję jego głośności • Dla krótkich sygnałów (<100 ms) ich długość wpływa na odbieraną głośność • Głośność dłuższych sygnałów nie zależy od czasu ich ekspozycji • W specyficznych warunkach obserwuje się zjawisko adaptacji (to jest zmniejszenie wrażenia głośności) 51
Maskowanie czasowe 52
Maskowanie czasowe • Maskowanie ma miejsce nawet, gdy sygnał maskujący i maskowany nie występują jednocześnie • Maskowanie dźwięków wcześniejszych przez sygnał maskujący, tzw. maskowanie wsteczne (premaskowanie) • Maskowanie dźwięków późniejszych, tzw. maskowanie resztkowe (postmaskowanie) 53
Maskowanie czasowe Każdy głośny dźwięk powoduje stan przesterowania receptorów ucha wewnętrznego. Na powrót ich do stanu normalnego konieczny jest pewien czas. 54
Fazy maskowania czasowego Szybkie narastanie tonu maskującego powoduje, że ostatni odcinek maskowanego tonu poprzedzającego jest niesłyszalny. Często spółgłoska jest maskowana 55 przez głośną samogłoskę.
Charakterystyka maskowania czasowego Maskowanie czasowe (nierównoczesne) polega na tym, że mózg nie jest w stanie przeanalizować dźwięków, które następują tuż przed (do 40 ms – zależnie od częstotliwości) oraz tuż po (do 200 ms, i więcej) dźwięku głośnym (maskerze). Pierwszy typ maskowania , tzw. wsteczne, wynika z tego, że zanim dźwięk zostanie "zauważony" mija ok. 40 ms, a jeśli przed końcem tego czasu pojawi się dźwięk głośny, to proces analizowania tego cichego wariantu zostaje przerwany, a ucho i mózg reagują tylko na sygnał maskujący. 56
Charakterystyka maskowania czasowego c. d. • Maskowanie resztkowe oprócz tego, że uwzględnia wspomniany czas na analizę dźwięku, to jeszcze czas potrzebny na tzw. relaksację aparatu słuchu, czyli powrót jego do stanu kiedy jest gotów odebrać z otoczenia kolejny dźwięk. Głośny dźwięk wymaga dłuższego po nim odpoczynku. 57
Maskowanie wsteczne Wsteczne maskowanie jest związane z długością odpowiedzi impulsowej filtru słuchowego. Dla wysokich częstotliwości maskowanie wsteczne jest poniżej 1 ms dla wytrenowanych osób, przy jednousznym odsłuchiwaniu bodźców. Jednak zdolność wykrywania maskowanych wstecznie bodźców silnie zależy od predyspozycji słuchającego. 58
Maskowanie resztkowe (postmasking) Maskowanie resztkowe sygnału testowego przez przebieg maskujący występuje zarówno, gdy sygnał zarówno znajduje się w obrębie odpowiedzi impulsowej filtru słuchowego, jak i neuronowej części systemu percepcyjnego. Czas maskowania jest >20 ms, a czasami stwierdza się, że czas ten może wynieść nawet kilkaset ms. W praktyce, w krzywej czasowej maskowania można wyróżnić dwie części – krótki obszar podtrzymywania maskowania oraz drugą część długiego zmniejszania maskowania. Im wyższy jest poziom sygnału maskowanego, tym krótszy jest czas postmaskingu. 59
Warunki amplitudowe w maskowaniu dźwięków • Oczywiście jeśli w podanym przedziale czasu (-40 ms, +200 ms) pojawi się dźwięk odpowiednio głośny, on również zostanie "zauważony", te czasy pokazują maksymalny czas potrzebny w przypadku dźwięków dużo cichszych od maskera (o około 40 d. B). Dzięki temu maskowaniu można z kodowanego dźwięku wycinać ciche dźwięki w odpowiednich miejscach, czyli tuż przed i po maskerze. 60
Wpływ czasu trwania sygnału maskującego na krzywą maskowania czasowego Czas trwania maskera 100 i 200 ms. 61
Maskowanie częstotliwościowe i czasowe 62
- Slides: 62