D wik w multimediach Ryszard Gubrynowicz Ryszard Gubrynowiczpjwstk
D� więk w multimediach Ryszard Gubrynowicz Ryszard. Gubrynowicz@pjwstk. edu. pl 1
Zaliczenie przedmiotu Egzamin testowy na zakończenie. Obecność na wykładach będzie miała wpływ na końcową ocenę Konsultacje Środa – godz 17. 00 – 18. 00. . . . (po uprzednim umówieniu się) Pokój 302 2
Literatura W języku polskim b. uboga Rosch W. L. (1997) Biblia o multimediach: multimedia od A do Z, Intersoftland, Warszawa 1997 Podstawy akustyki: q Korbecki M. , Komputerowe Przetwarzanie Dźwięku, Mikom 1999, rozdz. 1 -5 q Russel D. Acoustics and animation, http: //www. kettering. edu. /~drussell/Demos. html qhttp: //faculty. washington. edu/dillon/Phon. Reso urces/Phon. Resources. html#Speech 3
Literatura c. d. Analiza sygnału mowy: q Dukiewicz L. , Fonetyka [w] Fonetyka i Fonologia (red. H. Wróbel), Gramatyka współczesnego języka polskiego, wyd. Instytutu Języka Polskiego PAN, Kraków, 1995 (rozdz. 4, 5) q Tadeusiewicz R. , Sygnał Mowy, WKiŁ, Warszawa 1988 q Borden G. J. , Harris K. S. , Speech Science Primer, 5 th ed. , Williams&Wilkins, Baltimore, 4 2007
Literatura c. d. Cechy fonetyczno-akustyczne dźwięków mowy q Dukiewicz L. , Fonetyka. . q Wierzchowska B. , Fonetyka i fonologia języka polskiego, Ossolineum, Warszawa, 1980 q. Huckvale M. , Acoustics of Speech&Hearing, http: //www. phon. ucl. ac. uk/courses/spsci/b 214 /week. htm 5
Kolejne wykłady będzie można pobierać z sieci pod adresem: http: //www. pjwstk. edu. pl/~rgubryn/PJWSTK 1. zip /PJWSTK 2. zip ……. . Uwaga na duże litery ! 6
Znaczenie terminu multimedia § Multimedia jest pojęciem bardzo szerokim § Na ogół niezbyt dokładnie zdefiniowane i zależne od punktu widzenia. § Multi = wiele § Media = l. mnoga medium = średni, środkowy, nośnik, środowisko, łącznik (mass-medium = środek masowego przekazu) § Wiele środków równoczesnego przekazu 7
Elementy przekazu multimedialnego Termin multimedia opisuje szereg różnych cyfrowych technologii umożliwiających połączenie mediów wizualnych i dźwiękowych, w wyniku czego uzyskuje się złożone środki wyrazu. Środki wyrazu (proste): Ø wideo (obraz ruchomy), Ø dźwięk, Ø animacja, Ø grafika, 8 Ø tekst.
Cyfrowe Multimedia • Czym jest technologia cyfrowych multimediów? ”Jest to dziedzina, obejmująca integrację informacji tekstowej, graficznej, dźwiękowej, obrazu (stałego i ruchomego) animacji, i każdego innego medium, w którym dowolny typ informacji może być prezentowany, zapamiętywany i cyfrowo przetwarzany. ” F. Fluckiger Komputer jest jedynym urządzeniem umożliwiającym 9 tzw. przekaz multimedialny.
Podstawowe cechy systemów multimedialnych - komputerowo sterowane (przez jeden lub wiele komputerów) - zintegrowane (wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie technicznej) - informacja w postaci cyfrowej - zapewniona jest interaktywność Nb. odtwarzacz CD nie jest urządzeniem multimedialnym 10
Równoległość przekazu w systemach multimedialnych Cecha ta występuje w dwóch formach: a) kilka mediów równolegle oddziałuje na odbiorcę b) na odbiorcę oddziałują dwa (lub więcej) środki wyrazu tego samego typu, np. dwie sekwencje filmowe, dwa teksty itp. w jednej scenie. 11
Interaktywność w systemach multimedialnych Ta cecha wyróżnia przekaz multimedialny od innych form przekazu medialnego (film, TV, wideo). Charakterystyczną cechą multimediów jest ich interaktywność – użycie myszki, klawiszy (tekst), ekranu dotykowego, głosu, itp. przez użytkownika pozwala wpływać na postać prezentowanej mu informacji. 12
Formy interaktywności Odbiorca przekazu multimedialnego może: • określić czas trwania i częstotliwość powtarzania określonego elementu prezentacji • określić własną drogę przeglądania prezentacji (nawigacja otwarta) • wprowadzić dane mające wpływ na dalszy przebieg prezentacji (pola wyboru, pola tekstowe) • grupować wedle swego uznania różne elementy prezentacji (drag and drop) • zmieniać elementy prezentacji (zmieniać kształt, ścieżkę dźwiękową, zamalowywać, itp. ) • wykonywać operacje na obiektach (obracać, przesuwać) • poruszać się po wirtualnych pomieszczeniach Na podstawie akcji odbiorcy system określa dalszy przebieg prezentacji 13
Pragmatyczna definicja multimediów Przekaz jest multimedialny, gdy spełnia następujące warunki: a) jednocześnie wykorzystane są różne środki wyrazu b) wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie c) wszystkie środki wyrazu są połączone w jedną prezentację d) kilka różnych mediów równocześnie oddziałuje na odbiorcę e) użytkownik może aktywnie wpływać na przebieg oraz treść prezentacji (interaktywność) 14
Integracja Multimedialny system winien dawać możliwość generowania, gromadzenia, przesyłania i prezentacji informacji w sposób stanowiący jedną całość z punktu widzenia sterowania i komunikacji. – Na poziomie komputera (integracja komputerowa) – Na poziomie sieci (integracja sieciowa) 15
Integracja gromadzenia CD-ROM Pamięć dyskowa Integracja rejestracji Integracja prezentacji Okno video Okno tekstowe text Integracja sieciowa Kamera video Pojedyncza sieć Wbudowany mikrofon 16
Przykłady integracji sieciowej § Video telekonferencje. § Zdalne nauczanie, e-gospodarka (e-learning, ecommerce). § Telemedycyna. § Środowiska współpracy, zespoły robocze. § Zarządzanie wiedzą, § Przeszukiwanie (b. dużych) baz danych video i grafiki pod kątem wybranych obiektów wizualnych § Rozszerzona rzeczywistość (augmented reality): na rzeczywisty obraz nakładane są obiekty w postaci komputerowej grafiki i wideo 17 z uzupełniającą informacją o danej scenie
Ośrodek - percepcja 18
Człowiek jako odbiorca informacji multisensorycznej Co najmniej jeden z narządów zmysłów jest zaangażowany w komunikacji interaktywnej np. przez dźwięki, tekst, hypertekst, animacja, video, gesty, obrazy, dotyk 19
Narządy zmysłów w codziennym oddziaływaniu otoczenia na człowieka • • • Wzrok Słuch Dotyk Smak Powonienie Każdy z narządów z osobna jest ważny, lecz dopiero razem umożliwiają pełną interakcję człowieka z otoczeniem. Komputery nie umożliwiają tak wszechstronnej interaktywności, ograniczając się do oddziaływania na 20 pierwsze z 3 wyżej wymienionych narządów zmysłów.
Cechy bodźców rozróżniane przez wzrok (w zakresie widzialnym) • intensywność, • kolor, • obrazy 2 D i 3 D • kształty (znaki) • zmiany w czasie (szybkość rejestracji do ok. 60100 na sek). . . . czułość wzroku – w bezksiężycową, bezchmurną noc podobno można spostrzec światło zapałki z odległości 1, 6 km? . 21
Czułość oka 22
Cechy bodźców rozróżniane przez słuch § Zakres częstotliwości – 20 Hz-16000 k. Hz (l =17, 2 m- 2, 15 cm) § Rozróżnianie jednocześnie występujących składowych częstotliwościowych § Reaguje na zmianę częstotliwości § Czuły jest na przestrzenne własności dźwięku (położenie źródła, +echo, pogłos itp. ) § Barwa (rozróżnianie instrumentów muzycznych) § Dźwięki, mowa, muzyka, hałas 23
Cechy bodźców rozróżniane przez dotyk - skóra, język, śluzówka itp. • • • Nacisk Ruchy skóry Różnice temperatury Drgania Ból Szok elektryczny 24
Smak (język) i powonienie • • • Słodki Kwaśny Gorzki Słony Nieokreślony Człowiek jest w stanie rozróżnić ok. 10 000 różnych zapachów 25
Media w transmisji sygnałów Zadaniem technologii mediów jest próba zastąpienia rzeczywistych bodźców sygnałami medialnymi wywołującymi podobne wrażenia u odbiorcy, jak zarejestrowane wcześniej bodźce. 26
Klasyfikacja mediów Czas/przestrzeń ciągłe (w czasie) Dyskretne (w przestrzeni) Dźwięk Ruchome obrazy Mowa Muzyka Animacje Pojedyncze obrazy Tekst Grafika Zarejestrowane z otoczenia Zsyntezowane przez komputery Źródło 27
Sprzęt i oprogramowanie w multimediach Sprzęt komputerowy i odpowiednie oprogramowanie stanowią warunek konieczny istnienia multimediów; są podstawowym narzędziem do emisji przekazu multimedialnego. Są też narzędziem do realizacji konwergencji mediów, czyli do łączenia różnych źródeł przekazu w jednym miejscu i wzajemnego ich przenikania oraz uzupełniania (więcej na ten temat: np. Biblia o multimediach, Rosh 1997) 28
Multimodalny – multimedialny Systemy multimodalne (na ogół dialogowe) • wykorzystują więcej niż jeden zmysł (lub sposób ) w interakcji z użytkownikiem • np. wizualny i słuchowy zmysł: procesor tekstów może jednocześnie wyświetlać wyrazy na monitorze i generować ich postać dźwiękową Systemy multimedialne • wykorzystują różne media do przekazywania informacji • np. komputerowy system wspomagający uczenie: może stosować video, animacje, tekst i nieruchome obrazy: różne media, oddziaływujące wszystkie na jeden receptor wzrokowy. może również wykorzystać dźwięki, zarówno mowę jak i dźwięki nieartykułowane (chrząkanie, gwizd itp. , czy otoczenia), wówczas mamy 2 dodatkowe media oddziaływujące receptor słuchowy na dwa różne sposoby. Przykład systemu dialogowego: na wejściu – mowa, gesty, ekspresja twarzy; na wyjściu – kombinacja obrazów, animacji 29 i mowy syntetycznej
Dźwięk w multimediach • Muzyka • Dźwięki natury i otoczenia • Paradźwięki generowane przez człowieka (chrząkanie, klaskanie, kroki itp. ) • Mowa i komputery: – Kodowanie sygnału mowy • W komunikacji komputerów z użytkownikami – Rozpoznawanie i rozumienie mowy • przez komputer – Synteza mowy • przez komputer 30
Interaktywne edytory sygnałów dźwiękowych Jest to oprogramowanie umożliwiające wizualizację, odsłuchiwanie i przetwarzanie sygnałów akustycznych rejestrowanych przez mikrofon lub inne przetworniki. Istotną cechą edytorów audio tego typu jest to, że za ich pomocą możemy modyfikować strukturę zapisanego w formie cyfrowej dźwięku, wprowadzać dodatkowe opisy poszczególnych jego segmentów. Audacity (Open Source) adobe. RAudition™ Wave. Surfer (Open Source) – Waves+ (Entropic) 31 Praat (Open Source)
Audacity 32
Audition 33
Wave. Surfer 34
Praat 35
Odszumianie – usuwanie z nagrań niepożądanych dźwięków Zależnie od rodzaju i przeznaczenia nagrania zakłóceniami mogą być szumy otoczenia, syki, gwizdy, mowa, muzyka, trzaski, stuki oraz szumy i zakłócenia typu elektrycznego (np. „przydźwięk”), Adaptacyjne odszumianie 36
Dlaczego mowa w systemach multimedialnych ? – Naturalność komunikacji: • Mowa jest najbardziej skutecznym (i na ogół najszybszym), łatwym i powszechnym sposobem porozumiewania się – Skuteczność: • W niektórych sytuacjach jest jedynym, możliwym środkiem porozumienia się – Ekspresja: • Pewne sytuacje, stany emocjonalne, nie są do oddania bez użycia mowy (języka naturalnego) – Niekiedy jedyny środek komunikacji bezpośredniej: • Telefon, radiotelefon itp. z osobami prowadzącymi pojazdy, 37 maszyny itp.
Układ akustyczny odbiornik - ośrodek - źródło 38
Podstawą wszelkiej komunikacji człowiek-człowiek jest język Język – system znaków i określonych reguł fonologicznych, syntaktycznych i semantycznych rządzących kombinacją tych znaków Mowa – język mówiony Pismo – język pisany, obrazki Miganie – język migowy (polski, norweski, niemiecki itp. ) 39
Formalna definicja mowy Mowa jest jednym z wielu sposobów przekazywania informacji. Specyfiką mowy jest to, że ma postać dźwiękową. Jest zazwyczaj kodowana w postaci ciągu dźwięków o określonych charakterystykach. Kod jest specyficzny dla danego języka, co powoduje, że każdy język ma określony dla siebie zbiór dźwięków mowy. 40
W komunikacji człowiek - otoczenie • Mówienie jest szybsze, niż pisanie (wprawna osoba ok. 100 zn/s, słaba - 30 zn/s) • Słuchanie jest łatwiejsze, niż czytanie • Pokazanie jest efektywniejsze, niż opisanie 41
Schemat komunikacji werbalnej 42
Tor audio-wizualny mowy 43
Informacje niesione przez sygnał mowy q Informacje lingwistyczne q Informacje artykulacyjne (fonetyczne) q Informacje emocjonalne q Informacje osobnicze ♠ Informacje społeczne, kulturowe, nawykowe, itp. ♠ Informacje o zaburzeniach organicznych mowy ♠ Informacje o zaburzeniach neurogennych mowy q Informacje o otoczeniu – hałasy, pogłos itp 44
Wszystko jest jasne (znaczenie informacji lingwistycznych) • Zogndie z nanjwoymszi bnaiadmai perzporawdzomyni na btyryijskch uneruwstytetiach nie ma znczeania, w jaikej kloejnśoci nazpsiemy lietry wenątwrz wryazu, blye tlkyo pirwesza i otstaina lreita błyy na soiwch mijsecach. Rtszea mżoe być dolnwoie poszamienina, a mmio to bedęzimy w stniae pczyrzteać tkest bez wikszęego prleobmu. Diezje się tak dlteago, że nie cztaymy kżdeaj z lteir odelndziie, ale wrayz jkao cłoaść. 45 Eric Campbell
Mowa w systemie dialogowym U ż y t k o w n i c y Rozpoznawanie Interpretacja mowy semantyczna wypowiedzi Synteza Generacja Organizacja mowy odpowiedzi dialogu 46
Architektura systemu dialogowego 47
Parametry sygnału mowy oscylogram widmo + formanty poziom wysokość głosu iloczas 48
Wielowarstwowy opis sygnału mowy 49
Potencjalne zastosowania mowy Palmtopy Komórki Urządzenia audio/video Kioski informacyjne zabawki Zastosowania w środkach lokomocji 50
Pierwsze handlowe urządzenie czytające dla niewidomych (1976) – ok. 50 000$ 51 Print-to-speech machine
Synteza mowy 52
Podstawowe elementy systemu TTS 53
Moduł analizy tekstu Moduł ten powinien dostarczyć całą informację dotyczącą tekstu, nie będącą w swej naturze fonetyczną, mającą jednak wpływ na działanie modułu fonetycznego W najprostszych systemach moduł ten dokonuje konwersji znaków nieortograficznych np. liczb. Bardziej rozwinięte systemy dokonują analizy znaków takich jak spacje, znaków przestankowych itp. , w celu dokonania bardziej szczegółowej analizy syntaktycznej i semantycznej tekstu podzielonego na zdania. Analiza ta jest prowadzona pod kątem określenia tych atrybutów, które mogą wspomóc analizę fonetyczną i generację cech 54 prozodycznych
Analiza tekstu Tekst może być analizowany jako jedna z form bardzo efektywnego kodowania mowy z dużą jednak możliwością jego interpretowania pod względem stylu, intonacji, tempa, rytmu itp. Relacja między tekstem pisanym i mówionym jest jednak często niezwykle złożona, szczególnie, gdy mamy do czynienia z tekstami z dodatkowymi opisami, np. przesyłanymi via Internet. Moduł analizy tekstu określa typ i strukturę przetwarzanego dokumentu, dokonuje konwersji nieortograficznych znaków, rozbioru gramatycznego, analizy syntaktycznej, 55 leksykalnej.
Przykład normalizacji tekstu „W doświadczeniach finansowanych przez MEN zastosowano 7% roztwór HCl. ” W doświadczeniach finansowanych przez Ministerstwo Edukacji i Nauki zastosowano siedmioprocentowy roztwór kwasu solnego Np. moduł analizy lingwistycznej musi dokonać interpretacji znaku przestankowego „kropki”, czy jest końcem zdania, czy elementem skrótu. 56
Normalizacja tekstu i analiza lingwistyczna Normalizacja tekstu polega na ujednoliceniu konwersji wszystkich symboli, liczb i znaków nieortograficznych w transkrypcji ortograficznej, w postaci umożliwiającej następnie ich konwersję na ciąg znaków transkrypcji fonetycznej Analiza lingwistyczna tekstu obejmuje wybrane elementy syntaktyczne i semantyczne takie jak słowo, fraza, zdanie, wypowiedź by ocenić ich wpływ na samą wymowę i cechy prozodyczne 57
Moduł analizy tekstu i analizy fonetycznej Morfologia – budowa i odmiana wyrazów 58
Analiza fonetyczna Działanie modułu fonetycznego ma na celu dokonanie konwersji wyrazów przedstawionych w postaci kodu ortograficznego na kod fonetyczny z dodatkowymi informacjami (np. dotyczącymi akcentu), określającymi ich wymowę. Analiza morfologiczna umożliwia określenie wymowy deklinacyjnych i koniugacyjnych form wyrazów znajdujących się w słowniku, a przede wszystkim zmianę znaczenia spowodowaną zmianą dźwięku mowy lub intonacją. 59
Moduł syntezy mowy Moduł ten generuje akustyczny sygnał mowy, na podstawie sekwencji określonych fonemów uzyskanych na podstawie przetwarzania tekstu, wzorców iloczasowych, konturu melodycznego i obwiedni amplitudy Synteza konkatenacyjna 60
Schemat systemu syntezy konkatenacyjnej 61
Problemy w syntezie konkatenacyjnej Wybór jednostek – głoski, difony(diady), sylaby, wyrazy? Jak stworzyć bazę jednostek? Jakie powinny być jej rozmiary? Jak określić optymalny system wyboru i łączenia ze sobą segmentów? Jak modyfikować cechy prozodyczne stworzonego łańcucha segmentów? 62
Difony – wady i zalety Difon – element zawierający w całości przejście między głoskami, poprzedzone częścią głoski poprzedzającej i zakończone częścią głoski następującej 63
Montowanie wypowiedzi z difonów Difon –e. S- Zamiana kodu ortograficznego na kod fonematyczny: Szczebrzeszyn _S St. Se eb b. Z ZI In n_ 64
Przykłady syntezy konkatenacyjnej MBROLA-PL MBROLA-D 65
System optymalnej selekcji segmentów „Konwersja tekstu na mowę. . . . ”” „KONWÓJ” „WERSJA” „ATEST” „TEKST” „TUNEL” „NAMOWA” „TRAWĘ” KONW WERSJA ATE EKST TUN NAMOW WĘ 66
Czy może syntezator coś zaśpiewać ? 67
BALDI http: //cslu. cse. ogi. edu/toolkit/download/ index. html 68
- Slides: 68