Multimedija Milo Stojmenovi Audio Pregled Lyre ptica Audio

Pregled • Lyre ptica • Audio Kompresija – – • • PCM Nyquist-Shannon-Kotelnikov Uvo

Lyrebird • Australijske ptice koje ne lete, I imaju 2 osobine – Prelep rep,

www. lyrebird. ai • Firma koja razvija tehnologiju imitiranja govora • Nakon 1 minuta

Audio Kompresija • Lossless Audio Compression (bez gubitaka) – – Apple Lossless apt-X Lossless

Reprezentacija Digitalnih Audio Signala - PCM • Pulse Coded Modulation (PCM) • Digitalna Reprezentacija

Reprezentacija Digitalnih Audio Signala - PCM • Mogući brojevi u digitalnom PCM zapisu zavise

Nyquist-Shannon-Kotelnikov Sampling Teorija • Teorija koja spaja analogne (kontinualne) I digitalne signale – tako

Bit Depth – Bitna Dubina • Audio CD je koristio 16 – bitne uzorke

Audio Kompresija • Delta coding – Kao u MPG 4 video kodovanju, samo se

Kompresija Glasa VS Zvuka • Mobilna telefonija (GSM) može da uzima samo 8000 samples/sec

Audio Kompresija & Standardi • Sub-band coding – Zvuk se deli u grupe po

Sluh • Pinna – Skuplja zvuk • Ušni kanal – pojačava zvuk • Bubna

Sluh • Unutrašnje uho – – Ovalni prozor – pojačava zvuk 15 -20 puta

Basilarna Membrana • Jaki peak-ovi zvučnog signala prouzrokuju vibraciju koja ne prestaje nekoliko milisekundi

Kompresija Zvuka • Postoje velike razlike u načinu naše interpretacije zvuka i slike –

Kompresija Zvuka • Naša percepcija jačine zvuka je logaritmična s obzirom na njegovu amplitudu

μ – Zakon • Većina signala je bliža slabijim signalima nego jačim • Jače

Decibali • Intenzitet zvuka β u decibalima, koji ima intenzitet I u Watt-ima po

Decibali Intenzitet I Zvuk β (d. B) (W/m 2) Primer / efekat 0 1

Perceptivno Kodiranje • Apsolutna granica sluha: količina potrebne energije čistog tona da bi slušaoc

Frekventno Maskiranje • Jak ‘peak’ ili vrh frekventnog talasa maskira sve manje talase u

Vremensko Maskiranje • Jak ‘peak’ ili vrih talasa maskira sve manje talase pre I

Frekventno/Vremensko Maskiranje • 3 D interpretacija frekventnog i vremenskog maskiranja

Psihoakustika • Efekat maskiranja signala u DB – frekventnom domenu • Površina ispod svake

Perceptivno Audio Kodiranje • Podeli se audio signal u 32 frekventna pod domena (band)

Perceptivno Audio Kodiranje • Analaza filter banke: razdvajanje ulaznog signala na 32 opsega (band-a)

Perceptivno Audio Kodiranje: Primer • Prvih 16 bandova mogu da imaju ovakav zapis zvukova

Mp 3 • MPEG Audio Layer-3 se popularno zove MP 3 • Deli originalni

Mp 3 • Procedura kompresovanja: • FFT: Fast Fourier Transform – Pretvara signal iz

Fast Fourier Transform • Ulazni signal je konačan, i sa manjim zapisom se pamti

Modified Discreet Cosine Transform • I FFT I DCT pretvaraju niz diskretnih I konačnih

Modified Discreet Cosine Transform • Signal se deli u frame-ove, odnosno blokove frameova •

AAC • Advanced Audio Coding • Isti koncept kao mp 3, sa istim pristupom

AM FM radio • AM – Amplitude Modulation • FM – Frequency Modulation •

AM FM Radio • Svaka FM stanica dobije 200 k. Hz prostora (bandwidth-a) za

3 D Audio • Zvučni efekti koji manipulišu zvuk iz raznih konfiguracija zvučnika –

3 D Audio • Dobro procenjujemo ugao iz kojeg dolazi zvuk u dovoljno viskim

Zvučna Senka od Glave • Lokalizacija bolje radi kad je zvuk levo ili desno

Zvučna Senka od Glave • Mozak računa poziciju izvora zvuka na osnovu vremenske razlike

Head-related transfer function • HRTF snima efekat glave na signal koji se emituje iz

Head-related transfer function • Specijalni 3 D mikrofoni se koriste za ovu vrstu snimanja

Slides: 44

Download presentation

Multimedija Miloš Stojmenović Audio

Pregled • Lyre ptica • Audio Kompresija – – • • PCM Nyquist-Shannon-Kotelnikov Uvo Decibali AM-FM radio MP 3 AAC 3 D Audio VS Surround Sound

Lyrebird • Australijske ptice koje ne lete, I imaju 2 osobine – Prelep rep, kao paun – Moć imitiranja skoro bilo kog zvuka

www. lyrebird. ai • Firma koja razvija tehnologiju imitiranja govora • Nakon 1 minuta slušanja nečijeg glasa, softver ubedljivo imitira isti

Audio Kompresija • Lossless Audio Compression (bez gubitaka) – – Apple Lossless apt-X Lossless Audio Lossless Coding Direct Stream Transfer (DST) – Dolby True. HD – DTS-HD Master Audio – Free Lossless Audio Codec 4 • Lossy Audio Compression (sa gubitcima) – – – AAC ADPCM ATRAC Dolby AC-3 MP 2 MP 3

Reprezentacija Digitalnih Audio Signala - PCM • Pulse Coded Modulation (PCM) • Digitalna Reprezentacija samplovanih analognih audio signala • Standardni format audio zapisa u kompjuteru – Koristi se u VOIP-u, i skoro svim audio formatima • Amplituda analognog signala se meri (sampluje) u regularnim intervalima • Svaki sample se kvantizuje na najbližu vrednost od datih mogućnosti

PCM Kodovanje

Reprezentacija Digitalnih Audio Signala - PCM • Mogući brojevi u digitalnom PCM zapisu zavise od bitovne dubine koja se izabere za reprezentaciju koda – Što veća dubina, to bolja reprodukcija originalnog signala • PCM ima dve osnovne karakteristike koje diktiraju kvalitet reprodukovanja originalnog signala: – Sampling rate – Bit depth • Koliko često treba da se uzima uzorak zvuka?

Nyquist-Shannon-Kotelnikov Sampling Teorija • Teorija koja spaja analogne (kontinualne) I digitalne signale – tako da digitalna reprezentacija ne gubi informaciju koju analogni signal salje • Nyquist: – Ako ulazni signal ima frekvenciju f, frekvencija samplovanja mora da bude najmanje 2 f

Bit Depth – Bitna Dubina • Audio CD je koristio 16 – bitne uzorke • DVD I Blu. Ray koriste 24 – bitne uzorke • Bez kompresije, 16 -bitni stereo audio signal zauzima 1. 4 Mbit/sekundi prostora • 44, 1 ksample/s * 16 bits/sample * 2 kanala (stereo) = 1, 4112 Mbit/s • MPEG audio kompresija ovo smanjuje za factor 12 ili 24 – Mp 3 ili AAC • Kompresovan audio se obično svede na 128 kbit/sekuni

Audio Kompresija • Delta coding – Kao u MPG 4 video kodovanju, samo se razlike pamte • Prediktivno kodovanje – Predvidi se sledeći deo (ciklus) zvuka • Variable Rate Encoding – Ne koduje tišinu • Linear Predictive Coding (LPC) (za govor) – LPC-10 E (2. 4 kb/s) – Razloži govor na osnovne frekvencije i zvuke

Kompresija Glasa VS Zvuka • Mobilna telefonija (GSM) može da uzima samo 8000 samples/sec za reprodukciju kvalitetnog zvuka – Global System for Mobile Communications • Dovoljno je da emituje 1625 byte/sec • LPC počinje sa pretpostavkom da je glasni signal generisan pomoću zvučnog signala koji putuje kroz tubu – Na to se dodaje povremeni zvuk ‘sssss’ I ‘p’ • Običan zvuk (muzika, film, itd) zahteva mnogo veci sample rate – Ne mogu iste pretpostavke da se naprave o glasu kao o opsegu generalnog zvuka

Audio Kompresija & Standardi • Sub-band coding – Zvuk se deli u grupe po frekvencijama – Svaka grupa se kompresuje i koduje posebno • Psycho-acoustical coding – Briše zvuke koji se ne mogu čuti – Kompleksni modeli kompresovanja – MPEG Audio Layers • Layer-2: Od 32 kbps do 384 kbps, kompresija 1: 8 • Ciljani bit rate 128 kbps • Layer-3: Od 32 kbps do 320 kbps, kompresija 1: 12 • Ciljani bit rate 64 kbps

Sluh • Pinna – Skuplja zvuk • Ušni kanal – pojačava zvuk • Bubna opna – pretvara zvuk u vibracije • Srednje uvo – čekić, nakovanj (incus), uzengija (stapes) – Prebacuje vibracije na tečnost unutrašnjeg uha – Pegla i filtrira zvuk

Sluh • Unutrašnje uho – – Ovalni prozor – pojačava zvuk 15 -20 puta • Basilarna Membrana – Glavni deo Cochlea – Rastavlja zvuk na frekvencije – Ako je peak (najjači deo) ulaznih frekvencija sličan, uvo ne može da ih raspozna: Simultano Maskiranje

Basilarna Membrana • Jaki peak-ovi zvučnog signala prouzrokuju vibraciju koja ne prestaje nekoliko milisekundi – Temporal Masking

Kompresija Zvuka • Postoje velike razlike u načinu naše interpretacije zvuka i slike – Način kompresije se pravi u skladu sa našom fiziologijom • Visoke frekvencije mogu da se odbace u kompresiji slike • Visoke frekvencije u zvuku su jako bitno, pa ih moramo ozbiljno uzeti u obzir

Kompresija Zvuka • Naša percepcija jačine zvuka je logaritmična s obzirom na njegovu amplitudu • Na slici, ne vidimo razliku u sličnim tonovima boje • Sa zvukom, ne vidimo linearnu razliku u jačini zvuka – Sa manje bitova može da se predstavi jačina zvuka

μ – Zakon • Većina signala je bliža slabijim signalima nego jačim • Jače signale svakako slabije raspoznajemo • Jači signali mogu da se zapišu uz pomoć manjeg broja bitova • Vrsta analogne kompresije koja se koristi u telefoniji • Postiže 2: 1 kompresiju

Decibali • Intenzitet zvuka β u decibalima, koji ima intenzitet I u Watt-ima po kvadratnom metro, se dobije kao: • Gde je • Mera je logaritmična jer se naš sluh ponaša isto • Logaritmično nam opada sposobnost da ralikujemo jačinu glasnh zvukova

Decibali Intenzitet I Zvuk β (d. B) (W/m 2) Primer / efekat 0 1 E-12 Granica ispod koje ne čujemo (1000 Hz) (uglavnom) 10 1 E-11 Šuštanje lišća 20 1 E-10 Šaputanje sa 1 m razdaljine 30 1 E-09 Tiha kuća 40 1 E-08 Prosečna kuća 50 1 E-07 Prosečna kancelarija, tiha muzika 60 1 E-06 Normalan razgovor 70 1 E-05 Bučna kancelarija, gust saobraćaj 80 1 E-04 Glasni radio, predavanje 90 1 E-03 U šleperu; oštećen zvuk od predugog izlaganja istog Glasna fabrika, sirena na 30 m; oštećenje od slušanja 8 h 100 1 E-02 dnevno 110 1 E-01 Dugoročno oštećenje od 30 minuta slušanja Glasni rock koncert, pneumatska drobilica na 2 m; granica 120 1 bola 140 100 Mlazni avion na 30 m; jak bol, oštećenje za par sekundi 160 10000 Pucaju bubne opne

Perceptivno Kodiranje • Apsolutna granica sluha: količina potrebne energije čistog tona da bi slušaoc čuo • Uvo čuje od 20 Hz do 20 k. Hz • Najbolje čuje od 1 k. Hz do 4 k. Hz • Žene: 2504 k. Hz • Muškarci: 150 -3. 6 k. Hz

Frekventno Maskiranje • Jak ‘peak’ ili vrh frekventnog talasa maskira sve manje talase u okolini u istom trenutku – Uvo ne može da ih čuje

Vremensko Maskiranje • Jak ‘peak’ ili vrih talasa maskira sve manje talase pre I posle njega u određenom vremenskom periodu – Uvo ne može da ih čuje • Postoji kašnjenju u procesiranju zvuka u ušima zbog kojeg dolazi do maskiranja pre jačeg zvuka

Frekventno/Vremensko Maskiranje • 3 D interpretacija frekventnog i vremenskog maskiranja

Psihoakustika • Efekat maskiranja signala u DB – frekventnom domenu • Površina ispod svake krive se ne čuje • Svaki jači zvuk (pod DB) maskira sve slabije iste frekvencije

Psihoakustika

Perceptivno Audio Kodiranje • Podeli se audio signal u 32 frekventna pod domena (band) • Izračunati količinu maskiranja u svakom pod domenu zbog okolnih pod domena uz pomoć psiho-akustičnog modela • Ako je snaga signala (DB) u datom opsegu ispod praga maskiranja, taj signal se ignoriše • Ako nije, nađi potreban broj bitova za reprezentaciju signala • Formatiraj i koduj Bitstream

Perceptivno Audio Kodiranje • Analaza filter banke: razdvajanje ulaznog signala na 32 opsega (band-a) • Perceptivni model: izbacivanje signala koji se ne čuju • Kvantizacija i kodiranje: odlučivanje o bitnoj reprezentaciji svakog signala • Kodiranje bistream-a: signali koji su prosli sve prethodne filtere se pakuju i kompresuju

Perceptivno Audio Kodiranje: Primer • Prvih 16 bandova mogu da imaju ovakav zapis zvukova (po jačini): Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Db 0 8 12 10 60 35 20 15 2 3 5 3 1 • 8 -mi band ima jačinu 60 d. B => – Jačina maskiranja je 12 d. B u 7. bandu, i 15 d. B u 9. bandu – 7. band se ignoriše jer je preslab zvuk – 9. nivo je na 35 db, ali se to umanji na 20 db efektivno zbog maskiranja – Broj potrebnih bitova da se predstavi jačina 20 je manji nego za jačinu 35 (umanjen za 2 bita)

Mp 3 • MPEG Audio Layer-3 se popularno zove MP 3 • Deli originalni signal u 32 band-a • Podaci se dele u framove • Svaki frame ima 12 x 32 = 384 uzorka • Layer 1 analizira svaki frame odvojeno Layeri 2 i 3 analiziraju po 3 frame-a odjednom

Mp 3 • Procedura kompresovanja: • FFT: Fast Fourier Transform – Pretvara signal iz vremenskog u frekventni domen • MDCT: Modified Discreet Cosine Transform – Pretvara signal u linearnu kombinaciju cosinusnih funkcija, kao u JPEG kompresiji – Najbitniji koeficijenti su na početku funkcije

Fast Fourier Transform • Ulazni signal je konačan, i sa manjim zapisom se pamti u frekventom domenu

Modified Discreet Cosine Transform • I FFT I DCT pretvaraju niz diskretnih I konačnih vrednosti u zbir skaliranih i pomerenih (shifted) osnovnih funkicja – FFT pretvara u frekventni domen, i izražava se kao zbir eksponencionalnih funkcija – DCT se izražava kao zbir kosinusnih funkcija sa realnim vrednostima • Težina i važnost koeficijenata u DCT tranformu opadaju – Najbitniji koeficijenti su na početku • Za razliku od oka, uvo čuje razliku kada se eliminišu mali koeficijenti

Modified Discreet Cosine Transform • Signal se deli u frame-ove, odnosno blokove frameova • Običan DCT bi pravio šum i isprekidan signal između odvojenih obrađenih blokova • MDCT uzima u obzir prelaz između blokova radi neprimetnog obrađivanja signala

AAC • Advanced Audio Coding • Isti koncept kao mp 3, sa istim pristupom kompresiji – Izbacuje zvuke koji se ne mogu čuti • Razlike: – Veći raspon ulaznih frekvencija (od 8 do 96 k. Hz), gde MP 3 uzima od 16 to 48 k. Hz – Koduje do 48 kanala (MP 3 podržava do 5. 1 kanala) – AAC koristi blokove veličine 1024 ili 960 sample-a, što je efikasnije od 576 sample-a što koristi MP 3 • Fleksibilniji standard od MP 3, ali ne toliko popularan • Bolji zvuk AAC-a u jednakom bitrate-u kada se uporedi sa MP 3 zapisom

AM FM radio • AM – Amplitude Modulation • FM – Frequency Modulation • AM – informacija se prenosi pomoću promene u amplitudi signala • FM – informacija se prenosi pomoću promene u frekvenciji signala • 1898, Nikola Tesla pokazao bežično kontrolisanje čamca u NY-u • Guglielmo Marconi: poslao i primio prvi radio signal u italiji, 1895

AM FM Radio • Svaka FM stanica dobije 200 k. Hz prostora (bandwidth-a) za emitovanje stereo signala

3 D Audio • Zvučni efekti koji manipulišu zvuk iz raznih konfiguracija zvučnika – Stereo, surround sound, speaker array, slušalice • Pravi se virtuelni plasman izvora zvuka bilo gde u 3 d prostoru oko slušaoca

3 D Audio • Dobro procenjujemo ugao iz kojeg dolazi zvuk u dovoljno viskim frekvencijama • Mnogo gore procenjujemo visinu sa koje se emituje zvuk

Zvučna Senka od Glave • Lokalizacija bolje radi kad je zvuk levo ili desno od nas • Glava abzorbuje zvuk visokih frekvencija koji prolazi kroz nju

Zvučna Senka od Glave • Mozak računa poziciju izvora zvuka na osnovu vremenske razlike primanja zvuka • Kada je 90 stepeni okrenuta glava zvuku, interval primanja zvuka je 0. 6 ms • Da imamo I trece uvo, mogli bi bolje da raspoznajemo lokaciju zvuka u 3 d prostoru

Head-related transfer function • HRTF snima efekat glave na signal koji se emituje iz određene tačke • Veličina i oblik glave, ušiju, ušnog kanala, gustina glave, itd menjaju percepciju zvuka • Snimanje 3 D Audia se radi/lo pomoću specijalnog uređaja

Head-related transfer function • Specijalni 3 D mikrofoni se koriste za ovu vrstu snimanja • 3 D Audio je bitan u polju virtuelne realnosti