2 REPREZENTAREA NUMERIC A SEMNALULUI VOCAL Reprezentarea numeric
- Slides: 24
2. REPREZENTAREA NUMERICĂ A SEMNALULUI VOCAL Reprezentarea numerică implică următoarele operaţii: • eşantionarea efectuată cu o frecvenţă Fe compatibilă cu cerinţele impuse de teorema eşantionării; • cuantizarea fiecărui eşantion cu un pas de cuantizare q, ales în funcţie de precizia dorită pentru reprezentare; • codarea adecvată aplicaţiei particulare.
1. Eşantionarea • spectrul semnalului vocal se poate întinde până la 12 k. Hz ==> ar trebui aleasă o frecvenţă de eşantionare Fe = 24 k. Hz ==> “costuri” (filtrare, transmisie, înregistrare etc. ) ridicate. • în cazul transmisiilor telefonice spectrul semnalului vocal este limitat la 3. 4 k. Hz ==> se alege frecvenţa de eşantionare Fe = 8 k. Hz. • în aplicaţii de sinteză sau recunoaştere a vorbirii, valoarea frecvenţei de eşantionare creşte (de exemplu: Fe = 16 k. Hz). • semnalul audio (voce plus muzică) pretinde o bună reprezentare în domeniul frecvenţă până la peste 20 KHz ==> utilizarea unei frecvenţe de eşantionare Fe = 44 - 48 k. Hz.
2. Cuantizarea • operaţia de cuantizare a eşantioanelor produce o eroare care se comportă ca un zgomot alb suprapus peste semnal. • pasul de cuantizare q va fi impus de către raportul semnal/zgomot dorit. • în cazul transmisiei telefonice fiecare eşantion este reprezentat pe 8 biţi. • cuantizarea semnalului audio necesită o eroare de cuantizare mai mică, folosindu-se cuvinte de 16 biţi. • caracteristica esenţială care rezultă din modul de reprezentare este debitul binar (debitul informaţional) [biţi/s]. • transmisia telefonică necesită un debit de 8000 8 = 64 Kb/s. • transmisia sau înregistrarea unui semnal audio necesită un debit de până la 48000 16 = 768 Kb/s.
3. Codarea a) Codarea directă a semnalului (“wave–form coding” = codarea formei de undă). [PCM – Pulse Code Modulation, DPCM – Differential PCM, ADPCM – Adaptive Differential PCM, DM– Delta Modulation, ADM – Adaptive Delta Modulation, SBC – Sub-Band Coding, ATC – Adaptive Transform Coding etc. ] b) Codarea parametrică (“source coding” = codarea sursei). • parametrii ce caracterizează transmitanţa tractului vocal (câştigul şi coeficienţii ai); • parametrii ce caracterizează modul de excitaţie al tractului vocal (zgomot alb sau tren de impulsuri periodice).
3. PROPRIETĂŢI STATISTICE ALE SEMNALULUI VOCAL • semnalul vocal = realizare particulară a unui proces aleator nestaţionar. • două tipuri de statistică: • statistică pe termen lung - proprietăţile statistice medii ale semnalului vocal sunt estimate pe intervale de timp de ordinul câtorva zeci de secunde şi mediate pe mai mulţi vorbitori; • statistică pe termen scurt - evaluarea proprietăţilor statistice pe tranşe temporale de ordinul a 10 -30 ms, în decursul cărora semnalul poate fi considerat cvasistaţionar.
Reprezentarea în timp a semnalului vocal obţinut la pronunţarea cuvântului “şase”
Caracteristici statistice ale semnalului vocal Principalele caracteristici statistice ale semnalului vocal sunt: • densitatea de probabilitate; • valoarea medie; • varianţa; • rata trecerilor prin zero; • funcţia de autocorelaţie; • funcţia de autocovarianţă; • coeficientul de autocorelaţie; • densitatea spectrală de putere; • densitate spectrală de putere pe termen scurt.
1. Densitatea de probabilitate - reprezintă numărul de eşantioane din semnalul x[n] ale căror amplitudini sunt cuprinse în intervalul atunci când • densitatea de probabilitate a semnalului x[n] (pp. ergodic şi staţionar) • estimări experimentale acestei densităţi de probabilitate, realizate pe segmente de vorbire de ordinul a 50 secunde şi mediate pe câteva zeci de vorbitori, au arătat că această densitate de probabilitate este apropiată de distribuţia Laplace.
Expresiile a 4 legi de repartiţie uzuale
2. Valoarea medie • Valoarea medie a unui semnal staţionar (dacă variabila aleatoare este continuă) este dată de relaţia: • În cazul semnalelor discrete: • Pentru semnalul vocal această medie va fi presupusă nulă (ea nu conţine nici o informaţie utilă).
3. Varianţa • cazul analogic - varianţa este dată de relaţia: • pentru semnale discrete de medie nulă, relaţia de definiţie este: • acest parametru reprezintă energia medie a semnalului.
Evoluţia varianţei (energiei) pe termen scurt a semnalului vocal corespunzător cuvântului “şase”, estimată pe tranşe de 200 eşantioane (25 ms)
4. Rata trecerilor prin zero • Pentru un semnal eşantionat se consideră că există treceri prin zero atunci când două eşantioane succesive au semnul opus. • Rata trecerilor prin zero pe termen scurt se determinată cu formula: - indicele tranşei N = lungimea tranşei • Rata trecerilor prin zero pe termen lung prezintă o repartiţie apropiată de cea gaussiană, cu o valoare medie de 0. 49 pentru fonemele nesonore şi de 0. 14 pentru cele sonore.
Rata trecerilor prin zero pentru cuvântul “şase”
5. Funcţia de autocorelaţie • pentru un semnal aleator discret funcţia de autocorelaţie se exprimă prin speranţa matematică (media statistică): • pentru un semnal staţionar şi ergodic: • pentru o tranşă de lungime finită (N eşantioane):
Proprietăţi ale funcţiei de autocorelaţie: • funcţie pară: • • dacă
6. Funcţia de autocovarianţă • relaţie similară cu cea a funcţiei de autocorelaţie, după ce în prealabil s-a extras valoarea medie: • în cazul semnalului vocal media a fost presupusă nulă ==> funcţia de autocovarianţă = funcţia de autocorelaţie:
7. Coeficientul de autocorelaţie • Coeficientul de autocorelaţie reprezintă funcţia de autocorelaţie normată la valoarea sa maximă: • În cazul tranşei sonore, funcţia de autocorelaţie este cvasiperiodică şi în primul maxim diferit de cel din origine permite determinarea frecvenţei fundamentale • În cazul tranşei nesonore, funcţia de autocorelaţie nu mai este periodică şi în general nu mai conţine maxime comparabile cu cel din origine.
Coeficientul de autocorelaţie pe termen scurt pentru o tranşă sonoră (sus), respectiv nesonoră (jos)
8. Densitatea spectrală de putere • Densitatea spectrală de putere se defineşte prin transformata Fourier a funcţiei de autocorelaţie: • O estimare a acesteia se obţine luând o secvenţă de lungime finită din funcţia de autocorelaţie, utilizând o fereastră de ponderare:
9. Densitatea spectrală de putere pe termen scurt • Pe termen scurt semnalul vocal se poate presupune cvasistaţionar ==> se poate folosi transformata Fourier de la semnalele deterministe: DSP (ts) sonor DSP (ts) nesonor
- True vocal folds and false vocal folds
- What are the two vocal styles in singing in pakistan
- Ecuatia miscarii rectilinii uniforme
- Instructiuni pseudocod
- Harta hipsometrica
- Scrieti in 3 moduri diferite multimile
- Probleme de organizare a datelor
- Quiet wrists and elbows
- The domain of discrete numeric function is
- Python numbers.number
- Data representation types
- Numerical expression example
- Mankoski pain scale
- Numeric outline
- Sas numeric precision
- Numerical expression
- Numeric constant in qbasic
- Isced 2011
- Sqlite numeric type
- Bcd subtraction using 10's complement
- Numeric integral
- Numerical notation
- Numeric indicator
- General alphabetic section of the numeric file
- Straight numeric filing