2 REPREZENTAREA NUMERIC A SEMNALULUI VOCAL Reprezentarea numeric

  • Slides: 24
Download presentation
2. REPREZENTAREA NUMERICĂ A SEMNALULUI VOCAL Reprezentarea numerică implică următoarele operaţii: • eşantionarea efectuată

2. REPREZENTAREA NUMERICĂ A SEMNALULUI VOCAL Reprezentarea numerică implică următoarele operaţii: • eşantionarea efectuată cu o frecvenţă Fe compatibilă cu cerinţele impuse de teorema eşantionării; • cuantizarea fiecărui eşantion cu un pas de cuantizare q, ales în funcţie de precizia dorită pentru reprezentare; • codarea adecvată aplicaţiei particulare.

1. Eşantionarea • spectrul semnalului vocal se poate întinde până la 12 k. Hz

1. Eşantionarea • spectrul semnalului vocal se poate întinde până la 12 k. Hz ==> ar trebui aleasă o frecvenţă de eşantionare Fe = 24 k. Hz ==> “costuri” (filtrare, transmisie, înregistrare etc. ) ridicate. • în cazul transmisiilor telefonice spectrul semnalului vocal este limitat la 3. 4 k. Hz ==> se alege frecvenţa de eşantionare Fe = 8 k. Hz. • în aplicaţii de sinteză sau recunoaştere a vorbirii, valoarea frecvenţei de eşantionare creşte (de exemplu: Fe = 16 k. Hz). • semnalul audio (voce plus muzică) pretinde o bună reprezentare în domeniul frecvenţă până la peste 20 KHz ==> utilizarea unei frecvenţe de eşantionare Fe = 44 - 48 k. Hz.

2. Cuantizarea • operaţia de cuantizare a eşantioanelor produce o eroare care se comportă

2. Cuantizarea • operaţia de cuantizare a eşantioanelor produce o eroare care se comportă ca un zgomot alb suprapus peste semnal. • pasul de cuantizare q va fi impus de către raportul semnal/zgomot dorit. • în cazul transmisiei telefonice fiecare eşantion este reprezentat pe 8 biţi. • cuantizarea semnalului audio necesită o eroare de cuantizare mai mică, folosindu-se cuvinte de 16 biţi. • caracteristica esenţială care rezultă din modul de reprezentare este debitul binar (debitul informaţional) [biţi/s]. • transmisia telefonică necesită un debit de 8000 8 = 64 Kb/s. • transmisia sau înregistrarea unui semnal audio necesită un debit de până la 48000 16 = 768 Kb/s.

3. Codarea a) Codarea directă a semnalului (“wave–form coding” = codarea formei de undă).

3. Codarea a) Codarea directă a semnalului (“wave–form coding” = codarea formei de undă). [PCM – Pulse Code Modulation, DPCM – Differential PCM, ADPCM – Adaptive Differential PCM, DM– Delta Modulation, ADM – Adaptive Delta Modulation, SBC – Sub-Band Coding, ATC – Adaptive Transform Coding etc. ] b) Codarea parametrică (“source coding” = codarea sursei). • parametrii ce caracterizează transmitanţa tractului vocal (câştigul şi coeficienţii ai); • parametrii ce caracterizează modul de excitaţie al tractului vocal (zgomot alb sau tren de impulsuri periodice).

3. PROPRIETĂŢI STATISTICE ALE SEMNALULUI VOCAL • semnalul vocal = realizare particulară a unui

3. PROPRIETĂŢI STATISTICE ALE SEMNALULUI VOCAL • semnalul vocal = realizare particulară a unui proces aleator nestaţionar. • două tipuri de statistică: • statistică pe termen lung - proprietăţile statistice medii ale semnalului vocal sunt estimate pe intervale de timp de ordinul câtorva zeci de secunde şi mediate pe mai mulţi vorbitori; • statistică pe termen scurt - evaluarea proprietăţilor statistice pe tranşe temporale de ordinul a 10 -30 ms, în decursul cărora semnalul poate fi considerat cvasistaţionar.

Reprezentarea în timp a semnalului vocal obţinut la pronunţarea cuvântului “şase”

Reprezentarea în timp a semnalului vocal obţinut la pronunţarea cuvântului “şase”

Caracteristici statistice ale semnalului vocal Principalele caracteristici statistice ale semnalului vocal sunt: • densitatea

Caracteristici statistice ale semnalului vocal Principalele caracteristici statistice ale semnalului vocal sunt: • densitatea de probabilitate; • valoarea medie; • varianţa; • rata trecerilor prin zero; • funcţia de autocorelaţie; • funcţia de autocovarianţă; • coeficientul de autocorelaţie; • densitatea spectrală de putere; • densitate spectrală de putere pe termen scurt.

1. Densitatea de probabilitate - reprezintă numărul de eşantioane din semnalul x[n] ale căror

1. Densitatea de probabilitate - reprezintă numărul de eşantioane din semnalul x[n] ale căror amplitudini sunt cuprinse în intervalul atunci când • densitatea de probabilitate a semnalului x[n] (pp. ergodic şi staţionar) • estimări experimentale acestei densităţi de probabilitate, realizate pe segmente de vorbire de ordinul a 50 secunde şi mediate pe câteva zeci de vorbitori, au arătat că această densitate de probabilitate este apropiată de distribuţia Laplace.

Expresiile a 4 legi de repartiţie uzuale

Expresiile a 4 legi de repartiţie uzuale

2. Valoarea medie • Valoarea medie a unui semnal staţionar (dacă variabila aleatoare este

2. Valoarea medie • Valoarea medie a unui semnal staţionar (dacă variabila aleatoare este continuă) este dată de relaţia: • În cazul semnalelor discrete: • Pentru semnalul vocal această medie va fi presupusă nulă (ea nu conţine nici o informaţie utilă).

3. Varianţa • cazul analogic - varianţa este dată de relaţia: • pentru semnale

3. Varianţa • cazul analogic - varianţa este dată de relaţia: • pentru semnale discrete de medie nulă, relaţia de definiţie este: • acest parametru reprezintă energia medie a semnalului.

Evoluţia varianţei (energiei) pe termen scurt a semnalului vocal corespunzător cuvântului “şase”, estimată pe

Evoluţia varianţei (energiei) pe termen scurt a semnalului vocal corespunzător cuvântului “şase”, estimată pe tranşe de 200 eşantioane (25 ms)

4. Rata trecerilor prin zero • Pentru un semnal eşantionat se consideră că există

4. Rata trecerilor prin zero • Pentru un semnal eşantionat se consideră că există treceri prin zero atunci când două eşantioane succesive au semnul opus. • Rata trecerilor prin zero pe termen scurt se determinată cu formula: - indicele tranşei N = lungimea tranşei • Rata trecerilor prin zero pe termen lung prezintă o repartiţie apropiată de cea gaussiană, cu o valoare medie de 0. 49 pentru fonemele nesonore şi de 0. 14 pentru cele sonore.

Rata trecerilor prin zero pentru cuvântul “şase”

Rata trecerilor prin zero pentru cuvântul “şase”

5. Funcţia de autocorelaţie • pentru un semnal aleator discret funcţia de autocorelaţie se

5. Funcţia de autocorelaţie • pentru un semnal aleator discret funcţia de autocorelaţie se exprimă prin speranţa matematică (media statistică): • pentru un semnal staţionar şi ergodic: • pentru o tranşă de lungime finită (N eşantioane):

Proprietăţi ale funcţiei de autocorelaţie: • funcţie pară: • • dacă

Proprietăţi ale funcţiei de autocorelaţie: • funcţie pară: • • dacă

6. Funcţia de autocovarianţă • relaţie similară cu cea a funcţiei de autocorelaţie, după

6. Funcţia de autocovarianţă • relaţie similară cu cea a funcţiei de autocorelaţie, după ce în prealabil s-a extras valoarea medie: • în cazul semnalului vocal media a fost presupusă nulă ==> funcţia de autocovarianţă = funcţia de autocorelaţie:

7. Coeficientul de autocorelaţie • Coeficientul de autocorelaţie reprezintă funcţia de autocorelaţie normată la

7. Coeficientul de autocorelaţie • Coeficientul de autocorelaţie reprezintă funcţia de autocorelaţie normată la valoarea sa maximă: • În cazul tranşei sonore, funcţia de autocorelaţie este cvasiperiodică şi în primul maxim diferit de cel din origine permite determinarea frecvenţei fundamentale • În cazul tranşei nesonore, funcţia de autocorelaţie nu mai este periodică şi în general nu mai conţine maxime comparabile cu cel din origine.

Coeficientul de autocorelaţie pe termen scurt pentru o tranşă sonoră (sus), respectiv nesonoră (jos)

Coeficientul de autocorelaţie pe termen scurt pentru o tranşă sonoră (sus), respectiv nesonoră (jos)

8. Densitatea spectrală de putere • Densitatea spectrală de putere se defineşte prin transformata

8. Densitatea spectrală de putere • Densitatea spectrală de putere se defineşte prin transformata Fourier a funcţiei de autocorelaţie: • O estimare a acesteia se obţine luând o secvenţă de lungime finită din funcţia de autocorelaţie, utilizând o fereastră de ponderare:

9. Densitatea spectrală de putere pe termen scurt • Pe termen scurt semnalul vocal

9. Densitatea spectrală de putere pe termen scurt • Pe termen scurt semnalul vocal se poate presupune cvasistaţionar ==> se poate folosi transformata Fourier de la semnalele deterministe: DSP (ts) sonor DSP (ts) nesonor