2 REPREZENTAREA NUMERIC A SEMNALULUI VOCAL Reprezentarea numeric

2. REPREZENTAREA NUMERICĂ A SEMNALULUI VOCAL Reprezentarea numerică implică următoarele operaţii: • eşantionarea efectuată

1. Eşantionarea • spectrul semnalului vocal se poate întinde până la 12 k. Hz

2. Cuantizarea • operaţia de cuantizare a eşantioanelor produce o eroare care se comportă

3. Codarea a) Codarea directă a semnalului (“wave–form coding” = codarea formei de undă).

3. PROPRIETĂŢI STATISTICE ALE SEMNALULUI VOCAL • semnalul vocal = realizare particulară a unui

Reprezentarea în timp a semnalului vocal obţinut la pronunţarea cuvântului “şase”

Caracteristici statistice ale semnalului vocal Principalele caracteristici statistice ale semnalului vocal sunt: • densitatea

1. Densitatea de probabilitate - reprezintă numărul de eşantioane din semnalul x[n] ale căror

Expresiile a 4 legi de repartiţie uzuale

2. Valoarea medie • Valoarea medie a unui semnal staţionar (dacă variabila aleatoare este

3. Varianţa • cazul analogic - varianţa este dată de relaţia: • pentru semnale

Evoluţia varianţei (energiei) pe termen scurt a semnalului vocal corespunzător cuvântului “şase”, estimată pe

4. Rata trecerilor prin zero • Pentru un semnal eşantionat se consideră că există

Rata trecerilor prin zero pentru cuvântul “şase”

5. Funcţia de autocorelaţie • pentru un semnal aleator discret funcţia de autocorelaţie se

Proprietăţi ale funcţiei de autocorelaţie: • funcţie pară: • • dacă

6. Funcţia de autocovarianţă • relaţie similară cu cea a funcţiei de autocorelaţie, după

7. Coeficientul de autocorelaţie • Coeficientul de autocorelaţie reprezintă funcţia de autocorelaţie normată la

Coeficientul de autocorelaţie pe termen scurt pentru o tranşă sonoră (sus), respectiv nesonoră (jos)

8. Densitatea spectrală de putere • Densitatea spectrală de putere se defineşte prin transformata

9. Densitatea spectrală de putere pe termen scurt • Pe termen scurt semnalul vocal

Slides: 24

Download presentation

2. REPREZENTAREA NUMERICĂ A SEMNALULUI VOCAL Reprezentarea numerică implică următoarele operaţii: • eşantionarea efectuată cu o frecvenţă Fe compatibilă cu cerinţele impuse de teorema eşantionării; • cuantizarea fiecărui eşantion cu un pas de cuantizare q, ales în funcţie de precizia dorită pentru reprezentare; • codarea adecvată aplicaţiei particulare.

1. Eşantionarea • spectrul semnalului vocal se poate întinde până la 12 k. Hz ==> ar trebui aleasă o frecvenţă de eşantionare Fe = 24 k. Hz ==> “costuri” (filtrare, transmisie, înregistrare etc. ) ridicate. • în cazul transmisiilor telefonice spectrul semnalului vocal este limitat la 3. 4 k. Hz ==> se alege frecvenţa de eşantionare Fe = 8 k. Hz. • în aplicaţii de sinteză sau recunoaştere a vorbirii, valoarea frecvenţei de eşantionare creşte (de exemplu: Fe = 16 k. Hz). • semnalul audio (voce plus muzică) pretinde o bună reprezentare în domeniul frecvenţă până la peste 20 KHz ==> utilizarea unei frecvenţe de eşantionare Fe = 44 - 48 k. Hz.

2. Cuantizarea • operaţia de cuantizare a eşantioanelor produce o eroare care se comportă ca un zgomot alb suprapus peste semnal. • pasul de cuantizare q va fi impus de către raportul semnal/zgomot dorit. • în cazul transmisiei telefonice fiecare eşantion este reprezentat pe 8 biţi. • cuantizarea semnalului audio necesită o eroare de cuantizare mai mică, folosindu-se cuvinte de 16 biţi. • caracteristica esenţială care rezultă din modul de reprezentare este debitul binar (debitul informaţional) [biţi/s]. • transmisia telefonică necesită un debit de 8000 8 = 64 Kb/s. • transmisia sau înregistrarea unui semnal audio necesită un debit de până la 48000 16 = 768 Kb/s.

3. Codarea a) Codarea directă a semnalului (“wave–form coding” = codarea formei de undă). [PCM – Pulse Code Modulation, DPCM – Differential PCM, ADPCM – Adaptive Differential PCM, DM– Delta Modulation, ADM – Adaptive Delta Modulation, SBC – Sub-Band Coding, ATC – Adaptive Transform Coding etc. ] b) Codarea parametrică (“source coding” = codarea sursei). • parametrii ce caracterizează transmitanţa tractului vocal (câştigul şi coeficienţii ai); • parametrii ce caracterizează modul de excitaţie al tractului vocal (zgomot alb sau tren de impulsuri periodice).

3. PROPRIETĂŢI STATISTICE ALE SEMNALULUI VOCAL • semnalul vocal = realizare particulară a unui proces aleator nestaţionar. • două tipuri de statistică: • statistică pe termen lung - proprietăţile statistice medii ale semnalului vocal sunt estimate pe intervale de timp de ordinul câtorva zeci de secunde şi mediate pe mai mulţi vorbitori; • statistică pe termen scurt - evaluarea proprietăţilor statistice pe tranşe temporale de ordinul a 10 -30 ms, în decursul cărora semnalul poate fi considerat cvasistaţionar.

Reprezentarea în timp a semnalului vocal obţinut la pronunţarea cuvântului “şase”

Caracteristici statistice ale semnalului vocal Principalele caracteristici statistice ale semnalului vocal sunt: • densitatea de probabilitate; • valoarea medie; • varianţa; • rata trecerilor prin zero; • funcţia de autocorelaţie; • funcţia de autocovarianţă; • coeficientul de autocorelaţie; • densitatea spectrală de putere; • densitate spectrală de putere pe termen scurt.

1. Densitatea de probabilitate - reprezintă numărul de eşantioane din semnalul x[n] ale căror amplitudini sunt cuprinse în intervalul atunci când • densitatea de probabilitate a semnalului x[n] (pp. ergodic şi staţionar) • estimări experimentale acestei densităţi de probabilitate, realizate pe segmente de vorbire de ordinul a 50 secunde şi mediate pe câteva zeci de vorbitori, au arătat că această densitate de probabilitate este apropiată de distribuţia Laplace.

Expresiile a 4 legi de repartiţie uzuale

2. Valoarea medie • Valoarea medie a unui semnal staţionar (dacă variabila aleatoare este continuă) este dată de relaţia: • În cazul semnalelor discrete: • Pentru semnalul vocal această medie va fi presupusă nulă (ea nu conţine nici o informaţie utilă).

3. Varianţa • cazul analogic - varianţa este dată de relaţia: • pentru semnale discrete de medie nulă, relaţia de definiţie este: • acest parametru reprezintă energia medie a semnalului.

Evoluţia varianţei (energiei) pe termen scurt a semnalului vocal corespunzător cuvântului “şase”, estimată pe tranşe de 200 eşantioane (25 ms)

4. Rata trecerilor prin zero • Pentru un semnal eşantionat se consideră că există treceri prin zero atunci când două eşantioane succesive au semnul opus. • Rata trecerilor prin zero pe termen scurt se determinată cu formula: - indicele tranşei N = lungimea tranşei • Rata trecerilor prin zero pe termen lung prezintă o repartiţie apropiată de cea gaussiană, cu o valoare medie de 0. 49 pentru fonemele nesonore şi de 0. 14 pentru cele sonore.

Rata trecerilor prin zero pentru cuvântul “şase”

5. Funcţia de autocorelaţie • pentru un semnal aleator discret funcţia de autocorelaţie se exprimă prin speranţa matematică (media statistică): • pentru un semnal staţionar şi ergodic: • pentru o tranşă de lungime finită (N eşantioane):

Proprietăţi ale funcţiei de autocorelaţie: • funcţie pară: • • dacă

6. Funcţia de autocovarianţă • relaţie similară cu cea a funcţiei de autocorelaţie, după ce în prealabil s-a extras valoarea medie: • în cazul semnalului vocal media a fost presupusă nulă ==> funcţia de autocovarianţă = funcţia de autocorelaţie:

7. Coeficientul de autocorelaţie • Coeficientul de autocorelaţie reprezintă funcţia de autocorelaţie normată la valoarea sa maximă: • În cazul tranşei sonore, funcţia de autocorelaţie este cvasiperiodică şi în primul maxim diferit de cel din origine permite determinarea frecvenţei fundamentale • În cazul tranşei nesonore, funcţia de autocorelaţie nu mai este periodică şi în general nu mai conţine maxime comparabile cu cel din origine.

Coeficientul de autocorelaţie pe termen scurt pentru o tranşă sonoră (sus), respectiv nesonoră (jos)

8. Densitatea spectrală de putere • Densitatea spectrală de putere se defineşte prin transformata Fourier a funcţiei de autocorelaţie: • O estimare a acesteia se obţine luând o secvenţă de lungime finită din funcţia de autocorelaţie, utilizând o fereastră de ponderare:

9. Densitatea spectrală de putere pe termen scurt • Pe termen scurt semnalul vocal se poate presupune cvasistaţionar ==> se poate folosi transformata Fourier de la semnalele deterministe: DSP (ts) sonor DSP (ts) nesonor