1 INTRODUCERE N PRELUCRAREA SEMNALULUI VOCAL 1 1

1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL 1. 1. Obiectivele prelucrării semnalului vocal • Reprezentarea

• Sinteza semnalului vocal (sinteza vorbirii) = producerea semnalului vocal pornind de la

• Recunoaşterea vorbitorului = se urmăreşte recunoaşterea (identificarea) unei persoane după voce •

1. 2. Generalităţi asupra semnalului vocal • Vorbirea este facultatea de a comunica gândurile

• Un mesaj vocal este constituit dintr-o succesiune de unităţi (elemente) minimale lipsite

• O trăsătură specifică a semnalului vocal este redundanţa. (redundanţă = introducerea în

• Dacă p(xi) reprezintă probabilitatea de apariţie a simbolului xi, selectarea acestuia va

• pentru limba engleză (L = 42): Hmax(X) = log 242 = 5.

• Formula de calcul pentru debitul maxim de informaţie pe un canalogic fără

1. 3. Mecanismul fonaţiei • Vorbirea = produs al aparatului fonator uman, controlat de

• În zona centrală a laringelui se găsesc coardele vocale; acestea pot închide

• Intensitatea sunetului emis este strâns legată şi determinată de presiunea aerului aflat

• Unui sunet sonor îi corespunde în timp un semnal cvasiperiodic. • Structura

• Un sunet nesonor nu prezintă structură periodică; forma sa în domeniul timp

1. 4. Modelarea producerii vorbirii • tractul vocal înlănţuire (concatenare) de tuburi sonore de

Modelarea sursei pentru sunetele sonore: e[n] y[n] G(z) • pentru sunetele nesonore, sursa este

• tractul vocal succesiune de tuburi acustice elementare. cascadă de rezonatori, cu transmitanţa

• funcţia de transfer globală a tractului vocal (considerată între excitaţia idealizată şi

Observaţii: 1. Simplificarea este oarecum forţată şi ar fi posibilă numai pentru fonemele sonore

1. 5. Caracteristici fonetice • Mesajul vocal este compus din sunete distincte, denumite foneme.

• Dacă s-ar considera tractul vocal ca un singur tub acustic cu lungimea

• Dacă s-ar considera tractul vocal la producerea fonemelor corespunzătoare vocalelor ca fiind

• Reprezentarea unor vocale limbii franceze în planul formanţilor F 1, F 2:

Slides: 23

Download presentation

1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL 1. 1. Obiectivele prelucrării semnalului vocal • Reprezentarea numerică a semnalului vocal • moduri de reprezentare • proprietăţi statistice ale semnalului vocal • codarea şi compresia vorbirii • Analiza semnalului vocal în domeniile timp şi frecvenţă • punerea în evidenţă a proprietăţilor spectrale semnalului vocal • utilizarea analizei spectrale în determinarea unor parametri utili în sinteză şi recunoaştere

• Sinteza semnalului vocal (sinteza vorbirii) = producerea semnalului vocal pornind de la un dicţionar de elemente fonetice şi de reguli, sau pornind de la o anumită reprezentare parametrică a semnalului. • sinteza unor mesaje vocale cu conţinut predeterminat • sinteza vorbirii pornind de la un text oarecare scris • Recunoaşterea vorbirii = a face maşina capabilă să interpreteze cuvintele sau frazele pronunţate de un vorbitor. • • recunoaşterea cuvintelor izolate recunoaşterea cuvintelor înlănţuite recunoaşterea de mari vocabulare recunoaşterea vorbirii continue

• Recunoaşterea vorbitorului = se urmăreşte recunoaşterea (identificarea) unei persoane după voce • Aplicaţii speciale prelucrării semnalului vocal • aplicaţii în domeniul medical, cum ar fi cele referitoare la patologia laringelui, bazate pe detectarea unor variabilităţi de pronunţie sau detectarea unor stări particulare (stres, minciună, etc. ) • aplicaţii în studiul limbilor străine • aplicaţii în dezvoltarea sistemelor de comunicaţie multimedia.

1. 2. Generalităţi asupra semnalului vocal • Vorbirea este facultatea de a comunica gândurile printr-un sistem de sunete articulate. • Informaţia conţinută într-un mesaj este dată de fluctuaţiile presiunii aerului, generate şi apoi emise de către aparatul fonator uman. • aceste fluctuaţii constituie semnalul vocal. • ele sunt detectate de către ureche, care realizează o operaţie de analiză a semnalului. • rezultatele analizei sunt transmise creierului, care le interpretează şi le foloseşte pentru a comanda funcţiile vorbirii.

• Un mesaj vocal este constituit dintr-o succesiune de unităţi (elemente) minimale lipsite de sens, numite foneme, care prin asociere generează structuri sau elemente constitutive de nivel superior: silabe, cuvinte, fraze. • Conţinutul unui mesaj vocal poate fi definit în sens strict şi în sens larg. • În sens strict conţinutul mesajului este dat de inteligibilitatea sa (asemănător cu un mesaj scris). • În sens larg, conţinutul mesajului vocal ia în consideraţie toate intonaţiile ce însoţesc producerea sa (creştere puternică a conţinutului mesajului vocal faţă de cel scris).

• O trăsătură specifică a semnalului vocal este redundanţa. (redundanţă = introducerea în mesaj a unor componente informaţionale mai mult decât este necesar pentru inteligibilitatea sa completă în absenţa zgomotului). • prezenţa redundanţei în semnalul vocal îl face rezistent la perturbaţiile mediului ambiant. • redundanţa este prezentă şi la nivel semantic, fapt ce uşurează înţelegerea mesajului de către creier. • Cadenţa maximă (ritmul maxim) de asimilare a unui mesaj este determinată de conţinutul strict al mesajului. • Fie un mesaj constituit din elemente discrete aparţinând unui ansamblu de date (de exemplu un alfabet) X = {x 1, x 2, …, x. L}.

• Dacă p(xi) reprezintă probabilitatea de apariţie a simbolului xi, selectarea acestuia va aduce informaţia I = – log 2 p(xi). • Entropia sursei (informaţia medie asociată producerii mesajului X) este dată de relaţia: [biţi] • Entropia prezintă un maxim care s-ar produce atunci când fonemele ar fi echiprobabile: [biţi] • Pentru fiecare limbă se pot determina mărimile p(xi) (reprezentând probabilităţile de apariţie a fonemului xi) prin analize statistice efectuate pe lucrări literare cu un vocabular bogat.

• pentru limba engleză (L = 42): Hmax(X) = log 242 = 5. 39 biţi Hs(X) = 4. 9 biţi • pentru limba franceză (L = 36): Hmax(X) = log 236 = 5. 17 biţi Hs(X) = 4. 73 biţi • pentru limba română (L = 34): Hmax(X) = log 234 = 5. 08 biţi Hs(X) = necunoscut • pe baza mărimilor determinate statistic, fiecare fonem poate fi codat cu 5 biţi. • într-o conversaţie curentă sunt pronunţate în medie 10 foneme pe secundă, ceea ce conduce la un debit informaţional de 50 biţi/s.

• Formula de calcul pentru debitul maxim de informaţie pe un canalogic fără erori (capacitatea canalului): [biţi/sec. ] B = banda de trecere [Hz] S/Z = raportul semnal pe zgomot • pentru un canal telefonic cu B = 3000 Hz şi S/Z = 30 d. B rezultă: [biţi/sec. ] redundanţă mare în acest canal (faţă de 50 biţi/s stabilit anterior). • există mult mai multă informaţie într-un mesaj telefonic decât într-un mesaj scris, unde informaţia este redusă la strictul necesar pentru inteligibilitate; sporul de informaţie este datorat intonaţiei, timbrului, etc.

1. 3. Mecanismul fonaţiei • Vorbirea = produs al aparatului fonator uman, controlat de sistemul nervos central, care primeşte permanent informaţie prin reacţia acustică (recepţia auditivă a semnalului). • Aparatul fonator uman nu este un aparat special destinat producerii vorbirii, ci este realizat prin adaptarea la această funcţie a unor organe aparţinând în principal aparatelor respirator şi masticator. • Aparatul respirator furnizează energia necesară producerii vorbirii, atunci când aerul este expirat prin trahee. • La capătul superior al traheei se găseşte laringele, unde presiunea aerului este modulată înainte de a fi aplicată canalului (tractului) vocal care se întinde de la laringe la buze.

• În zona centrală a laringelui se găsesc coardele vocale; acestea pot închide complet laringele, iar depărtându-se, formează o deschidere triunghiulară, denumită glotă. • Prin glotă, aerul trece liber în timpul respiraţiei şi vocii şoptite, precum şi în timpul formării sunetelor nesonore. • Sunetele sonore se produc prin vibraţia periodică a coardelor vocale, tractului vocal fiindu-i aplicate impulsuri periodice de presiune. • Tractul vocal este un ansamblu de cavităţi situate între glotă şi buze, cuprinzând cavitatea faringiană, cavitatea bucală şi cavitatea nazală (în derivaţie cu cavitatea bucală).

• Intensitatea sunetului emis este strâns legată şi determinată de presiunea aerului aflat în amonte de laringe. • Înălţimea sunetului este determinată de frecvenţa de vibraţie a coardelor vocale, denumită frecvenţă fundamentală (F 0 - pitch). • Inversul acestei frecvenţe (T 0), se numeşte perioadă fundamentală. • Frecvenţa fundamentală poate varia între limitele: • 80 - 200 Hz pentru o voce masculină • 150 - 450 Hz pentru o voce feminină • 200 - 600 Hz pentru o voce de copil • Două sunete sonore de aceeaşi intensitate şi de aceeaşi înălţime se disting prin timbru, care este determinat de amplitudinile relative ale armonicelor fundamentalei.

• Unui sunet sonor îi corespunde în timp un semnal cvasiperiodic. • Structura armonică a spectrului se mai numeşte structură de pitch. • Anvelopa spectrului prezintă maxime denumite formanţi, care corespund frecvenţelor proprii ale tractului vocal. • Spectrul unui sunet sonor are structură formantică.

• Un sunet nesonor nu prezintă structură periodică; forma sa în domeniul timp este asemănătoare cu cea a semnalelor de tip zgomot. • Sunetul nesonor poate fi asimilat cu un zgomot alb filtrat de către tractul vocal. • Strucura spectrală are caracteristici tipice de zgomot.

1. 4. Modelarea producerii vorbirii • tractul vocal înlănţuire (concatenare) de tuburi sonore de lungimi şi secţiuni diferite (între glotă şi cavitatea bucală): • lungimea medie 17 cm (la bărbaţi) • secţiunea maximă 20 cm 2 • cavitatea nazală (cuprinsă între vălul palatin şi nări): • lungime 12 cm • secţiune constantă • pentru sunetele sonore, sursa este un tren periodic de impulsuri (reproduce creşterea rapidă a presiunii aerului, urmată de o cădere mai lentă). modelat prin răspunsul unui filtru trece-jos (FTJ) de ordinul 2 şi frecvenţă de tăiere 100 Hz.

Modelarea sursei pentru sunetele sonore: e[n] y[n] G(z) • pentru sunetele nesonore, sursa este un zgomot alb de varianţă unitară.

• tractul vocal succesiune de tuburi acustice elementare. cascadă de rezonatori, cu transmitanţa globală: • fiecare rezonator elementar (de ordinul 2) are o caracteristică de tip trece bandă şi simulează producerea unui anumit formant. • deschiderea buzelor are o caracteristică de selectivitate de tip trece-sus ce poate fi modelată prin transmitanţa:

• funcţia de transfer globală a tractului vocal (considerată între excitaţia idealizată şi semnalul emis): • dacă se consideră : model numai cu poli sau autoregresiv (AR - Auto-Regressive )

Observaţii: 1. Simplificarea este oarecum forţată şi ar fi posibilă numai pentru fonemele sonore • o variantă mai corectă: 2. Fonemele nazale nu pot fi produse cu modelul AR • cavităţile bucală şi nazală sunt cuplate în paralel: model ARMA (Auto-Regressive Moving Average)

1. 5. Caracteristici fonetice • Mesajul vocal este compus din sunete distincte, denumite foneme. • Fonem = cea mai mică unitate sonoră prezentă în vorbire. • Fiecare limbă are propriile foneme • limbile etimologice - valoarea fonetică diferă de transcrierea literală • limbile fonetice - valoarea fonetică este apropiată de transcrierea literală • Pentru redarea grafică a valorii fonetice a literelor, grupurilor de litere şi cuvintelor se foloseşte “Alfabetul fonetic internaţional”. • Producerea unui fonem dat lasă loc unei anumite variabilităţi. pe plan acustic; variaţiile fonemului se numesc alofoni. • Pentru fiecare limbă fonemele sunt împărţite în clase şi subclase. Fiecare clasă este legată de modul de articulare a aparatului fonator.

• Dacă s-ar considera tractul vocal ca un singur tub acustic cu lungimea l (metri), rezonanţele acestuia (frecvenţele formanţilor) ar fi: Hz , c = viteza sunetului = 340 m/s. Ex: Hz Hz F 1 = 500 Hz, F 2 = 1500 Hz, F 3 = 2500 Hz formanţii vocalei neutre e mut din limba franceză (foarte apropiaţi de cei ai vocalei ă din limba română) - configuraţia tractului la emisia acestei vocale este foarte apropiată de cea observată în perioadele de linişte, tractul fiind în repaos.

• Dacă s-ar considera tractul vocal la producerea fonemelor corespunzătoare vocalelor ca fiind format din două secţiuni (două tuburi acustice în cascadă) cu lungimile l 1, l 2 şi ariile A 1, A 2: • Plajele primilor 3 formanţi pentru câteva dintre vocalele limbii române (mărimile barate semnifică valorile medii statistice ale formanţilor):

• Reprezentarea unor vocale limbii franceze în planul formanţilor F 1, F 2: F 1 [Hz] 800 a 600 400 ε o 200 0 u 1000 y 2000 i 3000 F 2 [Hz]