Procesamiento de seales de voz ATV 2002 Dpto

  • Slides: 67
Download presentation
Procesamiento de señales de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores -

Procesamiento de señales de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1

La comunicación oral ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 2

La comunicación oral ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 2

¿Qué es la voz? • Onda de sonido (onda de presión) • Producida por

¿Qué es la voz? • Onda de sonido (onda de presión) • Producida por el aparato fonador • Utilizada para comunicación (para transmisión de mensajes) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 3

Cuestiones varias: • • ¿Qué relación hay entre los fonemas y la señal de

Cuestiones varias: • • ¿Qué relación hay entre los fonemas y la señal de voz? ¿Y entre otras características y la señal de voz? ¿Cómo podemos analizar las características de la voz? ¿Cómo se manifiesta una patología de la voz en la señal? • ¿Cómo podemos ajustar un sistema de ayuda a la audición para optimizar la comprensión de la voz? • ¿Cómo podemos interpretar un error en la producción de un fonema? • ¿Cómo podemos interpretar un error en detección o identificación de fonemas? ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 4

Procesamiento de voz • • • Análisis de voz Codificación y comprensión de voz

Procesamiento de voz • • • Análisis de voz Codificación y comprensión de voz Síntesis de voz Reconocimiento automático de voz Reconocimiento y verificación de locutores • Detección de patologías • Diseño de ayudas para la audición ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 5

¿Qué es la voz? • Producción de la voz • Percepción de la voz

¿Qué es la voz? • Producción de la voz • Percepción de la voz • Procesamiento de señales Dificultades al intentar relacionar la señal con las características ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 6

Problemas del procesamiento de voz • Variabilidad – Intra-locutor (estado salud / ánimo, velocidad)

Problemas del procesamiento de voz • Variabilidad – Intra-locutor (estado salud / ánimo, velocidad) – Inter-locutor – Adquisición • Continuidad: concatenación y coarticulación • Información contenida en la señal de voz muy redundante • Multi-interactividad entre niveles: – Nivel fonético – Características suprasegmentales – Nivel semántico: contexto – suplencia mental • Ruido: perturbación + efecto Lombard ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 7

 • Variabilidad de las señales de voz • 40 ms correspondientes al fonema

• Variabilidad de las señales de voz • 40 ms correspondientes al fonema /a/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 8

Modelos de producción de voz • Órganos de producción de voz – Cavidades infraglóticas

Modelos de producción de voz • Órganos de producción de voz – Cavidades infraglóticas – Cavidad laríngea (cuerdas vocales) – Cavidades supraglóticas Provisión de aire Generación de la “onda glotal” Filtrado de la onda glotal (diversificación fonética) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 9

Modelo acústico de producción de voz • Onda acústica: onda de presión en el

Modelo acústico de producción de voz • Onda acústica: onda de presión en el aire con c = 350 m/s • Longitud de onda l = c / f – Para 100 Hz, l = 3. 5 m – Para 4 k. Hz, l = 8. 75 cm • Producción de sonido: – Fonemas sonoros: vibración cuerdas vocales – Fonemas sordos: flujo turbulento – Fonemas oclusivos: obstrucción + apertura ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 10

Modelo acústico de producción de voz (II) • Paredes no rígidas: – Pérdidas onda

Modelo acústico de producción de voz (II) • Paredes no rígidas: – Pérdidas onda acústica • Forma y sección del tracto vocal varía en el tiempo: – Se producen entre 5 y 20 fonemas por segundo • Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 11

Simplificaciones • Tracto vocal tubo rígido descrito por la “función de área” A(x, t)

Simplificaciones • Tracto vocal tubo rígido descrito por la “función de área” A(x, t) • Como l > radio del tubo, aproximación de onda plana – (El problema de contorno tridimensional se puede reducir a un problema unidimensional) • Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 12

Función de área ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 13

Función de área ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 13

Ecuaciones de onda ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 14

Ecuaciones de onda ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 14

Condiciones de contorno • Glotis: vibración cuerdas vocales • Labios: p(L)=0 • Onda proporcional

Condiciones de contorno • Glotis: vibración cuerdas vocales • Labios: p(L)=0 • Onda proporcional a u(L) Solución de las ecuaciones de onda • A se puede suponer constante en el tiempo (condición de quasi-estacionariedad) • Para A(x) sencilla, soluciones analíticas • Para A(x) compleja, métodos numéricos • Medidas de A(x): Rx, TAC, RMN, articulógraf. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 15

Pérdidas por elasticidad • mw masa/unid. long; • bw cte. amortiguación • kw cte.

Pérdidas por elasticidad • mw masa/unid. long; • bw cte. amortiguación • kw cte. recuperación elástica • Solución para: • L = 17. 5 cm • A = cte = 5. 0 cm 2 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 16

u(L, f) / u. G(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores -

u(L, f) / u. G(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 17

Formantes • Formantes: resonancias del tracto vocal • Por las dimensiones y la velocidad

Formantes • Formantes: resonancias del tracto vocal • Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada k. Hz • El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 18

Pérdidas por radiación de onda • p(L) = 0 no es cierto • Impedancia

Pérdidas por radiación de onda • p(L) = 0 no es cierto • Impedancia acústica Z • Impedancia para abertura circular de radio a en plano infinito • El filtrado del tracto vocal considerando las perdidas por radiación es distinto: • Caída para altas frecuencias • 6 d. B / década ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 19

u(L, f) / u. G(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores -

u(L, f) / u. G(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 20

Solución numérica para función de área correspondiente a fonema /a/ ATV 2002 – Dpto.

Solución numérica para función de área correspondiente a fonema /a/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 21

Acoplamiento del tracto nasal ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

Acoplamiento del tracto nasal ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 22

Modelo acústico de producción de voz • Excitación – Fonemas sonoros – Fonemas sordos

Modelo acústico de producción de voz • Excitación – Fonemas sonoros – Fonemas sordos – Fonemas oclusivos • Filtrado por tracto vocal / nasal – Formantes (1 por k. Hz) – Caída 6 d. B/década ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 23

Modelo digital de producción de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores

Modelo digital de producción de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 24

Características de la voz • Excitación: – – Sonoro (freq. fundamental o pitch) Sordo

Características de la voz • Excitación: – – Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinación • Formantes: – Cavidad buco-nasal – Envolvente espectral • Energía: presión de aire • Evolución en el tiempo de los parámetros ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 25

Características de la voz • Excitación: – – Sonoro (freq. fundamental o pitch) Sordo

Características de la voz • Excitación: – – Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinación • Formantes: – Cavidad buco-nasal – Envolvente espectral • Energía: presión de aire • Evolución en el tiempo de los parámetros ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 26

Clasificación de los fonemas (desde el punto de vista de la producción) • Actividad

Clasificación de los fonemas (desde el punto de vista de la producción) • Actividad de cuerdas vocales – Vocales – Consonantes sonoras – Consonantes sordas • Modo de articulación – Vocales – Consonantes • Lugar de articulación – Vocales – Consonantes ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 27

Clasificación de vocales • Modo de articulación (formante 1) – Cerradas (i, u) –

Clasificación de vocales • Modo de articulación (formante 1) – Cerradas (i, u) – Medias (e, o) – Abiertas (a) • Lugar de articulación (formante 2) – Anteriores (i, e) – Centrales (a) – Posteriores (o, u) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 28

Formantes 1º y 2º en vocales 3000 freq. 2 o formante (Hz) 2500 2000

Formantes 1º y 2º en vocales 3000 freq. 2 o formante (Hz) 2500 2000 /e/ /i/ 1500 1000 500 200 /a/ /u/ 300 /o/ 400 500 600 700 800 900 1000 freq. 1 er formante (Hz) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 29

Modo de articulación (cons. ) • • • Oclusivas (b, d, g, p, t,

Modo de articulación (cons. ) • • • Oclusivas (b, d, g, p, t, k) Fricativas (s, f, z, x, y) Africadas (ch) Nasales (m, n, ñ) Líquidas: – Laterales (l, ll) – Vibrantes (r, R) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 30

Lugar de articulación (cons. ) • • Bilabiales (b, p, m) Labiodentales (f) Linguodentales

Lugar de articulación (cons. ) • • Bilabiales (b, p, m) Labiodentales (f) Linguodentales (t, d) Linguointerdentales (z) Linguoalveolares (s, n, l, r, R) Linguopalatales (y, ch, ñ, ll) Linguovelares (k, g, x) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 31

Fonemas del español ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 32

Fonemas del español ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 32

Análisis de señales de voz • Conceptos de procesado de señales – Transformada de

Análisis de señales de voz • Conceptos de procesado de señales – Transformada de Fourier – Componentes de frecuencia – Espectro de potencia – Filtrado – Ventanas – Muestreo – Espectrogramas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 33

Transformada de Fourier • Transformada (FT): – Cambio de representación – Misma información (otra

Transformada de Fourier • Transformada (FT): – Cambio de representación – Misma información (otra representación) – Existe transformada inversa (FT-1) – Transforma señal compleja en señal compleja: Im(z) r y f x ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR Re(z) 34

Espectro de potencia (1) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

Espectro de potencia (1) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 35

Espectro de potencia (2) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

Espectro de potencia (2) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 36

Descomposición en componentes freq. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

Descomposición en componentes freq. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 37

Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores

Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 38

Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores

Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 39

Filtrado excitación señal filtrada filtro • Caracterización del filtro: – Tiempo: respuesta impulsiva –

Filtrado excitación señal filtrada filtro • Caracterización del filtro: – Tiempo: respuesta impulsiva – Frecuencia: función de transferencia (o respuesta en frecuencia) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 40

Filtrado en el tiempo: convolución ATV 2002 – Dpto. Electrónica y Tecn. Computadores -

Filtrado en el tiempo: convolución ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 41

Filtrado en frecuencia: multiplicación ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

Filtrado en frecuencia: multiplicación ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 42

Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 43

Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 44

Transformada de un tren de pulsos ATV 2002 – Dpto. Electrónica y Tecn. Computadores

Transformada de un tren de pulsos ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 45

Transformada de señal periódica ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

Transformada de señal periódica ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 46

Muestreo de señales: T. de muestreo ATV 2002 – Dpto. Electrónica y Tecn. Computadores

Muestreo de señales: T. de muestreo ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 47

Transformada Fourier: Resumen ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 48

Transformada Fourier: Resumen ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 48

DFT y FFT • Transformada discreta de Fourier (DFT) • Transformada rápida de Fourier

DFT y FFT • Transformada discreta de Fourier (DFT) • Transformada rápida de Fourier (FFT) • • Señales discretas (muestreadas) Ventana (resolución espectral) N muestras en t => N muestras en f FFT: Muy utilizada en procesamiento digital de señales ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 49

La señal de voz /sal/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores -

La señal de voz /sal/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 50

La señal de voz /s/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores -

La señal de voz /s/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR /a/ /l/ 51

Estacionariedad de la voz • La señal de voz es “estacionaria a trozos” –

Estacionariedad de la voz • La señal de voz es “estacionaria a trozos” – Durante la pronunciación de un fonema es quasiestacionaria – Velocidad cambios tracto vocal – Velocidad cambios cuerdas vocales – Estacionaria durante 20 – 40 ms – Velocidad de pronunciación: 5 -20 fonemas / seg – Análisis de “trozos de voz estacionarios”: ventanas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 52

Análisis con ventanas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 53

Análisis con ventanas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 53

Análisis con ventanas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 54

Análisis con ventanas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 54

Espectro de las vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/ ATV 2002 –

Espectro de las vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 55

Espectro de las vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/ ATV 2002 –

Espectro de las vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 56

Formantes 1º y 2º en vocales 3000 freq. 2 o formante (Hz) 2500 2000

Formantes 1º y 2º en vocales 3000 freq. 2 o formante (Hz) 2500 2000 /e/ /i/ 1500 1000 500 200 /a/ /u/ 300 /o/ 400 500 600 700 800 900 1000 freq. 1 er formante (Hz) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 57

Espectro de consonantes sonoras /m/ /l/ /n/ /y/ /ñ/ /R/ ATV 2002 – Dpto.

Espectro de consonantes sonoras /m/ /l/ /n/ /y/ /ñ/ /R/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 58

Espectro de consonantes fricativas /s/ /z/ /sh/ /f/ /ss/ /j/ ATV 2002 – Dpto.

Espectro de consonantes fricativas /s/ /z/ /sh/ /f/ /ss/ /j/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 59

Fonemas no estacionarios • Fonemas estacionarios: – vocales: /a/ /e/ /i/ /o/ /u/ –

Fonemas no estacionarios • Fonemas estacionarios: – vocales: /a/ /e/ /i/ /o/ /u/ – consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/ – consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/ • Fonemas no estacionarios: – Plosivas sordas: /p/ /t/ /k/ – Plosivas sonoras: /b/ /d/ /g/ – Otras consonantes: /ch/ /r/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 60

Espectrograma (representación tiempo - frecuencia) ATV 2002 – Dpto. Electrónica y Tecn. Computadores -

Espectrograma (representación tiempo - frecuencia) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 61

Espectrograma (representación tiempo - frecuencia) m b o i a kom p r a

Espectrograma (representación tiempo - frecuencia) m b o i a kom p r a R ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR pa n 62

Ventana en el espectrograma: 64 ms / 8 ms ATV 2002 – Dpto. Electrónica

Ventana en el espectrograma: 64 ms / 8 ms ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 63

Información relevante de la señal de voz: • Para reconocimiento de voz: – Envolvente

Información relevante de la señal de voz: • Para reconocimiento de voz: – Envolvente espectral (formantes) – Evolución temporal de los formantes Información espectral de tiempo corto • Información complementaria: – Tono fundamental – Estructura fina del espectro ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 64

Cómo funciona el oído • Extrae información de la señal de audio. • Envía

Cómo funciona el oído • Extrae información de la señal de audio. • Envía la información al cerebro en forma de estímulos nerviosos. • El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 65

Características del oído humano • Configuración de la cóclea: 6. 000 células ciliadas internas

Características del oído humano • Configuración de la cóclea: 6. 000 células ciliadas internas 40. 000 terminaciones nerviosas Repolarización: 2 ms (400 - 500 disparos/seg) Conexión sináptica: sin interacción entre canales • Capacidad de un oído entrenado: – Resolución espectral: 1/9 tono – Resolución temporal: 400 - 500 Hz – Resolución de intensidad: 1 d. B ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 66

Capacidad del oído humano • Resolución en frecuencia: 1/9 tono: – fo - 1.

Capacidad del oído humano • Resolución en frecuencia: 1/9 tono: – fo - 1. 013*fo 450 Hz - 456 Hz – rango de frecuencia: 20 Hz - 20. 000 Hz • Resolución en el tiempo: – limitado por tiempo relajación de células ciliadas y terminaciones nerviosas (~400 disparos por seg. ) • Resolución en intensidad: – Mejor de 1 d. B • Mecanismos de adaptación. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 67