Procesamiento de seales de voz ATV 2002 Dpto
- Slides: 67
Procesamiento de señales de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1
La comunicación oral ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 2
¿Qué es la voz? • Onda de sonido (onda de presión) • Producida por el aparato fonador • Utilizada para comunicación (para transmisión de mensajes) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 3
Cuestiones varias: • • ¿Qué relación hay entre los fonemas y la señal de voz? ¿Y entre otras características y la señal de voz? ¿Cómo podemos analizar las características de la voz? ¿Cómo se manifiesta una patología de la voz en la señal? • ¿Cómo podemos ajustar un sistema de ayuda a la audición para optimizar la comprensión de la voz? • ¿Cómo podemos interpretar un error en la producción de un fonema? • ¿Cómo podemos interpretar un error en detección o identificación de fonemas? ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 4
Procesamiento de voz • • • Análisis de voz Codificación y comprensión de voz Síntesis de voz Reconocimiento automático de voz Reconocimiento y verificación de locutores • Detección de patologías • Diseño de ayudas para la audición ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 5
¿Qué es la voz? • Producción de la voz • Percepción de la voz • Procesamiento de señales Dificultades al intentar relacionar la señal con las características ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 6
Problemas del procesamiento de voz • Variabilidad – Intra-locutor (estado salud / ánimo, velocidad) – Inter-locutor – Adquisición • Continuidad: concatenación y coarticulación • Información contenida en la señal de voz muy redundante • Multi-interactividad entre niveles: – Nivel fonético – Características suprasegmentales – Nivel semántico: contexto – suplencia mental • Ruido: perturbación + efecto Lombard ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 7
• Variabilidad de las señales de voz • 40 ms correspondientes al fonema /a/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 8
Modelos de producción de voz • Órganos de producción de voz – Cavidades infraglóticas – Cavidad laríngea (cuerdas vocales) – Cavidades supraglóticas Provisión de aire Generación de la “onda glotal” Filtrado de la onda glotal (diversificación fonética) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 9
Modelo acústico de producción de voz • Onda acústica: onda de presión en el aire con c = 350 m/s • Longitud de onda l = c / f – Para 100 Hz, l = 3. 5 m – Para 4 k. Hz, l = 8. 75 cm • Producción de sonido: – Fonemas sonoros: vibración cuerdas vocales – Fonemas sordos: flujo turbulento – Fonemas oclusivos: obstrucción + apertura ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 10
Modelo acústico de producción de voz (II) • Paredes no rígidas: – Pérdidas onda acústica • Forma y sección del tracto vocal varía en el tiempo: – Se producen entre 5 y 20 fonemas por segundo • Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 11
Simplificaciones • Tracto vocal tubo rígido descrito por la “función de área” A(x, t) • Como l > radio del tubo, aproximación de onda plana – (El problema de contorno tridimensional se puede reducir a un problema unidimensional) • Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 12
Función de área ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 13
Ecuaciones de onda ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 14
Condiciones de contorno • Glotis: vibración cuerdas vocales • Labios: p(L)=0 • Onda proporcional a u(L) Solución de las ecuaciones de onda • A se puede suponer constante en el tiempo (condición de quasi-estacionariedad) • Para A(x) sencilla, soluciones analíticas • Para A(x) compleja, métodos numéricos • Medidas de A(x): Rx, TAC, RMN, articulógraf. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 15
Pérdidas por elasticidad • mw masa/unid. long; • bw cte. amortiguación • kw cte. recuperación elástica • Solución para: • L = 17. 5 cm • A = cte = 5. 0 cm 2 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 16
u(L, f) / u. G(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 17
Formantes • Formantes: resonancias del tracto vocal • Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada k. Hz • El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 18
Pérdidas por radiación de onda • p(L) = 0 no es cierto • Impedancia acústica Z • Impedancia para abertura circular de radio a en plano infinito • El filtrado del tracto vocal considerando las perdidas por radiación es distinto: • Caída para altas frecuencias • 6 d. B / década ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 19
u(L, f) / u. G(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 20
Solución numérica para función de área correspondiente a fonema /a/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 21
Acoplamiento del tracto nasal ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 22
Modelo acústico de producción de voz • Excitación – Fonemas sonoros – Fonemas sordos – Fonemas oclusivos • Filtrado por tracto vocal / nasal – Formantes (1 por k. Hz) – Caída 6 d. B/década ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 23
Modelo digital de producción de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 24
Características de la voz • Excitación: – – Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinación • Formantes: – Cavidad buco-nasal – Envolvente espectral • Energía: presión de aire • Evolución en el tiempo de los parámetros ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 25
Características de la voz • Excitación: – – Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinación • Formantes: – Cavidad buco-nasal – Envolvente espectral • Energía: presión de aire • Evolución en el tiempo de los parámetros ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 26
Clasificación de los fonemas (desde el punto de vista de la producción) • Actividad de cuerdas vocales – Vocales – Consonantes sonoras – Consonantes sordas • Modo de articulación – Vocales – Consonantes • Lugar de articulación – Vocales – Consonantes ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 27
Clasificación de vocales • Modo de articulación (formante 1) – Cerradas (i, u) – Medias (e, o) – Abiertas (a) • Lugar de articulación (formante 2) – Anteriores (i, e) – Centrales (a) – Posteriores (o, u) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 28
Formantes 1º y 2º en vocales 3000 freq. 2 o formante (Hz) 2500 2000 /e/ /i/ 1500 1000 500 200 /a/ /u/ 300 /o/ 400 500 600 700 800 900 1000 freq. 1 er formante (Hz) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 29
Modo de articulación (cons. ) • • • Oclusivas (b, d, g, p, t, k) Fricativas (s, f, z, x, y) Africadas (ch) Nasales (m, n, ñ) Líquidas: – Laterales (l, ll) – Vibrantes (r, R) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 30
Lugar de articulación (cons. ) • • Bilabiales (b, p, m) Labiodentales (f) Linguodentales (t, d) Linguointerdentales (z) Linguoalveolares (s, n, l, r, R) Linguopalatales (y, ch, ñ, ll) Linguovelares (k, g, x) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 31
Fonemas del español ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 32
Análisis de señales de voz • Conceptos de procesado de señales – Transformada de Fourier – Componentes de frecuencia – Espectro de potencia – Filtrado – Ventanas – Muestreo – Espectrogramas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 33
Transformada de Fourier • Transformada (FT): – Cambio de representación – Misma información (otra representación) – Existe transformada inversa (FT-1) – Transforma señal compleja en señal compleja: Im(z) r y f x ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR Re(z) 34
Espectro de potencia (1) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 35
Espectro de potencia (2) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 36
Descomposición en componentes freq. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 37
Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 38
Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 39
Filtrado excitación señal filtrada filtro • Caracterización del filtro: – Tiempo: respuesta impulsiva – Frecuencia: función de transferencia (o respuesta en frecuencia) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 40
Filtrado en el tiempo: convolución ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 41
Filtrado en frecuencia: multiplicación ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 42
Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 43
Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 44
Transformada de un tren de pulsos ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 45
Transformada de señal periódica ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 46
Muestreo de señales: T. de muestreo ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 47
Transformada Fourier: Resumen ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 48
DFT y FFT • Transformada discreta de Fourier (DFT) • Transformada rápida de Fourier (FFT) • • Señales discretas (muestreadas) Ventana (resolución espectral) N muestras en t => N muestras en f FFT: Muy utilizada en procesamiento digital de señales ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 49
La señal de voz /sal/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 50
La señal de voz /s/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR /a/ /l/ 51
Estacionariedad de la voz • La señal de voz es “estacionaria a trozos” – Durante la pronunciación de un fonema es quasiestacionaria – Velocidad cambios tracto vocal – Velocidad cambios cuerdas vocales – Estacionaria durante 20 – 40 ms – Velocidad de pronunciación: 5 -20 fonemas / seg – Análisis de “trozos de voz estacionarios”: ventanas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 52
Análisis con ventanas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 53
Análisis con ventanas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 54
Espectro de las vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 55
Espectro de las vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 56
Formantes 1º y 2º en vocales 3000 freq. 2 o formante (Hz) 2500 2000 /e/ /i/ 1500 1000 500 200 /a/ /u/ 300 /o/ 400 500 600 700 800 900 1000 freq. 1 er formante (Hz) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 57
Espectro de consonantes sonoras /m/ /l/ /n/ /y/ /ñ/ /R/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 58
Espectro de consonantes fricativas /s/ /z/ /sh/ /f/ /ss/ /j/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 59
Fonemas no estacionarios • Fonemas estacionarios: – vocales: /a/ /e/ /i/ /o/ /u/ – consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/ – consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/ • Fonemas no estacionarios: – Plosivas sordas: /p/ /t/ /k/ – Plosivas sonoras: /b/ /d/ /g/ – Otras consonantes: /ch/ /r/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 60
Espectrograma (representación tiempo - frecuencia) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 61
Espectrograma (representación tiempo - frecuencia) m b o i a kom p r a R ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR pa n 62
Ventana en el espectrograma: 64 ms / 8 ms ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 63
Información relevante de la señal de voz: • Para reconocimiento de voz: – Envolvente espectral (formantes) – Evolución temporal de los formantes Información espectral de tiempo corto • Información complementaria: – Tono fundamental – Estructura fina del espectro ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 64
Cómo funciona el oído • Extrae información de la señal de audio. • Envía la información al cerebro en forma de estímulos nerviosos. • El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 65
Características del oído humano • Configuración de la cóclea: 6. 000 células ciliadas internas 40. 000 terminaciones nerviosas Repolarización: 2 ms (400 - 500 disparos/seg) Conexión sináptica: sin interacción entre canales • Capacidad de un oído entrenado: – Resolución espectral: 1/9 tono – Resolución temporal: 400 - 500 Hz – Resolución de intensidad: 1 d. B ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 66
Capacidad del oído humano • Resolución en frecuencia: 1/9 tono: – fo - 1. 013*fo 450 Hz - 456 Hz – rango de frecuencia: 20 Hz - 20. 000 Hz • Resolución en el tiempo: – limitado por tiempo relajación de células ciliadas y terminaciones nerviosas (~400 disparos por seg. ) • Resolución en intensidad: – Mejor de 1 d. B • Mecanismos de adaptación. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 67
- Atv 2002
- Atv 2002
- Dpto educacion
- La voz pasiva
- Somos la voz de los que no tienen voz
- Voz ativa e voz passiva
- Passe as frases para voz passiva
- Active verb
- Verbo voz ativa
- Pasiva
- Suhvezdie
- Voz ativa
- Voz activa y voz pasiva
- Voz activa y voz pasiva
- Agente da passiva
- Voz passiva
- Voz activa y pasiva
- Rtv vs atv
- Siiat-atv
- Atv presenters
- Sintonizacion atv
- Rtv vs atv
- Modelo de procesamiento de la información
- Procesamiento de consultas distribuidas
- Juegos de velocidad de procesamiento
- Procesamiento de informacion por medios digitales
- Directivas de procesamiento
- Procesamiento en serie
- Procesamiento de consultas distribuidas
- Lisosomas
- Nivel de procesamiento superficial
- Http //sciencespot.net/ answers
- Rmc 82-2008
- Die another day 2002
- Hubbs-tait et al 2002
- Pocket pc 2002 emulator
- Kouzes and posner transformational leadership
- 2 2
- Carrie 2002
- Amc8 2001
- 2002
- 2002
- Wolrd cup 2002
- Une 157001:2002
- Enflasyon nedr
- Perma 1 2002
- Surat pengesahan entiti serahan
- Lopegce
- Bartholow and anderson 2002
- 14/4/2002
- Power point 2002
- Micer encse
- Azizah aisyati
- Copyright 2002
- Jakob ejersbo 2002
- Visual studio 2002
- Cual es el decreto que rige la red de apoyo
- Spiderman call to adventure
- Kotler 2002
- Les hanson
- Creating reports in access
- Milne and bull 2002
- Soa 2002
- 1993 1994 1995
- Beckham 2002
- Halide with 6 energy levels
- Nrs 2002 başlangıç taraması
- Decreto 1279 de 2002