Lingstica de corpus Compilacin de corpus orales Javier

  • Slides: 51
Download presentation
Lingüística de corpus Compilación de corpus orales Javier Cuétara Priede México, UNAM

Lingüística de corpus Compilación de corpus orales Javier Cuétara Priede México, UNAM

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral n n n Diseño Grabación Transcripción y etiquetado

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral,

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral,

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral,

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral,

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral,

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral,

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral n n n Diseño Grabación Transcripción y etiquetado

Corpus orales y corpus de lengua hablada Corpus orales: grabaciones de la señal sonora

Corpus orales y corpus de lengua hablada Corpus orales: grabaciones de la señal sonora (speech corpora, speech databases) Corpus de lengua hablada: transcripciones ortográficas de la lengua hablada (spoken language corpora) (Llisterri, 2003)

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral n n n Diseño Grabación Transcripción y etiquetado

Algunos corpus orales de México Atlas Lingüístico de México (ALM) Corpus DIME Corpus INAOE

Algunos corpus orales de México Atlas Lingüístico de México (ALM) Corpus DIME Corpus INAOE 2003 -2004 Corpus DIMEx 100 PRESEEA

ALM Seminario de Lingüística General de El Colegio de México Reunir datos –fonéticos, gramaticales

ALM Seminario de Lingüística General de El Colegio de México Reunir datos –fonéticos, gramaticales y lexicos– para determinar las zonas lingüísticas de México (Lope Blanch, 1970; Moreno de Alba, 1994)

ALM Entrevistas: n Cuestionarios diseñados Grabaciones magnetofónicas

ALM Entrevistas: n Cuestionarios diseñados Grabaciones magnetofónicas

Proyecto DIME Propósito: desarrollar un sistema multimodal en el dominio del diseño de cocinas

Proyecto DIME Propósito: desarrollar un sistema multimodal en el dominio del diseño de cocinas (Pineda et al. , 2001; Villaseñor et al. , 2001) Algunos recursos; entre ellos: n n El Corpus DIME EL Corpus DIMEx 100 El modelado computacional de la gramática del español de México El reconocedor de voz DIMEX

Corpus DIME (1999) 16 experimentos con 16 personas distintas 31 diálogos 27, 459 palabras

Corpus DIME (1999) 16 experimentos con 16 personas distintas 31 diálogos 27, 459 palabras (886 en promedio por diálogo) 1, 113 palabras diferentes 7: 10 minutos Wave Studio (Creative) Mago de Oz

Mago de Oz Experimentos que se realizan para estudiar la interacción entre los humanos

Mago de Oz Experimentos que se realizan para estudiar la interacción entre los humanos y las computadoras (Dahlbäck et al. , 1993; Bonafonte et al. , 1998; Allen et al. , 2001) Sujeto 1 (usuario) <—> Sujeto 2 (Mago)

Mago de Oz

Mago de Oz

Mago de Oz

Mago de Oz

Corpus INAOE 2004 Propósitos Crear un corpus oral rico, completo y balanceado fonéticamente Obtener

Corpus INAOE 2004 Propósitos Crear un corpus oral rico, completo y balanceado fonéticamente Obtener modelos acústicos para un reconocedor de habla (Villaseñor et al. )

Corpus INAOE 2004 Fuente: Internet 3 etapas: n n n Léxico inicial de poco

Corpus INAOE 2004 Fuente: Internet 3 etapas: n n n Léxico inicial de poco más de 177, 000 vocablos Filtrado: Corpus 170, Corpus 230 5, 000 oraciones (colaboración con el Proyecto DIME)

Corpus DIMEx 100 Propósitos: n n Necesidad de contar con un corpus oral rico,

Corpus DIMEx 100 Propósitos: n n Necesidad de contar con un corpus oral rico, completo y balanceado fonéticamente (representatividad y balance de las unidades - alófonos menos frecuentes, como [g, b, x, r, f], etc. ) Obtener modelos acústicos para un reconocedor de habla

Corpus DIMEx 100 Toma como base el Corpus INAOE 2004 n n Fuente: Internet

Corpus DIMEx 100 Toma como base el Corpus INAOE 2004 n n Fuente: Internet 3 etapas: n Léxico inicial de poco más de 177, 000 vocablos n Filtrado: Corpus 170, Corpus 230 n 5, 000 oraciones 100 locutores 600 archivos de audio

Corpus DIMEx 100 locutores n n 82 %, ciudad de México 23. 82 %

Corpus DIMEx 100 locutores n n 82 %, ciudad de México 23. 82 % años 87 %, estudiantes de licenciatura 49 % hombres; 51 % mujeres 5, 010 oraciones diferentes n n 50 individuales 10 idénticas (futuros estudios de reconocimiento de locutor) 6, 000 archivos *. wav

PRESEEA Proyecto para el Estudio Sociolingüístico del Español de España y América n n

PRESEEA Proyecto para el Estudio Sociolingüístico del Español de España y América n n 1993. Comisión de Sociolingüística de ALFAL Creación de un Corpus Sociolingüístico del español (PRESEEA)

PRESEEA Corpus Sociolingüístico y sincrónico de la lengua española (y portuguesa) Intención: “llegar a

PRESEEA Corpus Sociolingüístico y sincrónico de la lengua española (y portuguesa) Intención: “llegar a ser algo tan valioso para el futuro conocimiento de la lengua española, como útil para las personas que se ocupan de ella”

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral n n n Diseño Grabación Transcripción y etiquetado

Aplicaciones de los corpus orales En el futuro, la comunicación con los sistemas computacionales

Aplicaciones de los corpus orales En el futuro, la comunicación con los sistemas computacionales será, seguramente, a través del habla

Aplicaciones de los corpus orales Análisis fonético y estudios fonológicos Tecnologías del habla n

Aplicaciones de los corpus orales Análisis fonético y estudios fonológicos Tecnologías del habla n n Síntesis de habla Reconocimiento de habla (Reconocimiento de hablante) (Reconocimiento de lengua) Sistemas multimodales

Análisis fonético y estudios fonológicos Estudios dialectales Frecuencias de ocurrencia de los fonemas en

Análisis fonético y estudios fonológicos Estudios dialectales Frecuencias de ocurrencia de los fonemas en la lengua

Tecnologías del habla “En fonética como en tecnologías del habla difícilmente se concibe un

Tecnologías del habla “En fonética como en tecnologías del habla difícilmente se concibe un corpus que no vaya acompañado del correspondiente registro sonoro en formato digital (speech corpus)” (Torruella y Llisterri, 1999).

Síntesis de habla Un texto que es reproducido por una computadora Aplicaciones n n

Síntesis de habla Un texto que es reproducido por una computadora Aplicaciones n n Lectura en voz alta de documentos, páginas y correos electrónicos, etcétera Servicios de telefonía Servicios bancarios Para el uso de los invidentes y débiles visuales

Síntesis de habla Text. Aloud MP 3 http: //www. nextuptech. com/Text. Aloud/download. html Festival

Síntesis de habla Text. Aloud MP 3 http: //www. nextuptech. com/Text. Aloud/download. html Festival http: //cslu. cse. ogi. edu/tts/ Loquendo http: //www. loquendo. com/es/demo_tts. htm Laboratorios Bell http: //www. research. att. com/~ttsweb/tts/demo. php

Reconocimiento de habla La computadora escucha y entiende a un humano Reconocedor de habla:

Reconocimiento de habla La computadora escucha y entiende a un humano Reconocedor de habla: n n n Diccionario de pronunciación Modelos acústicos Modelos de pronunciación

SCANMail Correos de voz de 138 empleados de AT&T 100 horas de grabación (10

SCANMail Correos de voz de 138 empleados de AT&T 100 horas de grabación (10 K de mensajes; 2, 500 hablantes) Balance de género 12% no nativos Promedio de duración: 36. 4 segundos

SCANMail

SCANMail

SCANMail

SCANMail

Reconocimiento de hablante Fonética forense Peritaje de voces: identificación de criminales con propósitos legales

Reconocimiento de hablante Fonética forense Peritaje de voces: identificación de criminales con propósitos legales

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral n n n Diseño Grabación Transcripción y etiquetado

Elaboración de un corpus oral Diseño Grabación Etiquetado

Elaboración de un corpus oral Diseño Grabación Etiquetado

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral n n n Diseño Grabación Transcripción y etiquetado

Diseño de corpus orales Desde el inicio se debe tener una definición clara de

Diseño de corpus orales Desde el inicio se debe tener una definición clara de los objetivos que guían la constitución del corpus: qué se quiere obtener y cómo: n Tipo de habla que se quiere obtener -Reconocimiento: ¿quién será el usuario? (por ejemplo, ¿se modelaría la interdental para el español de México? ) -Síntesis: ¿qué dialecto “hablará” el sintetizador?

Características de los hablantes Sexo (nivelación en el corpus) Edad n n 20, 40,

Características de los hablantes Sexo (nivelación en el corpus) Edad n n 20, 40, 60 (Navarro Tomás, 1945) 16 -32, 33 -55, 56 en adelante (Perissinotto, 1975) Procedencia Nivel socioeconómico n n Clase iletrada, de la clase media y de la clase instruida (Navarro Tomás, 1945) Educación, profesión, situación económica (Perissinotto, 1975) Otros (dentadura completa, salud mental)

Frecuencia de fonemas

Frecuencia de fonemas

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral n n n Diseño Grabación Transcripción y etiquetado

Grabación (instrumentos) Grabadoras magnetofónicas Wollensack y Usher en cintas magnetofónicas de acetato Scotch a

Grabación (instrumentos) Grabadoras magnetofónicas Wollensack y Usher en cintas magnetofónicas de acetato Scotch a una velocidad de 3 ¾ IPS (Perissinotto, 1975)

Grabación (instrumentos) Grabaciones magnetofónicas Lope Blanch, 1980/1986 Moreno de Alba, 1994

Grabación (instrumentos) Grabaciones magnetofónicas Lope Blanch, 1980/1986 Moreno de Alba, 1994

Grabación (instrumentos) Actualmente, no se puede concebir un corpus oral sin un registro electrónico

Grabación (instrumentos) Actualmente, no se puede concebir un corpus oral sin un registro electrónico Grabación en laboratorio n n n Speech Viewer Praat Sound Forge Speech Tools Wavelab

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral n n n Diseño Grabación Transcripción y etiquetado

Etiquetado Herramientas Transcripción fonética Transcripción prosódica

Etiquetado Herramientas Transcripción fonética Transcripción prosódica

Etiquetado n n Speech Viewer (CSLU Speech Toolkit) http: //cslu. cse. ogi. edu/toolkit/ Praat

Etiquetado n n Speech Viewer (CSLU Speech Toolkit) http: //cslu. cse. ogi. edu/toolkit/ Praat http: //www. fon. hum. uva. nl/praat/