Lingstica de corpus Introduccin a la Lingstica de

  • Slides: 23
Download presentation
Lingüística de corpus Introducción a la Lingüística de corpus • Definición de corpus lingüístico

Lingüística de corpus Introducción a la Lingüística de corpus • Definición de corpus lingüístico • Características de los corpus Gerardo Sierra

Características de los corpus • • Representatividad, variedad y equilibrio Tamaño finito Manejable por

Características de los corpus • • Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor

Representación de la realidad Pavlov had PAVLOV N NOM SG PROPER HAVE V PAST

Representación de la realidad Pavlov had PAVLOV N NOM SG PROPER HAVE V PAST VFIN SVO HAVE PCP 2 SVO shown SHOW PCP 2 SV 00 SVO SV that ADV PRON DEM SG DET CENTRAL DEM SG CS salivation N NOM SG Un corpus de textos consiste en un conjunto de texto reales y aceptables pertenecientes a un código lingüístico determinado.

Representatividad • Un corpus siempre es una muestra de lengua y no pretende ser

Representatividad • Un corpus siempre es una muestra de lengua y no pretende ser la totalidad de ella. • Los textos que conformarán el corpus deben ser representativos del tema de estudio que se llevará a cabo.

Variedad • • • Información personal del informante Localidad geográfica Tópico Tipo de texto

Variedad • • • Información personal del informante Localidad geográfica Tópico Tipo de texto Fuente del texto Tiempo

Variedad • • • Información personal del informante Localidad geográfica Tópico. Tipo de texto.

Variedad • • • Información personal del informante Localidad geográfica Tópico. Tipo de texto. Fuente del texto. Tiempo.

Variedad • • • Información personal del informante. Localidad geográfica Tópico. Tipo de texto.

Variedad • • • Información personal del informante. Localidad geográfica Tópico. Tipo de texto. Fuente del texto. Tiempo.

Variedad • • • Información personal del informante. Localidad geográfica Tópico Tipo de texto.

Variedad • • • Información personal del informante. Localidad geográfica Tópico Tipo de texto. Fuente del texto. Tiempo.

Variedad • • • Información personal del informante. Localidad geográfica Tópico. Tipo de texto

Variedad • • • Información personal del informante. Localidad geográfica Tópico. Tipo de texto Fuente del texto. Tiempo.

Variedad • • • Información personal del informante. Localidad geográfica Tópico. Tipo de texto.

Variedad • • • Información personal del informante. Localidad geográfica Tópico. Tipo de texto. Fuente del texto Tiempo.

Variedad • • • Información personal del informante. Localidad geográfica Tópico. Tipo de texto.

Variedad • • • Información personal del informante. Localidad geográfica Tópico. Tipo de texto. Fuente del texto. Tiempo

Equilibrio

Equilibrio

Características de los corpus • • Representatividad, variedad y equilibrio Tamaño finito Manejable por

Características de los corpus • • Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor

Tamaño de grandes corpus • 520 Mill. • 400 Mill. • 100 Mill. •

Tamaño de grandes corpus • 520 Mill. • 400 Mill. • 100 Mill. • 5 Mill (voz)

¿Qué tanto es tantito? • 100 millones de palabras = 4 años de lectura

¿Qué tanto es tantito? • 100 millones de palabras = 4 años de lectura a 150 pal/min X 8 hs. • 1 millón de palabras = 9 ejemplares del New Yorker (965 pal. X 112 págs. ) • = 8 libros medianos (375 pal. X 338 págs. ) • = 5 tesis de doctorado (210 mil pal. X 5)

Tamaño del corpus • Tamaño finito • Tamaño = f (tiempo, $) • Diferentes

Tamaño del corpus • Tamaño finito • Tamaño = f (tiempo, $) • Diferentes medidas: – palabras – horas – informantes

Características de los corpus • • Representatividad, variedad y equilibrio Tamaño finito Manejable por

Características de los corpus • • Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor

Manejable por la computadora • • • Soporte informático Recuperable computacionalmente Formato texto Formato

Manejable por la computadora • • • Soporte informático Recuperable computacionalmente Formato texto Formato estándar Clasificable

Ventajas de corpus informatizado • • Manipulación más fácil Velocidad de procesamiento Precisión Actualizable

Ventajas de corpus informatizado • • Manipulación más fácil Velocidad de procesamiento Precisión Actualizable Compartible y reutilizable Accesible Costo de acceso

Desventajas de corpus informatizado • • • Software especializado Digitalización de los textos Requerimientos

Desventajas de corpus informatizado • • • Software especializado Digitalización de los textos Requerimientos de equipo de cómputo Gasto de inversión Actualización del equipo Fallas técnicas

Características de los corpus • • Representatividad, variedad y equilibrio Tamaño finito Manejable por

Características de los corpus • • Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor

Derechos de autor • Consentimiento del titular de la obra: – Previo, explícito y

Derechos de autor • Consentimiento del titular de la obra: – Previo, explícito y por escrito Acceso sólo a parte del texto Excepto caso texto oral • Corpus debe señalar las fuentes • Excepciones: – Investigación o docencia sin fines de lucro – 70 años después del fallecimiento del autor

Propiedad intelectual del corpus • • Reconocimiento al equipo de trabajo Agradecimiento al patrocinador

Propiedad intelectual del corpus • • Reconocimiento al equipo de trabajo Agradecimiento al patrocinador Registro de usuarios Ser reconocido por los usuarios