Corpus Identificacin del recurso Nombre CORLEC Corpus Oral
Corpus Identificación del recurso • Nombre: CORLEC (Corpus Oral de Referencia de la Lengua Española Contemporánea) • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: Español Descripción del recurso: Base de datos textual (corpus de lengua oral): 1. 100. 000 de palabras transliteradas en soporte informático. • Versión: 1 • URL: http: //www. lllf. uam. es/ESP/Corlec. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 1
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Francisco Marcos Marín Procedencia de los datos: transliteración de textos grabados en cintas de audio del registro oral. Proyecto(s) financiador(es): Programa de cooperación entre IBM España y la Cátedra de Lingüística General de la UAM 19/09/2017 2º Taller Re. Te. Le 2
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): Varios • Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc. ), información sobre hablantes, identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): • Tamaño: 1. 100. 000 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): XML – Codificación* (US-ASCII, ISO-8859 -1, etc. ): US-ASCII y UTF 8 – Dominio* (economía, legislación, etc. ): administrativo, científico, humanístico, jurídico, lúdico, político y periodístico. • Género* (crónica, publicidad, oficial, etc. ): conversaciones, presentaciones, etc. • Tipo de texto*: (académico, blog, etc. ): No aplica • Tipo de documento*: (artículo, manual, etc. ): No aplica 19/09/2017 2º Taller Re. Te. Le 3
Identificación del recurso Nombre: Corpus de Referencia de la Lengua Española en la Argentina • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: Español Descripción del recurso: Base de datos textual (corpus de lengua escrita): más de 2. 000 de palabras. • Versión: 1 URL: http: //www. lllf. uam. es/ESP/Argentina. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 4
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Francisco Marcos Marín Procedencia de los datos: textos públicos en español argentino. Proyecto(s) financiador(es): Colaboración entre la Sociedad Estatal del Quinto Centenario y la Agencia Española de Cooperación Internacional, Instituto de Cooperación con Iberoamérica. 19/09/2017 2º Taller Re. Te. Le 5
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español de argentina • Niveles de anotación lingüística*: lingüística (texto), identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): • Tamaño: Más de 2. 000 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): – Codificación* (US-ASCII, ISO-8859 -1, etc. ): US-ASCII • Dominio* (economía, legislación, etc. ): científico, humanístico, literario, jurídico, técnico, comercial y periodístico. • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): • Tipo de documento*: (artículo, manual, etc. ): artículos, periódicos, cartas 19/09/2017 2º Taller Re. Te. Le 6
Identificación del recurso Nombre: Corpus de Referencia de la Lengua Española en Chile • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: Español Descripción del recurso: Base de datos textual (corpus de lengua escrita): 2. 000 de palabras. • Versión: 1 URL: http: //www. lllf. uam. es/ESP/Chile. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 7
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Francisco Marcos Marín Procedencia de los datos: textos públicos en español chileno. Proyecto(s) financiador(es): Colaboración entre la Sociedad Estatal del Quinto Centenario y la Agencia Española de Cooperación Internacional, Instituto de Cooperación con Iberoamérica. 19/09/2017 2º Taller Re. Te. Le 8
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español de chile • Niveles de anotación lingüística*: lingüística (texto), identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): T. E. I. • Tamaño: Más de 2. 000 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): TEI – Codificación* (US-ASCII, ISO-8859 -1, etc. ): ASCII • Dominio* (economía, legislación, etc. ): científico, económico, escolar humanístico, literario, jurídico, periodístico, publicitario, técnico. • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): académico, científico, divulgación • Tipo de documento*: (artículo, manual, etc. ): artículos, ensayos, 19/09/2017 9 bases de datos periodísticas 2º Taller Re. Te. Le
Identificación del recurso Nombre: UAM Spanish Treebank • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: Español Descripción del recurso: 1. 500 oraciones extraídas de periódicos y anotadas sintácticamente • Versión: 1 URL: http: //www. lllf. uam. es/ESP/Treebank. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 10
Distribución • Licencia: licencia de investigación • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Antonio Moreno Sandoval y Marta Garrote Procedencia de los datos: textos procedentes de dos periódicos. Proyecto(s) financiador(es): New York University 19/09/2017 2º Taller Re. Te. Le 11
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español estándar • Niveles de anotación lingüística*: morfosintáctico, negación • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): • Tamaño: 1500 • Unidad (términos, entradas, textos, oraciones): oraciones • Formato* (CSV, HTM, etc. ): lisp (PTB) y xml – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • • Dominio* (economía, legislación, etc. ): periodístico Género* (crónica, publicidad, oficial, etc. ): Tipo de texto*: (académico, blog, etc. ): Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 12
Identificación del recurso Nombre: C-ORAL ROM (Español) • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: español • Descripción del recurso: corpus oral español de 300. 000 palabras • Versión: 1 URL: http: //www. lllf. uam. es/ESP/Coralrom. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 13
Distribución • Licencia: distribuido por ELDA • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: grabaciones de españoles nativos. Proyecto(s) financiador(es): Corpus Oral de las Lenguas Romances en formato multimedia. (IST-2000 -26228) 2001 -2004. 19/09/2017 2º Taller Re. Te. Le 14
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español estándar, español suramericano Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc. ), información sobre hablantes, identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): • Tamaño: 300. 000 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): XML – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): monólogo, diálogo, conversación, • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): familiar, público, conferencia, legal, debate, sermón, discurso, docencia, entrevistas, meteorología, noticia, reportaje, deporte, teléfono. • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 15
Identificación del recurso Nombre: MAVIR • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): bilingüe • Lenguas*: español e inglés Descripción del recurso: corpus oral en el que se recopilan las conferencias de las Jornadas MAVIR Versión: 1 URL: http: //www. lllf. uam. es/ESP/Corpus. Mavir. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 16
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: grabaciones de conferencias. Proyecto(s) financiador(es): MAVIR: Mejorando el Acceso y Visibilidad de la Información multilingüe en Red 19/09/2017 2º Taller Re. Te. Le 17
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español e inglés estándar Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc. ), información sobre hablantes, identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): • Tamaño: 103. 479 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): XML, HTML – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): investigación en tecnologías informáticas • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): conferencia • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 18
Identificación del recurso Nombre: MULTIMÉDICA • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): multilingüe • Lenguas*: español, japonés y árabe Descripción del recurso: corpus médico español, japonés y árabe de casi 8. 000 de palabras Versión: 1 URL: http: //www. lllf. uam. es/ESP/Multimed. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 19
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: revistas y manuales médicos Proyecto(s) financiador(es): Multi. Medica. Multilingual Information Extraction in Health Domain and Application to Scientific and Informative Documents: Linguistic Resources. 19/09/2017 2º Taller Re. Te. Le 20
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español, japonés y árabe estándar Niveles de anotación lingüística*: lingüística (texto), identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): • Tamaño: 7. 721. 801 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): XML, HTML – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): medicina • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): académico, divulgativo • Tipo de documento*: (artículo, manual, etc. ): manuales, artículos, resúmenes 19/09/2017 2º Taller Re. Te. Le 21
Identificación del recurso Nombre: C-ORAL JAPÓN • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: japonés Descripción del recurso: Corpus oral del japonés de unas 125. 000 palabras • Versión: 1 URL: http: //www. lllf. uam. es/ESP/Coraljp. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 22
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: grabaciones de japoneses nativos. Proyecto(s) financiador(es): La aplicación de corpus de habla espontánea a la enseñanza del español y japonés (UAM-Santander) 19/09/2017 2º Taller Re. Te. Le 23
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): japonés estándar Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc. ), información sobre hablantes, identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): Tamaño: 125. 294 palabras (tokenizadas con JUMAN) • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): XML – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): monólogo, diálogo, conversación, • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): familiar, privado • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 24
Identificación del recurso Nombre: CHIEDE. Corpus de Habla Infantil Espontánea del Español • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: español Descripción del recurso: Corpus oral de lenguaje infantil con alrededor de 60. 000 palabras • Versión: 1 URL: http: //www. lllf. uam. es/ESP/Chiede. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 25
Distribución • Licencia: distribuido por ELRA • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Marta Garrote Procedencia de los datos: grabaciones de niños y adultos españoles. Proyecto(s) financiador(es): 19/09/2017 2º Taller Re. Te. Le 26
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español estándar, infantil Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc. ), información sobre hablantes, identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): Tamaño: 60. 000 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): XML – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): conversaciones colectivas, entrevistas personales • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 27
Identificación del recurso Nombre: Corpus Oral de Español como Lengua Extranjera • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: español Descripción del recurso: corpus oral de interlengua de estudiantes de español con más de 50. 000 palabras. • Versión: 1 URL: http: //www. lllf. uam. es/ESP/CORELE. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 28
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Leonardo Campillos Llanos (leonardo. campillos@gmail. com) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Leonardo Campillos Llanos Procedencia de los datos: grabaciones de estudiantes extranjeros de español. Proyecto(s) financiador(es): Contrato predoctoral Comunidad Madrid 19/09/2017 2º Taller Re. Te. Le 29
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español interlingua Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc. ), errores de habla, información sobre hablantes, identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): Tamaño: 55. 567 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): XML – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): entrevistas personales • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 30
Identificación del recurso Nombre: Corpus Oral de Aprendientes de Francés • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: francés Descripción del recurso: corpus oral de interlengua de aprendientes de francés con más de 61. 000 palabras. • Versión: 1 URL: http: //www. lllf. uam. es/ESP/CORAF. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 31
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Ana Valverde Mateos Procedencia de los datos: grabaciones de estudiantes extranjeros de francés. Proyecto(s) financiador(es): Beca FPU-MEC 19/09/2017 2º Taller Re. Te. Le 32
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): francés interlingua Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc. ), errores de habla, información sobre hablantes, identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): Tamaño: 61. 092 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): XML – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): entrevistas personales • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 33
Identificación del recurso Nombre: Corpus Árabe-Español • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): trilingüe • Lenguas*: español y árabe; árabe-inglés; español-inglés Descripción del recurso: corpus paralelo árabe-español con 1179 oraciones. • Versión: 1 URL: http: //www. lllf. uam. es/ESP/Arabe_espa%C 3%B 1 ol. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 34
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Doaa Samy Procedencia de los datos: oraciones bilingües español-árabe Proyecto(s) financiador(es): Beca predoctoral AECID 19/09/2017 2º Taller Re. Te. Le 35
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español y árabe estandar Niveles de anotación lingüística*: lingüística (texto) • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): Tamaño: 1. 179 • Unidad (términos, entradas, textos, oraciones): oraciones • Formato* (CSV, HTM, etc. ): – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 36
Identificación del recurso Nombre: COREMAH • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: español Descripción del recurso: corpus Español Multimodal de Actos de Habla • Versión: 1 URL: http: //www. lllf. uam. es/coremah/ • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 37
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Marta Vacas Matos (titavama@gmail. com) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Marta Vacas Matos Procedencia de los datos: grabaciones de estudiantes de español Proyecto(s) financiador(es): 19/09/2017 2º Taller Re. Te. Le 38
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): español interlingua Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc. ), fenómenos de actos de habla, identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): Tamaño: 18. 737 • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): role-plays • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 39
Identificación del recurso Nombre: C-ORAL CHINA • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe • Lenguas*: chino Descripción del recurso: corpus espontáneo chino mandarín • Versión: 1 URL: http: //cartago. lllf. uam. es/dat/c-oral-chino • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 40
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Yang Dong y Antonio Moreno Sandoval Procedencia de los datos: grabaciones de nativos chinos Proyecto(s) financiador(es): La aplicación de corpus de habla espontánea a la enseñanza del español y el chino (UAM-Santander) 19/09/2017 2º Taller Re. Te. Le 41
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): chino estándar Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc. ), identificación de ficheros. • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): Tamaño: 141. 000 • Unidad (términos, entradas, textos, oraciones): caracteres • Formato* (CSV, HTM, etc. ): – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): diálogos, monólogos, medios • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 42
Identificación del recurso Nombre: DIR-SI • Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): bilingüe • Lenguas*: inglés-italiano Descripción del recurso: Corpus oral bilingüe inglés-italiano de conferencias con sus traducciones al italiano • Versión: 1 URL: http: //cartago. lllf. uam. es/static/dir-si. html • ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller Re. Te. Le 43
Distribución • Licencia: • DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio. msandoval@uam. es) Nombre organización (abreviatura, dpto. , URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http: //www. lllf. uam. es/ESP/index. html) Creación del recurso • Proveedor y/o creador: Claudio Bendazzoli y José M. Guirao Procedencia de los datos: international conferences (ELSA y CFF 4) Proyecto(s) financiador(es): University of Bologna 19/09/2017 2º Taller Re. Te. Le 44
Descripción del recurso • Variedad de la lengua (estándar, dialecto, argot, otro): inglés e italiano estándar Niveles de anotación lingüística*: lingüística (texto), alineamiento • Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc. ): Tamaño: • Unidad (términos, entradas, textos, oraciones): palabras • Formato* (CSV, HTM, etc. ): HTML – Codificación* (US-ASCII, ISO-8859 -1, etc. ): UTF-8 • Dominio* (economía, legislación, etc. ): investigación • Género* (crónica, publicidad, oficial, etc. ): • Tipo de texto*: (académico, blog, etc. ): conferencia • Tipo de documento*: (artículo, manual, etc. ): 19/09/2017 2º Taller Re. Te. Le 45
- Slides: 45