Corpus Identificación del recurso

Slides:



Advertisements
Presentaciones similares
ANÁLISIS DE MATERIALES.  FUENTES BIBLIOGRÁFICAS.
Advertisements

Programa Nacional de Inglés para Educación Básica (PNIEB) AGOSTO 2011.
BIENVENIDOS A LA FACULTAD DE FILOSOFÍA Y LETRAS DE LA UNIVERSIDAD DE ALCALÁ.
Programa Nacional de Inglés para Educación Básica (PNIEB) ABRIL 2010.
El español en el mundo. El español actual
Características lingüísticas La exposición Estructuras del texto expositivo Proceso de elaboración Introducción Definiciones Tipologías.
GÉNERO PERIODÍSTICOS Género de Información: ( Claridad – concisión – objetividad ) Noticia Reportaje Crónica Entrevista Informativa Género de Opinión:
Proceso de Admisión Responsable: Unidad Externa de Medición de la Calidad de la Educación (UMCE) Rectoría Vice Rectoría Académica.
Los fines de la educación Están establecidos en el Artículo 3º constitucional y se refieren al desarrollo armónico de todas las facultades del ser humano.
Pragmática de la comunicación oral y escrita y su didáctica.
Clasifica los textos persuasivos Conocimientos: Anuncio publicitario Editorial periodístico y artículo de opinión Caricatura política Discurso político.
Impulso al talento diplomático Instituto Matías Romero
LA PRENSA.
Textos específicos Textos científico-técnicos Textos humanísticos
Welcome to a world of endless experiences. Live your English at U.T.P
INCLUSIÓN EN EL CURRICULO
Indicadores de investigación
ORIENTACIÓN ACADÉMICO PROFESIONAL.
Fundamentos de la educación bilingüe Día 31, 07 abr 2016
PASANTÍA INTERNACIONAL EN SALUD
Aprendizaje de una segunda lengua, 3 Día 28, 20 mar 2017
PROGRAMA DE INGLÉS. PROGRAMA DE INGLÉS INCLUSIÓN EN EL CURRICULO POLITICA DE BILINGUISMO INSTITUCIONAL CONCEPTO CURRICULO PROYECTO EDUCATIVO INSTITUCIONAL.
Tipología textual.
Registro contable Número 325, marzo 13 de 2017.
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
Tipos de Fuentes de información
LA CIENCIA Y LA INFORMACIÓN CIENTÍFICA
Comunicación radiofónica
Cronograma Semana 1 Las ciencias políticas y el mundo contemporáneo
Información de interés
Lenguas románicas o romances BILINGÜISMO O PLURILINGÜISMO
Datos y Cifras de Enseñanza no Universitaria
Recursos generales del traductor
Corpus MUST- equipo UCM
PERFIL Persona responsable, autónoma, con capacidad de liderazgo, con habilidades que permiten la integración y el trabajo en equipo.  Me he desempeñado.
Selección de estrategias de aprendizaje
Estrategias para la búsqueda de información: Palabras claves y temas
La lingüística panhispánica
Sesión 8 ‘Lugares de trabajo y el artículo indefinido’
Estándares Curriculares.
Corpus IULA-SCRC Identificación del recurso
NIVELES DEL LENGUAJE.
El proyecto del Diccionario del Español de México (DEM)
Introducción a la Lingüística de corpus
Mónica Delgado Caracas, septiembre 2016
Zaida Chinchilla-Rodríguez y Sandra Miguel
Dialogo.
(árabe, chino e inglés como lengua B)
LA UNIDAD Y LA VARIEDAD EN LAS LENGUAS
INVESTIGACIÓN/EXCELENCIA
Portafolio virtual de evidencias
Educación Infantil JORNADA DE ACOGIDA DE ESTUDIANTES DE NUEVO INGRESO
Las tipologías textuales I: textos académicos y profesionales
El examen de AP Español, Lengua y Cultura
POR: GUADALUPE MIREYA REYES OLVERA
LENGUAJE El idioma español o castellano es una lengua romance del grupo ibérico. Es uno de los seis idiomas oficiales de la ONU y, tras el chino mandarín,
ScienceDirect Tutorial.
Universidad Juárez Autónoma de Tabasco
San Marcos: Promoción de la Cultura de Educación con Calidad
Introducción a xbrl II Congreso Internacional de XBRL en Iberoamérica
Lingüística computacional
¿Qué lenguas se hablan en HK?
Premio de las Naciones Unidas al Servicio Público
Gloria Vázquez Elba Ramírez.
PAESPE COMPREENSÃO LEITORA.
¿Qué es ISO 19115:2003? “ Identifica los metadatos necesarios para describir la información geográfica digital. Los metadatos pueden describir conjuntos.
REVISIÓN DEL PROCESO DE EVALUACIÓN
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
Registro contable Número 441, 12 de agosto de 2019.
III. Tutorías para la investigación
Transcripción de la presentación:

Corpus Identificación del recurso Nombre: CORLEC (Corpus Oral de Referencia de la Lengua Española Contemporánea) Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: Español Descripción del recurso: Base de datos textual (corpus de lengua oral): 1.100.000 de palabras transliteradas en soporte informático. Versión: 1 URL: http://www.lllf.uam.es/ESP/Corlec.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 1

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Francisco Marcos Marín Procedencia de los datos: transliteración de textos grabados en cintas de audio del registro oral. Proyecto(s) financiador(es): Programa de cooperación entre IBM España y la Cátedra de Lingüística General de la UAM 19/09/2017 2º Taller ReTeLe 2

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): Varios Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 1.100.000 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO-8859-1, etc.):US-ASCII y UTF8 Dominio* (economía, legislación, etc.): administrativo, científico, humanístico, jurídico, lúdico, político y periodístico. Género* (crónica, publicidad, oficial, etc.): conversaciones, presentaciones, etc. Tipo de texto*: (académico, blog, etc.): No aplica Tipo de documento*: (artículo, manual, etc.): No aplica 19/09/2017 2º Taller ReTeLe 3

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: Corpus de Referencia de la Lengua Española en la Argentina Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: Español Descripción del recurso: Base de datos textual (corpus de lengua escrita): más de 2.000.000 de palabras. Versión: 1 URL: http://www.lllf.uam.es/ESP/Argentina.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 4

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Francisco Marcos Marín Procedencia de los datos: textos públicos en español argentino. Proyecto(s) financiador(es): Colaboración entre la Sociedad Estatal del Quinto Centenario y la Agencia Española de Cooperación Internacional, Instituto de Cooperación con Iberoamérica. 19/09/2017 2º Taller ReTeLe 5

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español de argentina Niveles de anotación lingüística*: lingüística (texto), identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Más de 2.000.000 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): Codificación* (US-ASCII, ISO-8859-1, etc.): US-ASCII Dominio* (economía, legislación, etc.): científico, humanístico, literario, jurídico, técnico, comercial y periodístico. Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): artículos, periódicos, cartas 19/09/2017 2º Taller ReTeLe 6

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: Corpus de Referencia de la Lengua Española en Chile Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: Español Descripción del recurso: Base de datos textual (corpus de lengua escrita): 2.000.000 de palabras. Versión: 1 URL: http://www.lllf.uam.es/ESP/Chile.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 7

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Francisco Marcos Marín Procedencia de los datos: textos públicos en español chileno. Proyecto(s) financiador(es): Colaboración entre la Sociedad Estatal del Quinto Centenario y la Agencia Española de Cooperación Internacional, Instituto de Cooperación con Iberoamérica. 19/09/2017 2º Taller ReTeLe 8

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español de chile Niveles de anotación lingüística*: lingüística (texto), identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): T.E.I. Tamaño: Más de 2.000.000 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): TEI Codificación* (US-ASCII, ISO-8859-1, etc.): ASCII Dominio* (economía, legislación, etc.): científico, económico, escolar humanístico, literario, jurídico, periodístico, publicitario, técnico. Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): académico, científico, divulgación Tipo de documento*: (artículo, manual, etc.): artículos, ensayos, bases de datos periodísticas 19/09/2017 2º Taller ReTeLe 9

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: UAM Spanish Treebank Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: Español Descripción del recurso: 1.500 oraciones extraídas de periódicos y anotadas sintácticamente Versión: 1 URL: http://www.lllf.uam.es/ESP/Treebank.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 10

Licencia: licencia de investigación DPI (o IPR): Distribución Licencia: licencia de investigación DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval y Marta Garrote Procedencia de los datos: textos procedentes de dos periódicos. Proyecto(s) financiador(es): New York University 19/09/2017 2º Taller ReTeLe 11

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español estándar Niveles de anotación lingüística*: morfosintáctico, negación Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 1500 Unidad (términos, entradas, textos, oraciones): oraciones Formato* (CSV, HTM, etc.): lisp (PTB) y xml Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): periodístico Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 12

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: C-ORAL ROM (Español) Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: español Descripción del recurso: corpus oral español de 300.000 palabras Versión: 1 URL: http://www.lllf.uam.es/ESP/Coralrom.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 13

Licencia: distribuido por ELDA DPI (o IPR): Distribución Licencia: distribuido por ELDA DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: grabaciones de españoles nativos. Proyecto(s) financiador(es): Corpus Oral de las Lenguas Romances en formato multimedia. (IST-2000-26228) 2001-2004. 19/09/2017 2º Taller ReTeLe 14

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español estándar, español suramericano Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 300.000 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): monólogo, diálogo, conversación, Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): familiar, público, conferencia, legal, debate, sermón, discurso, docencia, entrevistas, meteorología, noticia, reportaje, deporte, teléfono. Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 15

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: MAVIR Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): bilingüe Lenguas*: español e inglés Descripción del recurso: corpus oral en el que se recopilan las conferencias de las Jornadas MAVIR Versión: 1 URL: http://www.lllf.uam.es/ESP/CorpusMavir.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 16

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: grabaciones de conferencias. Proyecto(s) financiador(es): MAVIR: Mejorando el Acceso y Visibilidad de la Información multilingüe en Red 19/09/2017 2º Taller ReTeLe 17

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español e inglés estándar Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 103.479 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML, HTML Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): investigación en tecnologías informáticas Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): conferencia Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 18

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: MULTIMÉDICA Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): multilingüe Lenguas*: español, japonés y árabe Descripción del recurso: corpus médico español, japonés y árabe de casi 8.000.000 de palabras Versión: 1 URL: http://www.lllf.uam.es/ESP/Multimed.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 19

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: revistas y manuales médicos Proyecto(s) financiador(es): MultiMedica. Multilingual Information Extraction in Health Domain and Application to Scientific and Informative Documents: Linguistic Resources. 19/09/2017 2º Taller ReTeLe 20

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español, japonés y árabe estándar Niveles de anotación lingüística*: lingüística (texto), identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 7.721.801 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML, HTML Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): medicina Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): académico, divulgativo Tipo de documento*: (artículo, manual, etc.): manuales, artículos, resúmenes 19/09/2017 2º Taller ReTeLe 21

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: C-ORAL JAPÓN Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: japonés Descripción del recurso: Corpus oral del japonés de unas 125.000 palabras Versión: 1 URL: http://www.lllf.uam.es/ESP/Coraljp.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 22

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: grabaciones de japoneses nativos. Proyecto(s) financiador(es): La aplicación de corpus de habla espontánea a la enseñanza del español y japonés (UAM-Santander) 19/09/2017 2º Taller ReTeLe 23

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): japonés estándar Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 125.294 palabras (tokenizadas con JUMAN) Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): monólogo, diálogo, conversación, Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): familiar, privado Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 24

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: CHIEDE. Corpus de Habla Infantil Espontánea del Español Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: español Descripción del recurso: Corpus oral de lenguaje infantil con alrededor de 60.000 palabras Versión: 1 URL: http://www.lllf.uam.es/ESP/Chiede.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 25

Licencia: distribuido por ELRA DPI (o IPR): Distribución Licencia: distribuido por ELRA DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Marta Garrote Procedencia de los datos: grabaciones de niños y adultos españoles. Proyecto(s) financiador(es): 19/09/2017 2º Taller ReTeLe 26

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español estándar, infantil Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 60.000 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): conversaciones colectivas, entrevistas personales Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 27

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: Corpus Oral de Español como Lengua Extranjera Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: español Descripción del recurso: corpus oral de interlengua de estudiantes de español con más de 50.000 palabras. Versión: 1 URL: http://www.lllf.uam.es/ESP/CORELE.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 28

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Leonardo Campillos Llanos (leonardo.campillos@gmail.com) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Leonardo Campillos Llanos Procedencia de los datos: grabaciones de estudiantes extranjeros de español. Proyecto(s) financiador(es): Contrato predoctoral Comunidad Madrid 19/09/2017 2º Taller ReTeLe 29

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español interlingua Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), errores de habla, información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 55.567 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): entrevistas personales Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 30

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: Corpus Oral de Aprendientes de Francés Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: francés Descripción del recurso: corpus oral de interlengua de aprendientes de francés con más de 61.000 palabras. Versión: 1 URL: http://www.lllf.uam.es/ESP/CORAF.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 31

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Ana Valverde Mateos Procedencia de los datos: grabaciones de estudiantes extranjeros de francés. Proyecto(s) financiador(es): Beca FPU-MEC 19/09/2017 2º Taller ReTeLe 32

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): francés interlingua Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), errores de habla, información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 61.092 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): entrevistas personales Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 33

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: Corpus Árabe-Español Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): trilingüe Lenguas*: español y árabe; árabe-inglés; español-inglés Descripción del recurso: corpus paralelo árabe-español con 1179 oraciones. Versión: 1 URL: http://www.lllf.uam.es/ESP/Arabe_espa%C3%B1ol.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 34

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Doaa Samy Procedencia de los datos: oraciones bilingües español-árabe Proyecto(s) financiador(es): Beca predoctoral AECID 19/09/2017 2º Taller ReTeLe 35

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español y árabe estandar Niveles de anotación lingüística*: lingüística (texto) Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 1.179 Unidad (términos, entradas, textos, oraciones): oraciones Formato* (CSV, HTM, etc.): Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 36

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: COREMAH Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: español Descripción del recurso: corpus Español Multimodal de Actos de Habla Versión: 1 URL: http://www.lllf.uam.es/coremah/ ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 37

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Marta Vacas Matos (titavama@gmail.com) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Marta Vacas Matos Procedencia de los datos: grabaciones de estudiantes de español Proyecto(s) financiador(es): 19/09/2017 2º Taller ReTeLe 38

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): español interlingua Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), fenómenos de actos de habla, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 18.737 Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): role-plays Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 39

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: C-ORAL CHINA Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: chino Descripción del recurso: corpus espontáneo chino mandarín Versión: 1 URL: http://cartago.lllf.uam.es/dat/c-oral-chino ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 40

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Yang Dong y Antonio Moreno Sandoval Procedencia de los datos: grabaciones de nativos chinos Proyecto(s) financiador(es): La aplicación de corpus de habla espontánea a la enseñanza del español y el chino (UAM-Santander) 19/09/2017 2º Taller ReTeLe 41

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): chino estándar Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 141.000 Unidad (términos, entradas, textos, oraciones): caracteres Formato* (CSV, HTM, etc.): Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): diálogos, monólogos, medios Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 42

*todos los campos marcados con asterisco aceptan una o varias opciones Identificación del recurso Nombre: DIR-SI Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): bilingüe Lenguas*: inglés-italiano Descripción del recurso: Corpus oral bilingüe inglés-italiano de conferencias con sus traducciones al italiano Versión: 1 URL: http://cartago.lllf.uam.es/static/dir-si/dir-si.html ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 43

Persona de contacto u organización responsable: Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval (antonio.msandoval@uam.es) Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid (http://www.lllf.uam.es/ESP/index.html) Creación del recurso Proveedor y/o creador: Claudio Bendazzoli y José M. Guirao Procedencia de los datos: international conferences (ELSA y CFF4) Proyecto(s) financiador(es): University of Bologna 19/09/2017 2º Taller ReTeLe 44

Descripción del recurso Variedad de la lengua (estándar, dialecto, argot, otro): inglés e italiano estándar Niveles de anotación lingüística*: lingüística (texto), alineamiento Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): HTML Codificación* (US-ASCII, ISO-8859-1, etc.): UTF-8 Dominio* (economía, legislación, etc.): investigación Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): conferencia Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 45