La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Corpus Identificación del recurso

Presentaciones similares


Presentación del tema: "Corpus Identificación del recurso"— Transcripción de la presentación:

1 Corpus Identificación del recurso Nombre: CORLEC (Corpus Oral de Referencia de la Lengua Española Contemporánea) Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: Español Descripción del recurso: Base de datos textual (corpus de lengua oral): de palabras transliteradas en soporte informático. Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 1

2 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Francisco Marcos Marín Procedencia de los datos: transliteración de textos grabados en cintas de audio del registro oral. Proyecto(s) financiador(es): Programa de cooperación entre IBM España y la Cátedra de Lingüística General de la UAM 19/09/2017 2º Taller ReTeLe 2

3 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): Varios Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO , etc.):US-ASCII y UTF8 Dominio* (economía, legislación, etc.): administrativo, científico, humanístico, jurídico, lúdico, político y periodístico. Género* (crónica, publicidad, oficial, etc.): conversaciones, presentaciones, etc. Tipo de texto*: (académico, blog, etc.): No aplica Tipo de documento*: (artículo, manual, etc.): No aplica 19/09/2017 2º Taller ReTeLe 3

4 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: Corpus de Referencia de la Lengua Española en la Argentina Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: Español Descripción del recurso: Base de datos textual (corpus de lengua escrita): más de de palabras. Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 4

5 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Francisco Marcos Marín Procedencia de los datos: textos públicos en español argentino. Proyecto(s) financiador(es): Colaboración entre la Sociedad Estatal del Quinto Centenario y la Agencia Española de Cooperación Internacional, Instituto de Cooperación con Iberoamérica. 19/09/2017 2º Taller ReTeLe 5

6 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español de argentina Niveles de anotación lingüística*: lingüística (texto), identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Más de Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): Codificación* (US-ASCII, ISO , etc.): US-ASCII Dominio* (economía, legislación, etc.): científico, humanístico, literario, jurídico, técnico, comercial y periodístico. Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): artículos, periódicos, cartas 19/09/2017 2º Taller ReTeLe 6

7 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: Corpus de Referencia de la Lengua Española en Chile Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: Español Descripción del recurso: Base de datos textual (corpus de lengua escrita): de palabras. Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 7

8 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Francisco Marcos Marín Procedencia de los datos: textos públicos en español chileno. Proyecto(s) financiador(es): Colaboración entre la Sociedad Estatal del Quinto Centenario y la Agencia Española de Cooperación Internacional, Instituto de Cooperación con Iberoamérica. 19/09/2017 2º Taller ReTeLe 8

9 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español de chile Niveles de anotación lingüística*: lingüística (texto), identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): T.E.I. Tamaño: Más de Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): TEI Codificación* (US-ASCII, ISO , etc.): ASCII Dominio* (economía, legislación, etc.): científico, económico, escolar humanístico, literario, jurídico, periodístico, publicitario, técnico. Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): académico, científico, divulgación Tipo de documento*: (artículo, manual, etc.): artículos, ensayos, bases de datos periodísticas 19/09/2017 2º Taller ReTeLe 9

10 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: UAM Spanish Treebank Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: Español Descripción del recurso: oraciones extraídas de periódicos y anotadas sintácticamente Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 10

11 Licencia: licencia de investigación DPI (o IPR):
Distribución Licencia: licencia de investigación DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval y Marta Garrote Procedencia de los datos: textos procedentes de dos periódicos. Proyecto(s) financiador(es): New York University 19/09/2017 2º Taller ReTeLe 11

12 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español estándar Niveles de anotación lingüística*: morfosintáctico, negación Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 1500 Unidad (términos, entradas, textos, oraciones): oraciones Formato* (CSV, HTM, etc.): lisp (PTB) y xml Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): periodístico Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 12

13 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: C-ORAL ROM (Español) Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: español Descripción del recurso: corpus oral español de palabras Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 13

14 Licencia: distribuido por ELDA DPI (o IPR):
Distribución Licencia: distribuido por ELDA DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: grabaciones de españoles nativos. Proyecto(s) financiador(es): Corpus Oral de las Lenguas Romances en formato multimedia. (IST ) 19/09/2017 2º Taller ReTeLe 14

15 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español estándar, español suramericano Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): monólogo, diálogo, conversación, Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): familiar, público, conferencia, legal, debate, sermón, discurso, docencia, entrevistas, meteorología, noticia, reportaje, deporte, teléfono. Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 15

16 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: MAVIR Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): bilingüe Lenguas*: español e inglés Descripción del recurso: corpus oral en el que se recopilan las conferencias de las Jornadas MAVIR Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 16

17 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: grabaciones de conferencias. Proyecto(s) financiador(es): MAVIR: Mejorando el Acceso y Visibilidad de la Información multilingüe en Red 19/09/2017 2º Taller ReTeLe 17

18 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español e inglés estándar Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML, HTML Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): investigación en tecnologías informáticas Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): conferencia Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 18

19 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: MULTIMÉDICA Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): multilingüe Lenguas*: español, japonés y árabe Descripción del recurso: corpus médico español, japonés y árabe de casi de palabras Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 19

20 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: revistas y manuales médicos Proyecto(s) financiador(es): MultiMedica. Multilingual Information Extraction in Health Domain and Application to Scientific and Informative Documents: Linguistic Resources. 19/09/2017 2º Taller ReTeLe 20

21 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español, japonés y árabe estándar Niveles de anotación lingüística*: lingüística (texto), identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML, HTML Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): medicina Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): académico, divulgativo Tipo de documento*: (artículo, manual, etc.): manuales, artículos, resúmenes 19/09/2017 2º Taller ReTeLe 21

22 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: C-ORAL JAPÓN Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: japonés Descripción del recurso: Corpus oral del japonés de unas palabras Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 22

23 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Antonio Moreno Sandoval Procedencia de los datos: grabaciones de japoneses nativos. Proyecto(s) financiador(es): La aplicación de corpus de habla espontánea a la enseñanza del español y japonés (UAM-Santander) 19/09/2017 2º Taller ReTeLe 23

24 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): japonés estándar Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: palabras (tokenizadas con JUMAN) Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): monólogo, diálogo, conversación, Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): familiar, privado Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 24

25 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: CHIEDE. Corpus de Habla Infantil Espontánea del Español Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: español Descripción del recurso: Corpus oral de lenguaje infantil con alrededor de palabras Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 25

26 Licencia: distribuido por ELRA DPI (o IPR):
Distribución Licencia: distribuido por ELRA DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Marta Garrote Procedencia de los datos: grabaciones de niños y adultos españoles. Proyecto(s) financiador(es): 19/09/2017 2º Taller ReTeLe 26

27 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español estándar, infantil Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): conversaciones colectivas, entrevistas personales Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 27

28 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: Corpus Oral de Español como Lengua Extranjera Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: español Descripción del recurso: corpus oral de interlengua de estudiantes de español con más de palabras. Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 28

29 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Leonardo Campillos Llanos Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Leonardo Campillos Llanos Procedencia de los datos: grabaciones de estudiantes extranjeros de español. Proyecto(s) financiador(es): Contrato predoctoral Comunidad Madrid 19/09/2017 2º Taller ReTeLe 29

30 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español interlingua Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), errores de habla, información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): entrevistas personales Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 30

31 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: Corpus Oral de Aprendientes de Francés Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: francés Descripción del recurso: corpus oral de interlengua de aprendientes de francés con más de palabras. Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 31

32 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Ana Valverde Mateos Procedencia de los datos: grabaciones de estudiantes extranjeros de francés. Proyecto(s) financiador(es): Beca FPU-MEC 19/09/2017 2º Taller ReTeLe 32

33 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): francés interlingua Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), errores de habla, información sobre hablantes, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): XML Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): entrevistas personales Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 33

34 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: Corpus Árabe-Español Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): trilingüe Lenguas*: español y árabe; árabe-inglés; español-inglés Descripción del recurso: corpus paralelo árabe-español con 1179 oraciones. Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 34

35 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Doaa Samy Procedencia de los datos: oraciones bilingües español-árabe Proyecto(s) financiador(es): Beca predoctoral AECID 19/09/2017 2º Taller ReTeLe 35

36 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español y árabe estandar Niveles de anotación lingüística*: lingüística (texto) Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: 1.179 Unidad (términos, entradas, textos, oraciones): oraciones Formato* (CSV, HTM, etc.): Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 36

37 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: COREMAH Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: español Descripción del recurso: corpus Español Multimodal de Actos de Habla Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 37

38 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Marta Vacas Matos Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Marta Vacas Matos Procedencia de los datos: grabaciones de estudiantes de español Proyecto(s) financiador(es): 19/09/2017 2º Taller ReTeLe 38

39 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): español interlingua Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), fenómenos de actos de habla, identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): role-plays Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 39

40 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: C-ORAL CHINA Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): monolingüe Lenguas*: chino Descripción del recurso: corpus espontáneo chino mandarín Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 40

41 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Yang Dong y Antonio Moreno Sandoval Procedencia de los datos: grabaciones de nativos chinos Proyecto(s) financiador(es): La aplicación de corpus de habla espontánea a la enseñanza del español y el chino (UAM-Santander) 19/09/2017 2º Taller ReTeLe 41

42 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): chino estándar Niveles de anotación lingüística*: lingüística (texto), extralingüístico (palabras cortadas, vacilaciones, ruidos, solapamiento, etc.), identificación de ficheros. Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): caracteres Formato* (CSV, HTM, etc.): Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): diálogos, monólogos, medios Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 42

43 *todos los campos marcados con asterisco aceptan una o varias opciones
Identificación del recurso Nombre: DIR-SI Clasificación por número de lenguas (monolingüe, bilingüe, multilingüe): bilingüe Lenguas*: inglés-italiano Descripción del recurso: Corpus oral bilingüe inglés-italiano de conferencias con sus traducciones al italiano Versión: 1 URL: ISLRN (u otros identificadores): *todos los campos marcados con asterisco aceptan una o varias opciones 19/09/2017 2º Taller ReTeLe 43

44 Persona de contacto u organización responsable:
Distribución Licencia: DPI (o IPR): Persona de contacto u organización responsable: Nombre y correo electrónico: Antonio Moreno Sandoval Nombre organización (abreviatura, dpto., URL): Laboratorio de Lingüística Computacional, Universidad Autónoma de Madrid ( Creación del recurso Proveedor y/o creador: Claudio Bendazzoli y José M. Guirao Procedencia de los datos: international conferences (ELSA y CFF4) Proyecto(s) financiador(es): University of Bologna 19/09/2017 2º Taller ReTeLe 44

45 Descripción del recurso
Variedad de la lengua (estándar, dialecto, argot, otro): inglés e italiano estándar Niveles de anotación lingüística*: lingüística (texto), alineamiento Conforme a los estándares* (EAGLES, PAROLE, CONLL, TMX, etc.): Tamaño: Unidad (términos, entradas, textos, oraciones): palabras Formato* (CSV, HTM, etc.): HTML Codificación* (US-ASCII, ISO , etc.): UTF-8 Dominio* (economía, legislación, etc.): investigación Género* (crónica, publicidad, oficial, etc.): Tipo de texto*: (académico, blog, etc.): conferencia Tipo de documento*: (artículo, manual, etc.): 19/09/2017 2º Taller ReTeLe 45


Descargar ppt "Corpus Identificación del recurso"

Presentaciones similares


Anuncios Google