Introducción a la Lingüística de corpus Definición de corpus lingüístico Características de los corpus Gerardo Sierra
Características de los corpus Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor
Representación de la realidad Pavlov PAVLOV N NOM SG PROPER had HAVE V PAST VFIN SVO HAVE PCP2 SVO shown SHOW PCP2 SV00 SVO SV that ADV PRON DEM SG DET CENTRAL DEM SG CS salivation N NOM SG Un corpus de textos consiste en un conjunto de texto reales y aceptables pertenecientes a un código lingüístico determinado.
Representatividad Un corpus siempre es una muestra de lengua y no pretende ser la totalidad de ella. Los textos que conformarán el corpus deben ser representativos del tema de estudio que se llevará a cabo.
Información personal del informante Localidad geográfica Tópico Variedad Información personal del informante Localidad geográfica Tópico Tipo de texto Fuente del texto Tiempo
Información personal del informante Localidad geográfica Tópico. Variedad Información personal del informante Localidad geográfica Tópico. Tipo de texto. Fuente del texto. Tiempo.
Información personal del informante. Localidad geográfica Tópico. Variedad Información personal del informante. Localidad geográfica Tópico. Tipo de texto. Fuente del texto. Tiempo.
Información personal del informante. Localidad geográfica Tópico Variedad Información personal del informante. Localidad geográfica Tópico Tipo de texto. Fuente del texto. Tiempo.
Información personal del informante. Localidad geográfica Tópico. Variedad Información personal del informante. Localidad geográfica Tópico. Tipo de texto Fuente del texto. Tiempo.
Información personal del informante. Localidad geográfica Tópico. Variedad Información personal del informante. Localidad geográfica Tópico. Tipo de texto. Fuente del texto Tiempo.
Información personal del informante. Localidad geográfica Tópico. Variedad Información personal del informante. Localidad geográfica Tópico. Tipo de texto. Fuente del texto. Tiempo
Equilibrio
Características de los corpus Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor
Tamaño de grandes corpus 520 Mill. 400 Mill. 100 Mill. 5 Mill (voz)
100 millones de palabras = 4 años de lectura a 150 pal/min X 8 hs. ¿Qué tanto es tantito? 100 millones de palabras = 4 años de lectura a 150 pal/min X 8 hs. 1 millón de palabras = 9 ejemplares del New Yorker (965 pal. X 112 págs.) = 8 libros medianos (375 pal. X 338 págs.) = 5 tesis de doctorado (210 mil pal. X 5)
Tamaño finito Tamaño = f (tiempo, $) Diferentes medidas: Tamaño del corpus Tamaño finito Tamaño = f (tiempo, $) Diferentes medidas: palabras horas informantes
Características de los corpus Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor
Manejable por la computadora Soporte informático Recuperable computacionalmente Formato texto Formato estándar Clasificable
Ventajas de corpus informatizado Manipulación más fácil Velocidad de procesamiento Precisión Actualizable Compartible y reutilizable Accesible Costo de acceso
Desventajas de corpus informatizado Software especializado Digitalización de los textos Requerimientos de equipo de cómputo Gasto de inversión Actualización del equipo Fallas técnicas
Características de los corpus Representatividad, variedad y equilibrio Tamaño finito Manejable por la computadora Respeto a los derechos de autor
Consentimiento del titular de la obra: Derechos de autor Consentimiento del titular de la obra: Previo, explícito y por escrito Corpus debe señalar las fuentes Excepciones: Investigación o docencia sin fines de lucro 70 años después del fallecimiento del autor Acceso sólo a parte del texto Excepto caso texto oral
Propiedad intelectual del corpus Reconocimiento al equipo de trabajo Agradecimiento al patrocinador Registro de usuarios Ser reconocido por los usuarios