La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero

Presentaciones similares


Presentación del tema: "TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero"— Transcripción de la presentación:

1 TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero http://gramatica.usc.es/~gamallo/

2 Bibliografía Tony Berber Sardinha (2004), Lingüística de Corpus, Editora Manole, Brasil. J. Torruella y J. Llisterri (1999): “Diseño de corpus textuales y orales”, en J. M. Blecua et al. (eds.), Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona: Editorial Milenio y Universidad Autónoma de Barcelona. Sinclair, J. (1996): EAGLES Preliminary recommendations on Corpus Typology. Documento electrónico: http://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html

3 PLAN  características de un corpus  clasificaciones y tipología  codificación y anotación

4 Características de un corpus  Debe estar formado por un conjunto de datos lingüísticos naturales (uso oral o/y escrito).  El contenido del corpus debe ser cuidadosamente escogido según ciertos criterios.  El corpus debe ser representativo de una lengua o variedad.  El corpus debe ser vasto para ser representativo.  El corpus debe tener como finalidad ser objeto de estudio lingüístico.

5 Tipos de corpus (1) Según la modalidad de la lengua:  Corpus textuales o escritos: muestras de lengua escrita.  Corpus orales: muestras de lengua hablada, que pueden ser: Transcripciones ortográficas y/o fonéticas de grabaciones (empleadas en fonética y tecnologías del habla).

6 Tipos de corpus (2) Según el número de lenguas: Corpus monolingües Corpus bilingües o multilingües Corpus comparables : consisten en una selección de textos en más de una lengua, parecidos en cuanto a sus características y que comparten criterios de selección. Corpus paralelos (“bi-texts”): recogen textos en más de una lengua (bilingües o multilingües) pero, a diferencia de los anteriores, se trata del mismo texto traducido a una o más lenguas. P.e. Piedra Roseta. Corpus alineados: son corpus paralelos en los que, para facilitar su explotación, los textos están dispuestos unos al lado de otros en párrafos o frases, de tal forma que sea más fácil extraer las equivalencias de traducción.

7 Tipos de corpus (3) Según la especificidad de los textos Corpus generales: pretenden reflejar la lengua o variedad lingüística de la forma más equilibrada posible; cuantos más tipos de textos, modalidades (textos orales, textos escritos), géneros y materias, mejor. Corpus especializados: recogen textos que puedan aportar datos para la descripción de un tipo particular de lengua (sublenguaje). P.e. un corpus que sólo recoge textos poéticos o jurídicos. Corpus canónicos: están formados por todos los textos que configuran la obra completa de un autor. Corpus diacrónicos o históricos: incluyen textos de diferentes etapas temporales sucesivas con el fin de poder observar evoluciones de la lengua en un período largo.

8 Tipos de corpus (4) Según la cantidad de texto que se recoge en cada documento (representatividad) : Corpus textuales: están formados por textos enteros. P.e. una novela, un anuncio de periódico, un poema, un artículo periodístico o de una revista, etc. son ejemplos de textos completos. Corpus de referencia: están formados por fragmentos de textos, ya que interesa más el nivel de lengua que el texto en sí mismo. En este tipo de corpus son muy importantes los aspectos de equilibrio y representatividad, puesto que su objetivo es proporcionar una información lo más completa posible sobre una lengua o una variedad lingüística. Por este motivo también tienen que ser lo suficientemente amplios como para representar todas las variedades relevantes de una lengua y su vocabulario.

9 Tipos de corpus (5) Según el proceso al que se someta el corpus: Corpus simples, en bruto, no anotados o no codificados Corpus codificados o anotados: están formados por textos a los que se les han añadido, de forma manual o automática, determinadas informaciones. Éstas pueden referirse a la estructura de los textos: etiquetas especiales para indicar el título, los capítulos, etc. (codificación); o a aspectos puramente lingüísticos, como la categoría gramatical, la estructura sintáctica, etc. (anotación).

10 Corpus anotados manual o automáticamente Corpus analizados morfológicamente o etiquetación morfosintáctica: los textos del corpus han sido anotados con información morfológica. Cada palabra del corpus tiene asociada una lista de sus posibles categorías morfosintácticas. Es posible más o menos detalle (nombre, verbo; nombre común, nombre propio, verbo principal, verbo auxiliar, etc.). Corpus analizados parcialmente o “parentizados”: son aquéllos que se han sometido a un proceso de análisis sintáctico superficial, marcado entre paréntesis o corchetes. Normalmente se identifican los constituyentes principales: p.e. SN (sintagma nominal), SV (sintagma verbal), etc. Corpus analizados (treebanks): el texto está procesado sintácticamente de manera completa. Cada oración del corpus ha sido analizada de forma exhaustiva: p.e. SN sujeto animado.

11 Anotación morfosintáctica Etiquetadores o POS Taggers - Tree-Tagger (software gratuito, privativo) http://gramatica.usc.es/~gamallo/tagger.htm (versión para el gallego) “Os meus pais emigraron a América despois da guerra.” Os DET o meus ADJ meu pais NOM pai emigraron V emigrar a DET a América NOM América despois ADV despois da PRP+DET de guerra NOM guerra. SENT.

12 Anotación morfosintáctica Etiquetadores o POS Taggers - Freeling (software libre) http://sli.uvigo.es/lingua/ (versión para el gallego) “Os meus pais emigraron a América despois da guerra.” Os o DA0MP0 meus DP1MPS DP1MPS pais pai NCMP000 emigraron emigraron VMIS3P0 a o DA0FS0 América américa NP00000 despois despois RG de de SPS00 a o DA0FS0 guerra guerra NCFS000.. Fp

13 Anotación morfosintáctica Ejecutar en línea de comandos echo "Os meus pais emigraron a América." | freeling-gl echo "Os meus pais emigraron a América." | tree-tagger-galicien Práctica: Etiqueta las 1.000 primeras líneas de El Quijote cat ElQuijote.txt | head -1000 | tree-tagger-galicien > quijote1000.tagged


Descargar ppt "TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero"

Presentaciones similares


Anuncios Google