TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero

Slides:



Advertisements
Presentaciones similares
“Los secretos de mi ordenador”
Advertisements

LATÍN 4.º DE ESO.
TEXTO Y DISCURSO.
Lengua Castellana y Literatura 1º de Bachillerato
María Simarro Vázquez 4. LA DOCUMENTACIÓN ESPECIALIZADA.
CAPÍTULOS 5 Y 6. ¿QUÉ ES COMENTAR UN TEXTO
Los corpus electrónicos
DESARROLLO DE LA INVESTIGACION
Estrategias de Búsqueda
Géneros informativos 5. El texto periodístico
04. Título, resumen y palabras clave
INSTRUMENTO PARA REVISAR EL PRODUCTO DE SISTEMATIZACIÓN
LOS TEXTOS EXPOSITIVOS
DIRECCIÓN DE EVALUACIÓN DE LA CALIDAD EDUCATIVA Lengua Informe de resultados 2013.
Requisitos de Calidad Productos de Sistematización.
LENGUA CASTELLANA Y LITERATURA 1. ◦ Los ejercicios se basarán en el currículo oficial de las materias de 2º de bachillerato establecido por Decreto 67/2008,
GESTIÓN TÉCNICA DE PRECIOS EN BOT PLUS
SPAN 595 – Morfosintaxis Verano 2011 Dr. Waltermire.
UNIDAD 6 LA PRENSA.
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
Reponer el texto, la palabra y la cultura
Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.
¿ESCUCHA Y DESCRIBE?.
El resumen y la reseña bibliográfica
Pura literatura Contenidos Literatura 1. La lengua literaria Lengua
SenSemCat:. Corpus de la lengua catalana. anotado con información
La traducción periodística "Sólo dominaba la escritura aramea, en la que se escribía el español antiguo, y leía exclusivamente periódicos en esa lengua,
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Citas y fichas bibliográficas
4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.
Sesión 1 COE..
Portafolio tecnología y globalizacion.
Análisis morfológico y sintáctico
TALLER 5 Desarrollo Capítulo II - Parte Pedagógica Curricular Adrián Villegas Dianta.
Support.ebsco.com Tutorial de búsqueda básica para bibliotecas académicas.
Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)
Por: Andres Gonzalez Gonzalez Y Santiago Herrera Palma 11°A
MAESTRÍA EN GESTIÓN PÚBLICA CURSO: Diseño de Proyectos de Investigación EL MARCO TEÓRICO Dr. Hugo L. Agüero Alva.
Tecnologías para el Aprendizaje
Gabriel Montañés León. RSS es el acrónimo de Really Simple Sindication (Sindicación Realmente Simple). Es un formato basado en el lenguaje XML que permite.
DE LENGUA actividades.
Tecnologías para el Aprendizaje
Comunicación Oral y Escrita I
El Relato Histórico Narración de acontecimientos pasados comprobables.
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
Programa de Educación Secundaria.
Definición de software
COMENTARIO DE TEXTO 1º BACHILLERATO.
El aprendizaje de la lengua
ESTRUCTURA DE LA LENGUA:
TÉCNICAS DE INVESTIGACIÓN UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAS DE ESTUDIOS SUPERIORES ACATLÁN LICENCIATURA EN COMUNICACIÓN INVESTIGACIÓN EN.
Unidad mínima con coherencia, significado e intención.
Por: Víctor Manuel Muñoz Arango Y Jesús David Mejía Meneses 11°A.
Lingüística computacional unidad 2. lexicones y corpus
Tecnologías del lenguaje
Modalidades textuales
Antologías literarias.
Elaboración de artículos científicos
LENGUA Y LITERATURA Curso
Capítulo 1 Detalles básicos para su confección. El planteamiento del Problema Es una expresión significativa de la esencia real, que refleja la razón.
TABLA COMPARATIVA DE TIPOS DE TEXTOS
Tomar notas Consiste en recoger la información relevante con el fin de incluirla en el trabajo de investigación. Los datos completos de cada fuente consultada.
Cómo hacer un comentario de texto
Rasgos particulares de los lenguajes especializados de las disciplinas
Unidad 1 Tema 1. Conocemos los mecanismos de creación de los textos.
EXAMEN POR COMPETENCIAS GENÉRICAS NUEVO EXAMEN DEL ICFES SABER 11°
TECNICAS DE COMUNICACION. PARA LA CORRECTA ELABORACIÓN DE UN TEMA POR ESCRITO ES PRECISO DAR LOS SIGUIENTES PASOS: Seleccionar bien el tema sobre el que.
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
Basado en el libro Léxico del español como segunda lengua: aprendizaje y enseñanza, de Mª Victoria Romero Gualda (2008).
Traducción Científico-Periodística Año 2014
Transcripción de la presentación:

TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero

Bibliografía Tony Berber Sardinha (2004), Lingüística de Corpus, Editora Manole, Brasil. J. Torruella y J. Llisterri (1999): “Diseño de corpus textuales y orales”, en J. M. Blecua et al. (eds.), Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona: Editorial Milenio y Universidad Autónoma de Barcelona. Sinclair, J. (1996): EAGLES Preliminary recommendations on Corpus Typology. Documento electrónico:

PLAN  características de un corpus  clasificaciones y tipología  codificación y anotación

Características de un corpus  Debe estar formado por un conjunto de datos lingüísticos naturales (uso oral o/y escrito).  El contenido del corpus debe ser cuidadosamente escogido según ciertos criterios.  El corpus debe ser representativo de una lengua o variedad.  El corpus debe ser vasto para ser representativo.  El corpus debe tener como finalidad ser objeto de estudio lingüístico.

Tipos de corpus (1) Según la modalidad de la lengua:  Corpus textuales o escritos: muestras de lengua escrita.  Corpus orales: muestras de lengua hablada, que pueden ser: Transcripciones ortográficas y/o fonéticas de grabaciones (empleadas en fonética y tecnologías del habla).

Tipos de corpus (2) Según el número de lenguas: Corpus monolingües Corpus bilingües o multilingües Corpus comparables : consisten en una selección de textos en más de una lengua, parecidos en cuanto a sus características y que comparten criterios de selección. Corpus paralelos (“bi-texts”): recogen textos en más de una lengua (bilingües o multilingües) pero, a diferencia de los anteriores, se trata del mismo texto traducido a una o más lenguas. P.e. Piedra Roseta. Corpus alineados: son corpus paralelos en los que, para facilitar su explotación, los textos están dispuestos unos al lado de otros en párrafos o frases, de tal forma que sea más fácil extraer las equivalencias de traducción.

Tipos de corpus (3) Según la especificidad de los textos Corpus generales: pretenden reflejar la lengua o variedad lingüística de la forma más equilibrada posible; cuantos más tipos de textos, modalidades (textos orales, textos escritos), géneros y materias, mejor. Corpus especializados: recogen textos que puedan aportar datos para la descripción de un tipo particular de lengua (sublenguaje). P.e. un corpus que sólo recoge textos poéticos o jurídicos. Corpus canónicos: están formados por todos los textos que configuran la obra completa de un autor. Corpus diacrónicos o históricos: incluyen textos de diferentes etapas temporales sucesivas con el fin de poder observar evoluciones de la lengua en un período largo.

Tipos de corpus (4) Según la cantidad de texto que se recoge en cada documento (representatividad) : Corpus textuales: están formados por textos enteros. P.e. una novela, un anuncio de periódico, un poema, un artículo periodístico o de una revista, etc. son ejemplos de textos completos. Corpus de referencia: están formados por fragmentos de textos, ya que interesa más el nivel de lengua que el texto en sí mismo. En este tipo de corpus son muy importantes los aspectos de equilibrio y representatividad, puesto que su objetivo es proporcionar una información lo más completa posible sobre una lengua o una variedad lingüística. Por este motivo también tienen que ser lo suficientemente amplios como para representar todas las variedades relevantes de una lengua y su vocabulario.

Tipos de corpus (5) Según el proceso al que se someta el corpus: Corpus simples, en bruto, no anotados o no codificados Corpus codificados o anotados: están formados por textos a los que se les han añadido, de forma manual o automática, determinadas informaciones. Éstas pueden referirse a la estructura de los textos: etiquetas especiales para indicar el título, los capítulos, etc. (codificación); o a aspectos puramente lingüísticos, como la categoría gramatical, la estructura sintáctica, etc. (anotación).

Corpus anotados manual o automáticamente Corpus analizados morfológicamente o etiquetación morfosintáctica: los textos del corpus han sido anotados con información morfológica. Cada palabra del corpus tiene asociada una lista de sus posibles categorías morfosintácticas. Es posible más o menos detalle (nombre, verbo; nombre común, nombre propio, verbo principal, verbo auxiliar, etc.). Corpus analizados parcialmente o “parentizados”: son aquéllos que se han sometido a un proceso de análisis sintáctico superficial, marcado entre paréntesis o corchetes. Normalmente se identifican los constituyentes principales: p.e. SN (sintagma nominal), SV (sintagma verbal), etc. Corpus analizados (treebanks): el texto está procesado sintácticamente de manera completa. Cada oración del corpus ha sido analizada de forma exhaustiva: p.e. SN sujeto animado.

Anotación morfosintáctica Etiquetadores o POS Taggers - Tree-Tagger (software gratuito, privativo) (versión para el gallego) “Os meus pais emigraron a América despois da guerra.” Os DET o meus ADJ meu pais NOM pai emigraron V emigrar a DET a América NOM América despois ADV despois da PRP+DET de guerra NOM guerra. SENT.

Anotación morfosintáctica Etiquetadores o POS Taggers - Freeling (software libre) (versión para el gallego) “Os meus pais emigraron a América despois da guerra.” Os o DA0MP0 meus DP1MPS DP1MPS pais pai NCMP000 emigraron emigraron VMIS3P0 a o DA0FS0 América américa NP00000 despois despois RG de de SPS00 a o DA0FS0 guerra guerra NCFS000.. Fp

Anotación morfosintáctica Ejecutar en línea de comandos echo "Os meus pais emigraron a América." | freeling-gl echo "Os meus pais emigraron a América." | tree-tagger-galicien Práctica: Etiqueta las primeras líneas de El Quijote cat ElQuijote.txt | head | tree-tagger-galicien > quijote1000.tagged