Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística
28 de abril de 2008 Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística
Índice Parte I Introducción a la utilización de corpus en Lingüística El concepto de corpus y su clasificación Desarrollo de un corpus (I): diseño y constitución Desarrollo de un corpus (II): codificación y anotación Bibliografía Parte II Proceso del trabajo con corpus Ejemplos de codificación de un corpus Estudio frecuencial de un corpus Las concordancias Estudio estadístico de un corpus Servei de Tecnologia Lingüística

La Lingüística de Corpus como metodología lingüística
La Lingüística de Corpus es una metodología empírica de trabajo para el estudio y la enseñanza de la lengua Se basa en el empleo de datos reales, de muestras de uso de la lengua. El conjunto de datos es lo que se denomina corpus. Servei de Tecnologia Lingüística

Antecedentes de la Lingüística de Corpus
Hasta el siglo XIX: trabajos lingüísticos basados en corpus, cuya finalidad es el estudio de lenguas muertas (latín, sánscrito,…). Finales del siglo XIX-mediados del siglo XX: recopilaciones de gran cantidad de datos escritos, con la finalidad de explicar el proceso de adquisición del lenguaje infantil, obtener listas de vocabulario para la enseñanza de lenguas, realizar estudios comparativos de lenguas, elaborar gramáticas descriptivas. Primera mitad del siglo XX: Lingüística estructural americana, que considera el corpus como la única herramienta válida para el estudio de las lenguas. La finalidad de los corpus es el estudio de lenguas vivas pero no documentadas por escrito (lenguas amerindias). Servei de Tecnologia Lingüística

Críticas a la Lingüística de Corpus
La aparición de Chomsky (finales de los años 50) supone un cambio radical de enfoque en los estudios lingüísticos. Se produce un desprestigio general de la metodología basada en corpus (empirismo) en favor de un acercamiento basado en las intuiciones del lingüista (racionalismo). Empirismo Racionalismo Actuación Competencia Corpus Intuiciones Los corpus dan cuenta de la actuación del hablante, sujeta a errores y variaciones. Los corpus son parciales e incompletos, porque no contienen todas las oraciones de la lengua, y son sesgados, porque la inclusión de un elemento dependerá de la frecuencia de uso. Los corpus son cerrados y finitos, y no pueden explicar la naturaleza no finita de las lenguas, que tienen una infinita capacidad generativa. Los corpus no son la mejor metodología, porque el procesamiento de datos es lento, propenso al error y caro, porque era realizado por personas. Servei de Tecnologia Lingüística

Segunda generación de Lingüística de Corpus
Años 70: Compilación del primer corpus informatizado organizado de manera sistemática (Estados Unidos). Desde entonces, los corpus electrónicos se han erigido en recursos imprescindibles para la investigación lingüística. Argumentos a favor de los corpus: El corpus está sujeto a verificación. La mayoría de enunciados de un corpus son gramaticales. Los corpus son una fuente inigualable para la extracción de datos cuantitativos. Si el corpus está bien diseñado, los datos serán representativos de la lengua en su totalidad. Los ordenadores pueden procesar gran cantidad de datos a coste reducido, de forma rápida y sin cometer errores. Hechos que favorecen la expansión de la Lingüística de Corpus: El auge de las áreas aplicadas de la Lingüística, y en particular de la Lingüística Computacional El desarrollo de nuevas tecnologías para la introducción de textos en formato electrónico (OCR) y la mayor disponibilidad de corpus electrónicos (Internet). La utilidad de los datos. El desarrollo de productos comerciales. Servei de Tecnologia Lingüística

Los grandes corpus textuales
Características: Corpus electrónicos (textos informatizados). Tamaño: superan los 100 millones de palabras. Corpus monitor (abiertos, en continua actualización). Propiedad de consorcios comerciales. Desarrollo de corpus para una gran número de lenguas y también de corpus multilingües. Automatización del procesamiento de los textos de un corpus (asignación de categoría gramatical, desambiguación, extracción de concordancias,…). Ejemplos: The British National Corpus (BNC): 100 millones de palabras. Inglés británico contemporáneo escrito y hablado. The Bank of English (Proyecto COBUILD): 524 millones de palabras. Inglés moderno escrito y oral, de diferentes procedencias. Corpus de Referencia del Español Contemporáneo (CREA) y Corpus Diacrónico del Español (CORDE). Servei de Tecnologia Lingüística

El concepto de corpus Requisitos de los corpus: Textos en formato electrónico: permite automatizar tareas como la búsqueda y recuperación de información, el cálculo de frecuencias y la clasificación de los datos según diferentes criterios. Autenticidad de los datos: los textos deben ser muestras reales de uso de la lengua de estudio, a partir de los cuales se elaboran teorías o aplicaciones computacionales. Criterios de selección: lingüísticos y/o extralingüísticos, según la finalidad concreta. Representatividad: la selección debe responder a parámetros estadísticos que garanticen la variedad de la lengua de estudio (muestra representativa). Tamaño: Los corpus suelen tener un tamaño finito en millones de palabras y predeterminado. En la actualidad, el tamaño del corpus no es tan importante como su diseño; además, depende de la disponibilidad de los textos y de la finalidad del corpus. Servei de Tecnologia Lingüística

Algunas definiciones de corpus
Un corpus es una muestra de una lengua que, habitualmente, se ha construido a partir de una selección de textos realizada según determinados criterios y con un determinado objetivo. (Martí-Castellón 2000) Un corpus es un conjunto de textos de lenguaje natural e irrestricto, almacenados en un formato electrónico homogéneo, y seleccionados y ordenados, de acuerdo con criterios explícitos, para ser utilizados como modelo de un estado o nivel de lengua determinado, en estudios o aplicaciones relacionados en mayor o menor medida con el análisis lingüístico. (Santalla 2005) The term corpus as used in modern linguistics can best be defined as a collection of sampled texts, written or spoken, in machine-readable form which may be annotated with various forms of linguistic information. (McEnery-Xiao-Tono 2006) Servei de Tecnologia Lingüística

Tipos de corpus Según la modalidad de la lengua: Corpus textuales o escritos Corpus orales Según el número de lenguas: Corpus monolingües Corpus bilingües o multilingües: comparables (paired texts) o paralelos (bi-texts). Según la especificidad de los textos: Corpus generales/especializados. Corpus genéricos. Corpus canónicos. Corpus diacrónicos o históricos/sincrónicos. Según el procesamiento del corpus: Corpus simples, brutos, no anotados, no codificados (raw corpus). Corpus codificados. Corpus anotados: analizados morfológicamente (tagged), “parentizados” (parsed, chunked, skeleton parsing) y analizados (treebanks, full parsing). Servei de Tecnologia Lingüística

Desarrollo de un corpus: codificación
Los corpus crudos (raw corpus) o sin anotar son útiles para determinados aspectos, pero limitados en cuanto a sus posibilidades. Los corpus anotados (en los que se explicita información lingüística y no lingüística, en muchos casos de forma automática) enriquecen y aumentan el potencial del corpus para investigaciones sobre diversos aspectos del lenguaje. El procedimiento de anotación de un corpus consiste en introducir una serie de códigos o etiquetas que pueden referirse a aspectos lingüísticos (anotación, tagging, parsing) o no lingüísticos (marcaje, codificación, mark-up). Servei de Tecnologia Lingüística

Desarrollo de un corpus: codificación
Aspectos extratextuales: información externa al texto datos de carácter bibliográfico temática o género autor(es) de la recopilación fecha de la recopilación … Aspectos textuales: información sobre la estructura interna del texto títulos capítulos párrafos oraciones Servei de Tecnologia Lingüística

Desarrollo de un corpus: estándares de codificación
Referencias COCOA TEI Referencia COCOA Clave de las etiquetas <A Chaucer> A = autor <T Canterbury Tales> T = título <P 1> P = párrafo <L 1> L = línea <poem><title>The Sick Rose</title> <stanza> <line>O Rose thou art sick.</line> <line>The invisible worm,</line> <line>That flies in the night</line> <line>In the howling storm:</line> </stanza> <line>Has found out thy bed>/line> Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación categorial o gramatical (PoS tagging) Consiste en asignar a cada unidad léxica del texto un código (etiqueta, anotación) que indica su categoría o parte de la oración. También suele incluir información sobre las características morfológicas (género, número, caso, persona,…). Los programas que efectúan este proceso de manera automática reciben el nombre de taggers. Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación categorial o gramatical (PoS tagging) Texto etiquetado: Valor de las etiquetas: Servei de Tecnologia Lingüística

Desarrollo de un corpus: lematización
Consiste en la reducción de las palabras de un corpus a sus respectivos lemas o formas básicas (la palabra tal y como aparece en el diccionario). Es un tipo de anotación especialmente importante para la lexicografía y los estudios de vocabulario. Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación sintáctica (parsing)
De un corpus analizado sintácticamente se puede extraer información referida a la estructura interna de las oraciones. Los corpus analizados sintácticamente también reciben el nombre de treebanks, cuando tiene la forma de diagramas arbóreos, aunque los más habitual es que la información se represente mediante corchetes o paréntesis. De ahí la denominación de corpus parentizados. El parsing puede llevarse a cabo de forma automática, pero debido al número de errores producidos, requiere la corrección o incluso la anotación totalmente manual. Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación sintáctica (parsing)
La anotación sintáctica puede presentar diferentes niveles de profundidad: skeleton parsing: análisis superficial en el que sólo se marcan los grandes constituyentes de la oración, sin tener en cuenta su estructura interna. full parsing: representación lo más detallada posible de toda la estructura de la oración. Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación sintáctica superficial (skeleton parsing) Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación sintáctica detallada (full parsing)
Servei de Tecnologia Lingüística

Desarrollo de un corpus: diagrama arbóreo (treebank)

Desarrollo de un corpus: anotación semántica
Consiste en asignar etiquetas que indican rasgos o campos semánticos de una palabra. Existen dos tipos de anotación semántica: relaciones semánticas entre los elementos de un texto (agente, paciente); algunos sistemas de parsing ya lo incluyen, porque está relacionado con la sintaxis. rasgos semánticos de las palabras del texto, que generalmente se anotan como códigos numéricos (synsets). Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación semántica

Desarrollo de un corpus: anotación anafórica (o discursiva)
Consiste en la identificación de los referentes de las expresiones anafóricas, es decir, en la determinación de qué elementos de un texto aluden al mismo referente (correferencia). La anotación anafórica se suele llevar a cabo asignando un mismo índice a los elementos correferenciales. Servei de Tecnologia Lingüística

Desarrollo de un corpus: otros tipos de anotación
Texto con anotación de errores: Servei de Tecnologia Lingüística

Ejemplos de corpus en español
Arthus (Archivo de textos hispánicos de la Universidad de Santiago de Compostela) ARTHUS Origen España 79% Hispanoamérica 21% Tipo de textos Narrativa 37% Ensayo 18% Teatro 14% Prensa 11% Oral 19% A partir de este corpus, se ha creado la Base de Datos Sintácticos del español actual (BDS). Servei de Tecnologia Lingüística

Bibliografía Caravedo, R. (1999). Lingüística del Corpus. Cuestiones teórico-metodológicas aplicadas al español. Salamanca: Ediciones Universidad de Salamanca. Carrera, M., A. Hernán (2006). “Apuntes sobre la elaboración de un corpus electrónico de documentos del español de América”, en M. Villayandre, ed., Actas del XXXV Simposio Internacional de la Sociedad Española de Lingüística. León: Universidad de León, Departamento de Filología Hispánica y Clásica. De Kock, J., ed. (2001). Lingüística con corpus. Catorce aplicaciones sobre el español. Salamanca: Ediciones Universidad de Salamanca. Martí, M. A. (2000). Lingüística computacional. Barcelona: Edicions Universitat de Barcelona. Procházkóva, P. (2006) Fundamentos de la lingüística de corpus. Concepción de los corpus y métodos de investigación con corpus. [ Santalla, M.P. (2005), “La elaboración de corpus lingüísticos”, en M. Cal, P. Núñez, I.M. Palacios, eds., Nuevas tecnologías en Lingüística, Traducción y Enseñanza de lenguas. Santiago de Compostela: Servizo de Publicacións da Universidade. Torruella, J., J. Llisterri (1999). “Diseño de corpus textuales y orales”, en J.M. Blecua et al., eds. Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Editorial Milenio-Universitat Autònoma de Barcelona. Servei de Tecnologia Lingüística

Bibliografía Aarts, J., W. Meijs, eds. (1990). Theory and practice in corpus linguistics. Amsterdam, Atlanta, GA: Rodopi. Biber, D., S. Conrad, R. Reppen (1998). Corpus Linguistics. Investigating Language Structure and Use. Cambridge: Cambridge University Press. Granger, S, J. Hung, S. Petch-Tyson, eds. (2002). Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Amsterdam/Philadelphia: John Benjamins. Halliday, M.A.K, et al. (2004). Lexicology and Corpus Linguistics. London-Ney York: Continuum. McEnery, T., A. Wilson (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press. Sinclair, J. (1991). Corpus, concordance, collocation. Oxford: Oxford University Press. Sinclair, J., ed. (1996). How to use Corpora in Language Teaching. Amsterdam/Philadelphia: John Benjamins. Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam/Philadelphia: John Benjamins. Servei de Tecnologia Lingüística

Consulta de corpus en Internet
CLiC, Centre de Llenguatge i Computació Corpus Ancora (CLiC) Servei de Tecnologia Lingüística

Trabajo con corpus: conceptos previos
FORMA (type): Equivalente a palabra; cualquier palabra que aparece en un corpus. OCURRENCIA (token): Cada aparición de una forma en un corpus. El número de ocurrencias de una forma constituye su FRECUENCIA. LEMA: El estándar léxico de una forma; es decir, una forma tal y como la encontramos en el diccionario (en español, el infinitivo para los verbos, el masculino singular para los adjetivos, el singular para los sustantivos,…). Servei de Tecnologia Lingüística

Proceso de trabajo con corpus
Diseño del estudio. Selección del corpus textual: contenido, tamaño del corpus, clasificación. Introducción del corpus en soporte electrónico: manual (desde el teclado), escáner + OCR, CD-ROM, Internet. Codificación/marcaje y/o etiquetaje del corpus textual: referenciación de las partes, introducción de información paratextual, modificaciones sobre el texto, anotaciones morfológicas, sintácticas, etc. Aplicación del programa(s) informático(s) de análisis de textos. Obtención de resultados. Servei de Tecnologia Lingüística

Ejemplos de codificación/marcaje del corpus

Un inciso: las entidades nombradas
Las “entidades nombradas” o “nombres de entidad” (traducción del inglés Named Entities) son aquellos grupos de palabras que contienen un nombre propio e identifican a un individuo o entidad. Pueden ser: Fuertes (strong): Bill Gates, USA, Kilimanjaro, 30 €, 21/01/1950,… Débiles (weak): el teorema de Pitágoras, “Las nieves del Kilimanjaro”,… Desde un punto de vista semántico, las NE se dividen en seis categorías: Persona: Zapatero, presidente de Colombia, presidente español (?),… Organización: Ayuntamiento de Madrid, Generalitat de Catalunya, IBM,… Lugar: Mataró, el Masnou, la carretera entre Badalona y Mataró,… Fecha: 11 de septiembre de 1973, 1918, del 15 al 23 de enero,… Número (incluye monedas, porcentajes y magnitudes): 20 metros cuadrados, 20 euros, el 50% de la población,… Otros (títulos de obras artísticas o personajes de ficción): Don Quijote de la Mancha, Sancho Panza, Blade Runner,… Servei de Tecnologia Lingüística

Análisis del corpus: estudio frecuencial
El análisis frecuencial consiste en contar las frecuencias de formas, ocurrencias u otras clasificaciones (frecuencias por categorías gramaticales). Los recuentos de frecuencias no permiten la comparación entre corpus o partes de corpus, en especial si son de distinto tamaño. Deben utilizarse porcentajes de aparición respecto al tamaño del corpus o reducir las cifras absolutas a cifras estadísticas normalizadas. La función básica de un programa de análisis de textos es la generación de una lista de frecuencias de formas, que nos proporciona el número de ocurrencias (apariciones) de cada palabra. Dicha lista puede tener dos tipos de ordenación: orden alfabético (lexicográfico): recto, inverso, a tergo orden frecuencial: creciente, decreciente (lexicométrico) . Servei de Tecnologia Lingüística

Análisis del corpus: estudio frecuencial
Podemos obtener otros tipos de listados frecuenciales en los que concurren más de una forma: Segmentos repetidos (clusters): series de formas contiguas en los que aparece una palabra clave y que se repiten en el texto. N-gramas: series de formas contiguas que se repiten en el texto, pero que se seleccionan por el número de formas que las integran. Colocaciones (coocurrencias, coapariciones, collocations): formas que aparecen próximas en el texto, en un contexto cercano, pero no contiguas. Servei de Tecnologia Lingüística

Análisis del corpus: concordancias
En origen, una concordancia era un libro de referencia que contenía todas las palabras de un texto o de las obras de un autor (exceptuando, generalmente, las formas gramaticales más comunes), con una lista de los contextos de aparición de cada palabra. Dichos libros se utilizaron desde la Edad Media, especialmente en el campo de los estudios bíblicos. El trabajo de elaboración manual de una concordancia completa era tan colosal que sólo se emprendía si se esperaba que su utilidad fuera duradera. Los ordenadores han cambiado todo esto. Dado un texto en formato electrónico, un programa informático adecuado puede realizar todas las tareas necesarias para elaborar una concordancia con mucha rapidez. En la actualidad no acostumbran a elaborarse concordancias exhaustivas de un texto completo, sino que más bien se tiende a producir listas de formas concretas en el momento en que se necesitan. Servei de Tecnologia Lingüística

La concordancia es una reorganización de las formas y ocurrencias del texto, de manera que las ocurrencias de una misma forma se reagrupan acompañadas de un fragmento de su contexto inmediato, cuya longitud varía según las necesidades del análisis. La palabra clave es aquella cuyos contextos se reagrupan. Las concordancias ofrecen una perspectiva global de las diferentes maneras de utilizar una forma, algo difícil de obtener mediante una lectura secuencial. Tipos de concordancias: Tradicionales (naturales) Informatizadas - Concordancia de tipo KWIC (keyword in context) - Concordancia de contexto variable - Contextos Servei de Tecnologia Lingüística

Las concordancias nos ofrecen una lista de todas las apariciones de una o más palabras del texto, acompañadas de su contexto y, generalmente, con la referencia de la parte del texto en que aparece (por ejemplo, capítulo, acto y escena, párrafo, página,...). Las concordancias también pueden estar ordenadas de diferentes maneras: por orden cronológico: teniendo en cuenta la aparición de cada palabra clave en el texto por orden alfabético: teniendo en cuenta las palabras anteriores o posteriores a la palabra clave Servei de Tecnologia Lingüística

Análisis del corpus: estudio estadístico
Los cálculos estadísticos nos permiten la comparación entre las diversas partes de un corpus, mediante la reducción de las cifras absolutas de ocurrencias de las formas a cifras estadísticas (especificidades): Cálculo de especificidades: sobreutilización (especificidad positiva) o infrautilización (especificidad negativa) de una forma en una parte concreta del corpus, en relación al conjunto del corpus. Análisis factorial: convergencia o divergencia léxica del total del vocabulario de las distintas partes del corpus o de una lista de formas previamente seleccionada según diferentes criterios. Análisis arbóreo: coincidencias de aparición de formas en un corpus o coincidencia de uso de las formas en las distintas partes. Servei de Tecnologia Lingüística

Bibliografía F. Marcos Marín (1996). El comentario filológico con apoyo informático. Madrid: Síntesis. J. Pérez Guerra (1998). Análisis computarizado de textos. Una introducción a TACT. Servicio de Publicacións, Universidade de Vigo. J. Sinclair (1991). Corpus, concordance, collocation. Oxford University Press. C. Tribble, G. Jones (1997). Concordances in the classroom. A resource book for teachers. Housten, TX: Athelstan. Servei de Tecnologia Lingüística

Consulta de concordancias en Internet
Biblioteca Virtual Miguel de Cervantes (Herramientas lingüística: Concordancias) SOL (Spanish on line). Concordancias españolas en la web Concordancias, a propósito de la autoría de “El Lazarillo de Tormes” Servei de Tecnologia Lingüística

Programas informáticos en Internet
AntConc FreeLing Hyperbase WordSmith Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística

Presentaciones similares

Presentación del tema: "Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística

Presentaciones similares

Presentación del tema: "Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback