La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística

Presentaciones similares


Presentación del tema: "Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística"— Transcripción de la presentación:

1 Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística
24 de abril de 2008 Servei de Tecnologia Lingüística

2 Servei de Tecnologia Lingüística
Índice Parte I Breve introducción a la Lingüística de Corpus El concepto de corpus Clasificación de los corpus Desarrollo de un corpus (I): diseño y constitución Desarrollo de un corpus (II): codificación y anotación Ejemplos de corpus en español Bibliografía Parte II Proceso del trabajo con corpus Ejemplos de codificación de un corpus Estudio frecuencial de un corpus Las concordancias Estudio estadístico de un corpus Servei de Tecnologia Lingüística

3 La Lingüística de Corpus como metodología lingüística
La Lingüística de Corpus es una metodología empírica de trabajo para el estudio y la enseñanza de la lengua Se basa en el empleo de datos reales, de muestras de uso de la lengua. El conjunto de datos es lo que se denomina corpus. Servei de Tecnologia Lingüística

4 Antecedentes de la Lingüística de Corpus
Hasta el siglo XIX: tradición de trabajos lingüísticos basados en corpus, cuya finalidad es el estudio de lenguas muertas (latín, sánscrito,…). Finales del siglo XIX-mediados del siglo XX: trabajo con recopilaciones de gran cantidad de datos escritos, con la finalidad de explicar el proceso de adquisición del lenguaje infantil, obtener listas de vocabulario para la enseñanza de lenguas, realizar estudios comparativos de lenguas, elaborar gramáticas descriptivas. Primera mitad del siglo XX: Lingüística estructural americana, que considera el corpus como la única herramienta válida para el estudio de las lenguas. La finalidad de los corpus es el estudio de lenguas vivas pero no documentadas por escrito (lenguas amerindias), se centran en aspectos fonéticos y (morfo)fonológicos. Servei de Tecnologia Lingüística

5 Críticas a la Lingüística de Corpus
La aparición de Chomsky (finales de los años 50) supone un cambio radical de enfoque en los estudios lingüísticos. Se produce un desprestigio general de la metodología basada en corpus (empirismo) en favor de un acercamiento basado en las intuiciones del lingüista (racionalismo). Empirismo Racionalismo Actuación Competencia Corpus Intuiciones Servei de Tecnologia Lingüística

6 Críticas a la Lingüística de Corpus
Los corpus dan cuenta de la actuación del hablante, sujeta a errores y variaciones. La labor del lingüista es reflejar la competencia del hablante, que le permite distinguir la secuencias gramaticales de las agramaticales. Los corpus son parciales e incompletos, porque no contienen todas las oraciones de la lengua, y son sesgados, porque la inclusión de un elemento dependerá de la frecuencia de uso. Los corpus son cerrados y finitos, y no pueden explicar la naturaleza no finita de las lenguas, que tienen una infinita capacidad generativa: con un inventario limitado de signos se generan infinitas combinaciones. Los corpus no son la mejor metodología, porque el recurso a la competencia del hablante ahorra tiempo frente a la búsqueda en un corpus: el procesamiento de datos es lento, propenso al error y caro, porque era realizado por personas. Servei de Tecnologia Lingüística

7 Segunda generación de Lingüística de Corpus
Años 70: se empieza a gestar la segunda generación de trabajos en Lingüística de Corpus, marcada por la presencia del ordenador. En Estados Unidos se abordó la compilación del primer corpus informatizado organizado de manera sistemática. Desde entonces, los corpus electrónicos se han erigido en recursos imprescindibles para la investigación lingüística. Década de los 80: se rebaten las críticas formuladas contra la primera lingüística de corpus. Argumentos a favor de los corpus: El corpus está sujeto a verificación, lo que descarta el recurso a ejemplos inventados por el lingüista de forma interesada. La mayoría de enunciados de un corpus son gramaticales, por lo que los corpus reflejan la competencia. Los corpus son una fuente inigualable para la extracción de datos cuantitativos (frecuencias). Si el corpus está bien diseñado, los datos serán representativos de la lengua en su totalidad. Los ordenadores pueden procesar gran cantidad de datos a coste reducido, de forma rápida y sin cometer errores. Servei de Tecnologia Lingüística

8 La expansión de la Lingüística de Corpus
Hechos que favorecieron la expansión de la Lingüística de Corpus: El auge de las áreas aplicadas de la Lingüística, y en particular de la Lingüística Computacional: necesidad de contar con datos de uso de la lengua, procedentes de la actuación de los hablantes. El eclecticismo: el uso de corpus no es incompatible con el recurso a los juicios del lingüista. La mayor disponibilidad de corpus electrónicos (Internet). El desarrollo de nuevas tecnologías para la introducción de textos en formato electrónico (OCR). La utilidad de los datos cuantitativos para el estudio de determinados aspectos del lenguaje. El desarrollo de productos comerciales que requieren vocabularios o diccionarios más extensos y el manejo de frecuencias, estadísticas y cálculos de probabilidades (casos de ambigüedad). Servei de Tecnologia Lingüística

9 Los grandes corpus textuales
Características: Corpus electrónicos (textos informatizados). Tamaño: superan los 100 millones de palabras. Corpus monitor (abiertos, en continua actualización). Propiedad de consorcios comerciales. Desarrollo de corpus para una gran número de lenguas y también de corpus multilingües. Automatización del procesamiento de los textos de un corpus (asignación de categoría gramatical, desambiguación, extracción de concordancias,…). Servei de Tecnologia Lingüística

10 Los grandes corpus textuales
The British National Corpus (BNC) 100 millones de palabras. Inglés británico contemporáneo escrito y hablado. The Bank of English (Proyecto COBUILD) 524 millones de palabras. Inglés moderno escrito y oral, de diferentes procedencias. Corpus de Referencia del Español Contemporáneo (CREA) 160 millones de palabras. Textos escritos y orales del español contemporáneo (desde 1975 a la actualidad). Corpus Diacrónico del Español (CORDE) 250 millones de palabras. Textos escritos del español desde los orígenes del idioma hasta 1975. Servei de Tecnologia Lingüística

11 Ventajas del trabajo con corpus electrónicos
Objetividad. Posibilidad de verificar las teorías construidas a partir de ellos. Rapidez, precisión y consistencia en el procesamiento de los datos. Facilidad de acceso y manipulación de los materiales. Permiten el procesamiento automático de textos y la explicitación de diferentes informaciones (categoría gramatical), que facilitan su explotación. El mismo recurso puede tener múltiples usos y aplicaciones. Permiten automatizar total o parcialmente tareas que antes se realizaban de forma manual (análisis gramatical y sintáctico). Son un recurso para la exploración de los aspectos cuantitativos del lenguaje. Servei de Tecnologia Lingüística

12 Servei de Tecnologia Lingüística
El concepto de corpus Requisitos de los corpus: Textos en formato electrónico: permite automatizar tareas como la búsqueda y recuperación de información, el cálculo de frecuencias y la clasificación de los datos según diferentes criterios. Autenticidad de los datos: los textos deben ser muestras reales de uso de la lengua de estudio, a partir de los cuales se elaboran teorías o aplicaciones computacionales. Criterios de selección: lingüísticos y/o extralingüísticos, según la finalidad concreta. Representatividad: la selección debe responder a parámetros estadísticos que garanticen la variedad de la lengua de estudio (muestra representativa). Tamaño: Los corpus suelen tener un tamaño finito en millones de palabras y predeterminado. En la actualidad, el tamaño del corpus no es tan importante como su diseño; además, depende de la disponibilidad de los textos y de la finalidad del corpus. Servei de Tecnologia Lingüística

13 Algunas definiciones de corpus
Un corpus es una muestra de una lengua que, habitualmente, se ha construido a partir de una selección de textos realizada según determinados criterios y con un determinado objetivo. (Martí-Castellón 2000) Un corpus es un conjunto de textos de lenguaje natural e irrestricto, almacenados en un formato electrónico homogéneo, y seleccionados y ordenados, de acuerdo con criterios explícitos, para ser utilizados como modelo de un estado o nivel de lengua determinado, en estudios o aplicaciones relacionados en mayor o menor medida con el análisis lingüístico. (Santalla 2005) The term corpus as used in modern linguistics can best be defined as a collection of sampled texts, written or spoken, in machine-readable form which may be annotated with various forms of linguistic information. (McEnery-Xiao-Tono 2006) Servei de Tecnologia Lingüística

14 Clasificación de los corpus
Los criterios de clasificación de los corpus vienen determinados por la finalidad u objetivo que persigue dicho corpus. Ejemplos: el estudio de la obra de un autor el estudio de la producción literaria de una época determinada la descripción de una lengua o de una variedad, sublenguaje o aspecto lingüístico concreto la obtención de un producto comercial (diccionarios) Servei de Tecnologia Lingüística

15 Tipos de corpus según la modalidad de la lengua
Corpus textuales o escritos Corpus orales: muestras de lengua hablada, que pueden ser transcripciones ortográficas de grabaciones (Lingüística de Corpus) grabaciones y transcripciones ortográficas y/o fonéticas (Fonética y Tecnologías del Habla) Servei de Tecnologia Lingüística

16 Tipos de corpus según el número de lenguas
Corpus monolingües: su objetivo es dar cuenta de una lengua o variedad lingüística. Corpus bilingües o multilingües: muestras de dos o más lenguas, que pueden ser corpus comparables (paired texts): textos similares en cuanto a sus características y los criterios de selección; se utilizan para comparar variedades de la lengua (estudios contrastivos) corpus paralelos (bi-texts): el mismo texto traducido a una o más lenguas; se utilizan en traducción automática y en entornos bilingües o multilingües (ONU, UE,…); pueden ser alienados o no alineados Servei de Tecnologia Lingüística

17 Tipos de corpus según la especificidad de los textos
Corpus generales: pretenden reflejar la lengua o variedad lingüística de la forma más equilibrada posible. Corpus especializados: textos que pueden aportar datos para la descripción de un tipo particular de lengua. Corpus genéricos: textos pertenecientes a un único género; su objetivo es caracterizar dicho género. Corpus canónicos: obra completa de un autor. Corpus diacrónicos o históricos: textos de diferentes etapas temporales; la finalidad es observar la evolución de la lengua. Corpus sincrónicos: su finalidad es estudiar una o más variedades lingüística en un momento determinado, generalmente para establecer comparaciones entre variedades o dialectos. Servei de Tecnologia Lingüística

18 Tipos de corpus según el proceso al que se someta al corpus
Corpus simples, de datos brutos, no anotados, no codificados: textos guardados sin formato alguno y sin añadir ninguna información adicional. Corpus codificados o anotados: formados por textos a los que se han añadido, de forma manual o automática, determinadas informaciones referidas a la estructura de los textos (codificación: partes del texto,…) o a aspectos puramente lingüísticos (anotación: categoría gramatical, estructura sintáctica,…). Los corpus anotados pueden ser corpus analizados morfológicamente (tagged) : anotados con información morfológica (categorías morfosintácticas, con mayor o menor detalle) corpus “parentizados” (parsed, chunked, skeleton parsing): anotados con información sintáctica superficial, marcada con paréntesis o corchetes corpus analizados (treebanks, full parsing): el texto está procesado sintácticamente de manera completa, con un análisis exhaustivo. Servei de Tecnologia Lingüística

19 Desarrollo de un corpus: criterios para la selección de los textos
Criterios internos o lingüísticos: Tema: dominio o ámbito de conocimiento al que pertenece un texto. Estilo: modelo de lengua del texto. Criterios externos o situacionales: Cronología: fecha de elaboración del texto. Origen: del autor, lugar de edición. Objetivo: motivación del texto y finalidades que persigue; tipo de audiencia o público al que se dirige,… Género literario: siguiendo la división tradicional (ensayo, narrativa, poesía, teatro). Medio de publicación. Servei de Tecnologia Lingüística

20 Desarrollo de un corpus: codificación
Los corpus crudos (raw corpus) o sin anotar son útiles para determinados aspectos, pero limitados en cuanto a sus posibilidades. Los corpus anotados (en los que se explicita información lingüística y no lingüística, en muchos casos de forma automática) enriquecen y aumentan el potencial del corpus para investigaciones sobre diversos aspectos del lenguaje. El procedimiento de anotación de un corpus consiste en introducir una serie de códigos o etiquetas que pueden referirse a aspectos lingüísticos (anotación, tagging, parsing) o no lingüísticos (marcaje, codificación, mark-up). Servei de Tecnologia Lingüística

21 Desarrollo de un corpus: codificación
Aspectos extratextuales: información externa al texto datos de carácter bibliográfico temática o género autor(es) de la recopilación fecha de la recopilación Aspectos textuales: información sobre la estructura interna del texto títulos capítulos párrafos oraciones Servei de Tecnologia Lingüística

22 Desarrollo de un corpus: estándares de codificación
Referencias COCOA TEI Referencia COCOA Clave de las etiquetas <A Chaucer> A = autor <T Canterbury Tales> T = título <P 1> P = párrafo <L 1> L = línea <poem><title>The Sick Rose</title> <stanza> <line>O Rose thou art sick.</line> <line>The invisible worm,</line> <line>That flies in the night</line> <line>In the howling storm:</line> </stanza> <line>Has found out thy bed>/line> Servei de Tecnologia Lingüística

23 Servei de Tecnologia Lingüística
Desarrollo de un corpus: anotación categorial o gramatical (PoS tagging) Consiste en asignar a cada unidad léxica del texto un código (etiqueta, anotación) que indica su categoría o parte de la oración. También suele incluir información sobre las características morfológicas (género, número, caso, persona,…). Los programas que efectúan este proceso de manera automática reciben el nombre de taggers. Servei de Tecnologia Lingüística

24 Servei de Tecnologia Lingüística
Desarrollo de un corpus: anotación categorial o gramatical (PoS tagging) Texto etiquetado: Valor de las etiquetas: Servei de Tecnologia Lingüística

25 Desarrollo de un corpus: lematización
Es un proceso íntimamente ligado al anterior, porque no puede lematizarse sin una anotación (y su consiguiente desambiguación) previas. Consiste en la reducción de las palabras de un corpus a sus respectivos lemas o formas básicas (la palabra tal y como aparece en el diccionario). Es un tipo de anotación especialmente importante para la lexicografía y los estudios de vocabulario. El usuario puede examinar todas las variantes de una palabra y extraer información sobre su frecuencia y distribución. Existen programas que realizan el proceso de forma automática. En el caso de lenguas poco flexivas (inglés) no parece ser muy útil, por lo que existen pocos corpus lematizados. Servei de Tecnologia Lingüística

26 Desarrollo de un corpus: lematización
Texto lematizado: Servei de Tecnologia Lingüística

27 Desarrollo de un corpus: anotación sintáctica (parsing)
De un corpus analizado sintácticamente se puede extraer información referida a la estructura interna de las oraciones. Los corpus analizados sintácticamente también reciben el nombre de treebanks, cuando tiene la forma de diagramas arbóreos, aunque los más habitual es que la información se represente mediante corchetes o paréntesis. De ahí la denominación de corpus parentizados. El parsing puede llevarse a cabo de forma automática, pero debido al número de errores producidos, requiere la corrección o incluso la anotación totalmente manual. Servei de Tecnologia Lingüística

28 Desarrollo de un corpus: anotación sintáctica (parsing)
La anotación sintáctica puede presentar diferentes niveles de profundidad: skeleton parsing: análisis superficial en el que sólo se marcan los grandes constituyentes de la oración, sin tener en cuenta su estructura interna. full parsing: representación lo más detallada posible de toda la estructura de la oración. Servei de Tecnologia Lingüística

29 Servei de Tecnologia Lingüística
Desarrollo de un corpus: anotación sintáctica superficial (skeleton parsing) Servei de Tecnologia Lingüística

30 Desarrollo de un corpus: anotación sintáctica detallada (full parsing)
Servei de Tecnologia Lingüística

31 Desarrollo de un corpus: diagrama arbóreo (treebank)
Servei de Tecnologia Lingüística

32 Desarrollo de un corpus: anotación semántica
Consiste en asignar etiquetas que indican rasgos o campos semánticos de una palabra. Existen dos tipos de anotación semántica: relaciones semánticas entre los elementos de un texto (agente, paciente); algunos sistemas de parsing ya lo incluyen, porque está relacionado con la sintaxis. rasgos semánticos de las palabras del texto, que generalmente se anotan como códigos numéricos (synsets). Servei de Tecnologia Lingüística

33 Desarrollo de un corpus: anotación semántica
Servei de Tecnologia Lingüística

34 Desarrollo de un corpus: anotación anafórica (o discursiva)
Consiste en la identificación de los referentes de las expresiones anafóricas, es decir, en la determinación de qué elementos de un texto aluden al mismo referente (correferencia). La anotación anafórica se suele llevar a cabo asignando un mismo índice a los elementos correferenciales. Servei de Tecnologia Lingüística

35 Desarrollo de un corpus: otros tipos de anotación
Texto con anotación de errores: Servei de Tecnologia Lingüística

36 Ejemplos de corpus en español
CREA y CORDE ( Banco de datos del español dividido en dos secciones, una diacrónica (CORDE) y otra sincrónica (CREA). CREA Medio Prensa 49% Libros 49% Material no publicado 2% Origen España 50% Hispanoamérica 50% Ámbitos Ciencias y tecnología Ciencias sociales, creencias y pensamiento Política, economía, comercio y finanzas Artes Ocio y vida cotidiana Salud Ficción Épocas , dividido en períodos de 5 años CORDE Medio Libros 97% Prensa 3% Origen España 74% Hispanoamérica 25% Español sefardí y otros 1% Textos Prosa 85% Verso 15% Épocas De los orígenes hasta 1491 Servei de Tecnologia Lingüística

37 Ejemplos de corpus en español
Arthus (Archivo de textos hispánicos de la Universidad de Santiago de Compostela) ARTHUS Origen España 79% Hispanoamérica 21% Tipo de textos Narrativa 37% Ensayo 18% Teatro 14% Prensa 11% Oral 19% A partir de este corpus, se ha creado la Base de Datos Sintácticos del español actual (BDS). Servei de Tecnologia Lingüística

38 Ejemplos de corpus en español
Corpus del Español (Mark Davies) CORPUS DEL ESPAÑOL Épocas (20 millones de palabras) (40 millones de palabras) (40 millones de palabras Tipo de textos (época 1900) Literatura Textos orales Periódicos/Enciclopedias Servei de Tecnologia Lingüística

39 Servei de Tecnologia Lingüística
Bibliografía Caravedo, R. (1999). Lingüística del Corpus. Cuestiones teórico-metodológicas aplicadas al español. Salamanca: Ediciones Universidad de Salamanca. Carrera, M., A. Hernán (2006). “Apuntes sobre la elaboración de un corpus electrónico de documentos del español de América”, en M. Villayandre, ed., Actas del XXXV Simposio Internacional de la Sociedad Española de Lingüística. León: Universidad de León, Departamento de Filología Hispánica y Clásica. De Kock, J., ed. (2001). Lingüística con corpus. Catorce aplicaciones sobre el español. Salamanca: Ediciones Universidad de Salamanca. Martí, M. A. (2000). Lingüística computacional. Barcelona: Edicions Universitat de Barcelona. Procházkóva, P. (2006) Fundamentos de la lingüística de corpus. Concepción de los corpus y métodos de investigación con corpus. [ Santalla, M.P. (2005), “La elaboración de corpus lingüísticos”, en M. Cal, P. Núñez, I.M. Palacios, eds., Nuevas tecnologías en Lingüística, Traducción y Enseñanza de lenguas. Santiago de Compostela: Servizo de Publicacións da Universidade. Torruella, J., J. Llisterri (1999). “Diseño de corpus textuales y orales”, en J.M. Blecua et al., eds. Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Editorial Milenio-Universitat Autònoma de Barcelona. Servei de Tecnologia Lingüística

40 Servei de Tecnologia Lingüística
Bibliografía Aarts, J., W. Meijs, eds. (1990). Theory and practice in corpus linguistics. Amsterdam, Atlanta, GA: Rodopi. Biber, D., S. Conrad, R. Reppen (1998). Corpus Linguistics. Investigating Language Structure and Use. Cambridge: Cambridge University Press. Granger, S, J. Hung, S. Petch-Tyson, eds. (2002). Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Amsterdam/Philadelphia: John Benjamins. Halliday, M.A.K, et al. (2004). Lexicology and Corpus Linguistics. London-Ney York: Continuum. McEnery, T., A. Wilson (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press. Sinclair, J. (1991). Corpus, concordance, collocation. Oxford: Oxford University Press. Sinclair, J., ed. (1996). How to use Corpora in Language Teaching. Amsterdam/Philadelphia: John Benjamins. Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam/Philadelphia: John Benjamins. Servei de Tecnologia Lingüística

41 Consulta de corpus en Internet
CLiC, Centre de Llenguatge i Computació Corpus Ancora (CLiC) Servei de Tecnologia Lingüística

42 Trabajo con corpus: conceptos previos
FORMA (type): Equivalente a palabra; cualquier palabra que aparece en un corpus. OCURRENCIA (token): Cada aparición de una forma en un corpus. El número de ocurrencias de una forma constituye su FRECUENCIA. LEMA: El estándar léxico de una forma; es decir, una forma tal y como la encontramos en el diccionario (en español, el infinitivo para los verbos, el masculino singular para los adjetivos, el singular para los sustantivos,…). Servei de Tecnologia Lingüística

43 Proceso de trabajo con corpus
Diseño del estudio. Selección del corpus textual: contenido, tamaño del corpus, clasificación. Introducción del corpus en soporte electrónico: manual (desde el teclado), escáner + OCR, CD-ROM, Internet. Codificación/marcaje y/o etiquetaje del corpus textual: referenciación de las partes, introducción de información paratextual, modificaciones sobre el texto, anotaciones morfológicas, sintácticas, etc. Aplicación del programa(s) informático(s) de análisis de textos. Obtención de resultados. Servei de Tecnologia Lingüística

44 Ejemplos de codificación/marcaje del corpus
Servei de Tecnologia Lingüística

45 Ejemplos de codificación/marcaje del corpus
Servei de Tecnologia Lingüística

46 Un inciso: las entidades nombradas
Las “entidades nombradas” o “nombres de entidad” (traducción del inglés Named Entities) son aquellos grupos de palabras que contienen un nombre propio e identifican a un individuo o entidad. Pueden ser: Fuertes (strong): Bill Gates, USA, Kilimanjaro, 30 €, 21/01/1950,… Débiles (weak): el teorema de Pitágoras, “Las nieves del Kilimanjaro”,… Desde un punto de vista semántico, las NE se dividen en seis categorías: Persona: Zapatero, presidente de Colombia, presidente español (?),… Organización: Ayuntamiento de Madrid, Generalitat de Catalunya, IBM,… Lugar: Mataró, el Masnou, la carretera entre Badalona y Mataró,… Fecha: 11 de septiembre de 1973, 1918, del 15 al 23 de enero,… Número (incluye monedas, porcentajes y magnitudes): 20 metros cuadrados, 20 euros, el 50% de la población,… Otros (títulos de obras artísticas o personajes de ficción): Don Quijote de la Mancha, Sancho Panza, Blade Runner,… Servei de Tecnologia Lingüística

47 Análisis del corpus: estudio frecuencial
El análisis frecuencial consiste en contar las frecuencias de formas, ocurrencias u otras clasificaciones (frecuencias por categorías gramaticales). Los recuentos de frecuencias no permiten la comparación entre corpus o partes de corpus, en especial si son de distinto tamaño. Deben utilizarse porcentajes de aparición respecto al tamaño del corpus o reducir las cifras absolutas a cifras estadísticas normalizadas. La función básica de un programa de análisis de textos es la generación de una lista de frecuencias de formas, que nos proporciona el número de ocurrencias (apariciones) de cada palabra. Dicha lista puede tener dos tipos de ordenación: orden alfabético (lexicográfico): recto, inverso, a tergo orden frecuencial: creciente, decreciente (lexicométrico) . Servei de Tecnologia Lingüística

48 Análisis del corpus: estudio frecuencial
Podemos obtener otros tipos de listados frecuenciales en los que concurren más de una forma: Segmentos repetidos (clusters): series de formas contiguas en los que aparece una palabra clave y que se repiten en el texto. N-gramas: series de formas contiguas que se repiten en el texto, pero que se seleccionan por el número de formas que las integran. Colocaciones (coocurrencias, coapariciones, collocations): formas que aparecen próximas en el texto, en un contexto cercano, pero no contiguas. Servei de Tecnologia Lingüística

49 Análisis del corpus: concordancias
En origen, una concordancia era un libro de referencia que contenía todas las palabras de un texto o de las obras de un autor (exceptuando, generalmente, las formas gramaticales más comunes), con una lista de los contextos de aparición de cada palabra. Dichos libros se utilizaron desde la Edad Media, especialmente en el campo de los estudios bíblicos. El trabajo de elaboración manual de una concordancia completa era tan colosal que sólo se emprendía si se esperaba que su utilidad fuera duradera. Los ordenadores han cambiado todo esto. Dado un texto en formato electrónico, un programa informático adecuado puede realizar todas las tareas necesarias para elaborar una concordancia con mucha rapidez. En la actualidad no acostumbran a elaborarse concordancias exhaustivas de un texto completo, sino que más bien se tiende a producir listas de formas concretas en el momento en que se necesitan. Servei de Tecnologia Lingüística

50 Análisis del corpus: concordancias
La concordancia es una reorganización de las formas y ocurrencias del texto, de manera que las ocurrencias de una misma forma se reagrupan acompañadas de un fragmento de su contexto inmediato, cuya longitud varía según las necesidades del análisis. La palabra clave es aquella cuyos contextos se reagrupan. Las concordancias ofrecen una perspectiva global de las diferentes maneras de utilizar una forma, algo difícil de obtener mediante una lectura secuencial. Tipos de concordancias: Tradicionales (naturales) Informatizadas - Concordancia de tipo KWIC (keyword in context) - Concordancia de contexto variable - Contextos Servei de Tecnologia Lingüística

51 Análisis del corpus: concordancias
Las concordancias nos ofrecen una lista de todas las apariciones de una o más palabras del texto, acompañadas de su contexto y, generalmente, con la referencia de la parte del texto en que aparece (por ejemplo, capítulo, acto y escena, párrafo, página,...). Las concordancias también pueden estar ordenadas de diferentes maneras: por orden cronológico: teniendo en cuenta la aparición de cada palabra clave en el texto por orden alfabético: teniendo en cuenta las palabras anteriores o posteriores a la palabra clave Servei de Tecnologia Lingüística

52 Análisis del corpus: estudio estadístico
Los cálculos estadísticos nos permiten la comparación entre las diversas partes de un corpus, mediante la reducción de las cifras absolutas de ocurrencias de las formas a cifras estadísticas (especificidades): Cálculo de especificidades: sobreutilización (especificidad positiva) o infrautilización (especificidad negativa) de una forma en una parte concreta del corpus, en relación al conjunto del corpus. Análisis factorial: convergencia o divergencia léxica del total del vocabulario de las distintas partes del corpus o de una lista de formas previamente seleccionada según diferentes criterios. Análisis arbóreo: coincidencias de aparición de formas en un corpus o coincidencia de uso de las formas en las distintas partes. Servei de Tecnologia Lingüística

53 Servei de Tecnologia Lingüística
Bibliografía F. Marcos Marín (1996). El comentario filológico con apoyo informático. Madrid: Síntesis. J. Pérez Guerra (1998). Análisis computarizado de textos. Una introducción a TACT. Servicio de Publicacións, Universidade de Vigo. J. Sinclair (1991). Corpus, concordance, collocation. Oxford University Press. C. Tribble, G. Jones (1997). Concordances in the classroom. A resource book for teachers. Housten, TX: Athelstan. Servei de Tecnologia Lingüística

54 Consulta de concordancias en Internet
Biblioteca Virtual Miguel de Cervantes (Herramientas lingüística: Concordancias) SOL (Spanish on line). Concordancias españolas en la web Concordancias, a propósito de la autoría de “El Lazarillo de Tormes” Servei de Tecnologia Lingüística

55 Programas informáticos en Internet
AntConc FreeLing Hyperbase WordSmith Servei de Tecnologia Lingüística


Descargar ppt "Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística"

Presentaciones similares


Anuncios Google