Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística

Slides:



Advertisements
Presentaciones similares
TÉCNICAS DE ANÁLISIS DE DATOS Formadora: Elisa Robles.
Advertisements

TERMINOLOGÍA EN ESPAÑOL
TERMINOLOGÍA EN ESPAÑOL
La web semántica y su impacto en la recuperación de información
¿Cómo hacer para que una máquina comprenda el LN?
MÉTODOS Y ELEMENTOS DE PROGRAMACIÓN
DESARROLLO DE LA INVESTIGACION
El ordenador como herramienta en la adquisición del léxico en la enseñanza del alemán en los estudios de Traducción e Interpretación Antonia Montes Fernández.
CONSTRUCCIÓN DEL MARCO TEÓRICO
Cómo consultar una base de datos o un catálogo en 5 minutos
Teoría de lenguajes y compiladores
INTERFAZ DE ACCES DISEÑO DE BASE DE DATOS
Muestra: Recolección de Datos: Análisis de Datos:
MUESTRA Implica DEFINIR la unidad de análisis (personas, situaciones, individuos, eventos, fenómeno, ensayo)
MÉTODOS Y TÉCNICAS DE INVESTIGACIÓN
UNIDAD I Conceptos Básicos.
TRADUCTOR DE UN PROGRAMA
Proceso de información en la computadora
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Teoría de lenguajes y compiladores
CONSECUENCIAS DE LA OPCIÓN METODOLÓGICA EN LA PROGRAMACIÓN Y LA EVALUACIÓN Elena Rodríguez Halffter 27 de octubre de 2006 Palma de Mallorca.
EVALUACION INTERNA NIVEL MEDIO

06. Algoritmo básico de la introducción
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
Mt. Martín Moreyra Navarrete.
Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.
Seminario Trabajo de Grado
METODOLOGÍA DE LA INVESTIGACIÓN EDUCATIVA
 La Monografía El Informe.
Diseño de algoritmos La computadora puede realizar procesos y darnos resultados, sin que tengamos la noción exacta de las operaciones que realiza. Con.
I NVESTIGACIÓN DE MERCADOS “4.3 ETAPA DE EJECUCIÓN DE LA INVESTIGACIÓN DE MERCADOS ” Presenta: José Eduardo Torre Falcon.
Sesión 1 COE..
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero
La Investigación científica
Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL SIMÓN RODRÍGUEZ COORDINACIÓN DE DESARROLLO PROFESORAL NÚCLEO BOLÍVAR FACILITADOR:
Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)
NOMBRES:OLIVARES ALFARO JOSE L. BONETTI ARON GRUPO:308.
Por: Andres Gonzalez Gonzalez Y Santiago Herrera Palma 11°A
Ensamblé de computadores
INFORMATICA VII (Programación e implementación de sistemas)

MAESTRÍA EN GESTIÓN PÚBLICA CURSO: Diseño de Proyectos de Investigación EL MARCO TEÓRICO Dr. Hugo L. Agüero Alva.

Tecnologías para el Aprendizaje
Guía para la Búsqueda de Información
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
SENA REGIONAL HUILA REGIONAL HUILA CENTRO DE LA INDUSTRIA LA EMPRESA Y LOS SERVICIOS Huila Elementos de sistemas de información.
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) TRADUCTORES Y ANALIZADOR LEXICOGRÁFICO.
EL ANALISIS DE CONTENIDO
INTERDISCIPLINARIEDAD
MERCADOTECNIA. EL OBJETIVO DEL MATERIAL ES AYUDAR Y DAR APOYO, AL FACILITADOR EN LA PRESENTACION DE LOS TEMAS QUE SON: LA DEFINICION DEL PRODUCTO Y/O.
Revisión de literatura y construcción del marco teórico
GENERADOR DE CÓDIGO FUENTE COBOL
Por: Víctor Manuel Muñoz Arango Y Jesús David Mejía Meneses 11°A.
Lingüística computacional unidad 2. lexicones y corpus
INTERFAZ DE ACCESS  Access es un sistema gestor de bases de datos relacionales (SGBD). Una base de datos suele definirse como un conjunto de información.
Interactividad Información recopilada de García-Cabrero et al. (2008)
¿Qué es la sociolingüística?
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
PRÁCTICA TRADOS Gestión de Proyectos. Objetivo Esta práctica tiene como objetivo: – Crear un proyecto. – Aprender a gestionar un paquete de proyecto.
SEMINARIO DE LA INVESTIGACIÓN I Por : Erick Daniel Vildoso Cabrera EL MARCO TEÓRICO.
EL TEXTO EXPOSITIVO El texto expositivo es un texto en el cual se presenta información sobre un determinado tema. No se pretende transmitir una opinión.
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
METODOS DE REMUESTREO: JACKKNIFE Y BOOTSTRAP
Basado en el libro Léxico del español como segunda lengua: aprendizaje y enseñanza, de Mª Victoria Romero Gualda (2008).
Traducción Científico-Periodística Año 2014
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Servei de Tecnologia Lingüística Servei de Tecnologia Lingüística http://stel.ub.edu/ http://stel.ub.edu/ca/novetats-agenda 28 de abril de 2008 Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Índice Parte I Introducción a la utilización de corpus en Lingüística El concepto de corpus y su clasificación Desarrollo de un corpus (I): diseño y constitución Desarrollo de un corpus (II): codificación y anotación Bibliografía Parte II Proceso del trabajo con corpus Ejemplos de codificación de un corpus Estudio frecuencial de un corpus Las concordancias Estudio estadístico de un corpus Servei de Tecnologia Lingüística

La Lingüística de Corpus como metodología lingüística La Lingüística de Corpus es una metodología empírica de trabajo para el estudio y la enseñanza de la lengua Se basa en el empleo de datos reales, de muestras de uso de la lengua. El conjunto de datos es lo que se denomina corpus. Servei de Tecnologia Lingüística

Antecedentes de la Lingüística de Corpus Hasta el siglo XIX: trabajos lingüísticos basados en corpus, cuya finalidad es el estudio de lenguas muertas (latín, sánscrito,…). Finales del siglo XIX-mediados del siglo XX: recopilaciones de gran cantidad de datos escritos, con la finalidad de explicar el proceso de adquisición del lenguaje infantil, obtener listas de vocabulario para la enseñanza de lenguas, realizar estudios comparativos de lenguas, elaborar gramáticas descriptivas. Primera mitad del siglo XX: Lingüística estructural americana, que considera el corpus como la única herramienta válida para el estudio de las lenguas. La finalidad de los corpus es el estudio de lenguas vivas pero no documentadas por escrito (lenguas amerindias). Servei de Tecnologia Lingüística

Críticas a la Lingüística de Corpus La aparición de Chomsky (finales de los años 50) supone un cambio radical de enfoque en los estudios lingüísticos. Se produce un desprestigio general de la metodología basada en corpus (empirismo) en favor de un acercamiento basado en las intuiciones del lingüista (racionalismo). Empirismo Racionalismo Actuación Competencia Corpus Intuiciones Los corpus dan cuenta de la actuación del hablante, sujeta a errores y variaciones. Los corpus son parciales e incompletos, porque no contienen todas las oraciones de la lengua, y son sesgados, porque la inclusión de un elemento dependerá de la frecuencia de uso. Los corpus son cerrados y finitos, y no pueden explicar la naturaleza no finita de las lenguas, que tienen una infinita capacidad generativa. Los corpus no son la mejor metodología, porque el procesamiento de datos es lento, propenso al error y caro, porque era realizado por personas. Servei de Tecnologia Lingüística

Segunda generación de Lingüística de Corpus Años 70: Compilación del primer corpus informatizado organizado de manera sistemática (Estados Unidos). Desde entonces, los corpus electrónicos se han erigido en recursos imprescindibles para la investigación lingüística. Argumentos a favor de los corpus: El corpus está sujeto a verificación. La mayoría de enunciados de un corpus son gramaticales. Los corpus son una fuente inigualable para la extracción de datos cuantitativos. Si el corpus está bien diseñado, los datos serán representativos de la lengua en su totalidad. Los ordenadores pueden procesar gran cantidad de datos a coste reducido, de forma rápida y sin cometer errores. Hechos que favorecen la expansión de la Lingüística de Corpus: El auge de las áreas aplicadas de la Lingüística, y en particular de la Lingüística Computacional El desarrollo de nuevas tecnologías para la introducción de textos en formato electrónico (OCR) y la mayor disponibilidad de corpus electrónicos (Internet). La utilidad de los datos. El desarrollo de productos comerciales. Servei de Tecnologia Lingüística

Los grandes corpus textuales Características: Corpus electrónicos (textos informatizados). Tamaño: superan los 100 millones de palabras. Corpus monitor (abiertos, en continua actualización). Propiedad de consorcios comerciales. Desarrollo de corpus para una gran número de lenguas y también de corpus multilingües. Automatización del procesamiento de los textos de un corpus (asignación de categoría gramatical, desambiguación, extracción de concordancias,…). Ejemplos: The British National Corpus (BNC): 100 millones de palabras. Inglés británico contemporáneo escrito y hablado. http://www.natcorp.ox.ac.uk/ The Bank of English (Proyecto COBUILD): 524 millones de palabras. Inglés moderno escrito y oral, de diferentes procedencias. http://www.titania.bham.ac.uk/ Corpus de Referencia del Español Contemporáneo (CREA) y Corpus Diacrónico del Español (CORDE). http://www.rae.es/ Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística El concepto de corpus Requisitos de los corpus: Textos en formato electrónico: permite automatizar tareas como la búsqueda y recuperación de información, el cálculo de frecuencias y la clasificación de los datos según diferentes criterios. Autenticidad de los datos: los textos deben ser muestras reales de uso de la lengua de estudio, a partir de los cuales se elaboran teorías o aplicaciones computacionales. Criterios de selección: lingüísticos y/o extralingüísticos, según la finalidad concreta. Representatividad: la selección debe responder a parámetros estadísticos que garanticen la variedad de la lengua de estudio (muestra representativa). Tamaño: Los corpus suelen tener un tamaño finito en millones de palabras y predeterminado. En la actualidad, el tamaño del corpus no es tan importante como su diseño; además, depende de la disponibilidad de los textos y de la finalidad del corpus. Servei de Tecnologia Lingüística

Algunas definiciones de corpus Un corpus es una muestra de una lengua que, habitualmente, se ha construido a partir de una selección de textos realizada según determinados criterios y con un determinado objetivo. (Martí-Castellón 2000) Un corpus es un conjunto de textos de lenguaje natural e irrestricto, almacenados en un formato electrónico homogéneo, y seleccionados y ordenados, de acuerdo con criterios explícitos, para ser utilizados como modelo de un estado o nivel de lengua determinado, en estudios o aplicaciones relacionados en mayor o menor medida con el análisis lingüístico. (Santalla 2005) The term corpus as used in modern linguistics can best be defined as a collection of sampled texts, written or spoken, in machine-readable form which may be annotated with various forms of linguistic information. (McEnery-Xiao-Tono 2006) Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Tipos de corpus Según la modalidad de la lengua: Corpus textuales o escritos Corpus orales Según el número de lenguas: Corpus monolingües Corpus bilingües o multilingües: comparables (paired texts) o paralelos (bi-texts). Según la especificidad de los textos: Corpus generales/especializados. Corpus genéricos. Corpus canónicos. Corpus diacrónicos o históricos/sincrónicos. Según el procesamiento del corpus: Corpus simples, brutos, no anotados, no codificados (raw corpus). Corpus codificados. Corpus anotados: analizados morfológicamente (tagged), “parentizados” (parsed, chunked, skeleton parsing) y analizados (treebanks, full parsing). Servei de Tecnologia Lingüística

Desarrollo de un corpus: codificación Los corpus crudos (raw corpus) o sin anotar son útiles para determinados aspectos, pero limitados en cuanto a sus posibilidades. Los corpus anotados (en los que se explicita información lingüística y no lingüística, en muchos casos de forma automática) enriquecen y aumentan el potencial del corpus para investigaciones sobre diversos aspectos del lenguaje. El procedimiento de anotación de un corpus consiste en introducir una serie de códigos o etiquetas que pueden referirse a aspectos lingüísticos (anotación, tagging, parsing) o no lingüísticos (marcaje, codificación, mark-up). Servei de Tecnologia Lingüística

Desarrollo de un corpus: codificación Aspectos extratextuales: información externa al texto datos de carácter bibliográfico temática o género autor(es) de la recopilación fecha de la recopilación … Aspectos textuales: información sobre la estructura interna del texto títulos capítulos párrafos oraciones Servei de Tecnologia Lingüística

Desarrollo de un corpus: estándares de codificación Referencias COCOA TEI Referencia COCOA Clave de las etiquetas <A Chaucer> A = autor <T Canterbury Tales> T = título <P 1> P = párrafo <L 1> L = línea <poem><title>The Sick Rose</title> <stanza> <line>O Rose thou art sick.</line> <line>The invisible worm,</line> <line>That flies in the night</line> <line>In the howling storm:</line> </stanza> <line>Has found out thy bed>/line> Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Desarrollo de un corpus: anotación categorial o gramatical (PoS tagging) Consiste en asignar a cada unidad léxica del texto un código (etiqueta, anotación) que indica su categoría o parte de la oración. También suele incluir información sobre las características morfológicas (género, número, caso, persona,…). Los programas que efectúan este proceso de manera automática reciben el nombre de taggers. Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Desarrollo de un corpus: anotación categorial o gramatical (PoS tagging) Texto etiquetado: Valor de las etiquetas: Servei de Tecnologia Lingüística

Desarrollo de un corpus: lematización Consiste en la reducción de las palabras de un corpus a sus respectivos lemas o formas básicas (la palabra tal y como aparece en el diccionario). Es un tipo de anotación especialmente importante para la lexicografía y los estudios de vocabulario. Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación sintáctica (parsing) De un corpus analizado sintácticamente se puede extraer información referida a la estructura interna de las oraciones. Los corpus analizados sintácticamente también reciben el nombre de treebanks, cuando tiene la forma de diagramas arbóreos, aunque los más habitual es que la información se represente mediante corchetes o paréntesis. De ahí la denominación de corpus parentizados. El parsing puede llevarse a cabo de forma automática, pero debido al número de errores producidos, requiere la corrección o incluso la anotación totalmente manual. Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación sintáctica (parsing) La anotación sintáctica puede presentar diferentes niveles de profundidad: skeleton parsing: análisis superficial en el que sólo se marcan los grandes constituyentes de la oración, sin tener en cuenta su estructura interna. full parsing: representación lo más detallada posible de toda la estructura de la oración. Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Desarrollo de un corpus: anotación sintáctica superficial (skeleton parsing) Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación sintáctica detallada (full parsing) Servei de Tecnologia Lingüística

Desarrollo de un corpus: diagrama arbóreo (treebank) Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación semántica Consiste en asignar etiquetas que indican rasgos o campos semánticos de una palabra. Existen dos tipos de anotación semántica: relaciones semánticas entre los elementos de un texto (agente, paciente); algunos sistemas de parsing ya lo incluyen, porque está relacionado con la sintaxis. rasgos semánticos de las palabras del texto, que generalmente se anotan como códigos numéricos (synsets). Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación semántica Servei de Tecnologia Lingüística

Desarrollo de un corpus: anotación anafórica (o discursiva) Consiste en la identificación de los referentes de las expresiones anafóricas, es decir, en la determinación de qué elementos de un texto aluden al mismo referente (correferencia). La anotación anafórica se suele llevar a cabo asignando un mismo índice a los elementos correferenciales. Servei de Tecnologia Lingüística

Desarrollo de un corpus: otros tipos de anotación Texto con anotación de errores: Servei de Tecnologia Lingüística

Ejemplos de corpus en español Arthus (Archivo de textos hispánicos de la Universidad de Santiago de Compostela) http://www.bds.usc.es/corpus.html ARTHUS Origen España 79% Hispanoamérica 21% Tipo de textos Narrativa 37% Ensayo 18% Teatro 14% Prensa 11% Oral 19% A partir de este corpus, se ha creado la Base de Datos Sintácticos del español actual (BDS). http://www.bds.usc.es/bds.html Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Bibliografía Caravedo, R. (1999). Lingüística del Corpus. Cuestiones teórico-metodológicas aplicadas al español. Salamanca: Ediciones Universidad de Salamanca. Carrera, M., A. Hernán (2006). “Apuntes sobre la elaboración de un corpus electrónico de documentos del español de América”, en M. Villayandre, ed., Actas del XXXV Simposio Internacional de la Sociedad Española de Lingüística. León: Universidad de León, Departamento de Filología Hispánica y Clásica. De Kock, J., ed. (2001). Lingüística con corpus. Catorce aplicaciones sobre el español. Salamanca: Ediciones Universidad de Salamanca. Martí, M. A. (2000). Lingüística computacional. Barcelona: Edicions Universitat de Barcelona. Procházkóva, P. (2006) Fundamentos de la lingüística de corpus. Concepción de los corpus y métodos de investigación con corpus. [http://www.prochazkova.de/fundamentos_de_la_lingüística_de_corpus.pdf]. Santalla, M.P. (2005), “La elaboración de corpus lingüísticos”, en M. Cal, P. Núñez, I.M. Palacios, eds., Nuevas tecnologías en Lingüística, Traducción y Enseñanza de lenguas. Santiago de Compostela: Servizo de Publicacións da Universidade. Torruella, J., J. Llisterri (1999). “Diseño de corpus textuales y orales”, en J.M. Blecua et al., eds. Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Editorial Milenio-Universitat Autònoma de Barcelona. Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Bibliografía Aarts, J., W. Meijs, eds. (1990). Theory and practice in corpus linguistics. Amsterdam, Atlanta, GA: Rodopi. Biber, D., S. Conrad, R. Reppen (1998). Corpus Linguistics. Investigating Language Structure and Use. Cambridge: Cambridge University Press. Granger, S, J. Hung, S. Petch-Tyson, eds. (2002). Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Amsterdam/Philadelphia: John Benjamins. Halliday, M.A.K, et al. (2004). Lexicology and Corpus Linguistics. London-Ney York: Continuum. McEnery, T., A. Wilson (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press. Sinclair, J. (1991). Corpus, concordance, collocation. Oxford: Oxford University Press. Sinclair, J., ed. (1996). How to use Corpora in Language Teaching. Amsterdam/Philadelphia: John Benjamins. Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam/Philadelphia: John Benjamins. Servei de Tecnologia Lingüística

Consulta de corpus en Internet CLiC, Centre de Llenguatge i Computació Corpus Ancora (CLiC) Servei de Tecnologia Lingüística

Trabajo con corpus: conceptos previos FORMA (type): Equivalente a palabra; cualquier palabra que aparece en un corpus. OCURRENCIA (token): Cada aparición de una forma en un corpus. El número de ocurrencias de una forma constituye su FRECUENCIA. LEMA: El estándar léxico de una forma; es decir, una forma tal y como la encontramos en el diccionario (en español, el infinitivo para los verbos, el masculino singular para los adjetivos, el singular para los sustantivos,…). Servei de Tecnologia Lingüística

Proceso de trabajo con corpus Diseño del estudio. Selección del corpus textual: contenido, tamaño del corpus, clasificación. Introducción del corpus en soporte electrónico: manual (desde el teclado), escáner + OCR, CD-ROM, Internet. Codificación/marcaje y/o etiquetaje del corpus textual: referenciación de las partes, introducción de información paratextual, modificaciones sobre el texto, anotaciones morfológicas, sintácticas, etc. Aplicación del programa(s) informático(s) de análisis de textos. Obtención de resultados. Servei de Tecnologia Lingüística

Ejemplos de codificación/marcaje del corpus Servei de Tecnologia Lingüística

Ejemplos de codificación/marcaje del corpus Servei de Tecnologia Lingüística

Un inciso: las entidades nombradas Las “entidades nombradas” o “nombres de entidad” (traducción del inglés Named Entities) son aquellos grupos de palabras que contienen un nombre propio e identifican a un individuo o entidad. Pueden ser: Fuertes (strong): Bill Gates, USA, Kilimanjaro, 30 €, 21/01/1950,… Débiles (weak): el teorema de Pitágoras, “Las nieves del Kilimanjaro”,… Desde un punto de vista semántico, las NE se dividen en seis categorías: Persona: Zapatero, presidente de Colombia, presidente español (?),… Organización: Ayuntamiento de Madrid, Generalitat de Catalunya, IBM,… Lugar: Mataró, el Masnou, la carretera entre Badalona y Mataró,… Fecha: 11 de septiembre de 1973, 1918, del 15 al 23 de enero,… Número (incluye monedas, porcentajes y magnitudes): 20 metros cuadrados, 20 euros, el 50% de la población,… Otros (títulos de obras artísticas o personajes de ficción): Don Quijote de la Mancha, Sancho Panza, Blade Runner,… Servei de Tecnologia Lingüística

Análisis del corpus: estudio frecuencial El análisis frecuencial consiste en contar las frecuencias de formas, ocurrencias u otras clasificaciones (frecuencias por categorías gramaticales). Los recuentos de frecuencias no permiten la comparación entre corpus o partes de corpus, en especial si son de distinto tamaño. Deben utilizarse porcentajes de aparición respecto al tamaño del corpus o reducir las cifras absolutas a cifras estadísticas normalizadas. La función básica de un programa de análisis de textos es la generación de una lista de frecuencias de formas, que nos proporciona el número de ocurrencias (apariciones) de cada palabra. Dicha lista puede tener dos tipos de ordenación: orden alfabético (lexicográfico): recto, inverso, a tergo orden frecuencial: creciente, decreciente (lexicométrico) . Servei de Tecnologia Lingüística

Análisis del corpus: estudio frecuencial Podemos obtener otros tipos de listados frecuenciales en los que concurren más de una forma: Segmentos repetidos (clusters): series de formas contiguas en los que aparece una palabra clave y que se repiten en el texto. N-gramas: series de formas contiguas que se repiten en el texto, pero que se seleccionan por el número de formas que las integran. Colocaciones (coocurrencias, coapariciones, collocations): formas que aparecen próximas en el texto, en un contexto cercano, pero no contiguas. Servei de Tecnologia Lingüística

Análisis del corpus: concordancias En origen, una concordancia era un libro de referencia que contenía todas las palabras de un texto o de las obras de un autor (exceptuando, generalmente, las formas gramaticales más comunes), con una lista de los contextos de aparición de cada palabra. Dichos libros se utilizaron desde la Edad Media, especialmente en el campo de los estudios bíblicos. El trabajo de elaboración manual de una concordancia completa era tan colosal que sólo se emprendía si se esperaba que su utilidad fuera duradera. Los ordenadores han cambiado todo esto. Dado un texto en formato electrónico, un programa informático adecuado puede realizar todas las tareas necesarias para elaborar una concordancia con mucha rapidez. En la actualidad no acostumbran a elaborarse concordancias exhaustivas de un texto completo, sino que más bien se tiende a producir listas de formas concretas en el momento en que se necesitan. Servei de Tecnologia Lingüística

Análisis del corpus: concordancias La concordancia es una reorganización de las formas y ocurrencias del texto, de manera que las ocurrencias de una misma forma se reagrupan acompañadas de un fragmento de su contexto inmediato, cuya longitud varía según las necesidades del análisis. La palabra clave es aquella cuyos contextos se reagrupan. Las concordancias ofrecen una perspectiva global de las diferentes maneras de utilizar una forma, algo difícil de obtener mediante una lectura secuencial. Tipos de concordancias: Tradicionales (naturales) Informatizadas - Concordancia de tipo KWIC (keyword in context) - Concordancia de contexto variable - Contextos Servei de Tecnologia Lingüística

Análisis del corpus: concordancias Las concordancias nos ofrecen una lista de todas las apariciones de una o más palabras del texto, acompañadas de su contexto y, generalmente, con la referencia de la parte del texto en que aparece (por ejemplo, capítulo, acto y escena, párrafo, página,...). Las concordancias también pueden estar ordenadas de diferentes maneras: por orden cronológico: teniendo en cuenta la aparición de cada palabra clave en el texto por orden alfabético: teniendo en cuenta las palabras anteriores o posteriores a la palabra clave Servei de Tecnologia Lingüística

Análisis del corpus: estudio estadístico Los cálculos estadísticos nos permiten la comparación entre las diversas partes de un corpus, mediante la reducción de las cifras absolutas de ocurrencias de las formas a cifras estadísticas (especificidades): Cálculo de especificidades: sobreutilización (especificidad positiva) o infrautilización (especificidad negativa) de una forma en una parte concreta del corpus, en relación al conjunto del corpus. Análisis factorial: convergencia o divergencia léxica del total del vocabulario de las distintas partes del corpus o de una lista de formas previamente seleccionada según diferentes criterios. Análisis arbóreo: coincidencias de aparición de formas en un corpus o coincidencia de uso de las formas en las distintas partes. Servei de Tecnologia Lingüística

Servei de Tecnologia Lingüística Bibliografía F. Marcos Marín (1996). El comentario filológico con apoyo informático. Madrid: Síntesis. J. Pérez Guerra (1998). Análisis computarizado de textos. Una introducción a TACT. Servicio de Publicacións, Universidade de Vigo. J. Sinclair (1991). Corpus, concordance, collocation. Oxford University Press. C. Tribble, G. Jones (1997). Concordances in the classroom. A resource book for teachers. Housten, TX: Athelstan. Servei de Tecnologia Lingüística

Consulta de concordancias en Internet Biblioteca Virtual Miguel de Cervantes (Herramientas lingüística: Concordancias) http://www.cervantesvirtual.com/concordancias/index.shtml SOL (Spanish on line). Concordancias españolas en la web http://spraakbanken.gu.se/lb/konk/rom2 Concordancias, a propósito de la autoría de “El Lazarillo de Tormes” http://www.elazarillo.net/concordancias.html Servei de Tecnologia Lingüística

Programas informáticos en Internet AntConc http://www.antlab.sci.waseda.ac.jp/software.html FreeLing http://garraf.epsevg.upc.es/freeling/ Hyperbase http://ancilla.unice.fr/~brunet/pub/hyperbase.html WordSmith http://www.lexically.net/wordsmith/index.html Servei de Tecnologia Lingüística