Fundamentos de la lingüística de corpus

Slides:



Advertisements
Presentaciones similares
Segmentación, Definición de Público Objetivo y Posicionamiento
Advertisements

IBD Plan 90 y 2003 Clase 10.
Posibilidades, recursos e interacción.
Vera Olivera, David Carlos Marín Rosales, Nicolae Harry
Operaciones catalográficas
© Dr. Iván E. Calimano Formas, usos, etc.
Herramientas informáticas
Tema 6. Evaluación de SRIs
JOURNAL CITATION REPORTS®
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Fundamentos de Diseño de Software INFT.1
Ik 10 Chen. Recogida de información sobre el tema u objeto de estudio Recogida de información sobre el tema u objeto de estudio Hipótesis.
Metodología de la Investigación Social
MUESTREO (NAGA´s) BOLETÍN 5020
UNIDAD III: Semana No. 23 MARCO METODOLÓGICO
Unidad de competencia II Estadística descriptiva:
Técnicas para la elaboración de un instrumento
III Reunión Regional de la Biblioteca Virtual en Salud Puebla, México, 5 de mayo de 2003 Criterios de selección LATINDEX José Octavio Alonso Gamboa Dirección.
1 XML Extensible Markup Language HTML HyperText Markup Language normas06_01.xml.
Bases Curriculares Lengua y Literatura
1 Reporte Componente Impacto Por Orden Territorial Por Departamento No Disponible ND *Los indicadores para el año 2008 no fueron calculados.
50 principios La Agenda 1.- Presentar un único interlocutor a los clientes. 2.- Tratar de modo distinto a las diferentes clases de clientes. 3.- Saber.
¿Cómo hacer para que una máquina comprenda el LN?
Taller de comunicación
50 principios 1. Los clientes asumen el mando.
Propiedades textuales
Capítulo: 9 Inventarios.
DESARROLLO DE LA INVESTIGACION
CONSTRUCCIÓN DEL MARCO TEÓRICO
Análisis de frecuencias Curso: Lingüística Computacional Heiner Mercado Percia.
1 Programa de Formación de Usuarios/Biblioteca Central/Dora Villegas/
1. ¿Qué pensamos? ¿ Qué sabemos? ¿Qué hacemos? 2.
TALLER DE TRABAJO FINAL
D E F I N I C I O N E S.
INTRODUCCIÓN A LA PROGRAMACIÓN
Base de Datos Relacional.
LAS CARAS DE LA EVALUACION
DISTINTOS TIPOS DE FRECUENCIAS
Investigación en acción
La lingüística como ciencia cognitiva
AUDITORIA DE LA SEGURIDAD en Telecomunicaciones y redes de computadoras Unidad VI.
PRESENTACIÓN CONSTRUCCIÓN DEL CONOCIMIENTO II
Muestra: Recolección de Datos: Análisis de Datos:
04. Título, resumen y palabras clave
MUESTRA Implica DEFINIR la unidad de análisis (personas, situaciones, individuos, eventos, fenómeno, ensayo)
Estadística Administrativa I
Proceso investigativo
XBRL “El lenguaje que integra informes financieros, agentes y sistemas informáticos” Agosto 2006Cr. Marcelo Marchesoni.
Lenguaje de Marcado.
Lengua castellana y literatura. 2º ESO. Antonio Rojo Ruiz.
4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.
Técnicas e instrumentos para la Recolección
Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)
Documentación Informativa 1ºF Curso CCINF -UCM
PASOS PARA LA ELABORACIÓN DE UN PROYECTO DE INVESTIGACIÓN
Guía para la Búsqueda de Información
ISMAEL MALDONADO GARCIA
Estilo de Publicación de la APA
EL ANALISIS DE CONTENIDO
definición de power point
Parcial 2 Condensado.
Proyectos de Investigación
Lingüística computacional unidad 2. lexicones y corpus
LENGUA Y LITERATURA Curso
Textos personales.
Blog, Web 1.0 y Web 2.0. ¿Qué son las Web 1.0? Las páginas de la Web 1.0 eran más bien estáticas, y poco a poco fueron dinamizándose prestando mayor atención.
Programación I Prof. Carolina Cols. Algoritmo es una lista bien definida, ordenada y finita de operaciones que permite hallar la solución a un problema.
TECNICAS DE COMUNICACION. PARA LA CORRECTA ELABORACIÓN DE UN TEMA POR ESCRITO ES PRECISO DAR LOS SIGUIENTES PASOS: Seleccionar bien el tema sobre el que.
Traducción Científico-Periodística Año 2014
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Fundamentos de la lingüística de corpus Heiner Mercado Percia Letras: Filología Hispánica 2008 Fundamentos de la lingüística de corpus

¿Cómo estudiar una lengua? El lingüista, por medio de datos empíricos, quiere llegar a describir los elementos lingüísticos. Busca elementos que confirmen sus hipótesis sobre la descripción del lenguaje que ha realizado y aporte datos sobre el comportamiento general de una lengua. El lingüística compila una gran cantidad de elementos lingüísticos , elabora un corpus. .:Lingüística computacional:. Heiner Mercado Percia 2008

Pero… Corrientes generativistas (N. Chomsky) parten de la idea de que el número de enunciados de una lengua es infinito. Por lo tanto, no puede haber ningún repertorio finito de datos que expliquen suficientemente los mecanismos de producción lingüística. Esta orientación supuso una crítica a la utilización de corpus como base para la descripción de la lengua. .:Lingüística computacional:. Heiner Mercado Percia 2008

Resurgimiento Ahora bien, teniendo en cuenta esta crítica la lingüística aplicada ha hecho ver que el objeto de un corpus no es dar una visión total de una lengua, sino ofrecer una muestra representativa que permita al lingüista fundamentar una investigación en datos objetivos. Así pues, un corpus no puede identificarse con la lengua, sino que es un conjunto de datos que la representa de una manera más o menos fiable. .:Lingüística computacional:. Heiner Mercado Percia 2008

Lingüística de corpus La lingüística de corpus recupera el método empírico potenciado por los adelantos en la informática que le permiten recopilar gran cantidad de textos y facilitar su explotación. La lingüística de corpus trata la concepción, tratamiento preliminar y análisis de corpus, y plantea, por ejemplo, qué preguntas lingüísticas se pueden responder por medio del uso de un amplio número de textos. .:Lingüística computacional:. Heiner Mercado Percia 2008

Pero, ¿qué es un corpus? Para un especialista en morfología: es un conjunto de palabras derivadas de una lengua. Para un especialista en sintaxis: es un conjunto de variado de frases de una lengua. Para un especialista en PLN: es un recurso lingüístico que permite construir herramientas para el tratamiento del lenguaje natural. .:Lingüística computacional:. Heiner Mercado Percia 2008

¿Qué es un corpus? Para John Sinclair un corpus es una colección de elementos lingüísticos de acuerdo con criterios lingüísticos explícitos con la finalidad de ser usado como muestra de la lengua. También lo podemos definir como una colección de textos, reunidos según unos criterios precisos, eventualmente estructurados y enriquecidos con información adicional, en vista de una explotación teórica o práctica. .:Lingüística computacional:. Heiner Mercado Percia 2008

¿Qué es un corpus? Desde el punto de vista práctico, un corpus résulta de un agrupamiento razonado, dirigido por una hipótesis de investigación explícita. Se dice que un corpus es informatizado cuando se ha codificado de una manera estándar y homogénea de tal manera que puede ser tratados mediante procesos informáticos. Un C.I. está destinado a reflejar el comportamiento de una lengua. .:Lingüística computacional:. Heiner Mercado Percia 2008

Dos ejemplos de corpus Andrónico de Rodas fue el recopilador de la obra de Aristóteles, en el siglo primero a.C. Hoy lo conocemos como el Corpus Aristélicum. La construcción del Oxford English Dictionary (OED) inicia en 1857 por la Philological Society of London. .:Lingüística computacional:. Heiner Mercado Percia 2008

Tipos de corpus La palara corpus es un poco ambigua y actualmente se utiliza en un sentido general para referirse a cualquier tipo de compilación de textos. Pero en realidad, hay que distinguir estas colecciones según el grado especificación en los criterios de selección. .:Lingüística computacional:. Heiner Mercado Percia 2008

Tipos de corpus Podemos hablar de tres tipos de recopilaciones de textos: Archivo informatizado (Archive/Collection) : repertorio de textos en soporte informático sin buscar ningún tipo de relación entre ellos. Biblioteca de textos electrónicos (Electronic text Library): colección de textos en formato digital, guardados en un formato estándar, siguiendo ciertas normas de contenido, pero sin criterio riguroso de selección. .:Lingüística computacional:. Heiner Mercado Percia 2008

Tipos de corpus Corpus informatizado (Computer corpus): colección de textos elaborado y ordenado según criterios lingüísticos externos (datos de los autores, medios de trasmisión utilizados, nivel social de los participantes, función comunicativa de los textos) o internos (patrones lingüísticos) Los corpus pueden ser clasificados de diferentes maneras en función de los parámetros que se quieran utilizar. Veamos. .:Lingüística computacional:. Heiner Mercado Percia 2008

Clasificación de corpus Según: Porcentaje de distribución de los diferentes tipos de textos que lo componen. Especificidad de los textos . Cantidad de textos que recogen. Tipo de codificación y anotaciones añadidas al texto. Contenido. .:Lingüística computacional:. Heiner Mercado Percia 2008

Clasificación de corpus: A. Porcentaje de distribución de los diferentes tipos de textos que lo componen. Grande Equilibrado Piramidal Monitor Paralelo Comparables Multilingües Oportunista .:Lingüística computacional:. Heiner Mercado Percia 2008

Clasificación de corpus: B. Especificidad de los textos . General Especializado Genérico Canónico Periódico o cronológico Diacrónico .:Lingüística computacional:. Heiner Mercado Percia 2008

Clasificación de corpus: C. Cantidad de textos que recogen. Textual De referencia Léxico D. Tipo de codificación y anotaciones añadidas al texto. Simple (ASCII ) Codificado y anotado .:Lingüística computacional:. Heiner Mercado Percia 2008

Clasificación de corpus: E. Contenido Corpus orales: constituidos por señales de voz y sus transcripciones de anotación fonética. Corpus de texto: constituidos por lengua escrita o por lengua oral transcrita. Corpus multimodales: constituidos por datos orales como prosodia, gestos, movimientos de la boca, grabaciones sonoras y fílmicas. .:Lingüística computacional:. Heiner Mercado Percia 2008

Composición del corpus Como el objetivo de un corpus es reflejar por medio de una muestra el comportamiento de una lengua es necesario decidir cómo se debe componer para que sea lo más representativo posible en atención a la investigación lingüística. Por ello el corpus debe cumplir los siguientes. Parámetros: .:Lingüística computacional:. Heiner Mercado Percia 2008

Composición del corpus Establecer el tipo oral o escrito Tipos de registros: literatura, prensa, etc. Parámetros demográficos: edad, sexo, grupo, etc. Época Medios de comunicación: libros, periódicos, correos electrónicos, etc. Niveles lingüísticos: coloquial, formal, lengua infantil, publicitaria, etc. Tipos de textos: novelas, poemas, reportajes, columnas, encuestas, etc. .:Lingüística computacional:. Heiner Mercado Percia 2008

Representatividad ¿A partir de qué tamaño es un corpus representativo? ¿Hasta qué punto podemos decir que un corpus es más representativo que otro? ¿Cuáles son los criterios que determinan la representatividad? .:Lingüística computacional:. Heiner Mercado Percia 2008

Representatividad Para este problema la único que podemos decir es que debe haber una relación entre el diseño y la finalidad prevista como objetivo fundamental de su explotación. La representatividad es un concepto vinculado con lo que se quiere presentar y sólo en la práctica se puede juzgar si tal objetivo fue afortunado o no. .:Lingüística computacional:. Heiner Mercado Percia 2008

Representatividad Debemos responder a la pregunta ¿qué resultados espero obtener? Un ejemplo: Si deseo construir un diccionario de una lengua es necesario que el corpus tenga: Un número elevado de palabras (millones) Predominio de textos escritos sobre orales Diversidad de grupos temáticos Inclusión de textos literarios .:Lingüística computacional:. Heiner Mercado Percia 2008

Elaboración de los córpora Adquisición de datos para un corpus WWW: la red ofrece una cantidad de textos que pueden ser compilados fácilmente. Escáner: se pueden digitalizar los libros o revistas aplicándose el reconocimiento óptico de caracteres (OCR) Los programas de OCR no son perfectos, por tal motivo deben ser corregidos para minimizar los errores de reconocimiento. .:Lingüística computacional:. Heiner Mercado Percia 2008

Elaboración de los córpora Grabación de tono: para obtener datos orales se hacen grabaciones directamente de los medios de comunicación o se entrevistan a personas. Compra: Es una posibilidad cómo, pero que puede ser costosa. Se pueden comprar archivos en los periódicos o en las emisoras. .:Lingüística computacional:. Heiner Mercado Percia 2008

Proceso de obtención Texto 1 Texto 2 (Resultado) Digitalización Edición y Procesamiento Utilización de un software. Salida Digitalización Texto 2 (Resultado) XML HTML DOC TXT RTF PDF Entrada Micrófono Grabaciones de audio y video .:Lingüística computacional:. Heiner Mercado Percia 2008

Procesamiento de corpus Anotación de corpus: Con la ayuda de <tags> o etiquetas se puede enriquecer el corpus con informaciones Estructurales (títulos, subtítulos, referencias, etc.) bibliográficas (autor, año, tema, género, etc.), Morfológicas (lematización) sintácticas semánticas o léxicas (extranjerismos, siglas, nombres propios, etc.). .:Lingüística computacional:. Heiner Mercado Percia 2008

Procesamiento de corpus Se deben tener en cuenta estándares de codificación como TEI. Las normas TEI proporcionan un medio para hacer explícitos ciertos rasgos de un texto de tal modo que faciliten el procesamiento de dicho texto por programas informáticos ejecutados desde diferentes máquinas. Las Normas TEI usan el SGML para definir su esquema de codificación. SGML posibilita una definición formal de un esquema de codificación, en función de elementos y atributos, y reglas que controlan su aparición en un texto. Ej.: <etiqueta1> <etiqueta2 atributo1="hola" atributo2="mundo"> </etiqueta2> </etiqueta1> .:Lingüística computacional:. Heiner Mercado Percia 2008

Elaboración de los córpora El lenguaje SGML sirve para especificar las reglas de etiquetado de documentos y no impone en sí ningún conjunto de etiquetas en especial. Formato de anotación: se separa el contenido de la estructura. Para ello se utilizan lenguajes de marcación (markup languages) como: SGML o Standard Generalized Markup Language (Lenguaje de Marcación Generalizado). HTML o HyperText Markup Language (Lenguaje de Etiquetas de Hipertexto) XML o Extensible Markup Language (Lenguaje de marcas extensible). .:Lingüística computacional:. Heiner Mercado Percia 2008

Ejemplo de corpus etiquetado en XML Frase: Poco duró el sabor <?xml version="1.0" encoding="utf-8"?> <txs file="corpus_Heiner2.es.txs" num="2"> <chunkList> <chunk> <s id="s2"> <tok id="t1" base="poco" ctag="Adv" msd="Adv">Poco</tok> <tok id="t2" base="durar" ctag="Verb" msd="Verb Pret 3P Sg">duró</tok> <tok id="t3" base="el" ctag="Det" msd="Art Masc Sg">el</tok> <tok id="t4" base="sabor" ctag="Noun" msd="Noun Masc Sg">sabor</tok> </s> </chunk> </chunkList> </txs> </xml> Convenciones: base: Lema (forma canónica) ctag: Categoría (o parte del discurso, p. ej. "Verb") msd: Descripción morfosintáctica (p. ej. "P1 Sg Ind Imp") .:Lingüística computacional:. Heiner Mercado Percia 2008

Ejemplo de corpus etiquetado estructuralmente [article pii=nd doctopic=oa language=es ccode=br1.1 status=1 version=3.1 type=tab order=04 seccode=RESP020 sponsor=nd stitle="Rev. Esp. Salud Publica" volid=74 issueno=4 dateiso=20000800 fpage=351 lpage=359 issn=1135-5727] [front] [titlegrp] [title language=es]Utilización de anfotericina B no convencional en el Hospital Clínico de San Carlos[/title] [/titlegrp] [author role=nd rid="a01"][fname]Emilio[/fname] [surname]Vargas Castrillón[/surname][/author] [bibcom] [abstract language=es] La anfotericina B es el tratamiento de elección de las infecciones fúngicas sistémicas, pero su utilidad clínica está limitada por su toxicidad. Las formulaciones lipídicas parecen igualmente eficaces y más seguras, pero tienen un mayor coste. [/abstract] .:Lingüística computacional:. Heiner Mercado Percia 2008

Ejemplo de corpus etiquetado estructuralmente Palabras clave: [keygrp scheme=nd][keyword type=m language=es]Medicamentos[/keyword].[/keygrp] [/bibcom] [/front] [body]INTRODUCCION Las infecciones fúngicas sistémicas graves son causa de importante morbilidad y mortalidad entre los pacientes inmunodeprimidos (tratados con quimioterapia intensiva, inmunosupresores, enfermos de sida...) y entre los atendidos en unidades de cuidados intensivos. [/body] [back] [other standard=other count="20"]BIBLIOGRAFÍA [ocitat][no]1[/no].- [ocontrib][ocorpaut][orgname]EORTC International Antimicrobial Therapy Cooperative Group[/orgname][/ocorpaut]. [title language=en]Empirical antifungal therapy in granulocytopenic patients[/title]. [/ocontrib][oiserial][stitle]Am J Med[/stitle] [date dateiso="19890000"]1989[/date];[volid]86[/volid]:[pages]668-72[/pages].[/oiserial][/ocitat][/other][/back] [/article] .:Lingüística computacional:. Heiner Mercado Percia 2008

Procesamiento de un corpus Tokenizador: es un programa que sirve para segmentar un texto en tokens. Por Token se entiende una cadena de caracteres delimitadas por espacios o signos de puntuación. Tagger o etiquetador: es un programa que le asigna a cada token una etiqueta con información específica. .:Lingüística computacional:. Heiner Mercado Percia 2008

Formatos Formatos de documentos textuales más populares : Formato Ext. Proprietario Rich Text Format RTF Public Postscript PS Adobe Portable Doc. Format PDF Adobe MS Word DOC Microsoft OpenOffice Writer SXW Public LaTEX TEX Public Text brut TXT Public .:Lingüística computacional:. Heiner Mercado Percia 2008

Explotación de un corpus Para poder aprovechar la información de un corpus es necesario disponer de herramientas que permiten: Extraer listado de frecuencias de aparición de las palabras Hacer índices y concordancias Hacer lematizaciones Analizar morfológica y sintácticamente el texto Desambiguar palabras Detectar unidades recurrentes (colocaciones) .:Lingüística computacional:. Heiner Mercado Percia 2008

Explotación de un corpus: información estadística Listado de frecuencias: establece el número de formas gráficas, lemas, categorías gramaticales y combinación de letras Dato absoluto: valor que depende de la extensión del corpus. Ej: A = 50 veces en un corpus de 50 millones de palabras B = 50 veces en un corpus de 5 mil palabras A = B en términos absolutos Frecuencia relativa: A aparece 1 vez cada millón de palabras B aparece 1 vez cada cien palabras A = 0,0001 y B = 1 La frecuencia indica la importancia de una palabra en el conjunto del vocabulario de una lengua. .:Lingüística computacional:. Heiner Mercado Percia 2008

Índices de concordancias Contextos KWIC y KWOC .:Lingüística computacional:. Heiner Mercado Percia 2008

Corpus disponibles CREA CORDE CUMBRE ARTHUS UAM-Treebank Chile MC-NLCH FRANTEXT .:Lingüística computacional:. Heiner Mercado Percia 2008

Aplicaciones de los córpora en la Lingüística Dialectología / Sociolingüística Lingüística histórica Psicolingüística Lexicografía Sintaxis Semántica Fonología Lingüística Computacional Estilometría Morfología Enseñanza de idiomas Pragmática .:Lingüística computacional:. Heiner Mercado Percia 2008

¿Para qué lo utilizaremos en el curso? En nuestro curso no haremos realmente un corpus, ya que esto implica mucho tiempo y dedicación. Lo que haremos es una biblioteca de textos electrónicos teniendo en cuenta lo siguiente: Volumen (totalidad de los textos reunidos) Cobertura (tamaño de la muestra) Homogeneidad / heterogeneidad Dominio (académico, profesional, político, etc.) Contenido (sonidos, textos, etc.) Género (tesis, artículo de prensa, documentos administrativos, discursos, etc.) Estructura lingüística (narrativa, descriptiva, argumentativa, etc.) .:Lingüística computacional:. Heiner Mercado Percia 2008

Además… Debe contener información relacionada con: Fecha de publicación de los textos Fuente Fecha de elaboración de la compilación Cobertura cronológica Medio de publicación Número de palabras o formas gráficas y ocurrencias Descripción y justificación de corrección Descripción de otro tipo de tratamientos .:Lingüística computacional:. Heiner Mercado Percia 2008

Objetivo Análisis del discurso Interpretación o lectura transversal Investigación lingüística Estudio lexicográfico (neologismos) .:Lingüística computacional:. Heiner Mercado Percia 2008