La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Fundamentos de la lingüística de corpus

Presentaciones similares


Presentación del tema: "Fundamentos de la lingüística de corpus"— Transcripción de la presentación:

1 Fundamentos de la lingüística de corpus
Heiner Mercado Percia Letras: Filología Hispánica 2008 Fundamentos de la lingüística de corpus

2 ¿Cómo estudiar una lengua?
El lingüista, por medio de datos empíricos, quiere llegar a describir los elementos lingüísticos. Busca elementos que confirmen sus hipótesis sobre la descripción del lenguaje que ha realizado y aporte datos sobre el comportamiento general de una lengua. El lingüística compila una gran cantidad de elementos lingüísticos , elabora un corpus. .:Lingüística computacional:. Heiner Mercado Percia 2008

3 Pero… Corrientes generativistas (N. Chomsky) parten de la idea de que el número de enunciados de una lengua es infinito. Por lo tanto, no puede haber ningún repertorio finito de datos que expliquen suficientemente los mecanismos de producción lingüística. Esta orientación supuso una crítica a la utilización de corpus como base para la descripción de la lengua. .:Lingüística computacional:. Heiner Mercado Percia 2008

4 Resurgimiento Ahora bien, teniendo en cuenta esta crítica la lingüística aplicada ha hecho ver que el objeto de un corpus no es dar una visión total de una lengua, sino ofrecer una muestra representativa que permita al lingüista fundamentar una investigación en datos objetivos. Así pues, un corpus no puede identificarse con la lengua, sino que es un conjunto de datos que la representa de una manera más o menos fiable. .:Lingüística computacional:. Heiner Mercado Percia 2008

5 Lingüística de corpus La lingüística de corpus recupera el método empírico potenciado por los adelantos en la informática que le permiten recopilar gran cantidad de textos y facilitar su explotación. La lingüística de corpus trata la concepción, tratamiento preliminar y análisis de corpus, y plantea, por ejemplo, qué preguntas lingüísticas se pueden responder por medio del uso de un amplio número de textos. .:Lingüística computacional:. Heiner Mercado Percia 2008

6 Pero, ¿qué es un corpus? Para un especialista en morfología: es un conjunto de palabras derivadas de una lengua. Para un especialista en sintaxis: es un conjunto de variado de frases de una lengua. Para un especialista en PLN: es un recurso lingüístico que permite construir herramientas para el tratamiento del lenguaje natural. .:Lingüística computacional:. Heiner Mercado Percia 2008

7 ¿Qué es un corpus? Para John Sinclair un corpus es una colección de elementos lingüísticos de acuerdo con criterios lingüísticos explícitos con la finalidad de ser usado como muestra de la lengua. También lo podemos definir como una colección de textos, reunidos según unos criterios precisos, eventualmente estructurados y enriquecidos con información adicional, en vista de una explotación teórica o práctica. .:Lingüística computacional:. Heiner Mercado Percia 2008

8 ¿Qué es un corpus? Desde el punto de vista práctico, un corpus résulta de un agrupamiento razonado, dirigido por una hipótesis de investigación explícita. Se dice que un corpus es informatizado cuando se ha codificado de una manera estándar y homogénea de tal manera que puede ser tratados mediante procesos informáticos. Un C.I. está destinado a reflejar el comportamiento de una lengua. .:Lingüística computacional:. Heiner Mercado Percia 2008

9 Dos ejemplos de corpus Andrónico de Rodas fue el recopilador de la obra de Aristóteles, en el siglo primero a.C. Hoy lo conocemos como el Corpus Aristélicum. La construcción del Oxford English Dictionary (OED) inicia en 1857 por la Philological Society of London. .:Lingüística computacional:. Heiner Mercado Percia 2008

10 Tipos de corpus La palara corpus es un poco ambigua y actualmente se utiliza en un sentido general para referirse a cualquier tipo de compilación de textos. Pero en realidad, hay que distinguir estas colecciones según el grado especificación en los criterios de selección. .:Lingüística computacional:. Heiner Mercado Percia 2008

11 Tipos de corpus Podemos hablar de tres tipos de recopilaciones de textos: Archivo informatizado (Archive/Collection) : repertorio de textos en soporte informático sin buscar ningún tipo de relación entre ellos. Biblioteca de textos electrónicos (Electronic text Library): colección de textos en formato digital, guardados en un formato estándar, siguiendo ciertas normas de contenido, pero sin criterio riguroso de selección. .:Lingüística computacional:. Heiner Mercado Percia 2008

12 Tipos de corpus Corpus informatizado (Computer corpus): colección de textos elaborado y ordenado según criterios lingüísticos externos (datos de los autores, medios de trasmisión utilizados, nivel social de los participantes, función comunicativa de los textos) o internos (patrones lingüísticos) Los corpus pueden ser clasificados de diferentes maneras en función de los parámetros que se quieran utilizar. Veamos. .:Lingüística computacional:. Heiner Mercado Percia 2008

13 Clasificación de corpus
Según: Porcentaje de distribución de los diferentes tipos de textos que lo componen. Especificidad de los textos . Cantidad de textos que recogen. Tipo de codificación y anotaciones añadidas al texto. Contenido. .:Lingüística computacional:. Heiner Mercado Percia 2008

14 Clasificación de corpus:
A. Porcentaje de distribución de los diferentes tipos de textos que lo componen. Grande Equilibrado Piramidal Monitor Paralelo Comparables Multilingües Oportunista .:Lingüística computacional:. Heiner Mercado Percia 2008

15 Clasificación de corpus:
B. Especificidad de los textos . General Especializado Genérico Canónico Periódico o cronológico Diacrónico .:Lingüística computacional:. Heiner Mercado Percia 2008

16 Clasificación de corpus:
C. Cantidad de textos que recogen. Textual De referencia Léxico D. Tipo de codificación y anotaciones añadidas al texto. Simple (ASCII ) Codificado y anotado .:Lingüística computacional:. Heiner Mercado Percia 2008

17 Clasificación de corpus:
E. Contenido Corpus orales: constituidos por señales de voz y sus transcripciones de anotación fonética. Corpus de texto: constituidos por lengua escrita o por lengua oral transcrita. Corpus multimodales: constituidos por datos orales como prosodia, gestos, movimientos de la boca, grabaciones sonoras y fílmicas. .:Lingüística computacional:. Heiner Mercado Percia 2008

18 Composición del corpus
Como el objetivo de un corpus es reflejar por medio de una muestra el comportamiento de una lengua es necesario decidir cómo se debe componer para que sea lo más representativo posible en atención a la investigación lingüística. Por ello el corpus debe cumplir los siguientes. Parámetros: .:Lingüística computacional:. Heiner Mercado Percia 2008

19 Composición del corpus
Establecer el tipo oral o escrito Tipos de registros: literatura, prensa, etc. Parámetros demográficos: edad, sexo, grupo, etc. Época Medios de comunicación: libros, periódicos, correos electrónicos, etc. Niveles lingüísticos: coloquial, formal, lengua infantil, publicitaria, etc. Tipos de textos: novelas, poemas, reportajes, columnas, encuestas, etc. .:Lingüística computacional:. Heiner Mercado Percia 2008

20 Representatividad ¿A partir de qué tamaño es un corpus representativo?
¿Hasta qué punto podemos decir que un corpus es más representativo que otro? ¿Cuáles son los criterios que determinan la representatividad? .:Lingüística computacional:. Heiner Mercado Percia 2008

21 Representatividad Para este problema la único que podemos decir es que debe haber una relación entre el diseño y la finalidad prevista como objetivo fundamental de su explotación. La representatividad es un concepto vinculado con lo que se quiere presentar y sólo en la práctica se puede juzgar si tal objetivo fue afortunado o no. .:Lingüística computacional:. Heiner Mercado Percia 2008

22 Representatividad Debemos responder a la pregunta ¿qué resultados espero obtener? Un ejemplo: Si deseo construir un diccionario de una lengua es necesario que el corpus tenga: Un número elevado de palabras (millones) Predominio de textos escritos sobre orales Diversidad de grupos temáticos Inclusión de textos literarios .:Lingüística computacional:. Heiner Mercado Percia 2008

23 Elaboración de los córpora
Adquisición de datos para un corpus WWW: la red ofrece una cantidad de textos que pueden ser compilados fácilmente. Escáner: se pueden digitalizar los libros o revistas aplicándose el reconocimiento óptico de caracteres (OCR) Los programas de OCR no son perfectos, por tal motivo deben ser corregidos para minimizar los errores de reconocimiento. .:Lingüística computacional:. Heiner Mercado Percia 2008

24 Elaboración de los córpora
Grabación de tono: para obtener datos orales se hacen grabaciones directamente de los medios de comunicación o se entrevistan a personas. Compra: Es una posibilidad cómo, pero que puede ser costosa. Se pueden comprar archivos en los periódicos o en las emisoras. .:Lingüística computacional:. Heiner Mercado Percia 2008

25 Proceso de obtención Texto 1 Texto 2 (Resultado)
Digitalización Edición y Procesamiento Utilización de un software. Salida Digitalización Texto 2 (Resultado) XML HTML DOC TXT RTF PDF Entrada Micrófono Grabaciones de audio y video .:Lingüística computacional:. Heiner Mercado Percia 2008

26 Procesamiento de corpus
Anotación de corpus: Con la ayuda de <tags> o etiquetas se puede enriquecer el corpus con informaciones Estructurales (títulos, subtítulos, referencias, etc.) bibliográficas (autor, año, tema, género, etc.), Morfológicas (lematización) sintácticas semánticas o léxicas (extranjerismos, siglas, nombres propios, etc.). .:Lingüística computacional:. Heiner Mercado Percia 2008

27 Procesamiento de corpus
Se deben tener en cuenta estándares de codificación como TEI. Las normas TEI proporcionan un medio para hacer explícitos ciertos rasgos de un texto de tal modo que faciliten el procesamiento de dicho texto por programas informáticos ejecutados desde diferentes máquinas. Las Normas TEI usan el SGML para definir su esquema de codificación. SGML posibilita una definición formal de un esquema de codificación, en función de elementos y atributos, y reglas que controlan su aparición en un texto. Ej.: <etiqueta1> <etiqueta2 atributo1="hola" atributo2="mundo"> </etiqueta2> </etiqueta1> .:Lingüística computacional:. Heiner Mercado Percia 2008

28 Elaboración de los córpora
El lenguaje SGML sirve para especificar las reglas de etiquetado de documentos y no impone en sí ningún conjunto de etiquetas en especial. Formato de anotación: se separa el contenido de la estructura. Para ello se utilizan lenguajes de marcación (markup languages) como: SGML o Standard Generalized Markup Language (Lenguaje de Marcación Generalizado). HTML o HyperText Markup Language (Lenguaje de Etiquetas de Hipertexto) XML o Extensible Markup Language (Lenguaje de marcas extensible). .:Lingüística computacional:. Heiner Mercado Percia 2008

29 Ejemplo de corpus etiquetado en XML
Frase: Poco duró el sabor <?xml version="1.0" encoding="utf-8"?> <txs file="corpus_Heiner2.es.txs" num="2"> <chunkList> <chunk> <s id="s2"> <tok id="t1" base="poco" ctag="Adv" msd="Adv">Poco</tok> <tok id="t2" base="durar" ctag="Verb" msd="Verb Pret 3P Sg">duró</tok> <tok id="t3" base="el" ctag="Det" msd="Art Masc Sg">el</tok> <tok id="t4" base="sabor" ctag="Noun" msd="Noun Masc Sg">sabor</tok> </s> </chunk> </chunkList> </txs> </xml> Convenciones: base: Lema (forma canónica) ctag: Categoría (o parte del discurso, p. ej. "Verb") msd: Descripción morfosintáctica (p. ej. "P1 Sg Ind Imp") .:Lingüística computacional:. Heiner Mercado Percia 2008

30 Ejemplo de corpus etiquetado estructuralmente
[article pii=nd doctopic=oa language=es ccode=br1.1 status=1 version=3.1 type=tab order=04 seccode=RESP020 sponsor=nd stitle="Rev. Esp. Salud Publica" volid=74 issueno=4 dateiso= fpage=351 lpage=359 issn= ] [front] [titlegrp] [title language=es]Utilización de anfotericina B no convencional en el Hospital Clínico de San Carlos[/title] [/titlegrp] [author role=nd rid="a01"][fname]Emilio[/fname] [surname]Vargas Castrillón[/surname][/author] [bibcom] [abstract language=es] La anfotericina B es el tratamiento de elección de las infecciones fúngicas sistémicas, pero su utilidad clínica está limitada por su toxicidad. Las formulaciones lipídicas parecen igualmente eficaces y más seguras, pero tienen un mayor coste. [/abstract] .:Lingüística computacional:. Heiner Mercado Percia 2008

31 Ejemplo de corpus etiquetado estructuralmente
Palabras clave: [keygrp scheme=nd][keyword type=m language=es]Medicamentos[/keyword].[/keygrp] [/bibcom] [/front] [body]INTRODUCCION Las infecciones fúngicas sistémicas graves son causa de importante morbilidad y mortalidad entre los pacientes inmunodeprimidos (tratados con quimioterapia intensiva, inmunosupresores, enfermos de sida...) y entre los atendidos en unidades de cuidados intensivos. [/body] [back] [other standard=other count="20"]BIBLIOGRAFÍA [ocitat][no]1[/no].- [ocontrib][ocorpaut][orgname]EORTC International Antimicrobial Therapy Cooperative Group[/orgname][/ocorpaut]. [title language=en]Empirical antifungal therapy in granulocytopenic patients[/title]. [/ocontrib][oiserial][stitle]Am J Med[/stitle] [date dateiso=" "]1989[/date];[volid]86[/volid]:[pages]668-72[/pages].[/oiserial][/ocitat][/other][/back] [/article] .:Lingüística computacional:. Heiner Mercado Percia 2008

32 Procesamiento de un corpus
Tokenizador: es un programa que sirve para segmentar un texto en tokens. Por Token se entiende una cadena de caracteres delimitadas por espacios o signos de puntuación. Tagger o etiquetador: es un programa que le asigna a cada token una etiqueta con información específica. .:Lingüística computacional:. Heiner Mercado Percia 2008

33 Formatos Formatos de documentos textuales más populares :
Formato Ext. Proprietario Rich Text Format RTF Public Postscript PS Adobe Portable Doc. Format PDF Adobe MS Word DOC Microsoft OpenOffice Writer SXW Public LaTEX TEX Public Text brut TXT Public .:Lingüística computacional:. Heiner Mercado Percia 2008

34 Explotación de un corpus
Para poder aprovechar la información de un corpus es necesario disponer de herramientas que permiten: Extraer listado de frecuencias de aparición de las palabras Hacer índices y concordancias Hacer lematizaciones Analizar morfológica y sintácticamente el texto Desambiguar palabras Detectar unidades recurrentes (colocaciones) .:Lingüística computacional:. Heiner Mercado Percia 2008

35 Explotación de un corpus: información estadística
Listado de frecuencias: establece el número de formas gráficas, lemas, categorías gramaticales y combinación de letras Dato absoluto: valor que depende de la extensión del corpus. Ej: A = 50 veces en un corpus de 50 millones de palabras B = 50 veces en un corpus de 5 mil palabras A = B en términos absolutos Frecuencia relativa: A aparece 1 vez cada millón de palabras B aparece 1 vez cada cien palabras A = 0,0001 y B = 1 La frecuencia indica la importancia de una palabra en el conjunto del vocabulario de una lengua. .:Lingüística computacional:. Heiner Mercado Percia 2008

36 Índices de concordancias
Contextos KWIC y KWOC .:Lingüística computacional:. Heiner Mercado Percia 2008

37 Corpus disponibles CREA CORDE CUMBRE ARTHUS UAM-Treebank Chile MC-NLCH
FRANTEXT .:Lingüística computacional:. Heiner Mercado Percia 2008

38 Aplicaciones de los córpora en la Lingüística
Dialectología / Sociolingüística Lingüística histórica Psicolingüística Lexicografía Sintaxis Semántica Fonología Lingüística Computacional Estilometría Morfología Enseñanza de idiomas Pragmática .:Lingüística computacional:. Heiner Mercado Percia 2008

39 ¿Para qué lo utilizaremos en el curso?
En nuestro curso no haremos realmente un corpus, ya que esto implica mucho tiempo y dedicación. Lo que haremos es una biblioteca de textos electrónicos teniendo en cuenta lo siguiente: Volumen (totalidad de los textos reunidos) Cobertura (tamaño de la muestra) Homogeneidad / heterogeneidad Dominio (académico, profesional, político, etc.) Contenido (sonidos, textos, etc.) Género (tesis, artículo de prensa, documentos administrativos, discursos, etc.) Estructura lingüística (narrativa, descriptiva, argumentativa, etc.) .:Lingüística computacional:. Heiner Mercado Percia 2008

40 Además… Debe contener información relacionada con:
Fecha de publicación de los textos Fuente Fecha de elaboración de la compilación Cobertura cronológica Medio de publicación Número de palabras o formas gráficas y ocurrencias Descripción y justificación de corrección Descripción de otro tipo de tratamientos .:Lingüística computacional:. Heiner Mercado Percia 2008

41 Objetivo Análisis del discurso Interpretación o lectura transversal
Investigación lingüística Estudio lexicográfico (neologismos) .:Lingüística computacional:. Heiner Mercado Percia 2008


Descargar ppt "Fundamentos de la lingüística de corpus"

Presentaciones similares


Anuncios Google