La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Heiner Mercado Percia Letras: Filología Hispánica 2008.

Presentaciones similares


Presentación del tema: "Heiner Mercado Percia Letras: Filología Hispánica 2008."— Transcripción de la presentación:

1 Heiner Mercado Percia Letras: Filología Hispánica 2008

2 ¿Cómo estudiar una lengua? El lingüista, por medio de datos empíricos, quiere llegar a describir los elementos lingüísticos. Busca elementos que confirmen sus hipótesis sobre la descripción del lenguaje que ha realizado y aporte datos sobre el comportamiento general de una lengua. El lingüística compila una gran cantidad de elementos lingüísticos, elabora un corpus..:Lingüística computacional:. Heiner Mercado Percia

3 Pero… Corrientes generativistas (N. Chomsky) parten de la idea de que el número de enunciados de una lengua es infinito. Por lo tanto, no puede haber ningún repertorio finito de datos que expliquen suficientemente los mecanismos de producción lingüística. Esta orientación supuso una crítica a la utilización de corpus como base para la descripción de la lengua..:Lingüística computacional:. Heiner Mercado Percia

4 Resurgimiento Ahora bien, teniendo en cuenta esta crítica la lingüística aplicada ha hecho ver que el objeto de un corpus no es dar una visión total de una lengua, sino ofrecer una muestra representativa que permita al lingüista fundamentar una investigación en datos objetivos. Así pues, un corpus no puede identificarse con la lengua, sino que es un conjunto de datos que la representa de una manera más o menos fiable..:Lingüística computacional:. Heiner Mercado Percia

5 Lingüística de corpus La lingüística de corpus recupera el método empírico potenciado por los adelantos en la informática que le permiten recopilar gran cantidad de textos y facilitar su explotación. La lingüística de corpus trata la concepción, tratamiento preliminar y análisis de corpus, y plantea, por ejemplo, qué preguntas lingüísticas se pueden responder por medio del uso de un amplio número de textos..:Lingüística computacional:. Heiner Mercado Percia

6 Pero, ¿qué es un corpus? Para un especialista en morfología: es un conjunto de palabras derivadas de una lengua. Para un especialista en sintaxis: es un conjunto de variado de frases de una lengua. Para un especialista en PLN: es un recurso lingüístico que permite construir herramientas para el tratamiento del lenguaje natural..:Lingüística computacional:. Heiner Mercado Percia

7 ¿Qué es un corpus? Para John Sinclair un corpus es una colección de elementos lingüísticos de acuerdo con criterios lingüísticos explícitos con la finalidad de ser usado como muestra de la lengua. También lo podemos definir como una colección de textos, reunidos según unos criterios precisos, eventualmente estructurados y enriquecidos con información adicional, en vista de una explotación teórica o práctica..:Lingüística computacional:. Heiner Mercado Percia

8 ¿Qué es un corpus? Desde el punto de vista práctico, un corpus résulta de un agrupamiento razonado, dirigido por una hipótesis de investigación explícita. Se dice que un corpus es informatizado cuando se ha codificado de una manera estándar y homogénea de tal manera que puede ser tratados mediante procesos informáticos. Un C.I. está destinado a reflejar el comportamiento de una lengua..:Lingüística computacional:. Heiner Mercado Percia

9 Dos ejemplos de corpus Andrónico de Rodas fue el recopilador de la obra de Aristóteles, en el siglo primero a.C. Hoy lo conocemos como el Corpus Aristélicum. La construcción del Oxford English Dictionary (OED) inicia en 1857 por la Philological Society of London..:Lingüística computacional:. Heiner Mercado Percia

10 Tipos de corpus La palara corpus es un poco ambigua y actualmente se utiliza en un sentido general para referirse a cualquier tipo de compilación de textos. Pero en realidad, hay que distinguir estas colecciones según el grado especificación en los criterios de selección..:Lingüística computacional:. Heiner Mercado Percia

11 Tipos de corpus Podemos hablar de tres tipos de recopilaciones de textos: Archivo informatizado (Archive/Collection) : repertorio de textos en soporte informático sin buscar ningún tipo de relación entre ellos. Biblioteca de textos electrónicos (Electronic text Library): colección de textos en formato digital, guardados en un formato estándar, siguiendo ciertas normas de contenido, pero sin criterio riguroso de selección..:Lingüística computacional:. Heiner Mercado Percia

12 Tipos de corpus Corpus informatizado (Computer corpus): colección de textos elaborado y ordenado según criterios lingüísticos externos (datos de los autores, medios de trasmisión utilizados, nivel social de los participantes, función comunicativa de los textos) o internos (patrones lingüísticos) Los corpus pueden ser clasificados de diferentes maneras en función de los parámetros que se quieran utilizar. Veamos..:Lingüística computacional:. Heiner Mercado Percia

13 Clasificación de corpus Según: A. Porcentaje de distribución de los diferentes tipos de textos que lo componen. B. Especificidad de los textos. C. Cantidad de textos que recogen. D. Tipo de codificación y anotaciones añadidas al texto. E. Contenido..:Lingüística computacional:. Heiner Mercado Percia

14 Clasificación de corpus: A. Porcentaje de distribución de los diferentes tipos de textos que lo componen. 1. Grande 2. Equilibrado 3. Piramidal 4. Monitor 5. Paralelo 6. Comparables 7. Multilingües 8. Oportunista.:Lingüística computacional:. Heiner Mercado Percia

15 Clasificación de corpus: B. Especificidad de los textos. 1. General 2. Especializado 3. Genérico 4. Canónico 5. Periódico o cronológico 6. Diacrónico.:Lingüística computacional:. Heiner Mercado Percia

16 Clasificación de corpus: C. Cantidad de textos que recogen. 1. Textual 2. De referencia 3. Léxico D. Tipo de codificación y anotaciones añadidas al texto. 1. Simple (ASCII ) 2. Codificado y anotado.:Lingüística computacional:. Heiner Mercado Percia

17 Clasificación de corpus: E. Contenido 1. Corpus orales: constituidos por señales de voz y sus transcripciones de anotación fonética. 2. Corpus de texto: constituidos por lengua escrita o por lengua oral transcrita. 3. Corpus multimodales: constituidos por datos orales como prosodia, gestos, movimientos de la boca, grabaciones sonoras y fílmicas..:Lingüística computacional:. Heiner Mercado Percia

18 Composición del corpus Como el objetivo de un corpus es reflejar por medio de una muestra el comportamiento de una lengua es necesario decidir cómo se debe componer para que sea lo más representativo posible en atención a la investigación lingüística. Por ello el corpus debe cumplir los siguientes. Parámetros:.:Lingüística computacional:. Heiner Mercado Percia

19 Composición del corpus Establecer el tipo oral o escrito Tipos de registros: literatura, prensa, etc. Parámetros demográficos: edad, sexo, grupo, etc. Época Medios de comunicación: libros, periódicos, correos electrónicos, etc. Niveles lingüísticos: coloquial, formal, lengua infantil, publicitaria, etc. Tipos de textos: novelas, poemas, reportajes, columnas, encuestas, etc..:Lingüística computacional:. Heiner Mercado Percia

20 Representatividad ¿A partir de qué tamaño es un corpus representativo? ¿Hasta qué punto podemos decir que un corpus es más representativo que otro? ¿Cuáles son los criterios que determinan la representatividad?.:Lingüística computacional:. Heiner Mercado Percia

21 Representatividad Para este problema la único que podemos decir es que debe haber una relación entre el diseño y la finalidad prevista como objetivo fundamental de su explotación. La representatividad es un concepto vinculado con lo que se quiere presentar y sólo en la práctica se puede juzgar si tal objetivo fue afortunado o no..:Lingüística computacional:. Heiner Mercado Percia

22 Representatividad Debemos responder a la pregunta ¿qué resultados espero obtener? Un ejemplo: Si deseo construir un diccionario de una lengua es necesario que el corpus tenga: Un número elevado de palabras (millones) Predominio de textos escritos sobre orales Diversidad de grupos temáticos Inclusión de textos literarios.:Lingüística computacional:. Heiner Mercado Percia

23 Elaboración de los córpora Adquisición de datos para un corpus WWW: la red ofrece una cantidad de textos que pueden ser compilados fácilmente. Escáner: se pueden digitalizar los libros o revistas aplicándose el reconocimiento óptico de caracteres (OCR) Los programas de OCR no son perfectos, por tal motivo deben ser corregidos para minimizar los errores de reconocimiento..:Lingüística computacional:. Heiner Mercado Percia

24 Elaboración de los córpora Grabación de tono: para obtener datos orales se hacen grabaciones directamente de los medios de comunicación o se entrevistan a personas. Compra: Es una posibilidad cómo, pero que puede ser costosa. Se pueden comprar archivos en los periódicos o en las emisoras..:Lingüística computacional:. Heiner Mercado Percia

25 Proceso de obtención.:Lingüística computacional:. Heiner Mercado Percia Texto 2 (Resultado) XML HTML DOC TXT RTF PDF Texto 1 Digitalización Edición y Procesamiento Utilización de un software. Grabaciones de audio y video Micrófono Salida Entrada Digitalización

26 Procesamiento de corpus Anotación de corpus: Con la ayuda de o etiquetas se puede enriquecer el corpus con informaciones Estructurales (títulos, subtítulos, referencias, etc.) bibliográficas (autor, año, tema, género, etc.), Morfológicas (lematización) sintácticas semánticas o léxicas (extranjerismos, siglas, nombres propios, etc.)..:Lingüística computacional:. Heiner Mercado Percia

27 Procesamiento de corpus Se deben tener en cuenta estándares de codificación como TEI. Las normas TEI proporcionan un medio para hacer explícitos ciertos rasgos de un texto de tal modo que faciliten el procesamiento de dicho texto por programas informáticos ejecutados desde diferentes máquinas. Las Normas TEI usan el SGML para definir su esquema de codificación. SGML posibilita una definición formal de un esquema de codificación, en función de elementos y atributos, y reglas que controlan su aparición en un texto. Ej.:.:Lingüística computacional:. Heiner Mercado Percia

28 Elaboración de los córpora Formato de anotación: se separa el contenido de la estructura. Para ello se utilizan lenguajes de marcación (markup languages) como: SGML o Standard Generalized Markup Language (Lenguaje de Marcación Generalizado). HTML o HyperText Markup Language (Lenguaje de Etiquetas de Hipertexto) XML o Extensible Markup Language (Lenguaje de marcas extensible)..:Lingüística computacional:. Heiner Mercado Percia El lenguaje SGML sirve para especificar las reglas de etiquetado de documentos y no impone en sí ningún conjunto de etiquetas en especial.

29 Ejemplo de corpus etiquetado en XML.:Lingüística computacional:. Heiner Mercado Percia Poco duró el sabor Frase: Poco duró el sabor Convenciones: base: Lema (forma canónica) ctag: Categoría (o parte del discurso, p. ej. "Verb") msd: Descripción morfosintáctica (p. ej. "P1 Sg Ind Imp")

30 Ejemplo de corpus etiquetado estructuralmente [article pii=nd doctopic=oa language=es ccode=br1.1 status=1 version=3.1 type=tab order=04 seccode=RESP020 sponsor=nd stitle="Rev. Esp. Salud Publica" volid=74 issueno=4 dateiso= fpage=351 lpage=359 issn= ] [front] [titlegrp] [title language=es] Utilización de anfotericina B no convencional en el Hospital Clínico de San Carlos [/title] [/titlegrp] [author role=nd rid="a01"][fname] Emilio [/fname] [surname] Vargas Castrillón [/surname][/author] [bibcom] [abstract language=es] La anfotericina B es el tratamiento de elección de las infecciones fúngicas sistémicas, pero su utilidad clínica está limitada por su toxicidad. Las formulaciones lipídicas parecen igualmente eficaces y más seguras, pero tienen un mayor coste. [/abstract].:Lingüística computacional:. Heiner Mercado Percia

31 Ejemplo de corpus etiquetado estructuralmente Palabras clave: [keygrp scheme=nd][keyword type=m language=es]M edicamentos [/keyword]. [/keygrp] [/bibcom] [/front] [body ] INTRODUCCION Las infecciones fúngicas sistémicas graves son causa de importante morbilidad y mortalidad entre los pacientes inmunodeprimidos (tratados con quimioterapia intensiva, inmunosupresores, enfermos de sida...) y entre los atendidos en unidades de cuidados intensivos. [/body ] [back] [other standard=other count="20"] BIBLIOGRAFÍA [ocitat][no] 1 [/no].- [ocontrib][ocorpaut][orgname] EORTC International Antimicrobial Therapy Cooperative Group [/orgname][/ocorpaut]. [title language=en] Empirical antifungal therapy in granulocytopenic patients [/title]. [/ocontrib][oiserial][stitle] Am J Med [/stitle] [date dateiso=" "] 1989 [/date] ; [volid] 86 [/volid] : [pages] [/pages]. [/oiserial][/ocitat][/other][/back] [/article].:Lingüística computacional:. Heiner Mercado Percia

32 Procesamiento de un corpus Tokenizador: es un programa que sirve para segmentar un texto en tokens. Por Token se entiende una cadena de caracteres delimitadas por espacios o signos de puntuación. Tagger o etiquetador: es un programa que le asigna a cada token una etiqueta con información específica..:Lingüística computacional:. Heiner Mercado Percia

33 Formatos.:Lingüística computacional:. Heiner Mercado Percia Formatos de documentos textuales más populares : FormatoExt.Proprietario Rich Text FormatRTFPublic PostscriptPSAdobe Portable Doc. FormatPDFAdobe MS WordDOCMicrosoft OpenOffice WriterSXWPublic LaTEXTEXPublic Text brutTXTPublic

34 Explotación de un corpus Para poder aprovechar la información de un corpus es necesario disponer de herramientas que permiten: Extraer listado de frecuencias de aparición de las palabras Hacer índices y concordancias Hacer lematizaciones Analizar morfológica y sintácticamente el texto Desambiguar palabras Detectar unidades recurrentes (colocaciones).:Lingüística computacional:. Heiner Mercado Percia

35 Explotación de un corpus: información estadística Listado de frecuencias: establece el número de formas gráficas, lemas, categorías gramaticales y combinación de letras Dato absoluto: valor que depende de la extensión del corpus. Ej: A = 50 veces en un corpus de 50 millones de palabras B = 50 veces en un corpus de 5 mil palabras A = B en términos absolutos Frecuencia relativa: A aparece 1 vez cada millón de palabras B aparece 1 vez cada cien palabras A = 0,0001 y B = 1.:Lingüística computacional:. Heiner Mercado Percia La frecuencia indica la importancia de una palabra en el conjunto del vocabulario de una lengua.

36 Índices de concordancias Contextos KWIC y KWOC.:Lingüística computacional:. Heiner Mercado Percia

37 Corpus disponibles CREA CORDE CUMBRE ARTHUS UAM-Treebank Chile MC-NLCH FRANTEXT.:Lingüística computacional:. Heiner Mercado Percia

38 Aplicaciones de los córpora en la Lingüística Dialectología / Sociolingüística Lingüística histórica Psicolingüística Lexicografía Sintaxis Semántica Fonología Lingüística Computacional Estilometría Morfología Enseñanza de idiomas Pragmática.:Lingüística computacional:. Heiner Mercado Percia

39 ¿Para qué lo utilizaremos en el curso? En nuestro curso no haremos realmente un corpus, ya que esto implica mucho tiempo y dedicación. Lo que haremos es una biblioteca de textos electrónicos teniendo en cuenta lo siguiente: Volumen (totalidad de los textos reunidos) Cobertura (tamaño de la muestra) Homogeneidad / heterogeneidad Dominio (académico, profesional, político, etc.) Contenido (sonidos, textos, etc.) Género (tesis, artículo de prensa, documentos administrativos, discursos, etc.) Estructura lingüística (narrativa, descriptiva, argumentativa, etc.).:Lingüística computacional:. Heiner Mercado Percia

40 Además… Debe contener información relacionada con: Fecha de publicación de los textos Fuente Fecha de elaboración de la compilación Cobertura cronológica Medio de publicación Número de palabras o formas gráficas y ocurrencias Descripción y justificación de corrección Descripción de otro tipo de tratamientos.:Lingüística computacional:. Heiner Mercado Percia

41 Objetivo Análisis del discurso Interpretación o lectura transversal Investigación lingüística Estudio lexicográfico (neologismos).:Lingüística computacional:. Heiner Mercado Percia


Descargar ppt "Heiner Mercado Percia Letras: Filología Hispánica 2008."

Presentaciones similares


Anuncios Google