Lingüística computacional unidad 2. lexicones y corpus

Slides:



Advertisements
Presentaciones similares
La enseñanza de la Gramática
Advertisements

INTRODUCCIÓN A LA DOCUMENTACIÓN
LATÍN 4.º DE ESO.
TEXTO Y DISCURSO.
¿QUE ES INVESTIGAR? ¿PARA QUE INVESTIGAR? ¿COMO INVESTIGAR?
Programa de Estudio Tercer Año Medio.
TERMINOLOGÍA EN ESPAÑOL
TERMINOLOGÍA EN ESPAÑOL
María Simarro Vázquez 4. LA DOCUMENTACIÓN ESPECIALIZADA.
Conceptos preliminares
Bases del tratamiento Integrado de las Lenguas Enfoque Comunicativo
Tema 1: La Ciencia Económica y su método
La investigación La construcción del conocimiento.
¿Cómo hacer para que una máquina comprenda el LN?
El ordenador como herramienta en la adquisición del léxico en la enseñanza del alemán en los estudios de Traducción e Interpretación Antonia Montes Fernández.
CONSTRUCCIÓN DEL MARCO TEÓRICO
Referente conceptual El pensamiento matemático es un concepto de carácter cognitivo, que hace alusión al conjunto de representaciones mentales, o redes.
TALLER DE TRABAJO FINAL
Competencia comunicativa
DISCIPLINAS DE LA LINGUISTICA
PRESENTACIÓN CONSTRUCCIÓN DEL CONOCIMIENTO II
Formulación de la metodología
COMPETENCIAS BÁSICAS DEL DOCENTE BILINGÜE 1.EXCELENTE MANEJO DEL INGLÉS 2.EXCELENTE MANEJO DE SU ASIGNATURA 3.PROFUNDO CONOCIMIENTO DEL PROCESO DE ADQUISICIÓN.
INTELIGENCIA DE NEGOCIOS
LECTOESCRITURA.
Sociolingüística histórica
CONSECUENCIAS DE LA OPCIÓN METODOLÓGICA EN LA PROGRAMACIÓN Y LA EVALUACIÓN Elena Rodríguez Halffter 27 de octubre de 2006 Palma de Mallorca.
Fundamentos de Investigación
Marcos para la clasificación pedagógica de objetos para el aprendizaje: un caso de estudio Miguel A. Sicilia, Elena García y Salvador Sánchez Universidad.
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
METODOLOGÍA DE LA INVESTIGACIÓN EDUCATIVA
MEDIDA DE LA USABILIDAD EN APLICACIONES DE ESCRITORIO
Autor Souza Minayo Texto “El desafío del conocimiento”
4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.
LINGÜÍSTICA UNIDAD 3. Unidad 3: “ORÍGEN DEL ESPAÑOL” INTENCIONALIDADES FORMATIVAS FASE TRANSFERENCIA COMPETENCIAS COGNITIVACOMUNICATIVAVALORATIVACONTEXTUAL.
Antecedentes. Universidad de Costa Rica Programa de Lexicografía- INIL Escuela de Formación.
TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero
LA ENSEÑANZA FUNCIONAL DE LA LENGUA
Sistema integral para el control del proceso de elaboración del vino (1)Departamento de Química Analítica. Universidad de Córdoba Campus de Rabanales,
RECOMENDACIONES PARA EL ANÁLISIS DE LOS RESULTADOS
EST Á NDARES B Á SICOS DE COMPETENCIAS EN LENGUAS EXTRANJERAS: INGL É S.
LOS INFORMES.
ESTRATEGIAS PARA EL APRENDIZAJE DE LA SEMÁNTICA ESPAÑOLA
Técnicas de Indización y Resumen Félix del Valle Gastaminza 5º A Licenciatura en Documentación Curso
Conceptos Básicos de Informática
(Proyecto de investigación)
BIBLIOGRAFÍA ANOTADA Maestría en Ingeniería - Ingeniería de Sistemas y Computación Edwin Andrés Bernal López
Capitulo 1: “La ciencia en las ciencias sociales”
EL ANALISIS DE CONTENIDO
Heiner Mercado Curso de Lingüística Computacional
III. DESARROLLO DE SISTEMAS.. Podemos definir el desarrollo de sistemas informáticos como el proceso mediante el cual el conocimiento humano y el uso.
Epistemología de las Ciencias sociales
Ingeniería del Software I
Tema 5: “Las dimensiones del lenguaje y su estudio”
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
Lingüística computacional unidad 2. análisis semántico
Tecnologías del lenguaje
Dra. Ma. Candelaria Ochoa A.
LENGUA Y LITERATURA Curso
Tema 3: “Perspectivas de estudio del lenguaje”
Owens, R. (2003). Investigación y análisis del lenguaje, Desarrollo del lenguaje (pp ), Madrid: Pearson-Prentice Hall. 5ª ed.
SISTEMA DE CÓMPUTO PARA LA COMUNICACIÓN HOMBRE -MÁQUINA
¿Qué es la sociolingüística?
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Programa de Capacitación y Sensibilización
RUTAS DEL APRENDIZAJE.
PEL MODULO DE LENGUA DERECHO I Lic. Emilio Alejandro Cueva Solís.
Sandra Parada Mesa y Jesica Alejandra Alarcón
ANÁLISIS DE LOS ESTÁNDARES DE LENGUAJE (2003)
LINGÜÍSTICA APLICADA Y LA ENSEÑANZA-APRENDIZAJE DE LENGUAS.
Transcripción de la presentación:

Lingüística computacional unidad 2. lexicones y corpus Ana María Tangarife Patiño

Herramientas para el análisis lexicográfico Lexicones y corpus Herramientas que deben implementarse en los programas de cómputo Diccionarios basados en corpus, lexicografía basada en corpus

Importancia y uso de lexicones “El lexicón se ha convertido en el centro de atención de aquéllos que se dedican al estudio de los problemas relacionados con el lenguaje, sean éstos del tipo que sean” (Martha Evens, 1988) En diversas disciplinas es importante el uso de lexicones: Antropología, investigación etnográfica, lingüística, análisis sintácticos, análisis semánticos, análisis del discurso en ciencias sociales (sociología, historia, trabajo social, psicología) y ciencias políticas, etc.

En el ámbito computacional… Los lexicones se consideran la base fundamental en la construcción de sistemas computaciones que posibilitan la interacción entre la máquina y el humano. No se pueden construir sistemas de procesamiento de lenguaje natural que sean lo suficientemente robustos como para ocuparse de problemas del "mundo real", sin antes diseñar lexicones de gran magnitud que contengan información léxica detallada. (Antonio Moreno Ortiz, 2000)

Lexicones. definición Diccionario que suministra información necesaria para el análisis sintáctico y semántico en un programa computacional. Aporta información de tipo morfológico (estructura de las palabras), sintáctico (organización de las palabras), gramaticales (significados de las palabras y combinación de ellas en las frases), semántico y pragmático. Son generados a partir de textos del lenguaje natural, por medio de un proceso de adquisición léxica que se realiza con corpus anotados.

Lexicón para PLN Todas las aplicaciones que tienen como objeto el tratamiento computacional del lenguaje natural consideran el lexicón como componente central, lo que ha provocado una demanda constante de información léxica detallada. La finalidad fundamental del procesamiento de lenguaje natural es la automatización de los procesos lingüísticos, tales como la comprensión, producción o adquisición de una lengua, tareas que los usuarios de una lengua realizan fluida y naturalmente. Las tareas de procesamiento de la lengua, tanto para los humanos como para las máquinas, implican un conocimiento profundo del vocabulario de una lengua.

Lexicones. Algunos ejemplos Wordnet. Base de datos léxica del inglés que agrupa las palabras en conjuntos de sinónimos, proporcionando definiciones cortas y generales, y almacenando las relaciones semánticas entre estos conjuntos de sinónimos. http://wordnetweb.princeton.edu/perl/webwn EuroWordnet. Es una base de datos multilingüe para varios idiomas europeos. Cada idioma diseña su propia WordNet estructurándola con syntes (conjuntos de términos sinónimos) con relaciones semánticas básicas entre ellos. http://ixa2.si.ehu.es/cgi-bin/mcr/public/wei.consult.perl FrameNet. Es un proyecto basado en modelos semánticos. Se refiere a que el significado de una sola palabra no puede ser comprendido si no se tienen las nociones de conocimiento relativo o conexo a ella. https://framenet.icsi.berkeley.edu/fndrupal/home

Los corpus “Colección de elementos lingüísticos seleccionados y ordenados de acuerdo con criterios lingüísticos explícitos, con la finalidad de ser usada como muestra de la lengua” (Sinclair, 1996)

corpus Conjunto de evidencia lingüística que prueba el uso del lenguaje natural. Colecciones organizadas de datos, que recogidas mediante un marco de ejemplos de uso de la lengua, permiten el análisis de información relativa a la lengua. Debe contener una colección de textos producidos en situaciones reales de comunicación (bien sea oral o escrita) que cumplan con unos criterios explícitos de la lengua que aseguren que puedan usarse como muestra representativa.

Corpus automatizado Corpus que se ha codificado de manera estándar y homogénea para diferentes tareas de recuperación de la información. Sirve de base para la elaboración de distintos tipos de productos sobre la lengua, principalmente diccionarios de distinto tipo y gramáticas. Están estructurados en una base de datos dotada de un sistema de interrogación que permita la recuperación de la información textual.

Características del corpus Representatividad: de un corpus respecto de la lengua que tiene como referente está en función de una elección equilibrada entre los diferentes tipos de textos que son susceptibles de formar parte del mismo. Etiquetado (anotación): explicita, en forma de categorías lingüísticas y gramaticales, características del texto o de las palabras que forman parte de él. Sistematicidad: mantener una consistencia en el vocabulario que se incluye.

Tipología de corpus (1) Corpus orales: Corpus escritos: Para la lingüística de corpus: Constituye habitualmente, en la transcripción ortográfica, de una grabación de la lengua hablada que constituye una representación simbólica del uso oral de la lengua. Para la fonética y las tecnologías del habla: donde se conserva información fonética con el objetivo de desarrollar aplicaciones relacionadas con la síntesis, el reconocimiento del habla y el diálogo. Corpus escritos: Información lingüística para procesamiento de grandes cantidades textuales que son utilizadas en distintos recursos y aplicaciones

Tipología de corpus (2) Pueden ser también abiertos o cerrados dependiendo de la posibilidad de desarrollo que pueda tener Equilibrados o no, dependiendo de la distribución de la proporción de los datos Simples, etiquetados o analizados, según el proceso al que hayan sido sometidos los textos Para producir una hipótesis válida sobre la lengua como un todo o sobre la variedad del objeto de estudio, se debe recurrir a los métodos de la estadística como mecanismo de validación.

Corpus orales. Utilidad (1) Para la fonética y las tecnologías del habla Estudios fonéticos: Descripción contrastiva, análisis de la producción, interferencia fonética, aprendizaje de segundas lenguas, patologías del habla, dialectología Reconocimiento: Modelos acústicos, programación de reconocedores Sistemas de diálogo: Generación de interfaz para interacciones persona-máquina-persona

Corpus orales. Utilidad (2) Para el estudio de la lengua oral Análisis del discurso: especialmente en estudios etnográficos del habla Sociolingüística: estudio de registros especialmente en dialectología Análisis gramatical: Recopilación organizada de muestras de lengua oral en donde se combinan la transcripción y el registro original. Utilidad en el aprendizaje de lenguas.

Corpus textuales. Utilidades A partir de los corpus se pueden obtener conclusiones relacionadas con: Un escritor Una época Una variedad lingüística Cambios lingüísticos Adquisición de la lengua Un grupo social Un género Tema Etc.

Tipología de corpus (1) Se pueden establecer según su diseño, características formales, métodos de constitución. Origen: Aspectos del origen del texto que pueden afectar a la estructura o el contenido. Estado: Cuestiones relativas al aspecto físico del texto y a su soporte en el momento en que es seleccionado para el corpus

Tipología de corpus (2) Se pueden proponer también otras clasificaciones de acuerdo a los parámetros desde los cuales se quieran categorizar: Tipo de documento Número de lenguas Criterios de recolección Cantidad y distribución Finalidad Tipo de procesamiento Tipo de anotación Etc.

Anotación de corpus Como una de las tareas del análisis lexicográfico, con relación a los corpus, está la anotación de ellos. Es usada para mejorar la información de tipo lingüístico, y se usa para la desambiguación, construcción de bases de conocimiento, evaluación de sistemas de procesamiento del lenguaje, entre otras.

Corpus de referencia para el español Real Academia Española desde 1993 comienza los trabajos para constituir dos corpus. CORDE (Corpus diacrónico del español) Integra textos desde los inicios del idioma hasta 1975. 299 millones de palabras CREA (Corpus de referencia del español actual) Desde 1975 hasta la actualidad. Está conformado por 90% de textos escritos y 10% orales 154 millones de palabras Algunos datos estadísticos

Corpus del español http://corpus.rae.es/creanet.html http://corpus.rae.es/cordenet.html

Referencias Moreno Ortiz, Antonio (2000). Diseño e implementación de un lexicón computacional para lexicografía y traducción automática. En: Estudios de lingüística del español, No. 9 Baquero V., Julia M. (2010). Lingüística computacional aplicada. Bogotá: Universidad Nacional de Colombia. Rafel i Fontanals, Joaquim; Soler i Bou, Joan (2003). El procesamiento de corpus: la lingüística empírica. En: Martí Antonín, M.A. Tecnologías del lenguaje. España: UOC