Lingüística computacional unidad 2. ambigüedad semántica

Slides:



Advertisements
Presentaciones similares
¿qué son los conceptos?.
Advertisements

La enseñanza de la Gramática
La traducción: Lo primero que se ha de tener en cuenta a la hora de traducir una frase o un texto del latín al castellano es que en latín no existe el.
DISGRAFIA ¿QUÉ MÁS DEBERÍA SABER?
Relaciones semánticas
UNIDAD 3 – LA COHESIÓN.
EL LENGUAJE.
Informes.
TERMINOLOGÍA EN ESPAÑOL
TERMINOLOGÍA EN ESPAÑOL
Desarrollo del Elemento de Competencia
Lenguaje Lic. Carlos Marenales
El Aporte de la Pragmática
Teoría de las descripciones Bertrand Russell ( )
Técnicas para la elaboración de un instrumento
MAPA CONCEPTUAL.
La web semántica y su impacto en la recuperación de información
¿Cómo hacer para que una máquina comprenda el LN?
Universidad de Santiago de Chile Facultad de Humanidades
Del sonido a la escritura
Propiedades textuales
UNIDAD I MODELOS Y TOMA DE DECISIONES
La palabra.
Análisis de frecuencias Curso: Lingüística Computacional Heiner Mercado Percia.
Traducción dirigida por la Sintaxis
DIAGRAMAS DE CLASES Completando los diagramas de interacción, es posible identificar la especificación de las clases que participarán en la solución indicando.
CAPITULO 2 La Representación del Conocimiento
DISCIPLINAS DE LA LINGUISTICA
Introducción a la Lógica
Los niveles de complejidad de la comprensión lectora
Significado y contexto
TRADUCTOR DE UN PROGRAMA
Viviana Poblete López Módulo: Modelo de Datos
UNIDAD 5 LA COMUNICACIÓN ESPECIALIZADA.
Procesamiento Práctico del lenguaje Natural Capítulo XXIII.
LA RELEVANCIA DE LOS COMPONENTES PRAGMÁTICOS: SITUACIÓN, CONTEXTO, ETC. Saussure: Inmanentismo: estudiar la lengua en sí misma y por sí misma. Atender.
Denotación y Connotación
Vicaría para la Educación Área Académica Red Colegios del Arzobispado de Santiago Taller de Lenguaje y Comunicación Escritura y Producción de Textos Noviembre.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
TEMA 2 1.EL LÉXICO Y LOS DICCIONARIOS 2.Distintos tipos de tExtos
Sesión 1 COE..
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Universidad Autónoma San Francisco CARRERA PROFESIONAL: Lengua, Traducción e Interpretación Asignatura: MATEMÁTICA Tema: “SISTEMA FORMAL”
DIMENSIÓN SEMÁNTICA.
Niveles de estudio de la lengua El nivel fónico El nivel morfológico

LA MORFOLOGÍA.
CLASE 2 K. Pizarro1. 2 Clase 2 Temas: Contenido literario La literatura: arte y comunicación Situación de la enunciación Taller de escritura Polisemia.
Métrica v2.1 Técnicas: Modelado de datos (Parte 1)
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) TRADUCTORES Y ANALIZADOR LEXICOGRÁFICO.
TEMA: HOMONIMIA Y POLISEMIA
PRAGMÁTICA AUSTIN, SEARLE, GRICE.
NIVEL SEMÁNTICO.
El lenguaje se hace vida a través del habla.
COMPETENCIAS PARA LA COMUNICACIÓN CIENTÍFICA
Proyectos de Investigación
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
Lingüística computacional unidad 2. análisis semántico
Lingüística computacional unidad 2. lexicones y corpus
Segundo Encuentro de Evaluación
COHESIÓN Y COHERENCIA Son dos propiedades que facilitan la comprensión de los textos. La cohesión es la relación sintáctica que puede establecerse entre.
PROGRAMA DE LENGUAJE Y COMUNICACIÓN
LA SEMÁNTICA Es la ciencia que estudia el significado de las palabras y las expresiones lingüísticas.
SEMÁNTICA.
ESTADÍSTICA DESCRIPTIVA
¿Qué es la sociolingüística?
Sandra Parada Mesa y Jesica Alejandra Alarcón
LENGUAJE RADIOFÓNICO Profesor – Jesús Verde.
Prof. Jonathan Silva Ingeniería Civil – Informática I Ingeniería Civil Informática I Clase 3 – Diseño de Programas.
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
Transcripción de la presentación:

Lingüística computacional unidad 2. ambigüedad semántica Ana María Tangarife Patiño

Semántica computacional La Semántica es central en el tratamiento computacional del lenguaje. “Es el ideal al cual aspira todo el que se dedica al procesamiento del lenguaje natural”, ya que, si queremos una “máquina parlante”, el dominio del significado es fundamental para lograr una interpretación del contenido de un texto. T. Badia (2003:231-232) Esta área presenta las mayores dificultades por: En Lingüística no existe una propuesta general, como ocurría con la sintaxis, que sea apta para su tratamiento computacional. La suma del significado de las partes no garantiza en ocasiones una interpretación adecuada.

Semántica computacional La Semántica, en términos generales, se ocupa de: El significado de las palabras: los contenidos asociados a cada palabra individual, cómo se obtienen, organizan y codifican para contribuir al proceso de interpretación. El significado de las oraciones: los contenidos derivados de la combinación de las diferentes palabras en una unidad mayor El significado del discurso: los contenidos que se desprenden de la combinación de unas oraciones con otras en un marco superior, el del discurso

Componentes de la semántica computacional Sistema de representación conceptual: lenguaje manipulable por ordenador a partir de formalismos Módulo de traducción relacionar las expresiones de una lengua natural con el lenguaje en que esté expresada la representación conceptual. Transformación de representaciones conceptuales en entidades y relaciones de un dominio determinado.

Problemas de la semántica computacional ¿Qué es el significado? Determinar la naturaleza de la relación entre el significado de una oración y el significado de los constituyentes sintácticos que la conforman Cómo representar el significado y definir la naturaleza de la interfaz entre sintaxis y semántica, si se parte de una postura que concibe el proceso de interpretación vinculado al análisis sintáctico. Determinar el papel de los factores contextuales y discursivos en la interpretación final del significado de una oración. Otros problemas Homonimia Polisemia Ambigüedad estructural Ambigüedad en la referencia de los pronombres Etc.

Homonimia y polisemia Homonimia y polisemia son situaciones en las que un conjunto de letras, o de sonidos, tiene varios significados. Se diferencian por la forma en la que esto ha llegado a ocurrir. Las diferencias son más de orden etimológico.

Homonimia (Del latín homonymus, que a su vez procede del griego homōnymos: homo- 'mismo' + ōnymos 'nombre'). Dos palabras de etimologías completamente distintas han llegado a tener "el mismo nombre", el mismo significante, la misma forma, pero, evidentemente, por ser palabras diferentes, sus significados siguen siendo completamente distintos. Ejemplo: Hay una sola forma vino para 1. vino (llegó) y 2. vino (bebida).

homonimia Palabras homógrafas: Son aquellas que se escriben de la misma manera: Tomó una copa de vino (nombre común, masculino, singular). Él vino desde Sevilla (verbo venir). Palabras homófonas: Se pronuncian de la misma manera pero se escriben de distinta forma: Él tuvo un accidente. (verbo tener). El tubo es de cobre. (nombre común, masculino, singular). Dado el relativo paralelismo entre expresión escrita y hablada del español, y la existencia de pocas letras que se pronuncian igual (como 'b' y 'v' o, en determinadas circunstancias, 'c' y 'z'), las palabras homófonas son relativamente raras en este idioma.

Polisemia (del griego polys = mucho, muchos y sema = significado) es el fenómeno por el que una misma palabra, con un solo origen, puede tener diferentes significados cuyo funcionamiento morfológico y sintagmático no varía (esto último quiere decir que no cambia su categoría gramatical ni las funciones sintácticas que puede desempeñar). Los distintos significados son diversas acepciones de una misma palabra. Por ejemplo: Sierra es una herramienta para cortar madera, así como una cordillera de montañas. Falda es una prenda de vestir femenina, así como la parte baja de un monte.

Distinción entre homonimia y polisemia La diferencia fundamental está en el origen de las palabras, es decir, en su etimología. Las homónimas tienen etimologías distintas Las polisémicas tiene un mismo origen, cuyo significado se ha diversificado con el paso del tiempo.

Desambiguación automática Se refiere a los mecanismos, herramientas y modelos de representación usados para evitar la ambigüedad en sistemas de recuperación de información. Necesidad de disponer de criterios para identificar y representar sentidos de palabras. La interpretación de los fenómenos lingüísticos para el tratamiento automático de la lengua permite conocer los sentidos correctos de los componentes complejos del término en las lenguas para traducción automática o recuperación de información

Para desambiguar sentidos... Seguir un proceso de análisis e identificación del concepto correcto (sentido) para cada componente de un término, Determinar las relaciones semánticas entre los conceptos Construir un modelo conceptual complejo de un dominio en el cual se represente el discurso.  

El tratamiento de la ambigüedad contempla: Representación de un problema: cómo las diversas interpretaciones pueden ser representadas en un sistema Interpretación del problema: qué estrategias se siguen cuando aparece una ambigüedad para determinar una u otra interpretación. Definir método: integración de mapas conceptuales, ontologías, descripción automática de patrones verbales definitorios, categorizaciones verbales

Desambiguación propuesta en ontolearn Crear redes semánticas Representen y establecer relaciones de hiperonimia, hiponimia, holonimia, cualidad, asunto, etc. que tienen los términos. Identifica una intersección de tal forma que dependiendo del número y del tipo semántico de las palabras, se identifiquen y conecten los patrones centrales de la red semántica. Representar las intersecciones Evaluar parejas de conceptos a partir de algoritmos para determinar las relaciones correctas dentro de un corpus. Analizar para cada intersección las dependencias según el número y el tipo semántico de los patrones que conectan conceptos en la red semántica. Los patrones semánticos están definidos en 13 meta-patrones predefinidos. Hallar las relaciones taxonómicas entre conceptos Eliminar ambigüedades independientemente usando Wordnet. Asociando los synset de WordNet con cada componente de un término Interpretación Determinar las relaciones semánticas entre los componentes de un concepto complejo Inventario las relaciones del dominio para obtener un modelo formal

Desambiguación semántica usando contextos definitorios (CD) Propuesto en la Universidad de Jaén Los CD incluyen: un término, una definición y patrones de la lengua que puedan identificarse como elementos de alto contenido semántico. Estos patrones son de tipo verbal y permiten la selección de conceptos que se asocien con definido como, constituido por. Descripción del rol de los patrones verbales definitorios para la extracción de relaciones semánticas.

Análisis de Frecuencias La noción de frecuencia es muy importante en las ciencias del lenguaje, especialmente en el dominio de la lexicología. Pero, ¿De qué sirve un análisis de frecuencias de un corpus?

Definiciones de frecuencia Es un dato cuantitativo Tiene el sentido de repetición Número de veces en que ocurre algo, un valor, un dato, una palabra, un acto, etc. El número de ondas completas que pasan por un punto determinado en una unidad de tiempo tal como segundos o minutos La cantidad de veces por segundo a la que oscila una onda electromagnética

Definición que nos interesa Conteo del número de veces en que aparece una palabra o expresión en un corpus informatizado. La frecuencia es lo opuesto a la rareza. El dato de frecuencia nos permite saber cosas inusuales o características del texto La frecuencia indica la importancia de una palabra en el conjunto del vocabulario de una lengua.

¿Para qué sirven los datos de frecuencia? Una forma de aprovechar la información de un corpus es utilizando herramientas que permitan extraer listados de frecuencias de aparición de las palabras. El listado de frecuencias establece el número de formas gráficas, lemas, categorías gramaticales y uso o combinación de letras

Palabras vacías Normalmente las palabras más frecuentes en un texto son aquellas que denominamos vacías o gramaticales, es decir palabras fijas necesarias para la construcción de las frases, por ejemplo: artículos, preposiciones, etc.

Ejemplo: 13 canciones de los Gaiteros de San Jacinto Número de líneas Número de formas gráficas Número de ocurrencias 520 552 2324 No. Forma Gráfica Frecuencia Longitud 1 Ay 68 2 de 65 3 el 62 4 la 55 5 Bis 49 6 Le 47 7 Que 44 8 te 36 9 me 35 10 que Corpus compuesto por : 13 canciones Primeras 10 palabras con mayor frecuencia:

Ejemplo: 13 canciones de los Gaiteros de San Jacinto Pero una misma interjección puede expresar diferentes afectos según la ocasión y el tono en que se profieren, ó las palabras que preceden, ó se siguen: v. g. cuando decimos: ay que viene mi padre! la interjección ay, puede ser de alegría, y puede ser de pesar; ay que pena! ay que gozo! la misma interjección adquiere diferente valor y sentido por las palabras con que se junta. Tendríamos que ver los distintos contextos KWIC en que aparece la interjección «Ay» para saber realmente lo qué expresa en cada aparición.

Ejemplo: 13 canciones de los Gaiteros de San Jacinto ¿El autor o los autores de estas canciones son conscientes de la alta frecuencia de esta interjección? ¿Qué quiere decirnos el autor al usar tantas veces estas interjecciones? Es cierto que las interjecciones contribuyen a la exteriorización de los sentimientos de dolor o de alegría.

Análisis de 13 canciones de los Gaiteros de San Jacinto Las interjecciones de dolor son muy frecuentes en los dramas. Muestran en páthos de los personajes de una obra. Las interjecciones son vistas por algunos como lo más primitivo de nuestra lengua debido a su origen onomatopéyico y a su similitud en distintas lenguas. Las Interjecciones según d. Fein, son síntesis del pensamiento, interrumpen el discurso y permite la entrada a lo íntimo, al sentimiento.

Análisis de 13 canciones de los Gaiteros de San Jacinto Las interjecciones carecen de valor conceptual, por ello no se consideran parte del discurso. Las interjecciones no son realmente una categoría gramatical; no forman parte de la oración ya que ellas por sí mismas, constituyen una oración. Cabe destacar la importancia el aspecto sonoro de las interjecciones. Las interjecciones refuerzan la musicalidad, añaden el sentimiento en el discurso.

Análisis de 13 canciones de los Gaiteros de San Jacinto El poco léxico utilizado en las canciones de los gaiteros de San Jacinto contrasta con el elevado número de interjecciones, particularmente la interjección «Ay». Las interjecciones ocupan más espacio que las palabras. Lo que se quiere expresar es un sentimiento hecho sonido no discurso.

referencias Mercado Percia, Heiner. Análisis de frecuencias. [Curso: Lingüística Computacional] TelloLeal, E., Lopez Arevalo, I., & Sosa- Sosa, V. (2010). Prototipo para desambiguación del sentido de las palabras mediante etiquetado de palabras y relaciones semánticas. Revista Avances en Sistemas e Informática, Vol 7, No. 3, 27–32. Villayandre Llamazares, M. (2010). Aproximación a la lingüística computacional (Tesis doctoral). Universidad de León. Departamento de Filología Hispánica y Clásica, León, España. En: http://www.revistacontextos.es/econtextos/tesis_milka _contextos.pdf Wikilengua del español. En: http://www.wikilengua.org/index.php/Homonimia_y_p olisemia