La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Lingüística computacional unidad 2. ambigüedad semántica

Presentaciones similares


Presentación del tema: "Lingüística computacional unidad 2. ambigüedad semántica"— Transcripción de la presentación:

1 Lingüística computacional unidad 2. ambigüedad semántica
Ana María Tangarife Patiño

2 Semántica computacional
La Semántica es central en el tratamiento computacional del lenguaje. “Es el ideal al cual aspira todo el que se dedica al procesamiento del lenguaje natural”, ya que, si queremos una “máquina parlante”, el dominio del significado es fundamental para lograr una interpretación del contenido de un texto. T. Badia (2003: ) Esta área presenta las mayores dificultades por: En Lingüística no existe una propuesta general, como ocurría con la sintaxis, que sea apta para su tratamiento computacional. La suma del significado de las partes no garantiza en ocasiones una interpretación adecuada.

3 Semántica computacional
La Semántica, en términos generales, se ocupa de: El significado de las palabras: los contenidos asociados a cada palabra individual, cómo se obtienen, organizan y codifican para contribuir al proceso de interpretación. El significado de las oraciones: los contenidos derivados de la combinación de las diferentes palabras en una unidad mayor El significado del discurso: los contenidos que se desprenden de la combinación de unas oraciones con otras en un marco superior, el del discurso

4 Componentes de la semántica computacional
Sistema de representación conceptual: lenguaje manipulable por ordenador a partir de formalismos Módulo de traducción relacionar las expresiones de una lengua natural con el lenguaje en que esté expresada la representación conceptual. Transformación de representaciones conceptuales en entidades y relaciones de un dominio determinado.

5 Problemas de la semántica computacional
¿Qué es el significado? Determinar la naturaleza de la relación entre el significado de una oración y el significado de los constituyentes sintácticos que la conforman Cómo representar el significado y definir la naturaleza de la interfaz entre sintaxis y semántica, si se parte de una postura que concibe el proceso de interpretación vinculado al análisis sintáctico. Determinar el papel de los factores contextuales y discursivos en la interpretación final del significado de una oración. Otros problemas Homonimia Polisemia Ambigüedad estructural Ambigüedad en la referencia de los pronombres Etc.

6 Homonimia y polisemia Homonimia y polisemia son situaciones en las que un conjunto de letras, o de sonidos, tiene varios significados. Se diferencian por la forma en la que esto ha llegado a ocurrir. Las diferencias son más de orden etimológico.

7 Homonimia (Del latín homonymus, que a su vez procede del griego homōnymos: homo- 'mismo' + ōnymos 'nombre'). Dos palabras de etimologías completamente distintas han llegado a tener "el mismo nombre", el mismo significante, la misma forma, pero, evidentemente, por ser palabras diferentes, sus significados siguen siendo completamente distintos. Ejemplo: Hay una sola forma vino para 1. vino (llegó) y 2. vino (bebida).

8 homonimia Palabras homógrafas: Son aquellas que se escriben de la misma manera: Tomó una copa de vino (nombre común, masculino, singular). Él vino desde Sevilla (verbo venir). Palabras homófonas: Se pronuncian de la misma manera pero se escriben de distinta forma: Él tuvo un accidente. (verbo tener). El tubo es de cobre. (nombre común, masculino, singular). Dado el relativo paralelismo entre expresión escrita y hablada del español, y la existencia de pocas letras que se pronuncian igual (como 'b' y 'v' o, en determinadas circunstancias, 'c' y 'z'), las palabras homófonas son relativamente raras en este idioma.

9 Polisemia (del griego polys = mucho, muchos y sema = significado) es el fenómeno por el que una misma palabra, con un solo origen, puede tener diferentes significados cuyo funcionamiento morfológico y sintagmático no varía (esto último quiere decir que no cambia su categoría gramatical ni las funciones sintácticas que puede desempeñar). Los distintos significados son diversas acepciones de una misma palabra. Por ejemplo: Sierra es una herramienta para cortar madera, así como una cordillera de montañas. Falda es una prenda de vestir femenina, así como la parte baja de un monte.

10 Distinción entre homonimia y polisemia
La diferencia fundamental está en el origen de las palabras, es decir, en su etimología. Las homónimas tienen etimologías distintas Las polisémicas tiene un mismo origen, cuyo significado se ha diversificado con el paso del tiempo.

11 Desambiguación automática
Se refiere a los mecanismos, herramientas y modelos de representación usados para evitar la ambigüedad en sistemas de recuperación de información. Necesidad de disponer de criterios para identificar y representar sentidos de palabras. La interpretación de los fenómenos lingüísticos para el tratamiento automático de la lengua permite conocer los sentidos correctos de los componentes complejos del término en las lenguas para traducción automática o recuperación de información

12 Para desambiguar sentidos...
Seguir un proceso de análisis e identificación del concepto correcto (sentido) para cada componente de un término, Determinar las relaciones semánticas entre los conceptos Construir un modelo conceptual complejo de un dominio en el cual se represente el discurso.  

13 El tratamiento de la ambigüedad contempla:
Representación de un problema: cómo las diversas interpretaciones pueden ser representadas en un sistema Interpretación del problema: qué estrategias se siguen cuando aparece una ambigüedad para determinar una u otra interpretación. Definir método: integración de mapas conceptuales, ontologías, descripción automática de patrones verbales definitorios, categorizaciones verbales

14 Desambiguación propuesta en ontolearn
Crear redes semánticas Representen y establecer relaciones de hiperonimia, hiponimia, holonimia, cualidad, asunto, etc. que tienen los términos. Identifica una intersección de tal forma que dependiendo del número y del tipo semántico de las palabras, se identifiquen y conecten los patrones centrales de la red semántica. Representar las intersecciones Evaluar parejas de conceptos a partir de algoritmos para determinar las relaciones correctas dentro de un corpus. Analizar para cada intersección las dependencias según el número y el tipo semántico de los patrones que conectan conceptos en la red semántica. Los patrones semánticos están definidos en 13 meta-patrones predefinidos. Hallar las relaciones taxonómicas entre conceptos Eliminar ambigüedades independientemente usando Wordnet. Asociando los synset de WordNet con cada componente de un término Interpretación Determinar las relaciones semánticas entre los componentes de un concepto complejo Inventario las relaciones del dominio para obtener un modelo formal

15 Desambiguación semántica usando contextos definitorios (CD)
Propuesto en la Universidad de Jaén Los CD incluyen: un término, una definición y patrones de la lengua que puedan identificarse como elementos de alto contenido semántico. Estos patrones son de tipo verbal y permiten la selección de conceptos que se asocien con definido como, constituido por. Descripción del rol de los patrones verbales definitorios para la extracción de relaciones semánticas.

16 Análisis de Frecuencias
La noción de frecuencia es muy importante en las ciencias del lenguaje, especialmente en el dominio de la lexicología. Pero, ¿De qué sirve un análisis de frecuencias de un corpus?

17 Definiciones de frecuencia
Es un dato cuantitativo Tiene el sentido de repetición Número de veces en que ocurre algo, un valor, un dato, una palabra, un acto, etc. El número de ondas completas que pasan por un punto determinado en una unidad de tiempo tal como segundos o minutos La cantidad de veces por segundo a la que oscila una onda electromagnética

18 Definición que nos interesa
Conteo del número de veces en que aparece una palabra o expresión en un corpus informatizado. La frecuencia es lo opuesto a la rareza. El dato de frecuencia nos permite saber cosas inusuales o características del texto La frecuencia indica la importancia de una palabra en el conjunto del vocabulario de una lengua.

19 ¿Para qué sirven los datos de frecuencia?
Una forma de aprovechar la información de un corpus es utilizando herramientas que permitan extraer listados de frecuencias de aparición de las palabras. El listado de frecuencias establece el número de formas gráficas, lemas, categorías gramaticales y uso o combinación de letras

20 Palabras vacías Normalmente las palabras más frecuentes en un texto son aquellas que denominamos vacías o gramaticales, es decir palabras fijas necesarias para la construcción de las frases, por ejemplo: artículos, preposiciones, etc.

21 Ejemplo: 13 canciones de los Gaiteros de San Jacinto
Número de líneas Número de formas gráficas Número de ocurrencias 520 552 2324 No. Forma Gráfica Frecuencia Longitud 1 Ay 68 2 de 65 3 el 62 4 la 55 5 Bis 49 6 Le 47 7 Que 44 8 te 36 9 me 35 10 que Corpus compuesto por : 13 canciones Primeras 10 palabras con mayor frecuencia:

22 Ejemplo: 13 canciones de los Gaiteros de San Jacinto
Pero una misma interjección puede expresar diferentes afectos según la ocasión y el tono en que se profieren, ó las palabras que preceden, ó se siguen: v. g. cuando decimos: ay que viene mi padre! la interjección ay, puede ser de alegría, y puede ser de pesar; ay que pena! ay que gozo! la misma interjección adquiere diferente valor y sentido por las palabras con que se junta. Tendríamos que ver los distintos contextos KWIC en que aparece la interjección «Ay» para saber realmente lo qué expresa en cada aparición.

23 Ejemplo: 13 canciones de los Gaiteros de San Jacinto
¿El autor o los autores de estas canciones son conscientes de la alta frecuencia de esta interjección? ¿Qué quiere decirnos el autor al usar tantas veces estas interjecciones? Es cierto que las interjecciones contribuyen a la exteriorización de los sentimientos de dolor o de alegría.

24 Análisis de 13 canciones de los Gaiteros de San Jacinto
Las interjecciones de dolor son muy frecuentes en los dramas. Muestran en páthos de los personajes de una obra. Las interjecciones son vistas por algunos como lo más primitivo de nuestra lengua debido a su origen onomatopéyico y a su similitud en distintas lenguas. Las Interjecciones según d. Fein, son síntesis del pensamiento, interrumpen el discurso y permite la entrada a lo íntimo, al sentimiento.

25 Análisis de 13 canciones de los Gaiteros de San Jacinto
Las interjecciones carecen de valor conceptual, por ello no se consideran parte del discurso. Las interjecciones no son realmente una categoría gramatical; no forman parte de la oración ya que ellas por sí mismas, constituyen una oración. Cabe destacar la importancia el aspecto sonoro de las interjecciones. Las interjecciones refuerzan la musicalidad, añaden el sentimiento en el discurso.

26 Análisis de 13 canciones de los Gaiteros de San Jacinto
El poco léxico utilizado en las canciones de los gaiteros de San Jacinto contrasta con el elevado número de interjecciones, particularmente la interjección «Ay». Las interjecciones ocupan más espacio que las palabras. Lo que se quiere expresar es un sentimiento hecho sonido no discurso.

27 referencias Mercado Percia, Heiner. Análisis de frecuencias. [Curso: Lingüística Computacional] TelloLeal, E., Lopez Arevalo, I., & Sosa- Sosa, V. (2010). Prototipo para desambiguación del sentido de las palabras mediante etiquetado de palabras y relaciones semánticas. Revista Avances en Sistemas e Informática, Vol 7, No. 3, 27–32. Villayandre Llamazares, M. (2010). Aproximación a la lingüística computacional (Tesis doctoral). Universidad de León. Departamento de Filología Hispánica y Clásica, León, España. En: _contextos.pdf Wikilengua del español. En: olisemia


Descargar ppt "Lingüística computacional unidad 2. ambigüedad semántica"

Presentaciones similares


Anuncios Google