La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Proyecto Fin de Carrera - II Actualización del conocimiento Ontológico de una base de conocimiento Egoitz Laparra Martín Director: German Rigau Claramunt.

Presentaciones similares


Presentación del tema: "Proyecto Fin de Carrera - II Actualización del conocimiento Ontológico de una base de conocimiento Egoitz Laparra Martín Director: German Rigau Claramunt."— Transcripción de la presentación:

1 Proyecto Fin de Carrera - II Actualización del conocimiento Ontológico de una base de conocimiento Egoitz Laparra Martín Director: German Rigau Claramunt

2 Índice

3 Introducción El proyecto se enmarca en el área de la investigación de la I.A., en concreto en el campo del Procesamiento del Lenguaje Natural Objetivo: Actualización de las nuevas versiones de las ontologías disponibles para la nueva versión del Repositorio Central Multilingüe.

4 Redes Semánticas Forma de representación del conocimiento Consiste en un grafo dirigido.  Los nodos representan conceptos  Los enlaces representan relaciones semánticas

5 Wordnet WordNet (Miller et al., 1990) es una base de datos léxica de dominio general para el inglés. Estructurada como una red semántica  Los nodos se denominan synsets (synonym sets, conjuntos de sinonimos)

6 WordNet Ejemplo de relaciones en WordNet:

7 WordNet Volumen de synsets en diferentes versiones de WordNet:

8 EuroWordNet EuroWordNet (Vossen, 1998) es una extensión multilingüe de WordNet Compuesta por 8 wordnets locales (inglés, holandés, español, italiano, francés, alemán, checo y estonio). Cada wordnet local es un módulo independiente La conexión entre los módulos se hace a través del Índice Interlingüa (ILI).

9 EuroWordNet

10 Proyecto Meaning Meaning se centró en 5 wordnets: inglés, italiano, español, catalán y euskera. Se pretendía enriquecer su estructura con nueva información léxico-semántica extraída automáticamente de la web. Se creó el Repositorio Central Multilingüe (MCR) (Atserias et al., 2004).

11 MCR Fusión de distintos recursos:  Diversas versiones de WordNet  Ontologías  Bases del conocimiento Sigue el modelo de EuroWordNet  Incluye las relaciones ILI.

12 WordNet Domains WN-Domains (Magnini & Cavaglià, 2000) es un recurso léxico para la versión 1.6 de WordNet. Los synsets son anotados con una o varias etiquetas de dominio.  Ejemplos de etiquetas: TRANSPORTS, MEDICINE, SPORTS... Mediante los dominios se puede reducir la polisemia  Ejemplo con los 10 sentidos de la palabra bank.

13 WordNet Domains Los sentidos 1 3 6 se pueden agrupar en uno sólo con etiqueta ECONOMY El 2 y el 7 se pueden agrupar en un sentido de etiqueta GEOGRAPHY GEOLOGY

14 WordNet Affect WN-Affect ( Strappavara & Valitutti, 2004 ) consiste en una jerarquía de “etiquetas de dominio afectivo”.  Identifican synsets que representan conceptos afectivos.

15 Base Concepts Los Base Concepts (Vossen et al., 1998) consisten en un grupo de synsets relevantes. La relevancia de un synset se mide mediante dos criterios:  Tener una posición elevada dentro de la jerarquía  Tener el mayor número de relaciones El conjunto inicial de BCs se componía de 1024 conceptos seleccionados de la versión 1.5 de WordNet.

16 Balkanet Base Concepts Balkanet sigue un enfoque similar a EuroWordNet pero para otros idiomas: griego, rumano, turco y búlgaro. Tiene su propio conjunto de Base Concepts obtenidos de la versión 2.0 de WordNet:

17 Meaning Base Concepts El MCR del proyecto Meaning también se basa en la arquitectura de EuroWordNet. Se migraron los Base Concepts originales, de la versión 1.5 a la 1.6 de WorNet:

18 Basic Level Concepts Los Basic Level Concepts (Rosch, 1977) se seleccionan con criterios distintos a los Base Concepts:  Representar el mayor número de conceptos posible. (Conceptos abstractos)  Representar el mayor número de características posible. (Conceptos concretos) Son criterios contradictorios.

19 Basic Level Concepts Según el primer criterio se seleccionaría professional_1 Según el segundo criterio se seleccionarían science_teacher_1 y art_teacher_1

20 Top Concept Ontology La EuroWordNet Top Concept Ontology (Vossen, 1998) se basa en una jerarquía de clasificaciones semánticas, como Object and Substance, Location, Dynamic... Los Top Concepts se aplican sobre los Base Concepts  Estas características son heredadas por los synsets que representan. El primer nivel de la TCO se divide en tres categorias:  1stOrderEntity (Entidades concretas)  2ndOrderEntity (Situaciones que pueden ser observadas)  3OrderEntity (Situaciones que no pueden ser observadas)

21 Top Concept Ontology Las categorías del primer nivel se vuelven a subdividir  Fragmento de la jerarquía de la TCO:

22 Objetivos del Proyecto Actualizar la nueva versión de Wordnet Domains en el MCR  Realizar una propuesta para la inclusión, en el MCR, de la nueva información sobre los WordnetAffects Actualizar la nueva versión de la Top Concept Ontology en el MCR Estudiar el esfuerzo que puede suponer un transporte de la versión 1.6 de Wordnet, a la versión 2.0. Crear un programa que obtenga de manera automática los Base Level Concepts de la versión de Wordnet que se desee.  Realizar un estudio sobre los resultados que obtiene.

23 Actualización de WN-Domains Se dispone del fichero wn-domains-2.0 con la nueva versión de la ontología, con el siguiente formato:

24 Actualización de WN-Domains Para importar la nueva versión se normaliza y se cambia el formato del fichero:

25 Actualización de WN-Domains Modelo de dominio

26 Propuesta para WN-Affect relation: Relación mediante la que se ha obtenido el synset afectivo. affect: Tipo de concepto afectivo que representa el synset

27 Actualización de la TCO Se dispone del fichero wei-topontology-2.0.txt con la nueva versión de la ontología, con el siguiente formato:

28 Actualización de la TCO Para importar la nueva versión se tiene que cambiar el formato del fichero:

29 Actualización de la TCO Modelo de dominio

30 Obtención automática de BLCs El objetivo es realizar una nueva versión de una aplicación ya existente para la obtención automática de BLCs. La solución ofrece los siguientes criterios de selección:  Rel.: Tipo de relaciones que se tendrá en cuenta.  all: Tiene en cuenta todas las relaciones.  hypo: Tiene en cuenta las relaciones de hiponimia.  Occ: Frecuencia de uso del synset  no-occ: No tiene en cuenta la frecuencia de uso  with-occ: Tiene en cuenta la frecuencia de uso  LMR: Límite Mínimo de Representados

31 Obtención automática de BLCs Los BLCs se seleccionan de la siguiente forma:  El synset se selecciona como BLC si su valor de selección (VS) es máximo local.  El VS de un synset es máximo local si es superior al VS de su padre y al de su hijo.  El VS es igual a:  Rel.si se elige no-occ  Rel.*Occsi se elige with-occ

32 Estudio de los resultados obtenidos Resultados obtenidos con diferentes criterios

33 Estudio de los resultados obtenidos Conclusiones:  A medida que aumenta el valor del LMR, diminuye el número de BLCs seleccionado.  Poca diferencia entre resultados obtenidos con all y con hypo.  Con LMR = 0, el volumen obtenido con with-occ es mucho mayor que con no-occ.  El número de BLCs de verbos se mantiene estable para valores del LMR distintos a 0.

34 Cambios producidos por la reasignación Número de synset reasignados en diferentes ejecuciones:

35 Cambios producidos por la reasignación Conclusiones:  El número de synsets reasignados es muy grande.  El volumen de synset reasignados es muy similar entre all e hypo.  Con LMR = 20, el número de synsets reasignados obtenidos mediante with-occ es similar al de los obtenidos mediante no-occ.

36 Comparativa entre resultados BLCs que son seleccionados mediante todos los criterios disponibles: Diferencia destacable entre los resultados de nombres. Apena hay diferencias entre los resultados de verbos.

37 Comparativa con la solución existente Las dos soluciones se basan en el mismo método de obtención de BLCs. Existen algunas diferencias de implementación:  En el tratamiento de synsets con múltiples padres. Supone pequeñas diferencias en los resultados.  Uso de tablas hash. Supone una disminución considerable del tiempo de ejecución.

38 Comparativa con la solución existente Los resultados obtenidos con ambas soluciones son muy parecidos:

39 Comparativa con conjuntos de BCs existentes Se han comparado algunos conjuntos de BLCs con los conjuntos de BCs de Balkanet y Meaning Conclusiones:  La selección de BCs es muy arbitraria.  Variando los criterios de selección se obtienen conjuntos muy diferentes.

40 Comparativa con conjuntos de BCs existentes Ejemplos de nombres incluidos en Balkanet BCs y en BLCs:

41 Comparativa con conjuntos de BCs existentes Ejemplos de nombres incluidos en Meaning BCs y en BLCs:

42 Estudio del transporte de WN 1.6 a 2.0 Se han utilizado los ficheros WN-map  Correspondencia entre synsets de diferentes versiones El conocimiento ontológico sobre un synset de la versión 1.6 se puede asignar automáticamente a su correspondiente en la versión 2.0 Problema con synsets de la versión 2.0 sin correspondencia en la 1.6:  La asignación de conocimiento debe hacerse manualmente.  En este estudio se ha buscado cuantos de estos synsets hay.

43 Estudio del transporte de WN 1.6 a 2.0 Resultados del estudio:  En nombres:10564 synsets  En verbos:488 synsets  En adjetivos:959 synsets  En adverbios:106 synsets

44 Costes estimados vs. costes reales


Descargar ppt "Proyecto Fin de Carrera - II Actualización del conocimiento Ontológico de una base de conocimiento Egoitz Laparra Martín Director: German Rigau Claramunt."

Presentaciones similares


Anuncios Google