Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porInés Plaza López Modificado hace 7 años
1
Proyecto Fin de Carrera - II Actualización del conocimiento Ontológico de una base de conocimiento Egoitz Laparra Martín Director: German Rigau Claramunt
2
Índice
3
Introducción El proyecto se enmarca en el área de la investigación de la I.A., en concreto en el campo del Procesamiento del Lenguaje Natural Objetivo: Actualización de las nuevas versiones de las ontologías disponibles para la nueva versión del Repositorio Central Multilingüe.
4
Redes Semánticas Forma de representación del conocimiento Consiste en un grafo dirigido. Los nodos representan conceptos Los enlaces representan relaciones semánticas
5
Wordnet WordNet (Miller et al., 1990) es una base de datos léxica de dominio general para el inglés. Estructurada como una red semántica Los nodos se denominan synsets (synonym sets, conjuntos de sinonimos)
6
WordNet Ejemplo de relaciones en WordNet:
7
WordNet Volumen de synsets en diferentes versiones de WordNet:
8
EuroWordNet EuroWordNet (Vossen, 1998) es una extensión multilingüe de WordNet Compuesta por 8 wordnets locales (inglés, holandés, español, italiano, francés, alemán, checo y estonio). Cada wordnet local es un módulo independiente La conexión entre los módulos se hace a través del Índice Interlingüa (ILI).
9
EuroWordNet
10
Proyecto Meaning Meaning se centró en 5 wordnets: inglés, italiano, español, catalán y euskera. Se pretendía enriquecer su estructura con nueva información léxico-semántica extraída automáticamente de la web. Se creó el Repositorio Central Multilingüe (MCR) (Atserias et al., 2004).
11
MCR Fusión de distintos recursos: Diversas versiones de WordNet Ontologías Bases del conocimiento Sigue el modelo de EuroWordNet Incluye las relaciones ILI.
12
WordNet Domains WN-Domains (Magnini & Cavaglià, 2000) es un recurso léxico para la versión 1.6 de WordNet. Los synsets son anotados con una o varias etiquetas de dominio. Ejemplos de etiquetas: TRANSPORTS, MEDICINE, SPORTS... Mediante los dominios se puede reducir la polisemia Ejemplo con los 10 sentidos de la palabra bank.
13
WordNet Domains Los sentidos 1 3 6 se pueden agrupar en uno sólo con etiqueta ECONOMY El 2 y el 7 se pueden agrupar en un sentido de etiqueta GEOGRAPHY GEOLOGY
14
WordNet Affect WN-Affect ( Strappavara & Valitutti, 2004 ) consiste en una jerarquía de “etiquetas de dominio afectivo”. Identifican synsets que representan conceptos afectivos.
15
Base Concepts Los Base Concepts (Vossen et al., 1998) consisten en un grupo de synsets relevantes. La relevancia de un synset se mide mediante dos criterios: Tener una posición elevada dentro de la jerarquía Tener el mayor número de relaciones El conjunto inicial de BCs se componía de 1024 conceptos seleccionados de la versión 1.5 de WordNet.
16
Balkanet Base Concepts Balkanet sigue un enfoque similar a EuroWordNet pero para otros idiomas: griego, rumano, turco y búlgaro. Tiene su propio conjunto de Base Concepts obtenidos de la versión 2.0 de WordNet:
17
Meaning Base Concepts El MCR del proyecto Meaning también se basa en la arquitectura de EuroWordNet. Se migraron los Base Concepts originales, de la versión 1.5 a la 1.6 de WorNet:
18
Basic Level Concepts Los Basic Level Concepts (Rosch, 1977) se seleccionan con criterios distintos a los Base Concepts: Representar el mayor número de conceptos posible. (Conceptos abstractos) Representar el mayor número de características posible. (Conceptos concretos) Son criterios contradictorios.
19
Basic Level Concepts Según el primer criterio se seleccionaría professional_1 Según el segundo criterio se seleccionarían science_teacher_1 y art_teacher_1
20
Top Concept Ontology La EuroWordNet Top Concept Ontology (Vossen, 1998) se basa en una jerarquía de clasificaciones semánticas, como Object and Substance, Location, Dynamic... Los Top Concepts se aplican sobre los Base Concepts Estas características son heredadas por los synsets que representan. El primer nivel de la TCO se divide en tres categorias: 1stOrderEntity (Entidades concretas) 2ndOrderEntity (Situaciones que pueden ser observadas) 3OrderEntity (Situaciones que no pueden ser observadas)
21
Top Concept Ontology Las categorías del primer nivel se vuelven a subdividir Fragmento de la jerarquía de la TCO:
22
Objetivos del Proyecto Actualizar la nueva versión de Wordnet Domains en el MCR Realizar una propuesta para la inclusión, en el MCR, de la nueva información sobre los WordnetAffects Actualizar la nueva versión de la Top Concept Ontology en el MCR Estudiar el esfuerzo que puede suponer un transporte de la versión 1.6 de Wordnet, a la versión 2.0. Crear un programa que obtenga de manera automática los Base Level Concepts de la versión de Wordnet que se desee. Realizar un estudio sobre los resultados que obtiene.
23
Actualización de WN-Domains Se dispone del fichero wn-domains-2.0 con la nueva versión de la ontología, con el siguiente formato:
24
Actualización de WN-Domains Para importar la nueva versión se normaliza y se cambia el formato del fichero:
25
Actualización de WN-Domains Modelo de dominio
26
Propuesta para WN-Affect relation: Relación mediante la que se ha obtenido el synset afectivo. affect: Tipo de concepto afectivo que representa el synset
27
Actualización de la TCO Se dispone del fichero wei-topontology-2.0.txt con la nueva versión de la ontología, con el siguiente formato:
28
Actualización de la TCO Para importar la nueva versión se tiene que cambiar el formato del fichero:
29
Actualización de la TCO Modelo de dominio
30
Obtención automática de BLCs El objetivo es realizar una nueva versión de una aplicación ya existente para la obtención automática de BLCs. La solución ofrece los siguientes criterios de selección: Rel.: Tipo de relaciones que se tendrá en cuenta. all: Tiene en cuenta todas las relaciones. hypo: Tiene en cuenta las relaciones de hiponimia. Occ: Frecuencia de uso del synset no-occ: No tiene en cuenta la frecuencia de uso with-occ: Tiene en cuenta la frecuencia de uso LMR: Límite Mínimo de Representados
31
Obtención automática de BLCs Los BLCs se seleccionan de la siguiente forma: El synset se selecciona como BLC si su valor de selección (VS) es máximo local. El VS de un synset es máximo local si es superior al VS de su padre y al de su hijo. El VS es igual a: Rel.si se elige no-occ Rel.*Occsi se elige with-occ
32
Estudio de los resultados obtenidos Resultados obtenidos con diferentes criterios
33
Estudio de los resultados obtenidos Conclusiones: A medida que aumenta el valor del LMR, diminuye el número de BLCs seleccionado. Poca diferencia entre resultados obtenidos con all y con hypo. Con LMR = 0, el volumen obtenido con with-occ es mucho mayor que con no-occ. El número de BLCs de verbos se mantiene estable para valores del LMR distintos a 0.
34
Cambios producidos por la reasignación Número de synset reasignados en diferentes ejecuciones:
35
Cambios producidos por la reasignación Conclusiones: El número de synsets reasignados es muy grande. El volumen de synset reasignados es muy similar entre all e hypo. Con LMR = 20, el número de synsets reasignados obtenidos mediante with-occ es similar al de los obtenidos mediante no-occ.
36
Comparativa entre resultados BLCs que son seleccionados mediante todos los criterios disponibles: Diferencia destacable entre los resultados de nombres. Apena hay diferencias entre los resultados de verbos.
37
Comparativa con la solución existente Las dos soluciones se basan en el mismo método de obtención de BLCs. Existen algunas diferencias de implementación: En el tratamiento de synsets con múltiples padres. Supone pequeñas diferencias en los resultados. Uso de tablas hash. Supone una disminución considerable del tiempo de ejecución.
38
Comparativa con la solución existente Los resultados obtenidos con ambas soluciones son muy parecidos:
39
Comparativa con conjuntos de BCs existentes Se han comparado algunos conjuntos de BLCs con los conjuntos de BCs de Balkanet y Meaning Conclusiones: La selección de BCs es muy arbitraria. Variando los criterios de selección se obtienen conjuntos muy diferentes.
40
Comparativa con conjuntos de BCs existentes Ejemplos de nombres incluidos en Balkanet BCs y en BLCs:
41
Comparativa con conjuntos de BCs existentes Ejemplos de nombres incluidos en Meaning BCs y en BLCs:
42
Estudio del transporte de WN 1.6 a 2.0 Se han utilizado los ficheros WN-map Correspondencia entre synsets de diferentes versiones El conocimiento ontológico sobre un synset de la versión 1.6 se puede asignar automáticamente a su correspondiente en la versión 2.0 Problema con synsets de la versión 2.0 sin correspondencia en la 1.6: La asignación de conocimiento debe hacerse manualmente. En este estudio se ha buscado cuantos de estos synsets hay.
43
Estudio del transporte de WN 1.6 a 2.0 Resultados del estudio: En nombres:10564 synsets En verbos:488 synsets En adjetivos:959 synsets En adverbios:106 synsets
44
Costes estimados vs. costes reales
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.