Proyecto Fin de Carrera - II Actualización del conocimiento Ontológico de una base de conocimiento Egoitz Laparra Martín Director: German Rigau Claramunt.

Slides:



Advertisements
Presentaciones similares
Proyecto Fin de Carrera - II
Advertisements

Proyecto Fin de Carrera Ingeniería Informática Interfaz Avanzada de Consulta al Multilingual Central Repository (MCR)‏ María Eguimendia Director: Germán.
NIA 500 EVIDENCIA DE AUDITORIA
1 Introducción a la minería de datos. 2 Temario ¿Qué es minería de datos? ¿Qué es minería de datos? ¿Quién usa minería de datos? ¿Quién usa minería de.
Sistema de control de versiones CVS y Subvesion. Definición: Control de versiones Un sistema de control de versiones es un sistema de gestión de múltiples.
Organización del Computador UC1.- Arquitectura y estructura del computador.
Personalización en Entornos Virtuales de Aprendizaje un enfoque competencial PERSONAL(ONTO) TIN C02.
Introducción a las bases de datos. MODELO ENTIDAD RELACIÓN (CONTINUACIÓN)  Ejemplo de cómo se lee un diagrama entidad relación:
Proyecto Fin de Carrera Ingeniería en Informática Sistema de Resolución de la Ambigüedad Semántica Basada en el Conocimiento Alumno: D. Álvaro Acebedo.
 El estudio de la diversidad a diferentes escalas de análisis se ha venido desarrollando desde hace mas tiempo del que se ha reconocido.
Bioestadística Distribuciones muestrales para variables cuantitativas.
Traducción dirigida por la Sintaxis Teoría de Autómatas y Lenguajes Formales Alma María Pisabarro, 2007.
CARDINALIDADES Base de Datos. CONCEPTO  Es el número de entidades con la cual otra entidad puede asociar mediante una relación.  Para mostrar las cardinalidades.
Conceptos generales de base de datos
Herencia Multiple en Java
Metodología de la investigación
FACULTAD DE EDUCACION A DISTANCIA Y VIRTUAL
UNE “RAFAEL MARÍA BARALT” PROGRAMA DE INGENIERÍA Y TECNOLOGÍA
DNS Domain Name System.
PROYECTO DE GRADO MONOGRAFÍA 2017
ACCIONES.
Un Enfoque de Clustering basado en PSO Asistido
SOFTWARE EDUCATIVO JOHAN DELGADO PACHECO YEISER JIMÈNEZ AGUDELO
7ª Jornada sobre la Biblioteca Digital Universitaria JBDU2009 "La  biblioteca universitaria en la web" 5 y 6 de noviembre de 2009 Biblioteca Central de.
¿Cómo tener acceso a las bases de datos de la biblioteca digital?
BASES DE DATOS.
Fuente:
UNIVERSIDAD ICEP INTELIGENCIA ARTIFICIAL INGENIERÍA EN SISTEMAS COMPUTACIONALES Martes, 24 de Octubre de 2017 REPRESENTACIÓN DEL CONOCIMIENTO Y RAZONAMIENTO.
Programación orientada a objetos
Principios del nivel de Análisis Cognitivo
CAPÍTULO 8: DETERMINACIÓN DE ESQUINAS
CAPÍTULO 4: OPERACIONES DE PIXEL
Qué es un Buscador El primer tipo de buscador es el de Índices de Búsqueda. Este es el primer tipo de buscador que surgió y consiste en que la base de.
TEMA II. ESTUDIO DE MERCADO 2.2 El muestreo estadístico en la investigación de mercados. Métodos de pronósticos de corto plazo.
RESULTADOS Y DISCUSIÓN CONCLUSIONES Y RECOMENDACIONES
INTRODUCCION La teoría de sistemas (TS) es un ramo específico de la teoría general de sistemas (TGS). La TGS surgió con los trabajos del alemán Ludwig.
LA REGLA DE LA ESQUINA NOROESTE
MUESTREO ESTRATIFICADO
MEDICION Y ELABORACION DE ESCALAS
Introducción a las estructuras de datos
6.4 Grados de libertad Nazira Calleja.
Ingeniería del Software
MODULO MICROSOFT EXCEL 2013
Documentos a utilizarse para la adquisición de hardware y/o software
Modelo de interacción de usuario.  El Desarrollo basado en modelos de la interfaz de usuario, en inglés Model-based User Interface Development (MB-UID),
MODALIDADES DE LA INVESTIGACION Jenkellyz Suarez C.I Instituto universitario Politécnico Santiago marino Extensión edo-Tachira MARZO 2018.
FUNDAMENTOS DE PROGRAMACION EN ENTORNO WEB. Rodrigo Cabello Ing. Informático Director de proyectos Think – Ideas in Motion FUNDAMENTOS.
APLICACIÓN DE NUEVAS TECNOLOGÍAS EN LA CONSERVACIÓN Y ANÁLISIS DEL PATRIMONIO CULTURAL Herramientas para la Investigación.
Investigación de mercados
1 Dirección IP - Características Las direcciones IP se denominan direcciones lógicas. Tienen un direccionamiento Jerárquico. Representan una conexión de.
FUNDAMENTOS DE MERCADEO PLAN DE VENTAS PROFESOR: ANA MUGNO PRESENTADO POR: FRANCISCO CAMPO 2018.
Capítulo 7. (Bernal, 2005) Procesos de Investigación Científica Sección 7.11 Procesamiento de la Información. Datos.
Instituto Universitario Politécnico Santiago Mariño Extensión San Cristóbal Metodología de la Investigación Realizado por: Sánchez C, Stefhanny N. Cedula:
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (III)
CURSO PROGRAMACIÓN BÁSICA SEMANA 3 ¿Qué es un programa?
MÉTODOS DEL PROCESO DE INVESTIGACIÓN CIENTÍFICA
LICENCIATURA EN SISTEMAS COMPUTACIONALES EN ADMINISTRACION
UNIVERSIDAD DE LOS ANDES CENTRO DE INVESTIGACIONES PSICOLÓGICAS
Es el proceso de subdividir los entregables y el trabajo del proyecto en componentes más pequeños y más fáciles de manejar Se puede dar una visión estructurada.
Carta de Exposición de Motivos Más que cartas, son relatos breves que responden de manera general a preguntas específicas formuladas para un crecimiento.
TIPOS DE MODELAMIENTO BASE DE DATOS. Bases de datos jerárquicas: Este tipo de base de datos se basa en un estructura jerárquica en forma de árbol en donde.
1 TEMA 2. INTRODUCCION A LA ESTADISTICA DESCRIPTIVA E INFERENCIAL 2.1 DEFINIICION 2.2. AZAR Y PROBABILIDAD 2.3 MUESTREO 2.4 ESTIMACION DE PARAMETROS
“Literatura del S- XX: La Vanguardia Nicaragüense.”
APO JOHANNA GUACHÚN JENNY QUILLIGANA CARLA. INVESTIGACIÓN DESCRIPTIVA TIPO DE INVESTIGACIÓN QUE DESCRIBE DE MODO SISTEMÁTICO LAS CARACTERÍSTICAS DE UNA.
SERVICIOS DE ALMACENAMIENTO EN LA NUBE DE QUE SE TRATA El Almacenamiento en la Nube consiste en guardar archivos en un lugar de Internet. Esos lugares.
Texturizado.
RECOPILACIÓN DE LA INFORMACIÓN TÉCNICAS DE INVESTIGACIÓN.
TALLER DE ESTUDIO INDEPENDIENTE (ILCE) Estrategias de aprendizaje y estudio Independiente.
ESTRUCTURA DE LOS SISTEMAS OPERATIVOS Magallanes Napa, Anthony Yair.
EL C.P.M El C.P.M, (Método del Camino Crítico) es una nueva técnica do la Ingeniería Industrial que ayuda principalmente al control del desarrollo de.
Transcripción de la presentación:

Proyecto Fin de Carrera - II Actualización del conocimiento Ontológico de una base de conocimiento Egoitz Laparra Martín Director: German Rigau Claramunt

Índice

Introducción El proyecto se enmarca en el área de la investigación de la I.A., en concreto en el campo del Procesamiento del Lenguaje Natural Objetivo: Actualización de las nuevas versiones de las ontologías disponibles para la nueva versión del Repositorio Central Multilingüe.

Redes Semánticas Forma de representación del conocimiento Consiste en un grafo dirigido.  Los nodos representan conceptos  Los enlaces representan relaciones semánticas

Wordnet WordNet (Miller et al., 1990) es una base de datos léxica de dominio general para el inglés. Estructurada como una red semántica  Los nodos se denominan synsets (synonym sets, conjuntos de sinonimos)

WordNet Ejemplo de relaciones en WordNet:

WordNet Volumen de synsets en diferentes versiones de WordNet:

EuroWordNet EuroWordNet (Vossen, 1998) es una extensión multilingüe de WordNet Compuesta por 8 wordnets locales (inglés, holandés, español, italiano, francés, alemán, checo y estonio). Cada wordnet local es un módulo independiente La conexión entre los módulos se hace a través del Índice Interlingüa (ILI).

EuroWordNet

Proyecto Meaning Meaning se centró en 5 wordnets: inglés, italiano, español, catalán y euskera. Se pretendía enriquecer su estructura con nueva información léxico-semántica extraída automáticamente de la web. Se creó el Repositorio Central Multilingüe (MCR) (Atserias et al., 2004).

MCR Fusión de distintos recursos:  Diversas versiones de WordNet  Ontologías  Bases del conocimiento Sigue el modelo de EuroWordNet  Incluye las relaciones ILI.

WordNet Domains WN-Domains (Magnini & Cavaglià, 2000) es un recurso léxico para la versión 1.6 de WordNet. Los synsets son anotados con una o varias etiquetas de dominio.  Ejemplos de etiquetas: TRANSPORTS, MEDICINE, SPORTS... Mediante los dominios se puede reducir la polisemia  Ejemplo con los 10 sentidos de la palabra bank.

WordNet Domains Los sentidos se pueden agrupar en uno sólo con etiqueta ECONOMY El 2 y el 7 se pueden agrupar en un sentido de etiqueta GEOGRAPHY GEOLOGY

WordNet Affect WN-Affect ( Strappavara & Valitutti, 2004 ) consiste en una jerarquía de “etiquetas de dominio afectivo”.  Identifican synsets que representan conceptos afectivos.

Base Concepts Los Base Concepts (Vossen et al., 1998) consisten en un grupo de synsets relevantes. La relevancia de un synset se mide mediante dos criterios:  Tener una posición elevada dentro de la jerarquía  Tener el mayor número de relaciones El conjunto inicial de BCs se componía de 1024 conceptos seleccionados de la versión 1.5 de WordNet.

Balkanet Base Concepts Balkanet sigue un enfoque similar a EuroWordNet pero para otros idiomas: griego, rumano, turco y búlgaro. Tiene su propio conjunto de Base Concepts obtenidos de la versión 2.0 de WordNet:

Meaning Base Concepts El MCR del proyecto Meaning también se basa en la arquitectura de EuroWordNet. Se migraron los Base Concepts originales, de la versión 1.5 a la 1.6 de WorNet:

Basic Level Concepts Los Basic Level Concepts (Rosch, 1977) se seleccionan con criterios distintos a los Base Concepts:  Representar el mayor número de conceptos posible. (Conceptos abstractos)  Representar el mayor número de características posible. (Conceptos concretos) Son criterios contradictorios.

Basic Level Concepts Según el primer criterio se seleccionaría professional_1 Según el segundo criterio se seleccionarían science_teacher_1 y art_teacher_1

Top Concept Ontology La EuroWordNet Top Concept Ontology (Vossen, 1998) se basa en una jerarquía de clasificaciones semánticas, como Object and Substance, Location, Dynamic... Los Top Concepts se aplican sobre los Base Concepts  Estas características son heredadas por los synsets que representan. El primer nivel de la TCO se divide en tres categorias:  1stOrderEntity (Entidades concretas)  2ndOrderEntity (Situaciones que pueden ser observadas)  3OrderEntity (Situaciones que no pueden ser observadas)

Top Concept Ontology Las categorías del primer nivel se vuelven a subdividir  Fragmento de la jerarquía de la TCO:

Objetivos del Proyecto Actualizar la nueva versión de Wordnet Domains en el MCR  Realizar una propuesta para la inclusión, en el MCR, de la nueva información sobre los WordnetAffects Actualizar la nueva versión de la Top Concept Ontology en el MCR Estudiar el esfuerzo que puede suponer un transporte de la versión 1.6 de Wordnet, a la versión 2.0. Crear un programa que obtenga de manera automática los Base Level Concepts de la versión de Wordnet que se desee.  Realizar un estudio sobre los resultados que obtiene.

Actualización de WN-Domains Se dispone del fichero wn-domains-2.0 con la nueva versión de la ontología, con el siguiente formato:

Actualización de WN-Domains Para importar la nueva versión se normaliza y se cambia el formato del fichero:

Actualización de WN-Domains Modelo de dominio

Propuesta para WN-Affect relation: Relación mediante la que se ha obtenido el synset afectivo. affect: Tipo de concepto afectivo que representa el synset

Actualización de la TCO Se dispone del fichero wei-topontology-2.0.txt con la nueva versión de la ontología, con el siguiente formato:

Actualización de la TCO Para importar la nueva versión se tiene que cambiar el formato del fichero:

Actualización de la TCO Modelo de dominio

Obtención automática de BLCs El objetivo es realizar una nueva versión de una aplicación ya existente para la obtención automática de BLCs. La solución ofrece los siguientes criterios de selección:  Rel.: Tipo de relaciones que se tendrá en cuenta.  all: Tiene en cuenta todas las relaciones.  hypo: Tiene en cuenta las relaciones de hiponimia.  Occ: Frecuencia de uso del synset  no-occ: No tiene en cuenta la frecuencia de uso  with-occ: Tiene en cuenta la frecuencia de uso  LMR: Límite Mínimo de Representados

Obtención automática de BLCs Los BLCs se seleccionan de la siguiente forma:  El synset se selecciona como BLC si su valor de selección (VS) es máximo local.  El VS de un synset es máximo local si es superior al VS de su padre y al de su hijo.  El VS es igual a:  Rel.si se elige no-occ  Rel.*Occsi se elige with-occ

Estudio de los resultados obtenidos Resultados obtenidos con diferentes criterios

Estudio de los resultados obtenidos Conclusiones:  A medida que aumenta el valor del LMR, diminuye el número de BLCs seleccionado.  Poca diferencia entre resultados obtenidos con all y con hypo.  Con LMR = 0, el volumen obtenido con with-occ es mucho mayor que con no-occ.  El número de BLCs de verbos se mantiene estable para valores del LMR distintos a 0.

Cambios producidos por la reasignación Número de synset reasignados en diferentes ejecuciones:

Cambios producidos por la reasignación Conclusiones:  El número de synsets reasignados es muy grande.  El volumen de synset reasignados es muy similar entre all e hypo.  Con LMR = 20, el número de synsets reasignados obtenidos mediante with-occ es similar al de los obtenidos mediante no-occ.

Comparativa entre resultados BLCs que son seleccionados mediante todos los criterios disponibles: Diferencia destacable entre los resultados de nombres. Apena hay diferencias entre los resultados de verbos.

Comparativa con la solución existente Las dos soluciones se basan en el mismo método de obtención de BLCs. Existen algunas diferencias de implementación:  En el tratamiento de synsets con múltiples padres. Supone pequeñas diferencias en los resultados.  Uso de tablas hash. Supone una disminución considerable del tiempo de ejecución.

Comparativa con la solución existente Los resultados obtenidos con ambas soluciones son muy parecidos:

Comparativa con conjuntos de BCs existentes Se han comparado algunos conjuntos de BLCs con los conjuntos de BCs de Balkanet y Meaning Conclusiones:  La selección de BCs es muy arbitraria.  Variando los criterios de selección se obtienen conjuntos muy diferentes.

Comparativa con conjuntos de BCs existentes Ejemplos de nombres incluidos en Balkanet BCs y en BLCs:

Comparativa con conjuntos de BCs existentes Ejemplos de nombres incluidos en Meaning BCs y en BLCs:

Estudio del transporte de WN 1.6 a 2.0 Se han utilizado los ficheros WN-map  Correspondencia entre synsets de diferentes versiones El conocimiento ontológico sobre un synset de la versión 1.6 se puede asignar automáticamente a su correspondiente en la versión 2.0 Problema con synsets de la versión 2.0 sin correspondencia en la 1.6:  La asignación de conocimiento debe hacerse manualmente.  En este estudio se ha buscado cuantos de estos synsets hay.

Estudio del transporte de WN 1.6 a 2.0 Resultados del estudio:  En nombres:10564 synsets  En verbos:488 synsets  En adjetivos:959 synsets  En adverbios:106 synsets

Costes estimados vs. costes reales