Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín
Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones
Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones
Introducción Objetos en la web con diferentes formatos de texto (inconsistentes). Ejemplo de dominio de restaurantes
Introducción Objetivo del sistema: Identificar objetos relacionados que hacen referencia a la misma entidad física. No usar únicamente la igualdad del texto como fuente de comparación.
Introducción Nuestros Conjunto de objetos atributos VITAL IMPORTANCIA PARA IDENTIFICAR LA RELACIÓN ENTRE OBJETOS
Introducción Dominio de restaurantes
Introducción Atributos con distinta importancia para decidir un mapeo entre objetos. Identificar posibles similitudes de texto entre los atributos de los objetos. Reglas de decisión para testear la importancia de cada atributo.
Introducción Problemas del aprendizaje de reglas: 1.- Limitado por la entrada del usuario. 2.- Proceso semiautomático. 3.- Específico del dominio de la aplicación. 4.- Conocimientos necesarios que no están intrínsecos en los datos.
Introducción Aplicación de Active Atlas (Ejemplo de dominio de aplicación: Integración de información de restaurantes)
Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones
Reglas de identificación de objetos Estructura general del sistema
Reglas de identificación de objetos PASOS DEL ALGORITMO: 1.- Cálculo de resultados de similitud de objetos. 2.- Aprendizaje de reglas de mapeo.
PASO 1: Resultados de similitud de objetos ENTRADA: Los objetos de las fuentes de datos a integrar. Comparación de atributos de los objetos. Generación de mapeos candidatos Objetos que presentan transformaciones de texto. Etiquetado manual de los mapeos candidatos. Cada mapeo candidato: - Resultado de similitud de sus atributos. - Resultado de similitud total de los objetos.
PASO 1: Resultados de similitud de objetos Funciones generales de transformación: TIPO I: (Un solo token) - Stemming. - Soundex. - Abreviaturas. TIPO II: (Tokens de dos objetos) - Igualdad. - Subcadenas. - Inicial. - Abreviaturas. - Prefijos. - Acrónimos. - Sufijos.
PASO 1: Resultados de similitud de objetos Resultados de similitud de atributos (I): - Distancia coseno. - Tokenizar los valores de los atributos. - Comparar los tokens con un corpus de palabras (W) Un array de enteros por cada valor del atributo en cada fuente. a x b SIM (a, b) = cos a b = |a||b|
PASO 1: Resultados de similitud de objetos Resultados de similitud de atributos (II): - Generación del array de enteros (resp. b): 0 sii w no aparece en a. (1+log TF a,w ) * log IDF w e. o. c. a, b = Valores de los atributos en las fuentes w = Cada palabra que forma el corpus. - Optimización Ponderar las transformaciones.
PASO 1: Resultados de similitud de objetos Resultados de similitud total del objeto: - Suma ponderada de los resultados de similitud de cada atributo. - Peso único de cada atributo: Número de valores únicos para el atributo Número total de valores para el atributo - Un peso único de atributo por cada fuente a integrar Multiplicar el resultado de similitud del atributo por cada peso único de cada fuente y sumarlo.
PASO 2: Aprendizaje de reglas de mapeo Aprendizaje de árboles de decisión: - Técnica inductiva a partir de un conjunto de entrenamiento (Algoritmo C4.5). - En cada nivel se elige el atributo con mayor ganancia de información (mejor clasificador). - Generar reglas a partir del árbol aprendido.
PASO 2: Aprendizaje de reglas de mapeo Aprendizaje activo: - Conjunto de árboles de decisión. - Inicializar cada árbol con subconjunto aleatorio y representativo de los mapeos candidatos. - Reglas generadas por cada árbol. - Someter a votación cada mapeo candidato. - Ponderación de las reglas de cada árbol (Algoritmo WINNOW).
Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones
Ejemplo ilustrativo
Comparar objetos por sus atributos Resultados de similitud de atributos
Ejemplo ilustrativo Así, con todos los posibles mapeos candidatos… Salida del generador de candidatos (incluyendo el resultado de similitud total del objeto)
Ejemplo ilustrativo Aprendizaje de reglas de mapeo: Cuáles de los mapeos candidatos serán mapeos definitivos
Ejemplo ilustrativo MEDIADOR: Modelo de aplicación generado
Ejemplo ilustrativo MEDIADOR: Modelo de aplicación generado con tablas de mapeo
Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones
Trabajos relacionados
Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones
Trabaja con fuentes de objetos web estructuradas. Paso previo de EII. Específico del dominio de aplicación. Logra una alta exactitud, limitando la interacción del usuario. Las transformaciones de texto tienen distinta importancia para cada dominio específico de aplicación. Objetivo futuro Ponderar las transformaciones para cada dominio.
¡Gracias! ¿Preguntas?