La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín.

Presentaciones similares


Presentación del tema: "Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín."— Transcripción de la presentación:

1 Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín

2 Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

3 Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

4 Introducción Objetos en la web con diferentes formatos de texto (inconsistentes). Ejemplo de dominio de restaurantes

5 Introducción Objetivo del sistema: Identificar objetos relacionados que hacen referencia a la misma entidad física. No usar únicamente la igualdad del texto como fuente de comparación.

6 Introducción Nuestros Conjunto de objetos atributos VITAL IMPORTANCIA PARA IDENTIFICAR LA RELACIÓN ENTRE OBJETOS

7 Introducción Dominio de restaurantes

8 Introducción Atributos con distinta importancia para decidir un mapeo entre objetos. Identificar posibles similitudes de texto entre los atributos de los objetos. Reglas de decisión para testear la importancia de cada atributo.

9 Introducción Problemas del aprendizaje de reglas: 1.- Limitado por la entrada del usuario. 2.- Proceso semiautomático. 3.- Específico del dominio de la aplicación. 4.- Conocimientos necesarios que no están intrínsecos en los datos.

10 Introducción Aplicación de Active Atlas (Ejemplo de dominio de aplicación: Integración de información de restaurantes)

11 Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

12 Reglas de identificación de objetos Estructura general del sistema

13 Reglas de identificación de objetos PASOS DEL ALGORITMO: 1.- Cálculo de resultados de similitud de objetos. 2.- Aprendizaje de reglas de mapeo.

14 PASO 1: Resultados de similitud de objetos ENTRADA: Los objetos de las fuentes de datos a integrar. Comparación de atributos de los objetos. Generación de mapeos candidatos  Objetos que presentan transformaciones de texto. Etiquetado manual de los mapeos candidatos. Cada mapeo candidato: - Resultado de similitud de sus atributos. - Resultado de similitud total de los objetos.

15 PASO 1: Resultados de similitud de objetos Funciones generales de transformación: TIPO I: (Un solo token) - Stemming. - Soundex. - Abreviaturas. TIPO II: (Tokens de dos objetos) - Igualdad. - Subcadenas. - Inicial. - Abreviaturas. - Prefijos. - Acrónimos. - Sufijos.

16 PASO 1: Resultados de similitud de objetos Resultados de similitud de atributos (I): - Distancia coseno. - Tokenizar los valores de los atributos. - Comparar los tokens con un corpus de palabras (W)  Un array de enteros por cada valor del atributo en cada fuente. a x b SIM (a, b) = cos a b = |a||b|

17 PASO 1: Resultados de similitud de objetos Resultados de similitud de atributos (II): - Generación del array de enteros (resp. b): 0 sii w no aparece en a. (1+log TF a,w ) * log IDF w e. o. c. a, b = Valores de los atributos en las fuentes w = Cada palabra que forma el corpus. - Optimización  Ponderar las transformaciones.

18 PASO 1: Resultados de similitud de objetos Resultados de similitud total del objeto: - Suma ponderada de los resultados de similitud de cada atributo. - Peso único de cada atributo: Número de valores únicos para el atributo Número total de valores para el atributo - Un peso único de atributo por cada fuente a integrar  Multiplicar el resultado de similitud del atributo por cada peso único de cada fuente y sumarlo.

19 PASO 2: Aprendizaje de reglas de mapeo Aprendizaje de árboles de decisión: - Técnica inductiva a partir de un conjunto de entrenamiento (Algoritmo C4.5). - En cada nivel se elige el atributo con mayor ganancia de información (mejor clasificador). - Generar reglas a partir del árbol aprendido.

20 PASO 2: Aprendizaje de reglas de mapeo Aprendizaje activo: - Conjunto de árboles de decisión. - Inicializar cada árbol con subconjunto aleatorio y representativo de los mapeos candidatos. - Reglas generadas por cada árbol. - Someter a votación cada mapeo candidato. - Ponderación de las reglas de cada árbol (Algoritmo WINNOW).

21 Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

22 Ejemplo ilustrativo

23 Comparar objetos por sus atributos Resultados de similitud de atributos

24 Ejemplo ilustrativo Así, con todos los posibles mapeos candidatos… Salida del generador de candidatos (incluyendo el resultado de similitud total del objeto)

25 Ejemplo ilustrativo Aprendizaje de reglas de mapeo: Cuáles de los mapeos candidatos serán mapeos definitivos

26 Ejemplo ilustrativo MEDIADOR: Modelo de aplicación generado

27 Ejemplo ilustrativo MEDIADOR: Modelo de aplicación generado con tablas de mapeo

28 Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

29 Trabajos relacionados

30 Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

31 Trabaja con fuentes de objetos web estructuradas. Paso previo de EII. Específico del dominio de aplicación. Logra una alta exactitud, limitando la interacción del usuario. Las transformaciones de texto tienen distinta importancia para cada dominio específico de aplicación. Objetivo futuro  Ponderar las transformaciones para cada dominio.

32 ¡Gracias! ¿Preguntas?


Descargar ppt "Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín."

Presentaciones similares


Anuncios Google