Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porRocío Núñez Arroyo Modificado hace 8 años
1
FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1
2
Índice 2 SVR Trabajo Conclusiones
3
Índice 3 SVR Trabajo Conclusiones
4
SVR 4 Fue el primer algoritmo que uso FOIL para la extracción de información. FOIL es un algoritmo de inducción lógica desarrollado por Quilian. Trata de crear una teoría (colección de reglas) que permitan explicar una relación R (colección de tuplas). Para ello parte de la propia relación R, una posible colección de predicados ya definidos y la asunción de la hipótesis del mundo cerrado (todo ejemplo que no esté en R es falso).
5
Ejemplo 5 Supongamos que deseamos aprender el predicado plus(A,B,C) instanciado en las tuplas: (0,0,0), (1,0,1), (2,0,2), (0,1,1), (1,1,2), (0,2,2) Y tenemos además el predicado dec (A,B) instanciado en las tuplas: (1,0) y (2,1)
6
Como se crea una nueva clausula 6 FOIL crea clausulas de la siguiente manera: Q(X1,X2,X3,…,Xn) donde Q es un predicado y X1,…,Xn, son o bien variables nuevas o variables existentes Xi=Xj donde Xi y Xj son variables existentes Xi=c donde Xi es una variable existente y c una constante La negación de cualquiera de las anteriores Xi = Xj, Xi = t donde Xi y Xj son variables existentes y t es un umbral elegido por FOIL
7
Ejemplo 7 plus(A,B,C)dec(A,B)…!dec(A,C)…A=0
8
Como se elige el nuevo literal 8 1. Si hay alguno que posee la ganancia más cercana a la máxima 2. Todos los literales determinados (bind) 3. Aquel con la máxima ganancia positiva 4. Todos los que introduzcan nuevas variables
9
Ejemplo 9 plus(A,B,C)A=0B=C
10
Ejemplo 10 plus(A,B,C)A=0B=C
11
Ejemplo 11 plus(A,B,C)A=0B=Cdet(A,D)det(C,E)Plus(B,D,C)
12
Problemática 12 El principal gasto computacional se produce en Por ello es importante reducir el número de reglas a generar.
13
Índice 13 SVR Trabajo Conclusiones
14
Trabajo 14 Optimización de FOIL a nivel de algoritmo. Optimización a partir de la información contenido en el árbol dom (relaciones de proximidad, estructura del árbol). Optimización en base al propio texto (anaforas, relaciones semánticas).
15
Optimizaciones 15 Todos las mejoras tratan de reducir el número de términos a calcular: Restringir la exploración de nuevos términos. Eliminar aquellos términos con ganancia poco significativa. Añadir semántica mediante un conjunto simple de predicados que restrinjan los nuevos literales a generar a partir de un predicado dado.
16
Restringir 16 FOIL hace un exploración completa de todas las posibles términos a introducir. Podríamos solo calcular algunos de ellos, por ejemplo quedarnos con el primero con ganancia positiva o con el mejor de los tres primeros.
17
Restringir 17 El principal problema es la calidad final de las producciones obtenidas.
18
Ganancia 18 La ganancia puede tener tres posibles valores: Positiva: indica que el nuevo término mejora la regla que estamos calculando. Negativa: indica que el nuevo término empeora la regla que estamos calculando. Cero: en esta caso indica que el nuevo término no añade ningún tipo de información. Podemos usar esta información para eliminar producciones.
19
Ganancia 19 Un posible mejora seria eliminar de los términos a evaluar aquellos cuya ganancia sea 0, puesto que no proporcionan a priori ningún tipo de ganancia representativa. El problema es que podríamos necesitarlos a posteriori.
20
Semántica 20 Otra posible mejora seria tratar de añadir conocimiento al problema por parte del usuario. Una forma de hacerlo sería añadir “semántica” a los predicados.
21
Semántica 21 Por ejemplo si queremos calcula el predicado abuelo (x, y) y tenemos los predicados progenitor (x, y), padre (x, y) y madre(x, y). Podríamos añadir la siguiente semántica: abuelo(x, y) : iguales(x, y), negativo(x, y). progenitor(x, y) : iguales(x, y), negativo(x, y). madre(x, y) : iguales(x, y), negativo(x, y). padre(x, y) : iguales(x, y), negativo(x, y).
22
Un ejemplo real. 22 Dada la siguiente página:
23
Índice 23 SVR Trabajo Conclusiones
24
Conclusiones 24 Aunque presentan mejoras aun no son lo suficientemente significativas Preguntas y sugerencias Estancia en Castellón con el Dr. Berlanga
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.