La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1.

Presentaciones similares


Presentación del tema: "FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1."— Transcripción de la presentación:

1 FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1

2 Índice 2  SVR  Trabajo  Conclusiones

3 Índice 3  SVR  Trabajo  Conclusiones

4 SVR 4  Fue el primer algoritmo que uso FOIL para la extracción de información.  FOIL es un algoritmo de inducción lógica desarrollado por Quilian.  Trata de crear una teoría (colección de reglas) que permitan explicar una relación R (colección de tuplas).  Para ello parte de la propia relación R, una posible colección de predicados ya definidos y la asunción de la hipótesis del mundo cerrado (todo ejemplo que no esté en R es falso).

5 Ejemplo 5  Supongamos que deseamos aprender el predicado plus(A,B,C) instanciado en las tuplas:  (0,0,0), (1,0,1), (2,0,2), (0,1,1), (1,1,2), (0,2,2)  Y tenemos además el predicado dec (A,B) instanciado en las tuplas:  (1,0) y (2,1)

6 Como se crea una nueva clausula 6  FOIL crea clausulas de la siguiente manera:  Q(X1,X2,X3,…,Xn) donde Q es un predicado y X1,…,Xn, son o bien variables nuevas o variables existentes  Xi=Xj donde Xi y Xj son variables existentes  Xi=c donde Xi es una variable existente y c una constante  La negación de cualquiera de las anteriores  Xi = Xj, Xi = t donde Xi y Xj son variables existentes y t es un umbral elegido por FOIL

7 Ejemplo 7 plus(A,B,C)dec(A,B)…!dec(A,C)…A=0

8 Como se elige el nuevo literal 8 1. Si hay alguno que posee la ganancia más cercana a la máxima 2. Todos los literales determinados (bind) 3. Aquel con la máxima ganancia positiva 4. Todos los que introduzcan nuevas variables

9 Ejemplo 9 plus(A,B,C)A=0B=C

10 Ejemplo 10 plus(A,B,C)A=0B=C

11 Ejemplo 11 plus(A,B,C)A=0B=Cdet(A,D)det(C,E)Plus(B,D,C)

12 Problemática 12  El principal gasto computacional se produce en  Por ello es importante reducir el número de reglas a generar.

13 Índice 13  SVR  Trabajo  Conclusiones

14 Trabajo 14  Optimización de FOIL a nivel de algoritmo.  Optimización a partir de la información contenido en el árbol dom (relaciones de proximidad, estructura del árbol).  Optimización en base al propio texto (anaforas, relaciones semánticas).

15 Optimizaciones 15  Todos las mejoras tratan de reducir el número de términos a calcular:  Restringir la exploración de nuevos términos.  Eliminar aquellos términos con ganancia poco significativa.  Añadir semántica mediante un conjunto simple de predicados que restrinjan los nuevos literales a generar a partir de un predicado dado.

16 Restringir 16  FOIL hace un exploración completa de todas las posibles términos a introducir.  Podríamos solo calcular algunos de ellos, por ejemplo quedarnos con el primero con ganancia positiva o con el mejor de los tres primeros.

17 Restringir 17  El principal problema es la calidad final de las producciones obtenidas.

18 Ganancia 18  La ganancia puede tener tres posibles valores:  Positiva: indica que el nuevo término mejora la regla que estamos calculando.  Negativa: indica que el nuevo término empeora la regla que estamos calculando.  Cero: en esta caso indica que el nuevo término no añade ningún tipo de información.  Podemos usar esta información para eliminar producciones.

19 Ganancia 19  Un posible mejora seria eliminar de los términos a evaluar aquellos cuya ganancia sea 0, puesto que no proporcionan a priori ningún tipo de ganancia representativa.  El problema es que podríamos necesitarlos a posteriori.

20 Semántica 20  Otra posible mejora seria tratar de añadir conocimiento al problema por parte del usuario.  Una forma de hacerlo sería añadir “semántica” a los predicados.

21 Semántica 21  Por ejemplo si queremos calcula el predicado abuelo (x, y) y tenemos los predicados progenitor (x, y), padre (x, y) y madre(x, y).  Podríamos añadir la siguiente semántica: abuelo(x, y) : iguales(x, y), negativo(x, y). progenitor(x, y) : iguales(x, y), negativo(x, y). madre(x, y) : iguales(x, y), negativo(x, y). padre(x, y) : iguales(x, y), negativo(x, y).

22 Un ejemplo real. 22  Dada la siguiente página:

23 Índice 23  SVR  Trabajo  Conclusiones

24 Conclusiones 24  Aunque presentan mejoras aun no son lo suficientemente significativas  Preguntas y sugerencias  Estancia en Castellón con el Dr. Berlanga


Descargar ppt "FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1."

Presentaciones similares


Anuncios Google