La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones.

Presentaciones similares


Presentación del tema: "OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones."— Transcripción de la presentación:

1 OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN

2 Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

3 Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

4 Introducción

5 Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

6 Estrategias  Divide y vencerás.  Método de cobertura.  Mixtas.

7 Divide y vencerás

8 1. Si todos los objetos son de la misma clase, estamos en un nodo raíz. 2. En base a algún atributo establecer un test. 3. Dividir el conjuntos de objetos en base al test. 4. Volver al paso 1.  Ejemplos: ID3, C4.5, CART.

9 Métodos de cobertura

10 1. Buscamos una conjunción que satisfaga solo a objetos de una determinada clase. 2. Añadimos esa conjunción como una disyunción a la expresión que estamos desarrollando. 3. Eliminamos los objetos cubiertos por la conjunción, y si aun quedan elementos por cubrir volvemos al paso 1.  Ejemplo: Familia de algoritmos AQ, CN2, Rivest.

11 Mixtos  Falta de expresividad  usar un lenguaje más potente  lógica de primer orden.  Combina ambos métodos para crear una representación más consistente.  Ejemplo: FOIL, FFOIL, Progol.

12 Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

13 FOIL  Crea una teoría T (colección de reglas) que permite explicar una relación R (colección de tuplas).  Para ello usa predicados de soporte y ejemplos.  Usos:  SRV: extracción de información.  Bioinformática: estructura secundaria de Proteínas.  Identificar partes de un documento.  Ajedrez.

14 DBLP

15 Predicados de soporte  hd aa  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

16 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

17 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

18 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

19 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

20 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

21 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

22 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

23 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

24 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

25 Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

26 Autores de un artículo … autor(Teuvo Kohonen) autor (Krista Lagus) autor (Samuel Kaski) …. … autor(Teuvo Kohonen) autor (Krista Lagus) autor (Samuel Kaski) …. … posterior(Teuvo Kohonen, “:”) td(Krista Lagus) a(Neural Networks 19) …. … posterior(Teuvo Kohonen, “:”) td(Krista Lagus) a(Neural Networks 19) …. … autor(Self-organizing neural projections) autor (Neural Networks 19) autor (2006) …. … autor(Self-organizing neural projections) autor (Neural Networks 19) autor (2006) ….

27 Como se crea una nueva clausula  FOIL crea clausulas de la siguiente manera:  Q(X 1,X 2,X 3,…,X n ) donde Q es un predicado y X 1,…,Xn, son o bien variables nuevas o variables existentes  X i =X j donde X i y X j son variables existentes  X i =c donde X i es una variable existente y c una constante  La negación de cualquiera de las anteriores  X i = X j, X i = t donde X i y X j, son variables existentes y t es un umbral elegido por FOIL

28 Construcción de la teoría autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:”

29 Como se elige el nuevo literal 1. Si hay alguno que posee la ganancia más cercana a la máxima 2. Todos los literales determinados (bind) 3. Aquel con la máxima ganancia positiva 4. Todos los que introduzcan nuevas variables

30 Construcción de la teoría autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:” a(x)a(y)anterior(x, z)y = “.”x = “.”… autor(x) :- anterior(x, y), y="."

31 Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

32 Problema  Alto coste computacional.  Nuestra solución: Aplicar optimizaciones que reduzcan el número de términos a generar.

33 Optimizaciones 1. Ampliar el espacio de exploración. 2. Eliminar términos con ganancia 0. 3. Añadir semántica a los predicados.

34 Ampliar el espacio de búsqueda  FOIL:  Utiliza una estrategia de búsqueda en profundidad.  Optimización  Utilizar el algoritmo A* 1 para mejorar el espacio de búsqueda. 1 Hart, P., Nilsson, N., Raphael, B.: A Formal Basis for the Heuristic Determination of Minimum Cost Paths. In: IEEE Transactions on Systems Science and Cybernetics SSC4 (2), 100107, (1968)

35 Ampliar el espacio de búsqueda

36

37

38 autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:” a(x)a(y)anterior(x, z)y = “,”x = “.”… autor(x) :- anterior(x, y), y="."

39 Ampliar el espacio de búsqueda autor(x) td(x)posterior(x, y)!x=“.”

40 Ampliar el espacio de búsqueda autor((x) td(x)posterior(x, y)!x=“.” autor(x) :- precedido(x, y), anterior(x, z), y = “,”, z =“,”

41 Ampliar el espacio de búsqueda autor((x) td(x)posterior(x, y)!x=“.” autor(x) :- precedido(x, y), anterior(x, z), y = “,”, z =“,”

42 Eliminar términos con ganancia 0  FOIL:  Usa la ganancia para seleccionar el término.  Optimización  Usarla para eliminar términos.  Desventaja:  Pueden ser necesarios después.

43 Eliminar términos con ganancia 0 autor(x) td(x)anterior(x, y)!td(x)!anterior(x, y)…x = “:” td(x)!td(y)anterior(x, z)y = “,”x = “:”… G=0 autor(x) :- anterior(x, y), y="." G=0 X

44 Añadir semántica a los predicados  FOIL:  Los predicados carecen de significado.  Optimización  Añadir semántica a los predicados.  Establece relaciones de incompatibilidad entre los predicados en la teoría.  Desventaja:  No siempre es fácil expresar el significado de los predicados.

45 Añadir semántica a los predicados  x, y: Literal anterior(x, y). ! iguales(x, y)  x, y: Literal posterior(x, y). ! iguales(x, y)

46 Añadir semántica a los predicados autor(x) td(x)anterior(x, y)a(x)posterior(x, x)…anterior(x, x) posterior(y, y)!td(y)anterior(x, x)y = “.”x = “:”… autor( x) :- anterior(x, y), y="."

47 Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

48 Resultados

49

50 Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

51 Conclusiones  Trabajo en desarrollo.  Actualmente...  Implementar heurísticas en la elección de predicados.  Determinar una medida de calidad para las reglas que se generan y mejorar así la elección.  Establecer mecanismos para mejorar la tokenización de las páginas webs.  Mejorar la expresividad de las reglas generadas usando expresiones regulares.  Desarrollar una especificación en lenguaje Z de FOIL y sus optimizaciones.

52 Muchas gracias ¿Estás interesado en este trabajo? Mándanos un e-mail a pablo.palacios@diesia.uh.es Visita nuestra página web http://tdg.lsi.us.es


Descargar ppt "OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones."

Presentaciones similares


Anuncios Google