OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN
Índice Introducción Estrategias FOIL Optimizaciones Resultados Conclusiones
Índice Introducción Estrategias FOIL Optimizaciones Resultados Conclusiones
Introducción
Índice Introducción Estrategias FOIL Optimizaciones Resultados Conclusiones
Estrategias Divide y vencerás. Método de cobertura. Mixtas.
Divide y vencerás
1. Si todos los objetos son de la misma clase, estamos en un nodo raíz. 2. En base a algún atributo establecer un test. 3. Dividir el conjuntos de objetos en base al test. 4. Volver al paso 1. Ejemplos: ID3, C4.5, CART.
Métodos de cobertura
1. Buscamos una conjunción que satisfaga solo a objetos de una determinada clase. 2. Añadimos esa conjunción como una disyunción a la expresión que estamos desarrollando. 3. Eliminamos los objetos cubiertos por la conjunción, y si aun quedan elementos por cubrir volvemos al paso 1. Ejemplo: Familia de algoritmos AQ, CN2, Rivest.
Mixtos Falta de expresividad usar un lenguaje más potente lógica de primer orden. Combina ambos métodos para crear una representación más consistente. Ejemplo: FOIL, FFOIL, Progol.
Índice Introducción Estrategias FOIL Optimizaciones Resultados Conclusiones
FOIL Crea una teoría T (colección de reglas) que permite explicar una relación R (colección de tuplas). Para ello usa predicados de soporte y ejemplos. Usos: SRV: extracción de información. Bioinformática: estructura secundaria de Proteínas. Identificar partes de un documento. Ajedrez.
DBLP
Predicados de soporte hd aa td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Predicados de soporte hd a td anterior posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …
Autores de un artículo … autor(Teuvo Kohonen) autor (Krista Lagus) autor (Samuel Kaski) …. … autor(Teuvo Kohonen) autor (Krista Lagus) autor (Samuel Kaski) …. … posterior(Teuvo Kohonen, “:”) td(Krista Lagus) a(Neural Networks 19) …. … posterior(Teuvo Kohonen, “:”) td(Krista Lagus) a(Neural Networks 19) …. … autor(Self-organizing neural projections) autor (Neural Networks 19) autor (2006) …. … autor(Self-organizing neural projections) autor (Neural Networks 19) autor (2006) ….
Como se crea una nueva clausula FOIL crea clausulas de la siguiente manera: Q(X 1,X 2,X 3,…,X n ) donde Q es un predicado y X 1,…,Xn, son o bien variables nuevas o variables existentes X i =X j donde X i y X j son variables existentes X i =c donde X i es una variable existente y c una constante La negación de cualquiera de las anteriores X i = X j, X i = t donde X i y X j, son variables existentes y t es un umbral elegido por FOIL
Construcción de la teoría autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:”
Como se elige el nuevo literal 1. Si hay alguno que posee la ganancia más cercana a la máxima 2. Todos los literales determinados (bind) 3. Aquel con la máxima ganancia positiva 4. Todos los que introduzcan nuevas variables
Construcción de la teoría autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:” a(x)a(y)anterior(x, z)y = “.”x = “.”… autor(x) :- anterior(x, y), y="."
Índice Introducción Estrategias FOIL Optimizaciones Resultados Conclusiones
Problema Alto coste computacional. Nuestra solución: Aplicar optimizaciones que reduzcan el número de términos a generar.
Optimizaciones 1. Ampliar el espacio de exploración. 2. Eliminar términos con ganancia Añadir semántica a los predicados.
Ampliar el espacio de búsqueda FOIL: Utiliza una estrategia de búsqueda en profundidad. Optimización Utilizar el algoritmo A* 1 para mejorar el espacio de búsqueda. 1 Hart, P., Nilsson, N., Raphael, B.: A Formal Basis for the Heuristic Determination of Minimum Cost Paths. In: IEEE Transactions on Systems Science and Cybernetics SSC4 (2), , (1968)
Ampliar el espacio de búsqueda
autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:” a(x)a(y)anterior(x, z)y = “,”x = “.”… autor(x) :- anterior(x, y), y="."
Ampliar el espacio de búsqueda autor(x) td(x)posterior(x, y)!x=“.”
Ampliar el espacio de búsqueda autor((x) td(x)posterior(x, y)!x=“.” autor(x) :- precedido(x, y), anterior(x, z), y = “,”, z =“,”
Ampliar el espacio de búsqueda autor((x) td(x)posterior(x, y)!x=“.” autor(x) :- precedido(x, y), anterior(x, z), y = “,”, z =“,”
Eliminar términos con ganancia 0 FOIL: Usa la ganancia para seleccionar el término. Optimización Usarla para eliminar términos. Desventaja: Pueden ser necesarios después.
Eliminar términos con ganancia 0 autor(x) td(x)anterior(x, y)!td(x)!anterior(x, y)…x = “:” td(x)!td(y)anterior(x, z)y = “,”x = “:”… G=0 autor(x) :- anterior(x, y), y="." G=0 X
Añadir semántica a los predicados FOIL: Los predicados carecen de significado. Optimización Añadir semántica a los predicados. Establece relaciones de incompatibilidad entre los predicados en la teoría. Desventaja: No siempre es fácil expresar el significado de los predicados.
Añadir semántica a los predicados x, y: Literal anterior(x, y). ! iguales(x, y) x, y: Literal posterior(x, y). ! iguales(x, y)
Añadir semántica a los predicados autor(x) td(x)anterior(x, y)a(x)posterior(x, x)…anterior(x, x) posterior(y, y)!td(y)anterior(x, x)y = “.”x = “:”… autor( x) :- anterior(x, y), y="."
Índice Introducción Estrategias FOIL Optimizaciones Resultados Conclusiones
Resultados
Índice Introducción Estrategias FOIL Optimizaciones Resultados Conclusiones
Conclusiones Trabajo en desarrollo. Actualmente... Implementar heurísticas en la elección de predicados. Determinar una medida de calidad para las reglas que se generan y mejorar así la elección. Establecer mecanismos para mejorar la tokenización de las páginas webs. Mejorar la expresividad de las reglas generadas usando expresiones regulares. Desarrollar una especificación en lenguaje Z de FOIL y sus optimizaciones.
Muchas gracias ¿Estás interesado en este trabajo? Mándanos un a Visita nuestra página web