OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones.

OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN

Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

Introducción

Estrategias  Divide y vencerás.  Método de cobertura.  Mixtas.

Divide y vencerás

1. Si todos los objetos son de la misma clase, estamos en un nodo raíz. 2. En base a algún atributo establecer un test. 3. Dividir el conjuntos de objetos en base al test. 4. Volver al paso 1.  Ejemplos: ID3, C4.5, CART.

Métodos de cobertura

1. Buscamos una conjunción que satisfaga solo a objetos de una determinada clase. 2. Añadimos esa conjunción como una disyunción a la expresión que estamos desarrollando. 3. Eliminamos los objetos cubiertos por la conjunción, y si aun quedan elementos por cubrir volvemos al paso 1.  Ejemplo: Familia de algoritmos AQ, CN2, Rivest.

Mixtos  Falta de expresividad  usar un lenguaje más potente  lógica de primer orden.  Combina ambos métodos para crear una representación más consistente.  Ejemplo: FOIL, FFOIL, Progol.

FOIL  Crea una teoría T (colección de reglas) que permite explicar una relación R (colección de tuplas).  Para ello usa predicados de soporte y ejemplos.  Usos:  SRV: extracción de información.  Bioinformática: estructura secundaria de Proteínas.  Identificar partes de un documento.  Ajedrez.

Predicados de soporte  hd aa  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): 135- 156 (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): 945-952 (2002) …

Autores de un artículo … autor(Teuvo Kohonen) autor (Krista Lagus) autor (Samuel Kaski) …. … autor(Teuvo Kohonen) autor (Krista Lagus) autor (Samuel Kaski) …. … posterior(Teuvo Kohonen, “:”) td(Krista Lagus) a(Neural Networks 19) …. … posterior(Teuvo Kohonen, “:”) td(Krista Lagus) a(Neural Networks 19) …. … autor(Self-organizing neural projections) autor (Neural Networks 19) autor (2006) …. … autor(Self-organizing neural projections) autor (Neural Networks 19) autor (2006) ….

Como se crea una nueva clausula  FOIL crea clausulas de la siguiente manera:  Q(X 1,X 2,X 3,…,X n ) donde Q es un predicado y X 1,…,Xn, son o bien variables nuevas o variables existentes  X i =X j donde X i y X j son variables existentes  X i =c donde X i es una variable existente y c una constante  La negación de cualquiera de las anteriores  X i = X j, X i = t donde X i y X j, son variables existentes y t es un umbral elegido por FOIL

Construcción de la teoría autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:”

Como se elige el nuevo literal 1. Si hay alguno que posee la ganancia más cercana a la máxima 2. Todos los literales determinados (bind) 3. Aquel con la máxima ganancia positiva 4. Todos los que introduzcan nuevas variables

Construcción de la teoría autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:” a(x)a(y)anterior(x, z)y = “.”x = “.”… autor(x) :- anterior(x, y), y="."

Problema  Alto coste computacional.  Nuestra solución: Aplicar optimizaciones que reduzcan el número de términos a generar.

Optimizaciones 1. Ampliar el espacio de exploración. 2. Eliminar términos con ganancia 0. 3. Añadir semántica a los predicados.

Ampliar el espacio de búsqueda  FOIL:  Utiliza una estrategia de búsqueda en profundidad.  Optimización  Utilizar el algoritmo A* 1 para mejorar el espacio de búsqueda. 1 Hart, P., Nilsson, N., Raphael, B.: A Formal Basis for the Heuristic Determination of Minimum Cost Paths. In: IEEE Transactions on Systems Science and Cybernetics SSC4 (2), 100107, (1968)

Ampliar el espacio de búsqueda

autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:” a(x)a(y)anterior(x, z)y = “,”x = “.”… autor(x) :- anterior(x, y), y="."

Ampliar el espacio de búsqueda autor(x) td(x)posterior(x, y)!x=“.”

Ampliar el espacio de búsqueda autor((x) td(x)posterior(x, y)!x=“.” autor(x) :- precedido(x, y), anterior(x, z), y = “,”, z =“,”

Eliminar términos con ganancia 0  FOIL:  Usa la ganancia para seleccionar el término.  Optimización  Usarla para eliminar términos.  Desventaja:  Pueden ser necesarios después.

Eliminar términos con ganancia 0 autor(x) td(x)anterior(x, y)!td(x)!anterior(x, y)…x = “:” td(x)!td(y)anterior(x, z)y = “,”x = “:”… G=0 autor(x) :- anterior(x, y), y="." G=0 X

Añadir semántica a los predicados  FOIL:  Los predicados carecen de significado.  Optimización  Añadir semántica a los predicados.  Establece relaciones de incompatibilidad entre los predicados en la teoría.  Desventaja:  No siempre es fácil expresar el significado de los predicados.

Añadir semántica a los predicados  x, y: Literal anterior(x, y). ! iguales(x, y)  x, y: Literal posterior(x, y). ! iguales(x, y)

Añadir semántica a los predicados autor(x) td(x)anterior(x, y)a(x)posterior(x, x)…anterior(x, x) posterior(y, y)!td(y)anterior(x, x)y = “.”x = “:”… autor( x) :- anterior(x, y), y="."

Resultados

Conclusiones  Trabajo en desarrollo.  Actualmente...  Implementar heurísticas en la elección de predicados.  Determinar una medida de calidad para las reglas que se generan y mejorar así la elección.  Establecer mecanismos para mejorar la tokenización de las páginas webs.  Mejorar la expresividad de las reglas generadas usando expresiones regulares.  Desarrollar una especificación en lenguaje Z de FOIL y sus optimizaciones.

Muchas gracias ¿Estás interesado en este trabajo? Mándanos un e-mail a pablo.palacios@diesia.uh.es Visita nuestra página web http://tdg.lsi.us.es

OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones.

Presentaciones similares

Presentación del tema: "OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones.

Presentaciones similares

Presentación del tema: "OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback