OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones.

Slides:



Advertisements
Presentaciones similares
Aprendizaje Automatizado
Advertisements

Fundamentos de Lógica ¿Qué es una proposición?
Aprendizaje Automatizado
Análisis de Algoritmos
3. Funciones discriminantes para la f.d.p normal.
Aprendizaje Automatizado Ár boles de Clasificación.
Unidad II: Búsqueda de información en línea Profesor: Mabel Calderín Caracas, 2006 Programa de ampliación del Postgrado de Comunicación social Periodismo.
ALGORITMOS GEN É TICOS: DETECCI Ó N DE BORDES EN IM Á GENES Daniel Mej í as Pinto Luis Manuel Merino Su á rez.
ANÁLISIS DE LOS RESULTADOS DE LA PRUEBA PISA DE LECTURA – EL CASO CHILENO Máximo Quiero Bastías Magister en Gestión y Políticas Públicas Investigador
Parte II. Algorítmica. 5. Backtracking. 1. Análisis de algoritmos.
Escalabilidad en los Algoritmos de Aprendizaje de Redes Bayesianas ISL – Dpto de Informática – UCLM - Albacete.
© Prof. Dr. François E. Cellier Principio de la presentación Modelado Matemático de Sistemas Físicos Febrero 5, 2008 Resolución Eficaz de Sistemas de Ecuaciones.
Aprendizaje No Supervisado y Redes de Kohonen
Programación orientada a objetos Capítulo 5 Comportamiento más sofisticado.
ÁLGEBRA.
Jairo Pinto Ing. sistemas
JHOAN ESTEBAN BAYONA GOMEZ. ¿QUE ES PUBMED? PubMed es un motor de búsqueda de libre acceso a la base de datos MEDLINE de citaciones y resúmenes de artículos.
RUTA CRÍTICA DE LA INVESTIGACIÓN 0. Interes de conocimiento Me gustaría saber... Tengo que investigar Al decidirse investigar un interés de conocimiento,
Tópicos en Inteligencia Artificial I Universidad Católica San Pablo.
INTRODUCCIÓN A LAS BASES DE DATOS Revisión de Conceptos.
Bases de datos XML Integrantes: Aaron Siles Anthony Brenes Geudy Marin Gustavo Calderon Sergio Calvo.
Programación Orientada a Objetos Semestre agosto – diciembre 2011 Encuadre.
CITAS Y REFERENCIAS BIBLIOGRÁFICAS
ECUACIONES DE PRIMER Y SEGUNDO GRADO.
Modelo de Entidad-Relación (Modelo Conceptual) Ing. Linda Masias Morales INTEGRACION DE LAS TECNOLOGIAS DE INFORMACION Y COMUNICACION.
Elementos básicos del lenguaje Java Tipos, declaraciones, expresiones y asignaciones Fundamentos de Programación Departamento de Lenguajes y Sistemas Informáticos.
Grid Initiatives for e-Science virtual communities in Europe and Latin America Algoritmo Genético para la solución del problema SAT.
Seguridad en la Web Semántica Realizado por: Benítez Pedrero Jesús Alejandro.
Tutorial del catálogo de la Biblioteca Universitaria Actualización septiembre 2011 La pantalla que estás viendo muestra la descripción de un documento.
Se llama dominio de definición de una función al conjunto de valores de la variable independiente x para los que existe la función, es decir, para los.
Inecuaciones lineales o inecuaciones de primer grado
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
METODOLOGÍA CUALITATIVA Licenciatura en Comunicación Social, U. del Pacífico Cuarta semana de clases El proceso de construcción de un marco teórico Prof.
Clase II Estructuras dinámicas (TAD) Listas Enlazadas. ¿A que llamamos estructuras dinámicas? ¿Por qué son necesarias? Ventajas y Desventajas que tendremos.
Reutilización de código Elementos básicos del lenguaje Java Definición de variables, expresiones y asignaciones Fundamentos de Programación Departamento.
EL CONOCIMIENTO CIENTÍFICO Persona Entorno Conocimiento. El conocimiento es una realidad y una necesidad. El conocimiento lo constituyen 4 aspectos: –Es.
Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín.
LIBRARY AND INFORMATION SCIENCE ABSTRACTS (LISA).
Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik.
ESTE ES EL LISTADO DE LOS MEJORES GESTORES DE CONTENIDO (CMS) OPEN SOURCE EN 2015 LOS CMS LOS GESTORES DE CONTENIDO CMS OPEN SOURCE NOS HAN FACILITADO.
Accesibilidad Rafael Pedraza Jiménez Àrea de Coneixement de Biblioteconomia i Documentació Universitat Pompeu Fabra
Extracción de registros de datos Christian Marmolejo Gómez Algoritmo MDR.
ORGANIZACIÓN BACHILLERATO INTERNACIONAL. INTRODUCCIÓN: Aplicación de habilidades y conocimientos a situaciones reales de toma de decisiones Recabar investigación.
LA BÚSQUEDA DE INFORMACIÓN BIBLIOGRÁFICA Antonia María Fernández Luque Bibliotecaria-Documentalista del Hospital de la Axarquía noviembre de 2011.
Sistema para el Soporte de toma de Decisiones. Referencias Introducción DefiniciónReseña Histórica Clasificación Uso y Aplicaciones Tipos Componentes.
ÉTICA, ESTÉTICA Y CIUDADANÍA: Lenguaje, cultura identidad desde los programas de estudio.
Conceptos de sistemas de información 4 Sistema de información formal –Es un medio informativo organizacionalmente eficaz, que es diseñado con la finalidad.
EGA expresión gráfica arquitectónica -Arts & Humanities Citation Index -Current Contents / Arts & Humanities (acceso a través de Web of Knowledge) -Avery.
Desarrollo organizacional
“PRESENTACIÓN DE UN ENSAYO” ¿Qué es un ensayo? Es un escrito en el cual un autor desarrolla sus ideas brevemente, se caracteriza por ser libre cada autor.
ENUNCIADO: Es toda frase u oración que informa, expresa o dictamina alguna idea a través de afirmaciones o negaciones, preguntas, expresiones de emoción.
 GOOGLE  Es la mayor base de datos existente, presta sus servicios a otros buscadores como Yahoo y se actualiza con gran regularidad.  Añade automáticamente.
Búsquedas a ciegas Julián Andrés Hidalgo Mosquera.
WHISK Extracción automática de información por Francisco Javier Márquez López.
FI-GQ-GCMU V Presentación del curso Introducción a Licenciatura de matemáticas.
Optimización de Consultas Distribuidas. ÍNDICE Definiciones básicas Modelo de costo Estadísticas de la base de datos Optimización centralizada de consultas.
¿Cómo un fenómeno natural se puede convertir en un desastre ? ¿Cómo un fenómeno natural se puede convertir en un desastre ? Programa Nacional de Informática.
Melissa Victoria Mendiola Peralta.  Los algoritmos son las series de pasos por los cuales se resuelven los problemas.
¿Cómo un fenómeno natural se puede convertir en un desastre ? ¿Cómo un fenómeno natural se puede convertir en un desastre ? Programa Nacional de Informática.
UNIVERCIDAD NACIONAL DE CHIMBORAZO FACULTAD: CIENCIAS DE LA EDUCACIÓN HUMANAS Y TECNOLÓGICAS ESCUELA: EDUCACIÓN BÁSICA PRIMER SEMESTRE “A” TRABAJO DE:

FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
PPTCEG020EM31-A16V1 Resolución de problemas en los racionales EM-31.
The Science Citation Index. Science Citation Index.
Métodos Cuantitativos de Análisis de Datos I. Medidas de Variación.
Itinerario de Tecnología del Software. Itinerario de Tecnologías del Software Presentación Metodología y Tecnología de la Investigación (6). Tecnologías.
PROYECTO NYCE Notificaciones y Comunicaciones Electrónicas Ciclo 2.
Introducción a la Ingeniería del Software 1 El Diseño de Software Caracteristicas: Proceso Creativo Requiere de experiencia e ingenio Necesita del aprendizaje.
MARGETH CABRERA BARRIOS
Transcripción de la presentación:

OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN

Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

Introducción

Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

Estrategias  Divide y vencerás.  Método de cobertura.  Mixtas.

Divide y vencerás

1. Si todos los objetos son de la misma clase, estamos en un nodo raíz. 2. En base a algún atributo establecer un test. 3. Dividir el conjuntos de objetos en base al test. 4. Volver al paso 1.  Ejemplos: ID3, C4.5, CART.

Métodos de cobertura

1. Buscamos una conjunción que satisfaga solo a objetos de una determinada clase. 2. Añadimos esa conjunción como una disyunción a la expresión que estamos desarrollando. 3. Eliminamos los objetos cubiertos por la conjunción, y si aun quedan elementos por cubrir volvemos al paso 1.  Ejemplo: Familia de algoritmos AQ, CN2, Rivest.

Mixtos  Falta de expresividad  usar un lenguaje más potente  lógica de primer orden.  Combina ambos métodos para crear una representación más consistente.  Ejemplo: FOIL, FFOIL, Progol.

Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

FOIL  Crea una teoría T (colección de reglas) que permite explicar una relación R (colección de tuplas).  Para ello usa predicados de soporte y ejemplos.  Usos:  SRV: extracción de información.  Bioinformática: estructura secundaria de Proteínas.  Identificar partes de un documento.  Ajedrez.

DBLP

Predicados de soporte  hd aa  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Predicados de soporte  hd  a  td  anterior  posterior … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) … Teuvo Kohonen … … Krista Lagus, Samuel Kaski, Teuvo Kohonen: Mining massive document collections by the WEBSOM method. Inf. Sci. 163(1-3): (2004) 1999 … Teuvo Kohonen, Panu Somervuo : How to make large self-organizing maps for nonvectorial data. Neural Networks 15 (8-9): (2002) …

Autores de un artículo … autor(Teuvo Kohonen) autor (Krista Lagus) autor (Samuel Kaski) …. … autor(Teuvo Kohonen) autor (Krista Lagus) autor (Samuel Kaski) …. … posterior(Teuvo Kohonen, “:”) td(Krista Lagus) a(Neural Networks 19) …. … posterior(Teuvo Kohonen, “:”) td(Krista Lagus) a(Neural Networks 19) …. … autor(Self-organizing neural projections) autor (Neural Networks 19) autor (2006) …. … autor(Self-organizing neural projections) autor (Neural Networks 19) autor (2006) ….

Como se crea una nueva clausula  FOIL crea clausulas de la siguiente manera:  Q(X 1,X 2,X 3,…,X n ) donde Q es un predicado y X 1,…,Xn, son o bien variables nuevas o variables existentes  X i =X j donde X i y X j son variables existentes  X i =c donde X i es una variable existente y c una constante  La negación de cualquiera de las anteriores  X i = X j, X i = t donde X i y X j, son variables existentes y t es un umbral elegido por FOIL

Construcción de la teoría autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:”

Como se elige el nuevo literal 1. Si hay alguno que posee la ganancia más cercana a la máxima 2. Todos los literales determinados (bind) 3. Aquel con la máxima ganancia positiva 4. Todos los que introduzcan nuevas variables

Construcción de la teoría autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:” a(x)a(y)anterior(x, z)y = “.”x = “.”… autor(x) :- anterior(x, y), y="."

Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

Problema  Alto coste computacional.  Nuestra solución: Aplicar optimizaciones que reduzcan el número de términos a generar.

Optimizaciones 1. Ampliar el espacio de exploración. 2. Eliminar términos con ganancia Añadir semántica a los predicados.

Ampliar el espacio de búsqueda  FOIL:  Utiliza una estrategia de búsqueda en profundidad.  Optimización  Utilizar el algoritmo A* 1 para mejorar el espacio de búsqueda. 1 Hart, P., Nilsson, N., Raphael, B.: A Formal Basis for the Heuristic Determination of Minimum Cost Paths. In: IEEE Transactions on Systems Science and Cybernetics SSC4 (2), , (1968)

Ampliar el espacio de búsqueda

autor(x) a(x)anterior(x, y)!a(x)!anterior(x, y)…x = “:” a(x)a(y)anterior(x, z)y = “,”x = “.”… autor(x) :- anterior(x, y), y="."

Ampliar el espacio de búsqueda autor(x) td(x)posterior(x, y)!x=“.”

Ampliar el espacio de búsqueda autor((x) td(x)posterior(x, y)!x=“.” autor(x) :- precedido(x, y), anterior(x, z), y = “,”, z =“,”

Ampliar el espacio de búsqueda autor((x) td(x)posterior(x, y)!x=“.” autor(x) :- precedido(x, y), anterior(x, z), y = “,”, z =“,”

Eliminar términos con ganancia 0  FOIL:  Usa la ganancia para seleccionar el término.  Optimización  Usarla para eliminar términos.  Desventaja:  Pueden ser necesarios después.

Eliminar términos con ganancia 0 autor(x) td(x)anterior(x, y)!td(x)!anterior(x, y)…x = “:” td(x)!td(y)anterior(x, z)y = “,”x = “:”… G=0 autor(x) :- anterior(x, y), y="." G=0 X

Añadir semántica a los predicados  FOIL:  Los predicados carecen de significado.  Optimización  Añadir semántica a los predicados.  Establece relaciones de incompatibilidad entre los predicados en la teoría.  Desventaja:  No siempre es fácil expresar el significado de los predicados.

Añadir semántica a los predicados  x, y: Literal anterior(x, y). ! iguales(x, y)  x, y: Literal posterior(x, y). ! iguales(x, y)

Añadir semántica a los predicados autor(x) td(x)anterior(x, y)a(x)posterior(x, x)…anterior(x, x) posterior(y, y)!td(y)anterior(x, x)y = “.”x = “:”… autor( x) :- anterior(x, y), y="."

Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

Resultados

Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones

Conclusiones  Trabajo en desarrollo.  Actualmente...  Implementar heurísticas en la elección de predicados.  Determinar una medida de calidad para las reglas que se generan y mejorar así la elección.  Establecer mecanismos para mejorar la tokenización de las páginas webs.  Mejorar la expresividad de las reglas generadas usando expresiones regulares.  Desarrollar una especificación en lenguaje Z de FOIL y sus optimizaciones.

Muchas gracias ¿Estás interesado en este trabajo? Mándanos un a Visita nuestra página web