FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1.

Slides:



Advertisements
Presentaciones similares
Tema 4. Juegos simultáneos con información incompleta.
Advertisements

funciones Por: Carlos Alberto García Acosta
Conceptos Hoja de cálculo. Concepto.
Diferenciación e Integración Numérica
UNIDAD 3 RELACIONES Y FUNCIONES
10. LIMITES DE FUNCIONES Definición de límite
Ecuaciones diferenciales de 1er orden :
Introducción a Funciones de una variable
Answering Queries Using Views (Levy, Mendelzon, Sagiv, Srivastava) Javier López C.
Juan José Cortés Orozco. Antonio Muñoz Torres.
EXPONENTES Y RADICALES
Probabilidad condicional
Resolución de Problemas Método Simplex
FUNCIONES LOGICAS SI(PL;V_V;V_F)
UNIDAD 2:Crear, abrir y cerrar una base de datos Hacer clic sobre la opción Nuevo de la pestaña Archivo. Se mostrarán las distintas opciones para nuevos.
Sociología de las organizaciones
Representación del conocimiento
TEMA 4 TRANSFORMADA DE LAPLACE
Inteligencia artificial
Descomposición Factorial Unidad 5
RESOLUCIÓN DE ECUACIONES CUADRÁTICAS MATEMÁTICAS III.
Elasticidad Febrero de
Trabajo puntos de equilibrio
Punto de equilibrio Nombre: Jaime Sleman Gonzalo Neira Víctor Carrasco
Metodología para solución de problemas
CINEMÁTICA Movimiento Rectilíneo Uniformemente Acelerado (MRUA) O
Estadística II Regresión Lineal.
Septiembre  Responde a quienes y cuantas personas se aplicará el instrumento de recolección de datos.
Desarrollo de lógica algorítmica.
EII405 Investigación de operaciones
CONSTANTES DENTRO DE UN CÁLCULO O EN LOS PASOS PARA SOLUCIONAR UN PROBLEMA, EXISTIRÁN VALORES QUE NUNCA VAN A CAMBIAR Y SE LOS CONOCE COMO CONSTANTES.
REGLAS PARA ELABORAR SEUDOCODIGOS Y DIAGRAMA DE FLUJO
Fundamentos de Computación
Mini-video 2 de 5 Materia: Límites de funciones Continuidad de funciones Prácticas con Introducción a Funciones de una variable.
TEMA 1.  Límites de funciones.  Continuidad de funciones.  Derivabilidad. Propiedades de las funciones derivables.  Optimización.
1 Módulo 1: Medicíon y Aprendizaje Módulo 2: Desempeño Económico-Financiero Módulo 3. Desempeño de los Procesos Módulo 4: Desempeño de Grupos de Trabajo.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
“Sistemas Lineales. El método de Gauss” Cecilia Loreto Pérez Pavez.
ECUACIONES DE PRIMER Y SEGUNDO GRADO.
Primer Semestre 2013 Paula Fernández-Dávila/Renato Oviedo.
Equipo 10: NIÑO SUAREZ VERONICA USCANGA COLUNGA BRENDA YURIDIA.
Se llama dominio de definición de una función al conjunto de valores de la variable independiente x para los que existe la función, es decir, para los.
Definición de Relación y de Función Relación es la correspondencia de un primer conjunto, llamado Dominio, con un segundo conjunto, llamado Rango, de.
METODOLOGÍA CUALITATIVA Licenciatura en Comunicación Social, U. del Pacífico Cuarta semana de clases El proceso de construcción de un marco teórico Prof.
D ISTRIBUCIÓN DE PROBABILIDAD Alumno: Rafael Rosete Cabrera Centro de Estudios del Atlántico Catedrático: Cesar Pérez Pérez.
Clase II Estructuras dinámicas (TAD) Listas Enlazadas. ¿A que llamamos estructuras dinámicas? ¿Por qué son necesarias? Ventajas y Desventajas que tendremos.
Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín.
LIBRARY AND INFORMATION SCIENCE ABSTRACTS (LISA).
Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik.
ECUACIONES DE PIMERO Y SEGUNDO GRADO. UNIDAD 7 1.
CÁLCULO DE ÁREA.
Curso de programación Visual Chart 6 (1ªEd.)
LAS LEYES DE LA TERMODINÁMICA. Las leyes de la termodinámica que se desarrollarán serán:  Ley cero de la termodinámica o principio del equilibrio termodinámico.
OPTIMANDO FOIL: EXTRACCIÓN DE INFORMACIÓN. Índice  Introducción  Estrategias  FOIL  Optimizaciones  Resultados  Conclusiones.
“PRESENTACIÓN DE UN ENSAYO” ¿Qué es un ensayo? Es un escrito en el cual un autor desarrolla sus ideas brevemente, se caracteriza por ser libre cada autor.
Operaciones algebraicas. Suma  La adición es una operación básica de la aritmética de los números naturales, enteros, racionales, reales y complejos;
Algoritmo Genético para la solución del problema SAT René Clemente Juárez Angel Felipe Lara Valladares Junio 2012.
6. Conceptos básicos Nazira Calleja. Inferencia estadística.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
Representación en espacio de estado
PRINCIPIOS LOGICOS.
Melissa Victoria Mendiola Peralta.  Los algoritmos son las series de pasos por los cuales se resuelven los problemas.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Prof. Jonathan Silva Ingeniería Civil – Informática I Ingeniería Civil Informática I Clase 7 – Funciones y Procedimientos.
Curso: Metodología de la Investigación – Semana 6.
GRÁFICAS Y FUNCIONES MATEMÁTICAS Bernardo Nieto Castellanos.
Objetivos. Planteamiento del problema Revise su pregunta de investigación mencionando las variables que contiene y explique los motivos que tuvo para.
APLICACIONES TAI EN TELEFORMACIÓN. ¿Qué es la teleformación? La Teleformación o el e-learning permite realizar acciones formativas a través de Internet.
Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia METODOS ALEATORIOS.
Transcripción de la presentación:

FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1

Índice 2  SVR  Trabajo  Conclusiones

Índice 3  SVR  Trabajo  Conclusiones

SVR 4  Fue el primer algoritmo que uso FOIL para la extracción de información.  FOIL es un algoritmo de inducción lógica desarrollado por Quilian.  Trata de crear una teoría (colección de reglas) que permitan explicar una relación R (colección de tuplas).  Para ello parte de la propia relación R, una posible colección de predicados ya definidos y la asunción de la hipótesis del mundo cerrado (todo ejemplo que no esté en R es falso).

Ejemplo 5  Supongamos que deseamos aprender el predicado plus(A,B,C) instanciado en las tuplas:  (0,0,0), (1,0,1), (2,0,2), (0,1,1), (1,1,2), (0,2,2)  Y tenemos además el predicado dec (A,B) instanciado en las tuplas:  (1,0) y (2,1)

Como se crea una nueva clausula 6  FOIL crea clausulas de la siguiente manera:  Q(X1,X2,X3,…,Xn) donde Q es un predicado y X1,…,Xn, son o bien variables nuevas o variables existentes  Xi=Xj donde Xi y Xj son variables existentes  Xi=c donde Xi es una variable existente y c una constante  La negación de cualquiera de las anteriores  Xi = Xj, Xi = t donde Xi y Xj son variables existentes y t es un umbral elegido por FOIL

Ejemplo 7 plus(A,B,C)dec(A,B)…!dec(A,C)…A=0

Como se elige el nuevo literal 8 1. Si hay alguno que posee la ganancia más cercana a la máxima 2. Todos los literales determinados (bind) 3. Aquel con la máxima ganancia positiva 4. Todos los que introduzcan nuevas variables

Ejemplo 9 plus(A,B,C)A=0B=C

Ejemplo 10 plus(A,B,C)A=0B=C

Ejemplo 11 plus(A,B,C)A=0B=Cdet(A,D)det(C,E)Plus(B,D,C)

Problemática 12  El principal gasto computacional se produce en  Por ello es importante reducir el número de reglas a generar.

Índice 13  SVR  Trabajo  Conclusiones

Trabajo 14  Optimización de FOIL a nivel de algoritmo.  Optimización a partir de la información contenido en el árbol dom (relaciones de proximidad, estructura del árbol).  Optimización en base al propio texto (anaforas, relaciones semánticas).

Optimizaciones 15  Todos las mejoras tratan de reducir el número de términos a calcular:  Restringir la exploración de nuevos términos.  Eliminar aquellos términos con ganancia poco significativa.  Añadir semántica mediante un conjunto simple de predicados que restrinjan los nuevos literales a generar a partir de un predicado dado.

Restringir 16  FOIL hace un exploración completa de todas las posibles términos a introducir.  Podríamos solo calcular algunos de ellos, por ejemplo quedarnos con el primero con ganancia positiva o con el mejor de los tres primeros.

Restringir 17  El principal problema es la calidad final de las producciones obtenidas.

Ganancia 18  La ganancia puede tener tres posibles valores:  Positiva: indica que el nuevo término mejora la regla que estamos calculando.  Negativa: indica que el nuevo término empeora la regla que estamos calculando.  Cero: en esta caso indica que el nuevo término no añade ningún tipo de información.  Podemos usar esta información para eliminar producciones.

Ganancia 19  Un posible mejora seria eliminar de los términos a evaluar aquellos cuya ganancia sea 0, puesto que no proporcionan a priori ningún tipo de ganancia representativa.  El problema es que podríamos necesitarlos a posteriori.

Semántica 20  Otra posible mejora seria tratar de añadir conocimiento al problema por parte del usuario.  Una forma de hacerlo sería añadir “semántica” a los predicados.

Semántica 21  Por ejemplo si queremos calcula el predicado abuelo (x, y) y tenemos los predicados progenitor (x, y), padre (x, y) y madre(x, y).  Podríamos añadir la siguiente semántica: abuelo(x, y) : iguales(x, y), negativo(x, y). progenitor(x, y) : iguales(x, y), negativo(x, y). madre(x, y) : iguales(x, y), negativo(x, y). padre(x, y) : iguales(x, y), negativo(x, y).

Un ejemplo real. 22  Dada la siguiente página:

Índice 23  SVR  Trabajo  Conclusiones

Conclusiones 24  Aunque presentan mejoras aun no son lo suficientemente significativas  Preguntas y sugerencias  Estancia en Castellón con el Dr. Berlanga