WHISK Extracción automática de información por Francisco Javier Márquez López.

Slides:



Advertisements
Presentaciones similares
SISTEMAS DE INFORMACIÓN I
Advertisements

HTML Instituto Universitario de Tecnología Valencia
PROGRAMACIÓN Un lenguaje de programación es un idioma artificial, creado y diseñado por el ser humano, para expresar algoritmos que pueden ser llevados.
UNIVERSIDAD POLITÉCNICA DE MADRID UNIVERSIDAD CARLOS III DE MADRID
CAROLINA ZONA MARYELY TORRES TR 8° SEMESTRE. LA INFORMACION CRECE DE FORMA EXPONENCIAL, Y EL CONOCIMIENTO CIENTIFICO SE PUBLICA EN MUCHAS Y VARIADAS PUBLICACIONES.
Del web al WAP: presente y futuro de la aplicación de Internet Móvil en la docencia Jesús M. Álvarez Llorente Dpto. Informática. Universidad de Extremadura.
Modelo de Datos Unidad II.
DISEÑO Y GESTIÓN DE BASES DE DATOS Luciano H. Tamargo Depto. de Ciencias e Ingeniería de la Computación Universidad Nacional del Sur, Bahía Blanca INTRODUCCIÓN.
Ciclo de desarrollo del software
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
MANEJO DE ARRAYS EN C.
Una Introducción a UML El Modelo de Proceso de Negocio
Registro en línea de obras literarias inéditas Por: Yecid Rios Pinzon.
Registro de Actos y Contratos REALIZADO POR: ANDRÈS BARRETO.
Tema 11. Preparación de informes
Registro en línea de obras Artísticas Por Oscar Eduardo Salazar Rojas.
Registro de Software REALIZADO POR: ANDRÈS BARRETO.
DEPARTAMENTO DE INGENIERÍA INFORMÁTICA
Extractores de Información de Kushmerick. Índice Introducción Reglas de Extracción Generación de reglas de extracción Extrayendo Información Evaluación.
Contiene: Portada Índice Introducción Desarrollo Conclusión
¿Qué es la Alfabetización Informacional (Alfin)?
Laboratorio 1 Paginas Web y HTML Justiniano Junco B Curso: Computación Justiniano Junco Fecha: 23 de Mayo del 2012 Profesor:
Página Web del Lenguaje Pascal.
1 LENGUAJES DE PROGRAMACIÓN Javier Martín Centro Asociado de Móstoles UNED.
Introducción a la Ingeniería en Sistemas
Registro de Obras Audiovisuales REALIZADO POR: ANDRÈS BARRETO.
Eloísa Orozco Bueno Alvaro Padilla Vilema
Departamento de Medios Digitales Reunión informativa 14 de enero de 2011.
J. Troyano, Víctor Díaz, F. Enríquez y J. Barroso Departamento de Lenguajes y Sistemas Informáticos E.T.S. Ingeniería Informática Universidad de Sevilla.
3. Espacios de trabajo. Manual de formación 2 3. Espacios de trabajo 3.1 Introducción … ……pág.45.
Formación del Juicio Moral
JENNY MILENA DIAZ MONCALEANO GESTION EMPRESARIAL.
FUNDAMENTOS DE PROGRAMACION
Estructura de Datos Ingeniería en Computación M. en C. J. Jesús Arellano Pimentel.
PORTAL WEB PARA CONTRIBUIR EN LA VENTA, COMERCIALIZACIÓN Y DISTRIBUCIÓN DE LA ZEOLITA NATURAL USANDO AJAX Integrantes: Martha Isabel Correa Barrera Patricia.
1  ¿ Qué es un sitio web ?  Colección de páginas web dotadas de una dirección web única  ¿ Qué es un página web ?  Es un documento creado en lenguaje.
EDWIN ACOSTA PINILLA DIEGO FERNANDO CASTRO JHON SEBASTIAN CASTRO.
LÓGICA DE PROGRAMACIÓN LSC. Susana Alejandra López Jiménez.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.

Anthony Villalba 1° “A”. ¿Qué es WordPress? Es un sistema de gestión de contenidos o CMS (por sus siglas en inglés, Content Management System) enfocado.
Seguridad en la red José miguel Tardío Fernández José Manuel Sancho Gómez Jesús Vozmediano Vázquez.
Profesora: Laura Patricia Pinto Prieto Ingeniera de sistemas Introducción a Programación 3.
UNIVERSIDAD DE SANTIAGO DE CHILE ESCUELA DE ARQUITECTURA
INTERNET COMO HERRAMIENTA EDUCATIVA
NOMBRE: KENIA MACÍAS. RECOMENDACIONES PARA HACER UN FORMULARIO En un sistema web, en muchas ocasiones es necesario obtener información del usuario y para.
Antonio López Gracia Fernando Noain Fernandez Ricardo Meana de la Llave
CÓMO HACER UN GRAN POST lanzados.wordpress.com Instrucciones para los miembros del Grupo de Colaboración Profesional Lanzados 02/02/15 Enrique Martínez.
Con tantas herramientas de desarrollo Web existentes, es muy fácil crear páginas Web sin tener ninguna necesidad de saber HTML. Pero no es el caso crear.
Creación de un Blog Ing. Reina Muñoz.
Ing. José Manuel Poveda – 1965: Programación de cualquier modo: programas pequeños, ninguna gestión, uso de ensamblador : Programación.
Alumno: Israel Espinosa Jiménez Matricula: Licenciatura: TIC Asignatura: Bases de Datos Cuatrimestre: 4 Página 1 de 6.
TRABAJO MONOGRÁFICO – 4º ESO
Métodos y diseño de la investigacion
Prof. Martin Acosta Gempeler
Ciclo de desarrollo del software
Aprendiendo a reconocer y evaluar argumentos
GUIA DE CSS 3 BASICA AUTOR: CARLOS BERBECI QUE ES CSS3 ? CSS es un lenguaje para definir el estilo o la apariencia de las páginas web, escritas con HTML.
¿QUÉ ES EL MODELO ENTIDAD-RELACIÓN?  Como ya he comentado este modelo es solo y exclusivamente un método del que disponemos para diseñar estos esquemas.
 La unión de un buen diseño con una jerarquía bien elaborada de contenidos, aumenta la eficiencia de la web como canal de comunicación e intercambio.
Título Autor 1, Autor 2, etc. 1 Empresa. Dirección, País, Teléfono: (55-54) , correo electrónico: Introducción Texto texto texto.
Informática aplicada a la gestión pública (GAP) Contenido de la asignatura Curso 2002/03
ASIGNATURA DE PROGRAMACIÓN GRADO EN INGENIERÍA EN TECNOLOGÍAS DE LA TELECOMUNICACIÓN GRADO EN INGENIERÍA EN SISTEMAS DE TELECOMUNICACIÓN GRADO EN INGENIERÍA.
Autora: Angelines Turón Turón Tutora: Mª Gloria Sánchez Torrubia SISTEMA DE AYUDA A LA ENSEÑANZA PARA RESOLUCIÓN DE MAPAS DE KARNAUGH.
Fundamentos de Ingeniería de Software
SOFTWARE DE COMPUTADORAS
WEB: Nueva plataforma. Gobierno de Chile | Ministerio de Desarrollo Social Cambio de plataforma de administración: Joomla! Software libre: El usuario.
Extracción dinámica de Invariantes Edgar Miranda Rafael Corchuelo Departamento de lenguajes y sistemas informáticos.
Prof. Jonathan Silva Ingeniería Civil – Informática I Ingeniería Civil Informática I Clase 3 – Diseño de Programas.
Transcripción de la presentación:

WHISK Extracción automática de información por Francisco Javier Márquez López

Índice WHISK Introducción Fundamentos WHISK en funcionamiento Debilidades Conclusiones Bibliografía

Índice WHISK Introducción Fundamentos WHISK en funcionamiento Debilidades Conclusiones Bibliografía

¿De qué hablamos? Nuestro objetivo: Automatizar el manejo de esa información Dotar a los sitios web de APIs  Imprescindible poder extraer información de esos sitios

Extracción de información Nombre Título Dirección Edad DocumentosExtractor de informaciónAtributos Reglas de extracción

¿Qué es WHISK? Stephen Soderland 1999 Basado en expresiones regulares Sistema de inducción de reglas supervisado Valido para lenguajes estructurado y lenguaje natural Extrae relaciones

Índice WHISK Introducción Fundamentos WHISK en funcionamiento Debilidades Conclusiones Bibliografía

Conjunto de entrenamiento WHISK Conjunto de entrenamiento Documentos a etiquetarDocumentos

Expresiones regulares “*(Number) *..*>(*):(*).*>(*)</” Regla:

Clases semánticas “* (Marcas):*<a” Marcas = (Ford | Renault | Citroën | FIAT | Opel | Toyota) En WHISK hay dos clases semánticas predefinidas: Digit y Number

Número de errores de extracción + 1 Número de intentos de extracción Bondad de una regla L = “* (Marcas):*<a” OK Error laplaciano:

Índice WHISK Introducción Fundamentos WHISK en funcionamiento Debilidades Conclusiones Bibliografía

Página de profesores del LSI Queremos extraer: Nombre Categoría Teléfono Despacho Correo Página personal Asignaturas

… TAGS Profesor {Nombre Bernárdez Jiménez, Beatriz} {Categoria Profesor Asociado} {Telefono } {Despacho F1.47} {Correo {Pagina {Asignatura Bases de datos} {Asignatura Diseño de Bases de Datos} {Asignatura Ingeniería del Software III} {Asignatura Introducción al Desarrollo de Sistemas Software} Etiquetando

Creación de reglas Un profesor por página: Reglas particulares para cada dato. ID:: 1 Pattern:: * (*) Output:: Profesor {Nombre $1} Una regla para cada etiqueta no cubierta Bernárdez Jiménez, Beatriz

Regla inicial: “* ( * ) *” Formas de anclaje: Usando los elementos alrededor del dato: “* (*) *” Usando los elementos dentro del dato a extraer: “*(Number)*” Anclaje de reglas Teléfono

Ahora tenemos dos reglas candidatas: “* (*) *”“*(Number)*” Bernárdez Jiménez, Beatriz Datos personales Categoría Profesor Asociado Teléfono Ninguna de las dos hará una extracción correcta Hay que ampliar las reglas ¡No funcionan los anclajes!

“* (*) ” “* * (*) ” “*Bernárdez* (*) ” “* * (*) ” “*Jiménez* (*) ” “*,* (*) ” “* * (*) ” … Conjunto de entrenamiento L1 L2 L3 L4 L5 L6 … Ampliando las reglas Error laplaciano más pequeño

Anclaje exterior Anclaje interior Conjunto de entrenamiento L1 L2 Eligiendo anclaje Error laplaciano más pequeño

“*Teléfono* (*) ” La mejoramos hasta: No se encuentra ninguna mejora en el error laplaciano La regla creada cubre todas las etiquetas Alcanzamos un límite Seguimos ampliando reglas

Cubiertas todas las reglas del conjunto de entrenamiento El conjunto de reglas Podado Reglas más generales Menos solapamiento

Ciclo de vida de WHISK Ampliación de anclajes Anclaje Ampliación de reglas

Publicaciones científicas: DBLP Queremos extraer: Título Autores Conferencia o revista Año

Varias publicaciones por página: Reglas particulares para cada publicación en vez de para cada dato ID:: 1 Pattern:: *(Number) *..*>(*):(*).*>(*) Output:: Publicacion {Agno $1}{Autores $2}{Titulo $3}{publicadoEn $4} Varios atributos en una regla Asociación implícita de atributos Reglas multislot

Anclaje multislot Anclamos los slots de uno en uno: “*(*)*(*)*(*)*(*)*”“*(*)*(*)*(*)*(*)*” Y así sucesivamente… “*(Number) *(*)*(*)*(*)*”“*>(*) *(*)*(*)*(*)*” “*(Number) *(Roger*Smith)*( *)*(*)*” “*(Number) *>(*):*(*)*(*)*”

Índice WHISK Introducción Fundamentos WHISK en funcionamiento Debilidades Conclusiones Bibliografía

Datos compuestos La etiqueta de autores quedaría: {Autores Roger A. Golliver, Silvia M. Müller, Stuart F. Oberman, Martin S. Schmookler, Debjit Das Sarma, Andrew Beaumont-Smith}

Datos compuestos (soluciones) Hacer reglas para cada dato, en vez de reglas multislot: Autores = Autor + Autor + Autor + Autor  Si se hiciera esto con reglas multislot habría explosión de reglas  Se rompen las relaciones entre datos pero se pueden rehacer de nuevo mediante un ontologizador Llamar al algoritmo de manera recursiva

Un dato y varias etiquetas

Datos con más de un significado

Otras debilidades Poco eficiente en páginas web grandes Cambios de posición: Explosión de reglas Registros intercalados

Índice WHISK Introducción Fundamentos WHISK en funcionamiento Debilidades Conclusiones Bibliografía

En resumen… Algoritmo todoterreno Extrae relaciones, pero usar un ontologizador es adecuado Cubre la necesidad de extraer información de un sistema wrapping

Índice WHISK Introducción Fundamentos WHISK en funcionamiento Debilidades Conclusiones Bibliografía

Enlaces Stephen Soderland Machine learning (Learning information extraction rules) Kluwer Acedemic Publishers Rafael Corchuelo Info extraction Seminario TDG-Seville 11/05/07

THE END Gracias por su atención