Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna.

Slides:

Advertisements

Presentaciones similares

Facturación Electrónica Lecciones aprendidas y buenas prácticas Julio de 2011 México.

Advertisements

ESTRATEGIA GOBIERNO EN LINEA Fundamentos Arquitectura Empresarial

GESDOT (2005/2007) SISTEMA DE DETECCIÓN DE OPORTUNIDADES TECNOLÓGICAS Y DE GESTIÓN DE CALIDAD DE LA FUNCIÓN OTRI. Cartagena, junio de 2005.

Carrera de Ingeniería en Electrónica en Redes y Comunicación de Datos “DESARROLLO DE UN SISTEMA DE INFORMACIÓN INTERACTIVO BASADO EN WEB 3.0” GRETA CAROLINA.

BASE DE DATOS Reingeniería de Procesos. Modelo de BPR Definición del Negocio Refinamiento e instanciación Evaluación de procesos Especificación y diseño.

Herramientas de Acceso a los Servicios y Fuentes de Informaci ó n de la BVS Portal de la BVS Regional Métodos de Búsqueda por Palabras, Relevancia, Google,

Evolución de los MOOC en el ámbito investigador mediante técnicas de análisis de contenido D. G. Reina, S. L. Toral, M. R. Martínez-Torres, F. Barrero.

Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –

Páginas web de información confiable. 1. Página web información confiable.

BASE DE DATOS EN LA WEB POR- OSIRYS MARCIAGA JESUS NIETO.

Conferencia 2. Herramientas generales y especializadas de Internet

José Manuel Valencia Moreno Clementina García Martínez

(ENAP) en Distrito Federal, Brasil

Repositorio digital de Tesis

FILOSOFIA WIKI ESPACIO LIBRE DE COLABORACION,

Informática Especial de la Matemática

Social Media Rogelio Ferreira Escutia.

Tema DISEÑO E IMPLANTACIÓN DE UNA SOLUCIÓN INFORMÁTICA INTEGRADA QUE APOYE AL DESARROLLO DEL PENSAMIENTO CRÍTICO EN LA CARRERA DE INGENIERÍA EN SISTEMAS.

El procedimiento de inducción

BÚSQUEDA DE INFORMACIÓN EN LA WEB

U.T. 11: Introducción A Las Bases De Datos

AUTOR: RITA ALEXANDRA FIALLOS NOBOA

7ª Jornada sobre la Biblioteca Digital Universitaria JBDU2009 "La biblioteca universitaria en la web" 5 y 6 de noviembre de 2009 Biblioteca Central de.

Sistemas Distribuidos

Portales de revistas digitales

Suite de herramientas de inteligencia para Android

Inventario de Fuentes de Datos Abiertos de México

Escuela Superior Politécnica del Litoral

Estrategias de Búsqueda

ARQUITECTURA DE COMPUTADORES

Búsqueda de Información en Internet

INTERCONEXIONES DEL USUARIO

Agüero Chávez Damián Ricardo Castro Tafolla Mario Alberto

Desarrollo Actividad Número 3

Herramientas metodológicas para la impartición del “Taller de la Plataforma Nacional de Transparencia"

UNIVERSIDAD DE LAS FUERZAS ARMADAS-ESPE

Qué es un Buscador El primer tipo de buscador es el de Índices de Búsqueda. Este es el primer tipo de buscador que surgió y consiste en que la base de.

Definición de un Sistema Distribuido

QUE ES UN NAVEGADOR ? Es una aplicación que opera a través de Internet, interpretando la información de archivos y sitios web para que éstos puedan ser.

Propuesta Comercial dirigida a la

PROVEEDOR DATA WAREHOUSE TERADATA

Consultoría y servicios logísticos

Gobierno digital y Cybergobierno

Unidad 1 Introducción al mundo de la computación.

Tendencias contemporáneas en educación

SONIA ESPERANZA GARCIA AMAYA Tecnología en Gestión Administrativa

Búsquedas en Internet ¿Qué es un buscador?

Las revistas de Biblioteconomía y Documentación en Internet

Uso de temáticas y palabras clave sugeridas por software para mejorar la recuperación de tesis electrónicas a través del catálogo Víctor M. Ferracutti,

APLICACIÓN DE NUEVAS TECNOLOGÍAS EN LA CONSERVACIÓN Y ANÁLISIS DEL PATRIMONIO CULTURAL Herramientas para la Investigación.

“Grid Computing” Rogelio Ferreira Escutia.

Tecnologías de la Información y Comunicaciones

CONCEPTOS BÁSICOS DE INTERNET

Diseño y propuesta de implementación de una intranet como herramienta para la gestión de información en la Oficina Central de CUPET.

Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –

Gestión del Conocimiento

PhD. Alejandro Uribe Tirado Profesor-Investigador Escuela Interamericana de Bibliotecología Grupo Información, Conocimiento y Sociedad Universidad.

UNIVERSIDAD DE LAS FUERZAS ARMADAS-ESPE

Servidor de Reportes basado en Tecnología Java y XML

Tecnologías de la Información y Comunicaciones (AEQ-1064)

FUNDAMENTOS DE PROGRAMACIÓN. INTRODUCCIÓN  Conceptos: Informática, Ordenador, Programa, Dato, Bit, Byte, Hardware, Software, Lenguaje de Programación,

Ciencia de datos, big data y redes sociales

PARÁMETROS PARA LA PRESENTACIÓN DE PROYECTOS EN LA ESCUELA DE TECNOLOGIAS E INNOVACION. ING. Hugo de Jesús Peláez Giraldo Líder Escuela de Tecnologías.

PROYECTO SEMESTRAL GESTIÓN DE NEGOCIOS EN PLATAFORMAS TECNOLÓGICAS Integrantes: Javiera Dueñas Janis De Gonzalo Profesor: Orlando Cavieres.

ARQUITECTURA DE UN NAVEGADOR WEB ESTO SE REFIERE AL SOFTWARE O HARDWARE? Un navegador web es un programa que codifica y decodifica una serie de reglas,

La información y la comunicación son dos elementos claves en el quehacer institucional en función del cumplimiento de sus objetivos.

Implementación de cursos virtuales para la disciplina Sistemas de Telecomunicaciones en la Plataforma Moodle Autor:. Pytsou-Guychel Engoua Tutor:. Yudisleidy.

La programación de objetivos didácticos en Terminótica

Las Tecnologías de la Información y la Comunicación (TIC) son todos aquellos recursos, herramientas y programas que se utilizan para procesar, administrar.

APRENDIZAJE CLAVE DEL CAMPO PROFESIONAL INFORMÁTICA EJESCOMPONENTESCONTENIDOS CENTRALES  Dar respuesta acorde a los cambios tecnológicos  Aportar mano.

Transcripción de la presentación:

Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna Laboratorio de Tecnologías de Información CINVESTAV - Tamaulipas

Agenda  Introducción  Descripción del problema  Áreas de conocimiento involucradas  Propuesta  Proyectos Relacionados  Posibles Colaboraciones  Conclusión

Introducción  Infinidad de fuentes de información y de servicios disponibles a través de la web.  Páginas HTML, documentos PDF, DOC, PPT, etc.,  Portales con catálogos de productos, portales de servicios, sitios gubernamentales, científicos, de salud, financieros, noticias, blogs, sitios de preguntas y respuesta, sitios de opinión, etc.  La inmensa cantidad de información se convierte en un activo importante cuando se logra identificar y acceder de manera oportuna.

Introducción  Estrategia muy utilizada:  Uso de buscadores (Google, Yahoo, Bing)  Requieren como primer paso realizar un proceso de Crawling ₋Recolección masiva de información de la Web ₋Con el fin de extraer información ₋Organizando la información en formatos que facilite su procesamiento y almacenamiento  Como segundo paso realizan un proceso de indexación  Los resultados de la búsqueda se presentan al usuario siguiendo un orden de relevancia (considerando la primer respuesta como la mas relevante)

Descripción del problema  La cantidad de respuestas que un buscador le regresa a un usuario para una consulta pueden ser millones, por lo que es complicado revisar todas las respuestas  La situación se torna aún más complicada cuando el interés del usuario es muy concreto, por ejemplo, cuando un usuario desea obtener cosas como:  el grupo de científicos que más publica en el área de bases de datos  los sitios donde se venden las casas más baratas  Estadísticas del número de sitios de comercio electrónico que hay en México

Descripción del problema  Explotar de una manera adecuada la información que existe en la Web conlleva un reto muy complejo  Lo anterior motiva al diseño y construcción de una arquitectura escalable que permitan explotar la web de manera paulatina  por ejemplo por áreas de interés ₋haciendo que los procesos de recolección, extracción, almacenamiento y análisis de la información sean incrementales, eficientes y orientados a usuarios con intereses bien definidos.

Objetivo  Extraer, almacenar, buscar, y analizar la información en la Web acotada por dominios de interés a través del uso de una infraestructura de hardware y software que facilite su uso y explotación.

Áreas de conocimiento involucradas  Para enfrentar un reto como éste es necesario involucrar conocimientos que provienen de distintas áreas del conocimiento, entre los que se encuentran:  Base de datos  Tecnologías web y la web semántica  Sistemas de almacenamiento a gran escala  Recuperación/extracción de información  Procesamiento del lenguaje natural  Aprendizaje automático  Minería de datos  Redes  Entre otras

Propuesta  Una arquitectura de software que sea modular y escalable que ofrezca los siguientes servicios:  Recolección de información en la web (web crawling and Wrapping)  Limpieza, pre-procesamiento y formato de la información  Extracción de información  Almacenamiento masivo  Indexamiento  Motor de Búsqueda  Análisis de información  Aplicación y presentación de datos

Arquitectura

Proyectos Relacionados 1.Crawlers  Proyecto: Desarrollo de un tópical Crawler para un dominio específico 2.Wrappers  Proyecto: Método de detección, clasificación e integración automática de interfaces de consulta Web a partir de dominios de interés 3.Almacenamiento Masivo  Proyecto: Almacenamiento Masivo 4.Indexador  Proyecto: Diseño e implementación de un método escalable para indexación de datos distribuidos con independencia de la estructura 5.Proyecto Financiado  Plataforma para la Recolección y Búsqueda de Información Relacionada con las Tecnologías de Información en el Estado de Tamaulipas, a partir de Contenidos Disponibles en la Web Mexicana.

Crawlers  Proyecto de Jaime I. López-Veyna  Estudio y comparativa de Crawlers en la Web.  Aplicación Web prototipo para la consulta especializada en el dominio de publicaciones científicas.  Análisis de los servidores Web existentes en México  Sistema Web de consultas especializadas para librerías escolares en México  Se va a iniciar un proyecto para definir un tópical crawler para el dominio de T.I.

Wrappers  Proyecto de Heidi M. Marín-Castro  Método de detección, clasificación e integración automática de interfaces de consulta Web a partir de dominios de interés  Contribuir a incrementar la cobertura de acceso a la información de la Web Profunda de manera efectiva y eficiente a través de un método de identificación, clasificación e integración de interfaces de consulta web a partir de técnicas de clasificación supervisada.  Contribuir con una herramienta de software que faciliten la construcción de servicios de búsqueda vertical (hacia dominios específicos) utilizando un enfoque modular

Identificación automática de interfaces de consulta Web

Almacenamiento Masivo  Proyecto de Emigdio M. Hernández-Ramírez  Sistema de almacenamiento de archivos con tolerancia a fallos utilizando Cloud Híbrido  Es un sistema de almacenamiento capaz de soportar a un alto número de usuarios trabajando de manera simultánea,  Permite extender su capacidad de almacenamiento utilizando otros repositorios de almacenamiento externo (Amazon S3, Google Storage, etc.),  Garantiza una alta disponibilidad en caso de fallos en uno o varios servidores dependiendo de la configuración y el número de repositorios externos.  Se está trabajando en el CINVESTAV Tamaulipas en conjunto con el Instituto Tecnológico de Cd Valles y la Universidad Autónoma Metropolitana campus Iztapalapa, para integrar un sistema de almacenamiento distribuido con soporte a múltiples fallas en los servidores de almacenamiento para garantizar una alta disponibilidad, pero sin un 100% de replicación.

Almacenamiento Masivo

Indexador  Proyecto de Jaime I. López-Veyna  Diseño e implementación de un método escalable para indexación de datos distribuidos con independencia de la estructura  Contar con un mecanismo escalable de búsqueda de información por palabras claves para información no estructurada, semi-estructurada y estructurada.

Indexador  Siguiendo el enfoque de [Guoliang Li et al.]  Modelamos los datos no estructurados, semi-estructurados y estructurados como grafos de datos para adaptar el proceso de búsqueda por palabras claves sobre datos heterogéneos  Se utiliza un índice de grafos para mejorar la eficiencia y la efectividad en las búsquedas  Se utiliza un mecanismo de ranking para búsquedas por palabras claves que considera la estructura y las relaciones entre los documentos ₋Desde el punto de vista de base de datos - generando un score DB ₋y la relevancia del texto desde el punto de vista de la recuperación de información - generando un score IR  Se utilizan los grafos Steiner para presentarle al usuario información que se encuentre relacionada a mediante los enlaces para aprovechar la estructura de la información y el conocimiento de los enlaces.  Se realiza un ranking de resultados regresando las top-k respuestas.

 Proyecto de Dr. Víctor J. Sosa-Sosa  Plataforma para la Recolección y Búsqueda de Información Relacionada con las Tecnologías de Información en el Estado de Tamaulipas, a partir de Contenidos Disponibles en la Web Mexicana. Proyecto Financiado

Plataforma para la Recolección y Búsqueda de Información Relacionada con las Tecnologías de Información en el Estado de Tamaulipas, a partir de Contenidos Disponibles en la Web Mexicana.

Objetivo Proyecto Financiado  Ofrecer a las personas e instituciones interesadas en el sector de Tecnologías de Información y Comunicaciones (TICs), del estado de Tamaulipas, una plataforma informática escalable, innovadora y de libre acceso, disponible a través de la web, que facilite la búsqueda de información relacionada a las TICS, publicada principalmente en servidores web que están conectados a través de la red internet mexicana, buscando una vinculación estratégica regional entre los interesados.

Objetivos específicos Proyecto Financiado 1.Contar con una plataforma de cómputo y almacenamiento masivo escalable que proporcione un soporte adecuado para almacenar y administrar grandes cantidades de información, como la que se encuentra publicada en la web mexicana. 2.Contar con una infraestructura de software para la recopilación y búsqueda de contenidos acotados por el dominio de interés de las TICs, donde se integren algoritmos de recopilación e indexado de información a gran escala que consideran la semántica del dominio. La infraestructura seguirá una filosofía de sistemas abiertos y deberá estar acompañada con una aplicación web que sirva como interfaz entre el servicio de búsqueda y las personas e instituciones interesadas en el sector de las TICs. Al mismo tiempo de que sirva como punto de referencia y vinculación para sus usuarios.

Contribuciones Proyecto Financiado  La definición de nuevos métodos y algoritmos para la recolección, almacenamiento e indexación de información masiva, extraída de contenidos publicados en la web mexicana en el dominio de las Tecnologías de Información y Comunicaciones (TICs), en donde se integren descripciones semánticas que faciliten la detección de la información relevante para el sector de las TICs en México. Los métodos y algoritmos serán ofrecidos al público a través de una infraestructura de fuente abierta (open source).  Un buscador especializado en el dominio de las TICs, que utiliza los métodos y algoritmos expuestos en la infraestructura mencionada en la contribución anterior, mejorando la calidad en los resultados comparada con los buscadores actuales.

Posibles Colaboraciones  Definición del dominio:  Buscar una metodología para definir el dominio ₋Ontologías ₋Taxonomías ₋Directorios  Limpieza, Preprocesamiento y Extracción  Análisis de Datos  Construcción de índices  Construcción de servicios de almacenamiento masivo

Conclusión  Se presentaron los trabajos relacionados con el proyecto: Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés  Existe el interés de establecer colaboraciones con estos proyectos.

Preguntas ? Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna