Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna.

Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna vjsosa,jlopez@tamps.cinvestav.mx Laboratorio de Tecnologías de Información CINVESTAV - Tamaulipas

Agenda  Introducción  Descripción del problema  Áreas de conocimiento involucradas  Propuesta  Proyectos Relacionados  Posibles Colaboraciones  Conclusión

Introducción  Infinidad de fuentes de información y de servicios disponibles a través de la web.  Páginas HTML, documentos PDF, DOC, PPT, etc.,  Portales con catálogos de productos, portales de servicios, sitios gubernamentales, científicos, de salud, financieros, noticias, blogs, sitios de preguntas y respuesta, sitios de opinión, etc.  La inmensa cantidad de información se convierte en un activo importante cuando se logra identificar y acceder de manera oportuna.

Introducción  Estrategia muy utilizada:  Uso de buscadores (Google, Yahoo, Bing)  Requieren como primer paso realizar un proceso de Crawling ₋Recolección masiva de información de la Web ₋Con el fin de extraer información ₋Organizando la información en formatos que facilite su procesamiento y almacenamiento  Como segundo paso realizan un proceso de indexación  Los resultados de la búsqueda se presentan al usuario siguiendo un orden de relevancia (considerando la primer respuesta como la mas relevante)

Descripción del problema  La cantidad de respuestas que un buscador le regresa a un usuario para una consulta pueden ser millones, por lo que es complicado revisar todas las respuestas  La situación se torna aún más complicada cuando el interés del usuario es muy concreto, por ejemplo, cuando un usuario desea obtener cosas como:  el grupo de científicos que más publica en el área de bases de datos  los sitios donde se venden las casas más baratas  Estadísticas del número de sitios de comercio electrónico que hay en México

Descripción del problema  Explotar de una manera adecuada la información que existe en la Web conlleva un reto muy complejo  Lo anterior motiva al diseño y construcción de una arquitectura escalable que permitan explotar la web de manera paulatina  por ejemplo por áreas de interés ₋haciendo que los procesos de recolección, extracción, almacenamiento y análisis de la información sean incrementales, eficientes y orientados a usuarios con intereses bien definidos.

Objetivo  Extraer, almacenar, buscar, y analizar la información en la Web acotada por dominios de interés a través del uso de una infraestructura de hardware y software que facilite su uso y explotación.

Áreas de conocimiento involucradas  Para enfrentar un reto como éste es necesario involucrar conocimientos que provienen de distintas áreas del conocimiento, entre los que se encuentran:  Base de datos  Tecnologías web y la web semántica  Sistemas de almacenamiento a gran escala  Recuperación/extracción de información  Procesamiento del lenguaje natural  Aprendizaje automático  Minería de datos  Redes  Entre otras

Propuesta  Una arquitectura de software que sea modular y escalable que ofrezca los siguientes servicios:  Recolección de información en la web (web crawling and Wrapping)  Limpieza, pre-procesamiento y formato de la información  Extracción de información  Almacenamiento masivo  Indexamiento  Motor de Búsqueda  Análisis de información  Aplicación y presentación de datos

Arquitectura

Proyectos Relacionados 1.Crawlers  Proyecto: Desarrollo de un tópical Crawler para un dominio específico 2.Wrappers  Proyecto: Método de detección, clasificación e integración automática de interfaces de consulta Web a partir de dominios de interés 3.Almacenamiento Masivo  Proyecto: Almacenamiento Masivo 4.Indexador  Proyecto: Diseño e implementación de un método escalable para indexación de datos distribuidos con independencia de la estructura 5.Proyecto Financiado  Plataforma para la Recolección y Búsqueda de Información Relacionada con las Tecnologías de Información en el Estado de Tamaulipas, a partir de Contenidos Disponibles en la Web Mexicana.

Crawlers  Proyecto de Jaime I. López-Veyna  Estudio y comparativa de Crawlers en la Web.  Aplicación Web prototipo para la consulta especializada en el dominio de publicaciones científicas.  Análisis de los servidores Web existentes en México  Sistema Web de consultas especializadas para librerías escolares en México  Se va a iniciar un proyecto para definir un tópical crawler para el dominio de T.I.

Wrappers  Proyecto de Heidi M. Marín-Castro  Método de detección, clasificación e integración automática de interfaces de consulta Web a partir de dominios de interés  Contribuir a incrementar la cobertura de acceso a la información de la Web Profunda de manera efectiva y eficiente a través de un método de identificación, clasificación e integración de interfaces de consulta web a partir de técnicas de clasificación supervisada.  Contribuir con una herramienta de software que faciliten la construcción de servicios de búsqueda vertical (hacia dominios específicos) utilizando un enfoque modular

Identificación automática de interfaces de consulta Web

Almacenamiento Masivo  Proyecto de Emigdio M. Hernández-Ramírez  Sistema de almacenamiento de archivos con tolerancia a fallos utilizando Cloud Híbrido  Es un sistema de almacenamiento capaz de soportar a un alto número de usuarios trabajando de manera simultánea,  Permite extender su capacidad de almacenamiento utilizando otros repositorios de almacenamiento externo (Amazon S3, Google Storage, etc.),  Garantiza una alta disponibilidad en caso de fallos en uno o varios servidores dependiendo de la configuración y el número de repositorios externos.  Se está trabajando en el CINVESTAV Tamaulipas en conjunto con el Instituto Tecnológico de Cd Valles y la Universidad Autónoma Metropolitana campus Iztapalapa, para integrar un sistema de almacenamiento distribuido con soporte a múltiples fallas en los servidores de almacenamiento para garantizar una alta disponibilidad, pero sin un 100% de replicación.

Almacenamiento Masivo

Indexador  Proyecto de Jaime I. López-Veyna  Diseño e implementación de un método escalable para indexación de datos distribuidos con independencia de la estructura  Contar con un mecanismo escalable de búsqueda de información por palabras claves para información no estructurada, semi-estructurada y estructurada.

Indexador  Siguiendo el enfoque de [Guoliang Li et al.]  Modelamos los datos no estructurados, semi-estructurados y estructurados como grafos de datos para adaptar el proceso de búsqueda por palabras claves sobre datos heterogéneos  Se utiliza un índice de grafos para mejorar la eficiencia y la efectividad en las búsquedas  Se utiliza un mecanismo de ranking para búsquedas por palabras claves que considera la estructura y las relaciones entre los documentos ₋Desde el punto de vista de base de datos - generando un score DB ₋y la relevancia del texto desde el punto de vista de la recuperación de información - generando un score IR  Se utilizan los grafos Steiner para presentarle al usuario información que se encuentre relacionada a mediante los enlaces para aprovechar la estructura de la información y el conocimiento de los enlaces.  Se realiza un ranking de resultados regresando las top-k respuestas.

 Proyecto de Dr. Víctor J. Sosa-Sosa  Plataforma para la Recolección y Búsqueda de Información Relacionada con las Tecnologías de Información en el Estado de Tamaulipas, a partir de Contenidos Disponibles en la Web Mexicana. Proyecto Financiado

Plataforma para la Recolección y Búsqueda de Información Relacionada con las Tecnologías de Información en el Estado de Tamaulipas, a partir de Contenidos Disponibles en la Web Mexicana.

Objetivo Proyecto Financiado  Ofrecer a las personas e instituciones interesadas en el sector de Tecnologías de Información y Comunicaciones (TICs), del estado de Tamaulipas, una plataforma informática escalable, innovadora y de libre acceso, disponible a través de la web, que facilite la búsqueda de información relacionada a las TICS, publicada principalmente en servidores web que están conectados a través de la red internet mexicana, buscando una vinculación estratégica regional entre los interesados.

Objetivos específicos Proyecto Financiado 1.Contar con una plataforma de cómputo y almacenamiento masivo escalable que proporcione un soporte adecuado para almacenar y administrar grandes cantidades de información, como la que se encuentra publicada en la web mexicana. 2.Contar con una infraestructura de software para la recopilación y búsqueda de contenidos acotados por el dominio de interés de las TICs, donde se integren algoritmos de recopilación e indexado de información a gran escala que consideran la semántica del dominio. La infraestructura seguirá una filosofía de sistemas abiertos y deberá estar acompañada con una aplicación web que sirva como interfaz entre el servicio de búsqueda y las personas e instituciones interesadas en el sector de las TICs. Al mismo tiempo de que sirva como punto de referencia y vinculación para sus usuarios.

Contribuciones Proyecto Financiado  La definición de nuevos métodos y algoritmos para la recolección, almacenamiento e indexación de información masiva, extraída de contenidos publicados en la web mexicana en el dominio de las Tecnologías de Información y Comunicaciones (TICs), en donde se integren descripciones semánticas que faciliten la detección de la información relevante para el sector de las TICs en México. Los métodos y algoritmos serán ofrecidos al público a través de una infraestructura de fuente abierta (open source).  Un buscador especializado en el dominio de las TICs, que utiliza los métodos y algoritmos expuestos en la infraestructura mencionada en la contribución anterior, mejorando la calidad en los resultados comparada con los buscadores actuales.

Posibles Colaboraciones  Definición del dominio:  Buscar una metodología para definir el dominio ₋Ontologías ₋Taxonomías ₋Directorios  Limpieza, Preprocesamiento y Extracción  Análisis de Datos  Construcción de índices  Construcción de servicios de almacenamiento masivo

Conclusión  Se presentaron los trabajos relacionados con el proyecto: Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés  Existe el interés de establecer colaboraciones con estos proyectos.

Preguntas ? Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna vjsosa,jlopez@tamps.cinvestav.mx

Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna.

Presentaciones similares

Presentación del tema: "Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna.

Presentaciones similares

Presentación del tema: "Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback