Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porCésar Río Aranda Modificado hace 8 años
1
Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna vjsosa,jlopez@tamps.cinvestav.mx Laboratorio de Tecnologías de Información CINVESTAV - Tamaulipas
2
Agenda Introducción Descripción del problema Áreas de conocimiento involucradas Propuesta Proyectos Relacionados Posibles Colaboraciones Conclusión
3
Introducción Infinidad de fuentes de información y de servicios disponibles a través de la web. Páginas HTML, documentos PDF, DOC, PPT, etc., Portales con catálogos de productos, portales de servicios, sitios gubernamentales, científicos, de salud, financieros, noticias, blogs, sitios de preguntas y respuesta, sitios de opinión, etc. La inmensa cantidad de información se convierte en un activo importante cuando se logra identificar y acceder de manera oportuna.
4
Introducción Estrategia muy utilizada: Uso de buscadores (Google, Yahoo, Bing) Requieren como primer paso realizar un proceso de Crawling ₋Recolección masiva de información de la Web ₋Con el fin de extraer información ₋Organizando la información en formatos que facilite su procesamiento y almacenamiento Como segundo paso realizan un proceso de indexación Los resultados de la búsqueda se presentan al usuario siguiendo un orden de relevancia (considerando la primer respuesta como la mas relevante)
5
Descripción del problema La cantidad de respuestas que un buscador le regresa a un usuario para una consulta pueden ser millones, por lo que es complicado revisar todas las respuestas La situación se torna aún más complicada cuando el interés del usuario es muy concreto, por ejemplo, cuando un usuario desea obtener cosas como: el grupo de científicos que más publica en el área de bases de datos los sitios donde se venden las casas más baratas Estadísticas del número de sitios de comercio electrónico que hay en México
6
Descripción del problema Explotar de una manera adecuada la información que existe en la Web conlleva un reto muy complejo Lo anterior motiva al diseño y construcción de una arquitectura escalable que permitan explotar la web de manera paulatina por ejemplo por áreas de interés ₋haciendo que los procesos de recolección, extracción, almacenamiento y análisis de la información sean incrementales, eficientes y orientados a usuarios con intereses bien definidos.
7
Objetivo Extraer, almacenar, buscar, y analizar la información en la Web acotada por dominios de interés a través del uso de una infraestructura de hardware y software que facilite su uso y explotación.
8
Áreas de conocimiento involucradas Para enfrentar un reto como éste es necesario involucrar conocimientos que provienen de distintas áreas del conocimiento, entre los que se encuentran: Base de datos Tecnologías web y la web semántica Sistemas de almacenamiento a gran escala Recuperación/extracción de información Procesamiento del lenguaje natural Aprendizaje automático Minería de datos Redes Entre otras
9
Propuesta Una arquitectura de software que sea modular y escalable que ofrezca los siguientes servicios: Recolección de información en la web (web crawling and Wrapping) Limpieza, pre-procesamiento y formato de la información Extracción de información Almacenamiento masivo Indexamiento Motor de Búsqueda Análisis de información Aplicación y presentación de datos
10
Arquitectura
11
Proyectos Relacionados 1.Crawlers Proyecto: Desarrollo de un tópical Crawler para un dominio específico 2.Wrappers Proyecto: Método de detección, clasificación e integración automática de interfaces de consulta Web a partir de dominios de interés 3.Almacenamiento Masivo Proyecto: Almacenamiento Masivo 4.Indexador Proyecto: Diseño e implementación de un método escalable para indexación de datos distribuidos con independencia de la estructura 5.Proyecto Financiado Plataforma para la Recolección y Búsqueda de Información Relacionada con las Tecnologías de Información en el Estado de Tamaulipas, a partir de Contenidos Disponibles en la Web Mexicana.
12
Crawlers Proyecto de Jaime I. López-Veyna Estudio y comparativa de Crawlers en la Web. Aplicación Web prototipo para la consulta especializada en el dominio de publicaciones científicas. Análisis de los servidores Web existentes en México Sistema Web de consultas especializadas para librerías escolares en México Se va a iniciar un proyecto para definir un tópical crawler para el dominio de T.I.
13
Wrappers Proyecto de Heidi M. Marín-Castro Método de detección, clasificación e integración automática de interfaces de consulta Web a partir de dominios de interés Contribuir a incrementar la cobertura de acceso a la información de la Web Profunda de manera efectiva y eficiente a través de un método de identificación, clasificación e integración de interfaces de consulta web a partir de técnicas de clasificación supervisada. Contribuir con una herramienta de software que faciliten la construcción de servicios de búsqueda vertical (hacia dominios específicos) utilizando un enfoque modular
14
Identificación automática de interfaces de consulta Web
15
Almacenamiento Masivo Proyecto de Emigdio M. Hernández-Ramírez Sistema de almacenamiento de archivos con tolerancia a fallos utilizando Cloud Híbrido Es un sistema de almacenamiento capaz de soportar a un alto número de usuarios trabajando de manera simultánea, Permite extender su capacidad de almacenamiento utilizando otros repositorios de almacenamiento externo (Amazon S3, Google Storage, etc.), Garantiza una alta disponibilidad en caso de fallos en uno o varios servidores dependiendo de la configuración y el número de repositorios externos. Se está trabajando en el CINVESTAV Tamaulipas en conjunto con el Instituto Tecnológico de Cd Valles y la Universidad Autónoma Metropolitana campus Iztapalapa, para integrar un sistema de almacenamiento distribuido con soporte a múltiples fallas en los servidores de almacenamiento para garantizar una alta disponibilidad, pero sin un 100% de replicación.
16
Almacenamiento Masivo
17
Indexador Proyecto de Jaime I. López-Veyna Diseño e implementación de un método escalable para indexación de datos distribuidos con independencia de la estructura Contar con un mecanismo escalable de búsqueda de información por palabras claves para información no estructurada, semi-estructurada y estructurada.
18
Indexador Siguiendo el enfoque de [Guoliang Li et al.] Modelamos los datos no estructurados, semi-estructurados y estructurados como grafos de datos para adaptar el proceso de búsqueda por palabras claves sobre datos heterogéneos Se utiliza un índice de grafos para mejorar la eficiencia y la efectividad en las búsquedas Se utiliza un mecanismo de ranking para búsquedas por palabras claves que considera la estructura y las relaciones entre los documentos ₋Desde el punto de vista de base de datos - generando un score DB ₋y la relevancia del texto desde el punto de vista de la recuperación de información - generando un score IR Se utilizan los grafos Steiner para presentarle al usuario información que se encuentre relacionada a mediante los enlaces para aprovechar la estructura de la información y el conocimiento de los enlaces. Se realiza un ranking de resultados regresando las top-k respuestas.
19
Proyecto de Dr. Víctor J. Sosa-Sosa Plataforma para la Recolección y Búsqueda de Información Relacionada con las Tecnologías de Información en el Estado de Tamaulipas, a partir de Contenidos Disponibles en la Web Mexicana. Proyecto Financiado
20
Plataforma para la Recolección y Búsqueda de Información Relacionada con las Tecnologías de Información en el Estado de Tamaulipas, a partir de Contenidos Disponibles en la Web Mexicana.
21
Objetivo Proyecto Financiado Ofrecer a las personas e instituciones interesadas en el sector de Tecnologías de Información y Comunicaciones (TICs), del estado de Tamaulipas, una plataforma informática escalable, innovadora y de libre acceso, disponible a través de la web, que facilite la búsqueda de información relacionada a las TICS, publicada principalmente en servidores web que están conectados a través de la red internet mexicana, buscando una vinculación estratégica regional entre los interesados.
22
Objetivos específicos Proyecto Financiado 1.Contar con una plataforma de cómputo y almacenamiento masivo escalable que proporcione un soporte adecuado para almacenar y administrar grandes cantidades de información, como la que se encuentra publicada en la web mexicana. 2.Contar con una infraestructura de software para la recopilación y búsqueda de contenidos acotados por el dominio de interés de las TICs, donde se integren algoritmos de recopilación e indexado de información a gran escala que consideran la semántica del dominio. La infraestructura seguirá una filosofía de sistemas abiertos y deberá estar acompañada con una aplicación web que sirva como interfaz entre el servicio de búsqueda y las personas e instituciones interesadas en el sector de las TICs. Al mismo tiempo de que sirva como punto de referencia y vinculación para sus usuarios.
23
Contribuciones Proyecto Financiado La definición de nuevos métodos y algoritmos para la recolección, almacenamiento e indexación de información masiva, extraída de contenidos publicados en la web mexicana en el dominio de las Tecnologías de Información y Comunicaciones (TICs), en donde se integren descripciones semánticas que faciliten la detección de la información relevante para el sector de las TICs en México. Los métodos y algoritmos serán ofrecidos al público a través de una infraestructura de fuente abierta (open source). Un buscador especializado en el dominio de las TICs, que utiliza los métodos y algoritmos expuestos en la infraestructura mencionada en la contribución anterior, mejorando la calidad en los resultados comparada con los buscadores actuales.
24
Posibles Colaboraciones Definición del dominio: Buscar una metodología para definir el dominio ₋Ontologías ₋Taxonomías ₋Directorios Limpieza, Preprocesamiento y Extracción Análisis de Datos Construcción de índices Construcción de servicios de almacenamiento masivo
25
Conclusión Se presentaron los trabajos relacionados con el proyecto: Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Existe el interés de establecer colaboraciones con estos proyectos.
26
Preguntas ? Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna vjsosa,jlopez@tamps.cinvestav.mx
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.