Búsquedas avanzadas en la Wikipedia

Slides:



Advertisements
Presentaciones similares
Uso de la evaluación y monitoreo. Objetivos Entender las técnicas de evaluación y monitoreo del uso de un recurso electrónico Discutir algunos lineamientos.
Advertisements

Descarga y entrega de documentos Acceso y uso de recursos.
Herramientas informáticas
Internet y tecnologías web
Análisis de encadenamiento
ORACLE OLAP Integrantes: *Aizaga, Martiniano *Gallegos, Marina
Nuestro reto es educar al pensamiento, para que razone de acuerdo a ciertas reglas; con ello podremos ser más eficientes al momento en que ordenamos.
Exposición: Clustering
¿Cómo leer tus sitios web favoritos en menos tiempo? ¡Fácil! Tan solo debes usar un agregador de noticias y suscribirte a los sitios web que prefieras.
Pensiones Civiles del Estado PROYECTO: Página Web PCE
PRODUCTOS DE INVESTIGACIÓN
El poder de las redes. Sociedad de la información El acelerado ritmo de apropiación social de las tecnologías de la información proceso de alfabetización.
Almacenamiento en la nube
Taller de Herramientas de Google Docs
Buscar bibliografía en
Yinette Domínguez Olivieri COSC A. A través de esta presentación se pretende informar sobre dos servicios que existen llamados Dropbox y Skydrive.
“SISTEMA DE PASANTÍAS PARA LA FACULTAD DE INGENIERÍA
Utilización de la plataforma Hadoop para implementar un programa distribuido que permita encontrar las paredes de células de la epidermis de plantas modificadas.
Oscar Navarrete J. Jorge Gutiérrez A.
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Presentado por: Luis Loaiza Carlos Andrés Granda Informe de Materia de Graduación Procesamiento Masivo y Escalable de Datos.
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
Sistema Para GENERAR gráficas a partir de logs tcpdump usando Hadoop
El portal de recursos electrónicos de la UAM
Introducción a la Computación
Denisse Cayetano – Christian Rivadeneira
SERVICIOS ELECTRÓNICOS
Un wiki o una wiki (del hawaiano wiki, 'rápido') es un sitio web cuyas páginas pueden ser editadas por múltiples voluntarios a través del navegador web.
Weka.
Diccionario técnico.
El ecosistema de Internet El dominio genérico y territorial Comercio tradicional vs electrónico Modelos de negocios en Internet UF1 La evolución del E-Business.
Generación de recomendaciones de ítems musicales basado en las valoraciones implícitas y las similitudes de los usuarios utilizando Hadoop para procesamientos.
Recursos de Información
Impulsar el conocimiento de marca. Videos promocionados de YouTube Aproveche los activos de video de su empresa.
Presentado por:  Andrés Cantos Rivadeneira  Bolívar Elbert Pontón “MÓDULO DE RECOMENDACIONES DE PÁGINAS A VISITAR EN LA WIKIPEDIA, BASADO EN LAS APORTACIONES.
Ing. Elkin José Carrillo Arias
1 7. La red como canal de distribución. 2 Introducción Un canal de distribución es un grupo interdependiente de empresas que trabajan unidas para transferir.
Eguana Reports Servidor de Reportes basado en Tecnología Java y XML Presentado por: Roy Cox S. Fernando Pérez M. José Pérez S.
Una introducción a la computación evolutiva
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
ASOPROJECT Componentes del grupo: - Alberto Díaz Gil - Miguel Ángel Llorente Gracía - Javier E. Yépez Hualde.
Sistema de análisis distribuido de ATLAS (ADA) Farida Fassi / Mª Dolores Jordán IFIC.
Informe de Materia de Graduación “Uso de la plataforma Pig sobre Hadoop como alternativa a una RDBMS para el análisis de datos masivos. Prueba de concepto.
Internet y Navegadores Unidad 5. Fecha: 1 de agosto de 2011 Periodo# : 2 Objetivo: identificar el contenido de una dirección web Tema: Elementos de una.
Agenda  Introducción  Relevamientos de tecnologías Objetivos de la fase de relevamiento de tecnologías Principales tecnologías disponibles -OpenMosix,
UdeC Una nueva experiencia de búsqueda..
Que es Software Por :Ivelisse M. Burgos Oprime aqui.
 TECNOLOGIAS DE LA INFROMACIONM Y COMUNICACIÓN En este bloque vemos trabajamos con las definiciones de que es Word. Excel y Power point. WORD: Microsoft.
Almacenamiento virtual de sitios web “HOSTS VIRTUALES”
DIEGO MADARRIAGA BRIEVA DARIO DIAZ PEÑALOZA ANDERSON ACEVEDO RIOS.
Microsoft power point Giancarlo ciani.
EBSCOhost 2.0 Rediseñado a partir de Julio, 2008.
Búsqueda de Información en Internet
TRABAJO SOBRE LA DEEP WEB
SERVICIOS EN LA NUBE La computación en la nube, concepto conocido también bajo los términos servicios en la nube, informática en la nube, nube de cómputo.
Un wiki, o una wiki, es un sitio web cuyas páginas web pueden ser editadas por múltiples voluntarios a través del navegador web. Los usuarios pueden crear,
Un wiki o una wiki (del hawaiano wiki, ‘rápido’) Es un sitio web cuyas páginas pueden ser editadas por múltiples voluntarios a través del navegador web.
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ INF-252.
Internet y Navegadores Unidad 5. Fecha: 1 de agosto de 2011 Periodo# : 2 Objetivo: identificar el contenido de una dirección web Tema: Elementos de una.
Por: Jonatan Olarte Sanchez
El Antivirus Cloud Computing es un antivirus que, al estar en la nube, se actualiza de forma más rápida con todas las novedades y que no consume nuestros.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
Es un antivirus gratuito basado en cloud computing, especialmente diseñados para ofrecer protección desde la nube. Es un software de protección, como los.
ANTIVIRUS CLOUD COMPUTING. Los antivirus cloud o antivirus en la nube, son antivirus que aplican a los antivirus el concepto cloud computing. Instalan.
* Definición: Los antivirus cloud o antivirus en la nube, son antivirus que aplican a los antivirus el concepto cloud computing. Instalan un cliente.
Grupo 6: Belén Aguilera Juan José Parra. Es un motor de búsqueda vertical enfocada en las personas, empresas, y las relaciones entre ellos. Zoom Information.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
Internet Infranet Protocolo World Wide Web Hipertexto Página web Sitio web Protocolo http Código HTML Editores HTML Portal Url Navegadores: A. Internet.
PÁGINA WEB, SITIO WEB Y PORTAL WEB Una página web tradicionalmente hace relación a un documento en el internet, disponible para ser leído, con información.
Transcripción de la presentación:

Búsquedas avanzadas en la Wikipedia WIKIGrep Búsquedas avanzadas en la Wikipedia

Introducción Wikipedia: enciclopedia libre Entre los 10 sitios más visitados en Internet (Alexa.com) Crecimiento exponencial Actualmente: cerca de dos millones de artículos Formato XML; llegan a pesar hasta 1TB Motores de búsqueda Web tradicionales no permiten búsquedas basadas en expresiones regulares Consumen muchos recursos Problema: Imposible realizar búsquedas avanzadas (basadas en expresiones regulares) en la Wikipedia

Objetivos Utilizar técnicas de procesamiento masivo de datos para realizar búsquedas avanzadas de texto dentro de documentos Utilizar expresiones regulares para la búsqueda de texto dentro de documentos y de esta manera mostrar resultados más precisos Diseñar una interfaz Web que permita ingresar búsquedas basadas en expresiones regulares, y muestre los resultados obtenidos del procesamiento masivo de la misma, de una manera entendible al usuario

Dataset de la Wikipedia Mantiene historial completo de las revisiones La entidad <text> .. </text> contiene el contenido de los artículos Links representados por [[destination]]

Diseño e implementación

Herramientas utilizadas Hadoop Procesamiento distribuido Gracias a grant de Amazon Web Services, posible levantar clústers bajo demanda usando los siguientes serivicios: Elastic MapReduce (EMR), o Elastic Computing Cloud (EC2) AWS Simple Storage Service (S3) Almacenamiento escalable de datos

Análisis de las alternativas Los costos detallados en esta tabla fueron obtenidos de la Calculadora de Costos AWS, y están actualizados al 25 de agosto de 2009. Número de Gigabytes almacenados en S3: 23 Costo por instancia en EC2 0,2 Recargo por uso de Elastic MapReduce, por hora*instancia 0,03 Data transfer in estimado (en GB) 1 Data transfer out estimado (en GB) Duración de una consulta

Análisis de las alternativas (cont.)

Diagrama de la solución

Diagrama del Algoritmo MapReduce

Pseudocódigo MapReduce GrepMapper (docid,wikipediaPages)->[(match,[docid,1])] GrepReducer (match,[docid1,docid2,docid1…])->[(match,[docid1,n1]), (match,[docid2,n3]),…..] SortMapper (docid,n) -> [(n,docid)] SortReducer (n,docid) -> [(docid,n)]

Diseño de la Interfaz

Resultados

Patrones de Búsqueda Se seleccionó tres expresiones regulares Interpretados usando el paquete java.util.regex # Expresión Descripción Coincidencias 1 “(\\d\\d\\d\\d)-(\\d\\d\\d\\d)” Hallar fechas dentro de un rango Antonio Lucio Vivaldi (1678)-(1741) 2 “[^\\s]*(less|ness|able)” Hallar palabras con los sufijos less, ness y able. Sleepless, capable, greatness 3 “(.)(.).\\2\\1” Hallar palabras palíndromas de 5 letras Radar, kayak, level

Resultados 1 10 16 23 10 min 2 11 min 3 Expresión # nodos # de Mappers # de Reducers GB Tiempo Ejecución 1 10 16 23 10 min 2 11 min 3 # Expresión Descripción Coincidencias 1 “(\\d\\d\\d\\d)-(\\d\\d\\d\\d)” Hallar fechas dentro de un rango Antonio Lucio Vivaldi (1678)-(1741) 2 “[^\\s]*(less|ness|able)” Hallar palabras con los sufijos less, ness y able. Sleepless, capable, greatness 3 “(.)(.).\\2\\1” Hallar palabras palíndromas de 5 letras Radar, kayak, level

Análisis Comparativo Expresión Google Wikipedia Search Wikigrep “(\\d\\d\\d\\d)-(\\d\\d\\d\\d)” No es posible Si “[^\\s]*(less|ness|able)” Es posible por el uso de wildcards ejm: *less, *ness, *able lo que representa un total de 3 consultas “(.)(.).\\2\\1” Wikigrep es capaz de procesar las 3 consultas anteriores en un tiempo de 10 minutos para un dataset de 23 GB Tiempo puede ser reducido a menos de 5 minutos si se utiliza un clúster EC2 (en lugar de EMR) ya que al usar EMR se debe levantar y bajar el clúster por cada consulta

Conclusiones y Recomendaciones

Conclusiones El uso de computación distribuida se vuelve cada vez más popular Sin embargo, subir los datos a la nube es aún un problema Limitaciones como el ancho de banda del usuario Al trabajar con clústers para el procesamiento masivo de datos, se puede llegar a reducir los tiempos de procesamiento de los mismos considerablemente En nuestro caso, búsquedas tomaron menos de 15 minutos vs. un grep tradicional que hubiera tomado varias horas de procesamiento

Conclusiones El desarrollo del Wikigrep distribuido fue un éxito y atribuimos este suceso ha distintas razones: El diseño de la solución usando como EMR facilita levantar un clúster EC2 La librería cloud9 que facilito el uso y manipulación de los artículos de la Wikipedia La optimización realizada mediante la investigación en el uso del número adecuado de mappers y reducers Uso de expresiones regulares permite buscar patrones exactos en un documento y su buen uso puede llegar a ser una gran herramienta para el usuario Servicios de cloud computing facilitan el desarrollo de herramientas de este tipo, a bajo costo

Recomendaciones Recomendamos el uso de datasets de la Wikipedia comprimidos mejorando así los tiempos transmisión Al momento, EMR no soporta el uso de los dataset públicos de la Wikipedia (disponibles de manera gratuita gracias a Amazon), por lo que podría usarse EC2 que sí los soporta Evitaría subir los datos a S3 Utilizar algún algoritmo como Page Rank que ordernar los resultados en base a relevancia, importancia, etc.

¿Preguntas?