WWW: Máquinas de Búsqueda M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción

Slides:



Advertisements
Presentaciones similares
Hola. Estamos aquí para proporcionarle la información y herramientas que necesita para planear y dirigir su proyecto de manera profesional.
Advertisements

Implementación ISO 9001:
Diferencia Entre Blogs y Websites Christian O. Rodríguez Méndez 8 de abril de 2010.
INASP Cascading Workshop: Electronic Journals and Electronic Resources Library Management: Evaluation and Quality Evaluación y calidad De publicaciones.
Preguntas Frecuentes (FAQs). FAQs: Esta presentación contiene algunas respuestas a preguntas comunes sobre el uso de HINARI una vez que se ha registrado.
Análisis de encadenamiento
TECNICAS DE ESTUDIO Comprensión en la lectura
Enlaces con variables en la URL en PHP Programación en Internet II.
Hola Bartolo: Soy Luis García Rodríguez, el que hacía el trabajo del Pagerank de google. Te mando el trabajo creo que más o menos listo, hay muchas cosas.
PROGRAMACION DE ESTRUCTURAS DE DATOS
Algoritmos Aleatorizados
Navegadores WEB.
Modelos de Texto Estructurado M
Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Especificación de Consultas M
1 Search Engine Optimization. 22 Objetivo Adquirir conceptos básicos de SEO y herramientas de uso.
(Organización y Manejo de Archivos)
Contesta Cierto o Falso (al final del módulo podrás tomar la prueba de nuevo): – Yahoo ofrece un motor de búsqueda. – Los motores de búsqueda funcionan.
Taller de Base de Datos Minería de Datos en la Web Descubrimiento de patrones y modelos en la Web Minería de Contenido –Contenido de páginas y fuentes.
World Wide Web M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Sitios Web Conceptos Básicos. Historia Conceptos Básicos Necesidades de Hardware y Software Organización de Contenidos Guías para la creación de Paginas.
¿Qué es la Internet? Es una "red de redes", ¿Cómo así…?
Recuperación de Información M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Google como Ejemplo de M á quinas de B ú quedas M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
EDWIN ACOSTA PINILLA DIEGO FERNANDO CASTRO JHON SEBASTIAN CASTRO.
28 de Agosto de 2012 Las TIC en el nivel inicial posibilidades y desafíos.
Muchas de las investigaciones sobre el comportamiento de los usuarios de la Web que se están realizando en poblaciones de personas nacidas posteriormente.
 Este protocolo opera a través de solicitudes y respuestas, entre un "cliente" y un "servidor". El cliente para los usuarios es el navegador web, usado.
Es un conjunto de redes: redes de ordenadores y equipos físicamente unidos mediante cables que conectan puntos de todo el mundo. Estos cables se presentan.
El Internet es una red informática descentralizada, que para permitir la conexión entre computadoras opera a través de un protocolo de comunicaciones.
Conceptos Clases de blog Requisitos para crear un blog Elementos de un blog Direcciones de ejemplos de blog. Desarrollo. 1.Un blog, o en espa ñ ol tambi.
NOMBRES: Daniel Andrés Martínez Pérez Jhon Alejandro Carrizosa Ovalle Jaiver Giovanny Sánchez García CURSO: JORNADA: Tarde.
File Transfer Protocol.
Búsqueda de Información en Internet
UNIVERSIDAD TECNOLÓGICA ECOTEC. ISO 9001:2008 Terminología informática básica FUNDAMENTOS TECNOLÓGICOS DE INFORMACIÓN.
POSICIONAMIENTO EN BUSCADORES SEO-SEM. Resultados orgánicos (SEO) VS Resultados de pago (SEM) Quién no ha soñado alguna vez mejorar su posicionamiento.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
TEMA 2: HARDWARE Y SISTEMAS OPERATIVOS
 Modelo de Datos MD  Conjunto de conceptos que permiten describir, a distintos niveles de abstracción, la estructura de una B.D. Que llamaremos ESQUEMA.
Arquitectura y Sistemas Operativos Gestión de Memoria Parte 1 1 Gestión de Memoria – Parte 1 Agenda Parte 1 –RequisitosRequisitos –EvoluciónEvolución –Carga.
Centro de Informática Educativa VRA - UBB Jueves, 07 de Junio de 2007.
Introducción: El Internet ha cambiado para siempre la forma en que nos comunicamos, trabajamos, y accedemos a distintos tipos de información. Se han inventado.
Tutorial del catálogo de la Biblioteca Universitaria Actualización septiembre 2011 La pantalla que estás viendo muestra la descripción de un documento.
Índice de diapositivas ¿Qué sabes de…? ¿Qué es Internet? Elementos necesarios para conectarse a Internet ¿Qué posibilidades ofrece Internet? La páginas.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
JOSE ALBERTO JIMENEZ JIMENEZ KATTY HIPOLITO. 7.1 INTRODUCCION AL LENGUAJE EMSAMBLADOR.
WWW  En informática, la World Wide Web (WWW) o Red informática mundial 1 comúnmente conocida como la web, es un sistema de distribución de documentos.
Clase II Estructuras dinámicas (TAD) Listas Enlazadas. ¿A que llamamos estructuras dinámicas? ¿Por qué son necesarias? Ventajas y Desventajas que tendremos.
Estadística I.
LIBRARY AND INFORMATION SCIENCE ABSTRACTS (LISA).
¿Están los jóvenes aprendiendo lo esperado en relación a las TIC? Competencias TIC Siglo XXI en estudiantes chilenos de 15 años.
Procesamiento de Datos Cód.: 330 Facilitadora: Beatriz González Profesor: Oscar Núñez Universidad Nacional Abierta Vicerrectorado Académico Área: Ingeniería.
8B C OLEGIO PARROQUIAL SAN JOSE DE FONTIBON.  Pero ¿qué es exactamente un blog? ¿Qué lo distingue de cualquier otro tipo de sitio web? Sin ánimo de erigirnos.
Blogs Elaborado por May Portuguez Para el curso Detección de Problemas de Aprendizaje Centro Universitario de Alajuela.
Conceptos de sistemas de información 4 Sistema de información formal –Es un medio informativo organizacionalmente eficaz, que es diseñado con la finalidad.
JANITH SULAY JAIMES PABON GIOVANNY JIMÉNEZ GÓMEZ JOHN ANDRES AYALA ANGARITA SERGIO ANDRES ARAQUE BERMUDEZ GESTIÓN DE ALMACENAMIENTO SECUNDARIO.
PenDrive EL PENDRIVE ES UN DISPOSITIVO TECNOLÓGICO EXTERNO, QUE ES CAPAZ DE GUARDAR INFORMACIÓN SIN NECESIDAD DE ENERGÍA ELÉCTRICA.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
UNA APROXIMACIÓN A INTERNET Y A SUS HERRAMIENTAS DE BÚSQUEDA.
D IRECCIONAMIENTO IP ( PARTE 2) Juan Carlos Rodriguez Gamboa.
Optimización de Consultas Distribuidas. ÍNDICE Definiciones básicas Modelo de costo Estadísticas de la base de datos Optimización centralizada de consultas.
HTML & CSS. 15 Qué es HTML FCC-BUAP Verano 2016BMB - RAM  Es un lenguaje de marcas para formatear y estructurar un documento, que puede leerse en cualquier.
G ESTIÓN DE LA MEMORIA Paginación y segmentación.
Memoria virtual. Universidad de SonoraArquitectura de Computadoras2 Introducción Memoria virtual es un mecanismo que permite que la memoria principal.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
Curso: Metodología de la Investigación – Semana 6.
1.2 Obtención y análisis de requerimientos Requerimiento Atributo o característica que describe el comportamiento de un sistema. Los requerimientos especifican.
LOGO Muestreo Pedro Godoy G.. LOGO Inferencia estadística La Inferencia Estadística es aquella rama de la Estadística mediante la cual se trata de sacar.
Transcripción de la presentación:

WWW: Máquinas de Búsqueda M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción

Ranking Modelos más usados: Boolean o Vector y sus variaciones Ranking tiene que ser realizado con acceso s ó lo a los í ndices y no el texto Acerca de los algoritmos, la informaci ó n es secreta y es casi imposible tener una medida de recall

Ranking Yuwono y Lee (1997) propusieron tres algoritmos de ranking (plus tf-idf scheme): Boolean spread (Boolean cl á sico m á s “ simplified link analysis ” ) Most-cited (basado s ó lo en los t é rminos incluidos en p á ginas que tienen un link a las p á ginas en la respuesta) Vector Spread Activation (Vector space model y spread activation model) (relativamente superior, 75%) Boolean spread y vector spread usan modelos cl á sicos extendidos con p á ginas apuntadas por p á ginas en la respuesta o p á ginas que apuntan a la respuesta.

Ranking Algunos nuevos algoritmos tambi é n usan informaci ó n de hyperlink Diferencia importante entre la Web y IR en databases: el n ú mero de hyperlinks que apuntan a una p á gina refleja una medida de popularidad y calidad. Links entre p á ginas frecuentente indican una relaci ó n entre ellas.

Ranking Ejemplos de rankings basados en análisis de links: WebQuery, el cual permite browsing visual de p á ginas Web. Toma un conjunto de p á ginas Web y las ordena en base a cu á n conectadas est á n. Tambi é n extiende el conjunto de p á ginas a un conjunto de p á ginas altamente conectadas.

Ranking WebQuery

Ranking Ranking de Kleinberg depende de la consulta y considera el conjunto de p á ginas S que apunta a o son apuntadas por la respuesta. P á ginas que tienen muchos links que apuntan a ellas en S son llamadas autoridades (authorities) P á ginas que tienen muchos links de salida son llamadas conectores (hubs) Mejores p á ginas authorities vienen de links de entrada desde buenos conectores (hubs) y buenos hubs vienen de enlaces de salida de buenas authorities.

Ranking

Ranking PageRank simula un usuario que navega aleatoriamente en la Web, quien salta a una p á gina aleatoria con probabilidad q o que sigue un hyperlink aleatorio (en la p á gina actual) con probabilidad 1 - q. Este proceso es modelado como una cadena de Markov, donde la probabilidad estacionaria de estar en cada p á gina puede ser calculada. Sea C(a) el n ú mero de enlaces de salida de una p á gina a y suponga que p á gina a est á apuntada por p á ginas p 1 a p n

Ranking

Crawling la Web Comienza con un conjunto de URLs y desde ellos extrae los URLs, los cuales son seguidos recursivamente en un enfoque breadth-first o depth-first. M á quinas de b ú squeda permiten a usuarios enviar los sitios Web top que ser á n agregados a la lista de URL. Una variaci ó n es comenzar con un conjunto de URL populares,porque se espera que ellas tengan frecuentes requerimientos de informaci ó n.

Crawling Ambos casos trabajan bien para un crawler, pero es dif í cil coordinar muchos crawlers de manera de evitar visitar la misma p á gina m á s que una vez en un recorrido. Otra t é cnica es dividir la Web usando c ó digos de pa í ses o nombre de Internet, y asignar un o m á s robots a cada partici ó n. Considerando como la Web es atravezada, el í ndice de m á quina de b ú squeda puede ser pensada de una forma an á loga a las estrellas en el cielo. Lo que uno ve no existe tal cual, ya que la luz ha atravezado diferentes distancias hasta nuestro ojo.

Crawling Similarmente, p á ginas Web referenciadas en un í ndice son tambi é n exploradas en diferentes momentos. Cu á n actualizadas son las p á ginas Web en un í ndice? Las p á ginas son de un d í a a un dos meses viejas. Por esta raz ó n, muchas m á quinas de b ú squeda muestran en la respuesta la fecha cuando la p á gina fue indexada. El porcentaje de enlaces inv á lidos almacenados en m á quinas de b ú squeda var í a de 2 a 9%

Crawling Usuarios crean p á ginas que son recorridas o indexadas despu é s de unos pocos d í as o semanas. Algunas m á quinas atraviezan la Web “ completa ”, mientras otros seleccionan s ó lo un cierto subconjunto de depth de recorrdio. Han p á ginas que aprenden la frecuencia de cambio de una p á gina y la visita de acuerdo a eso. Los crawlers actuales son capaces de atravezar hasta 10 millines de p á ginas Web en un d í a.

Crawling El orden que los URL son visitados es importante: Usando una pol í tica breadth first, se busca todas las p á ginas enlazadas a la actual primero. Esto es bueno para sitios que est á n bien estructurados por t ó picos relacionados. Por otro lado, la cobertura puede ser amplia pero poco profunda y un servidor Web puede ser bombardeado por muchos requerimientos. En el caso de depth first, se sigue el primer enlace y as í sucesivamente hasta no se puede ir m á s profundo. Un buen esquema de ordenamiento puede hacer la diferencia para visitar las mejores p á ginas primero (PageRank)

Crawling Esquema de ordamiento alternativos: Estrategias con ninguna informaci ó n adicional: backlink-count batch-pagerank partial-pagerank OPIC (weighted backlink strategy) largest site first. Estrategias con informaci ó n hist ó rica Estrategias con toda la informaci ó n

Crawling

Debido a que los robots pueden sobrepasar un servidor y usar ancho de banda significativo de la Internet, un conjunto de gu í as para la conducta de robots debe ser desarrollada. Crawlers puden tener problemas con p á ginas HTML que usan mapas o frames. Adicionamente, p á ginas generadas din á micamente no pueden ser indexadas como tampoco, p á ginas protegidas por password.

Indices La mayor í a de los í ndices son variaciones del í ndice invertido. Un archivo invertido es una lista de palabras ordenadas, cada una de las cuales apunta a las p á ginas donde existe. Algunas m á quinas de b ú squeda usan eliminaci ó n de stopwords para reducir el tama ñ o del í ndice. Normalizaci ó n puede incluir remover puntuaci ó n y m ú ltiple espacios. Dar al usuario alguna idea acerca del documento recuperado, el í ndice entrega una descripci ó n corta de la p á gina Web.

Indices Asumiendo que 500 bytes son usados para almacenar un URL y una descripci ó n, se necesitan 50Gb para almaenar 100 millones de p á ginas Como el usuario recibe inicialmente s ó lo un subconjunto de la respuesta completa a una consulta, las m á quinas de b ú squeda almacenan la respuesta completa.

Indices T é cnicas de indexaci ó n pueden reducir el espacio del archivo invertido hasta un 30% de tama ñ o del texto (menos si stopwords son eliminadas). Para 100 millones de p á ginas, esto implica 15 Gb de disco duro. Una consulta es respondida por un b ú squeda binaria en la lista ordenada de palabras de un archivo invertido. B ú squeda por m ú ltiple palabras, los resultados tienen que ser combinados para general una respuesta final. Problema: frecuencia de la palabra

Indices Archivos invertidos pueden tambi é n apuntar a la posici ó n exacta de ocurrencia de una palabra, pero es muy costoso. Tener la posici ó n exacta permite responder preguntas de frases o proximidad. Actualmente no se conoce c ó mo las m á quinas de b ú squeda permiten b ú squeda por frases.

Indices Apuntar a una p á gina o una posici ó n es una indicaci ó n de la granularidad de un í ndice. Los í ndices pueden ser menos densos si apuntan a un bloque l ó gico Reduce la varianza dada por los tama ñ os de documentos, haciendo bloques del mismo tama ñ o. Reduce el tama ñ o de los punteros Reduce el n ú mero de referencias