WWW: Máquinas de Búsqueda M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Ranking Modelos más usados: Boolean o Vector y sus variaciones Ranking tiene que ser realizado con acceso s ó lo a los í ndices y no el texto Acerca de los algoritmos, la informaci ó n es secreta y es casi imposible tener una medida de recall
Ranking Yuwono y Lee (1997) propusieron tres algoritmos de ranking (plus tf-idf scheme): Boolean spread (Boolean cl á sico m á s “ simplified link analysis ” ) Most-cited (basado s ó lo en los t é rminos incluidos en p á ginas que tienen un link a las p á ginas en la respuesta) Vector Spread Activation (Vector space model y spread activation model) (relativamente superior, 75%) Boolean spread y vector spread usan modelos cl á sicos extendidos con p á ginas apuntadas por p á ginas en la respuesta o p á ginas que apuntan a la respuesta.
Ranking Algunos nuevos algoritmos tambi é n usan informaci ó n de hyperlink Diferencia importante entre la Web y IR en databases: el n ú mero de hyperlinks que apuntan a una p á gina refleja una medida de popularidad y calidad. Links entre p á ginas frecuentente indican una relaci ó n entre ellas.
Ranking Ejemplos de rankings basados en análisis de links: WebQuery, el cual permite browsing visual de p á ginas Web. Toma un conjunto de p á ginas Web y las ordena en base a cu á n conectadas est á n. Tambi é n extiende el conjunto de p á ginas a un conjunto de p á ginas altamente conectadas.
Ranking WebQuery
Ranking Ranking de Kleinberg depende de la consulta y considera el conjunto de p á ginas S que apunta a o son apuntadas por la respuesta. P á ginas que tienen muchos links que apuntan a ellas en S son llamadas autoridades (authorities) P á ginas que tienen muchos links de salida son llamadas conectores (hubs) Mejores p á ginas authorities vienen de links de entrada desde buenos conectores (hubs) y buenos hubs vienen de enlaces de salida de buenas authorities.
Ranking
Ranking PageRank simula un usuario que navega aleatoriamente en la Web, quien salta a una p á gina aleatoria con probabilidad q o que sigue un hyperlink aleatorio (en la p á gina actual) con probabilidad 1 - q. Este proceso es modelado como una cadena de Markov, donde la probabilidad estacionaria de estar en cada p á gina puede ser calculada. Sea C(a) el n ú mero de enlaces de salida de una p á gina a y suponga que p á gina a est á apuntada por p á ginas p 1 a p n
Ranking
Crawling la Web Comienza con un conjunto de URLs y desde ellos extrae los URLs, los cuales son seguidos recursivamente en un enfoque breadth-first o depth-first. M á quinas de b ú squeda permiten a usuarios enviar los sitios Web top que ser á n agregados a la lista de URL. Una variaci ó n es comenzar con un conjunto de URL populares,porque se espera que ellas tengan frecuentes requerimientos de informaci ó n.
Crawling Ambos casos trabajan bien para un crawler, pero es dif í cil coordinar muchos crawlers de manera de evitar visitar la misma p á gina m á s que una vez en un recorrido. Otra t é cnica es dividir la Web usando c ó digos de pa í ses o nombre de Internet, y asignar un o m á s robots a cada partici ó n. Considerando como la Web es atravezada, el í ndice de m á quina de b ú squeda puede ser pensada de una forma an á loga a las estrellas en el cielo. Lo que uno ve no existe tal cual, ya que la luz ha atravezado diferentes distancias hasta nuestro ojo.
Crawling Similarmente, p á ginas Web referenciadas en un í ndice son tambi é n exploradas en diferentes momentos. Cu á n actualizadas son las p á ginas Web en un í ndice? Las p á ginas son de un d í a a un dos meses viejas. Por esta raz ó n, muchas m á quinas de b ú squeda muestran en la respuesta la fecha cuando la p á gina fue indexada. El porcentaje de enlaces inv á lidos almacenados en m á quinas de b ú squeda var í a de 2 a 9%
Crawling Usuarios crean p á ginas que son recorridas o indexadas despu é s de unos pocos d í as o semanas. Algunas m á quinas atraviezan la Web “ completa ”, mientras otros seleccionan s ó lo un cierto subconjunto de depth de recorrdio. Han p á ginas que aprenden la frecuencia de cambio de una p á gina y la visita de acuerdo a eso. Los crawlers actuales son capaces de atravezar hasta 10 millines de p á ginas Web en un d í a.
Crawling El orden que los URL son visitados es importante: Usando una pol í tica breadth first, se busca todas las p á ginas enlazadas a la actual primero. Esto es bueno para sitios que est á n bien estructurados por t ó picos relacionados. Por otro lado, la cobertura puede ser amplia pero poco profunda y un servidor Web puede ser bombardeado por muchos requerimientos. En el caso de depth first, se sigue el primer enlace y as í sucesivamente hasta no se puede ir m á s profundo. Un buen esquema de ordenamiento puede hacer la diferencia para visitar las mejores p á ginas primero (PageRank)
Crawling Esquema de ordamiento alternativos: Estrategias con ninguna informaci ó n adicional: backlink-count batch-pagerank partial-pagerank OPIC (weighted backlink strategy) largest site first. Estrategias con informaci ó n hist ó rica Estrategias con toda la informaci ó n
Crawling
Debido a que los robots pueden sobrepasar un servidor y usar ancho de banda significativo de la Internet, un conjunto de gu í as para la conducta de robots debe ser desarrollada. Crawlers puden tener problemas con p á ginas HTML que usan mapas o frames. Adicionamente, p á ginas generadas din á micamente no pueden ser indexadas como tampoco, p á ginas protegidas por password.
Indices La mayor í a de los í ndices son variaciones del í ndice invertido. Un archivo invertido es una lista de palabras ordenadas, cada una de las cuales apunta a las p á ginas donde existe. Algunas m á quinas de b ú squeda usan eliminaci ó n de stopwords para reducir el tama ñ o del í ndice. Normalizaci ó n puede incluir remover puntuaci ó n y m ú ltiple espacios. Dar al usuario alguna idea acerca del documento recuperado, el í ndice entrega una descripci ó n corta de la p á gina Web.
Indices Asumiendo que 500 bytes son usados para almacenar un URL y una descripci ó n, se necesitan 50Gb para almaenar 100 millones de p á ginas Como el usuario recibe inicialmente s ó lo un subconjunto de la respuesta completa a una consulta, las m á quinas de b ú squeda almacenan la respuesta completa.
Indices T é cnicas de indexaci ó n pueden reducir el espacio del archivo invertido hasta un 30% de tama ñ o del texto (menos si stopwords son eliminadas). Para 100 millones de p á ginas, esto implica 15 Gb de disco duro. Una consulta es respondida por un b ú squeda binaria en la lista ordenada de palabras de un archivo invertido. B ú squeda por m ú ltiple palabras, los resultados tienen que ser combinados para general una respuesta final. Problema: frecuencia de la palabra
Indices Archivos invertidos pueden tambi é n apuntar a la posici ó n exacta de ocurrencia de una palabra, pero es muy costoso. Tener la posici ó n exacta permite responder preguntas de frases o proximidad. Actualmente no se conoce c ó mo las m á quinas de b ú squeda permiten b ú squeda por frases.
Indices Apuntar a una p á gina o una posici ó n es una indicaci ó n de la granularidad de un í ndice. Los í ndices pueden ser menos densos si apuntan a un bloque l ó gico Reduce la varianza dada por los tama ñ os de documentos, haciendo bloques del mismo tama ñ o. Reduce el tama ñ o de los punteros Reduce el n ú mero de referencias