Google como Ejemplo de M á quinas de B ú quedas M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción

Slides:



Advertisements
Presentaciones similares
Implementación ISO 9001:
Advertisements

INASP Cascading Workshop: Electronic Journals and Electronic Resources Library Management: Evaluation and Quality Evaluación y calidad De publicaciones.
Enlaces con variables en la URL en PHP Programación en Internet II.
PORTAL WEB Manual de Usuario Perfil Autorizador
PROGRAMACION DE ESTRUCTURAS DE DATOS
Algoritmos Aleatorizados
Implementación de archivos
Definicion Son bases de datos creadas a partir de la información obtenida por programas que sistemáticamente recorren la Internet, localizando recursos.
Cómo hacer una página web Basado en la presentación de Ana Isabel Álvarez.
Pierre Sergei Zuppa Azúa Administración de sistemas versus administración de servicios.
Modelos de Texto Estructurado M
Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Diccionario técnico.
Especificación de Consultas M
(Organización y Manejo de Archivos)
Contesta Cierto o Falso (al final del módulo podrás tomar la prueba de nuevo): – Yahoo ofrece un motor de búsqueda. – Los motores de búsqueda funcionan.
Taller de Base de Datos Minería de Datos en la Web Descubrimiento de patrones y modelos en la Web Minería de Contenido –Contenido de páginas y fuentes.
World Wide Web M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Google Objetivos: comprender y conocer los beneficios que nos entrega este buscador. Nombres: -Javiera Arratia -Milena Pereira Curso: 2ºMedio B Fecha:
WWW: Máquinas de Búsqueda M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
INFORMATICA TEMA: MAUAL DE USO DEL WORDPRESS ANDREA SALINAS 1° D.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
COLEGIO DE BACHILLERES “XOCHIMILCO TEPEPAN” Nº13  Tecnologías de la Información y comunicación 3.  Profa. Gabriela Pichardo Lazardo EQUIPO 25  Emmanuel.
 Este protocolo opera a través de solicitudes y respuestas, entre un "cliente" y un "servidor". El cliente para los usuarios es el navegador web, usado.
Tema 6 – Servicio de Correo Electrónico
NOMBRES: Daniel Andrés Martínez Pérez Jhon Alejandro Carrizosa Ovalle Jaiver Giovanny Sánchez García CURSO: JORNADA: Tarde.
Búsqueda de Información en Internet
MIA - Grupo 5 Unidad 2.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
EL CORREO ELECTRÓNICO Y LA NAVEGACIÓN POR INTERNET Cómo obtener textos e imágenes de Internet para su posterior edición y tratamiento en procesador de.
MATERIAL EDUCATIVO PARA EL «ROE» COMBINAR CORRESPONDENCIA PROFRA. Guadalupe Hernández Ramírez MATRÍCULA PLANTEL 12 Nezahualcóyotl FECHA. 21 de.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
7 Fragmentación Bases de datos II I-2014 Universidad del Cauca Ing. Wilson Ortega Bases de datos II I-2014 Universidad del Cauca Ing. Wilson Ortega.
TEMA 2: HARDWARE Y SISTEMAS OPERATIVOS
MALWARE. Un malware es un programa informático diseñados por ciberdelincuentes para causarle algún daño o perjuicio al usuario como el robo de información,
 Modelo de Datos MD  Conjunto de conceptos que permiten describir, a distintos niveles de abstracción, la estructura de una B.D. Que llamaremos ESQUEMA.
FORMULARIOS DE ACCESS Realizado Por: Alexander Mendoza Jessica Moya.
Arquitectura y Sistemas Operativos Gestión de Memoria Parte 1 1 Gestión de Memoria – Parte 1 Agenda Parte 1 –RequisitosRequisitos –EvoluciónEvolución –Carga.
Centro de Informática Educativa VRA - UBB Jueves, 07 de Junio de 2007.
SISTEMAS OPERATIVOS Contenido: Descripción del proceso proceso nulo estado del procesador imagen del proceso información del BCP Miguel Ángel Martínez.
PREGUNTAS MÁS FRECUENTES DURANTE EL PROCESO DE INSCRIPCIÓN EN LA UAZ.
Tutorial del catálogo de la Biblioteca Universitaria Actualización septiembre 2011 La pantalla que estás viendo muestra la descripción de un documento.
Índice de diapositivas ¿Qué sabes de…? ¿Qué es Internet? Elementos necesarios para conectarse a Internet ¿Qué posibilidades ofrece Internet? La páginas.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
Clase II Estructuras dinámicas (TAD) Listas Enlazadas. ¿A que llamamos estructuras dinámicas? ¿Por qué son necesarias? Ventajas y Desventajas que tendremos.
Estadística I.
LIBRARY AND INFORMATION SCIENCE ABSTRACTS (LISA).
ESTE ES EL LISTADO DE LOS MEJORES GESTORES DE CONTENIDO (CMS) OPEN SOURCE EN 2015 LOS CMS LOS GESTORES DE CONTENIDO CMS OPEN SOURCE NOS HAN FACILITADO.
¿Están los jóvenes aprendiendo lo esperado en relación a las TIC? Competencias TIC Siglo XXI en estudiantes chilenos de 15 años.
8B C OLEGIO PARROQUIAL SAN JOSE DE FONTIBON.  Pero ¿qué es exactamente un blog? ¿Qué lo distingue de cualquier otro tipo de sitio web? Sin ánimo de erigirnos.
Blogs Elaborado por May Portuguez Para el curso Detección de Problemas de Aprendizaje Centro Universitario de Alajuela.
Conceptos de sistemas de información 4 Sistema de información formal –Es un medio informativo organizacionalmente eficaz, que es diseñado con la finalidad.
JANITH SULAY JAIMES PABON GIOVANNY JIMÉNEZ GÓMEZ JOHN ANDRES AYALA ANGARITA SERGIO ANDRES ARAQUE BERMUDEZ GESTIÓN DE ALMACENAMIENTO SECUNDARIO.
PenDrive EL PENDRIVE ES UN DISPOSITIVO TECNOLÓGICO EXTERNO, QUE ES CAPAZ DE GUARDAR INFORMACIÓN SIN NECESIDAD DE ENERGÍA ELÉCTRICA.
EJEMPLO DE BÚSQUEDA AVANZADA EN GOOGLE por Martha Zapata Docente Programa Integración de Tecnologías a la Docencia.
UNA APROXIMACIÓN A INTERNET Y A SUS HERRAMIENTAS DE BÚSQUEDA.
D IRECCIONAMIENTO IP ( PARTE 2) Juan Carlos Rodriguez Gamboa.
Optimización de Consultas Distribuidas. ÍNDICE Definiciones básicas Modelo de costo Estadísticas de la base de datos Optimización centralizada de consultas.
HTML & CSS. 15 Qué es HTML FCC-BUAP Verano 2016BMB - RAM  Es un lenguaje de marcas para formatear y estructurar un documento, que puede leerse en cualquier.
G ESTIÓN DE LA MEMORIA Paginación y segmentación.
Memoria virtual. Universidad de SonoraArquitectura de Computadoras2 Introducción Memoria virtual es un mecanismo que permite que la memoria principal.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
Curso: Metodología de la Investigación – Semana 6.
Pregunta orientadora de nuestro proyecto: cómo impactan en cómo impactan en Pregunta orientadora de nuestro proyecto: cómo impactan en cómo impactan en.
El ser humano actual, haciendo uso de las nuevas tecnologías, puede recibir en un solo día, una cantidad de información similar a la que recibían los individuos.
LOGO Muestreo Pedro Godoy G.. LOGO Inferencia estadística La Inferencia Estadística es aquella rama de la Estadística mediante la cual se trata de sacar.
Métodos Cuantitativos de Análisis de Datos I. Medidas de Variación.
ESCRIBIR NOMBRE DEL AUTOR O AUTORES ESCRIBIR AQUÍ EL TÍTULO (DEBE SER SIGNIFICATIVO Y ATRACTIVO) Imagen o gif alusivo al tema tema.
Pregunta orientadora de nuestro proyecto: cómo impactan en cómo impactan en Pregunta orientadora de nuestro proyecto: cómo impactan en cómo impactan en.
Transcripción de la presentación:

Google como Ejemplo de M á quinas de B ú quedas M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción

Desaf í os de Google Constante recuperaci ó n de informaci ó n disponible Manejo eficiente de espacio de í ndices Escalabilidad del sistema Documentos heterog é neos Manejo de m ú ltiple consustas

Google: Objetivos Buen ranking Uso masivo Integraci ó n de desarrollo con investigaci ó n Sistema abierto para comparaciones

PageRank PageRank simula un usuario que navega aleatoriamente en la Web, quien salta a una p á gina aleatoria con probabilidad q o que sigue un hyperlink aleatorio (en la p á gina actual) con probabilidad 1 - q. Este proceso es modelado como una cadena de Markov, donde la probabilidad estacionaria de estar en cada p á gina puede ser calculada. Sea C(a) el n ú mero de enlaces de salida de una p á gina a y suponga que p á gina a est á apuntada por p á ginas p 1 a p n

PageRank Dada un ranking inicial para cada p á gina El ranking R de todas las p á ginas es determinado por:

PageRank: Algor í tmo M es una matriz cuadrada de filas y columnas correspondientes a p á ginas Web, con M u,v = 1/C(u), con C(u) siendo el n ú mero de enlances de salidad de u.

Ranking Combina Modelo vectorial Texto de anchors PaageRank Vector indexado por tipo con peso asignados a cada tipo Vector modelo vectorial Producto punto modelo vectorial con vector basado en tipos Combinacion (?) del resulatdo con PageRank Para consultas con m ú ltiples palabras, se analizan ocurrencias cercanas en el texto.

Crawling la Web Comienza con un conjunto de URLs y desde ellos extrae los URLs, los cuales son seguidos recursivamente en un enfoque breadth-first o depth-first. M á quinas de b ú squeda permiten a usuarios enviar los sitios Web top que ser á n agregados a la lista de URL. Una variaci ó n es comenzar con un conjunto de URL populares, porque se espera que ellas tengan frecuentes requerimientos de informaci ó n.

Crawling Ambos casos trabajan bien para un crawler, pero es dif í cil coordinar muchos crawlers de manera de evitar visitar la misma p á gina m á s que una vez en un recorrido. Otra t é cnica es dividir la Web usando c ó digos de pa í ses o nombre de Internet, y asignar un o m á s robots a cada partici ó n. Considerando como la Web es atravezada, el í ndice de m á quina de b ú squeda puede ser pensada de una forma an á loga a las estrellas en el cielo. Lo que uno ve no existe tal cual, ya que la luz ha atravezado diferentes distancias hasta nuestro ojo.

Crawling Similarmente, p á ginas Web referenciadas en un í ndice son tambi é n exploradas en diferentes momentos. Cu á n actualizadas son las p á ginas Web en un í ndice? Las p á ginas son de un d í a a un dos meses viejas. Por esta raz ó n, muchas m á quinas de b ú squeda muestran en la respuesta la fecha cuando la p á gina fue indexada. El porcentaje de enlaces inv á lidos almacenados en m á quinas de b ú squeda var í a de 2 a 9%

Crawling Usuarios crean p á ginas que son recorridas o indexadas despu é s de unos pocos d í as o semanas. Algunas m á quinas atraviezan la Web “ completa ”, mientras otros seleccionan s ó lo un cierto subconjunto de depth de recorrdio. Han p á ginas que aprenden la frecuencia de cambio de una p á gina y la visita de acuerdo a eso. Los crawlers actuales son capaces de atravezar hasta 10 millines de p á ginas Web en un d í a.

Crawling El orden que los URL son visitados es importante: Usando una pol í tica breadth first, se busca todas las p á ginas enlazadas a la actual primero. Esto es bueno para sitios que est á n bien estructurados por t ó picos relacionados. Por otro lado, la cobertura puede ser amplia pero poco profunda y un servidor Web puede ser bombardeado por muchos requerimientos. En el caso de depth first, se sigue el primer enlace y as í sucesivamente hasta no se puede ir m á s profundo. Un buen esquema de ordenamiento puede hacer la diferencia para visitar las mejores p á ginas primero (PageRank)

Crawling Esquema de ordenamiento alternativos: Estrategias con ninguna informaci ó n adicional: backlink-count batch-pagerank partial-pagerank OPIC (weighted backlink strategy) largest site first. Estrategias con informaci ó n hist ó rica Estrategias con toda la informaci ó n

Crawling

Debido a que los robots pueden sobrepasar un servidor y usar ancho de banda significativo de la Internet, un conjunto de gu í as para la conducta de robots debe ser desarrollada. Crawlers puden tener problemas con p á ginas HTML que usan mapas o frames. Adicionamente, p á ginas generadas din á micamente no pueden ser indexadas como tampoco, p á ginas protegidas por password.

Indices La mayor í a de los í ndices son variaciones del í ndice invertido. Un archivo invertido es una lista de palabras ordenadas, cada una de las cuales apunta a las p á ginas donde existe. Algunas m á quinas de b ú squeda usan eliminaci ó n de stopwords para reducir el tama ñ o del í ndice. Normalizaci ó n puede incluir remover puntuaci ó n y m ú ltiple espacios. Dar al usuario alguna idea acerca del documento recuperado, el í ndice entrega una descripci ó n corta de la p á gina Web.

Indices Asumiendo que 500 bytes son usados para almacenar un URL y una descripci ó n, se necesitan 50Gb para almaenar 100 millones de p á ginas Como el usuario recibe inicialmente s ó lo un subconjunto de la respuesta completa a una consulta, las m á quinas de b ú squeda almacenan la respuesta completa.

Indices T é cnicas de indexaci ó n pueden reducir el espacio del archivo invertido hasta un 30% de tama ñ o del texto (menos si stopwords son eliminadas). Para 100 millones de p á ginas, esto implica 15 Gb de disco duro. Una consulta es respondida por un b ú squeda binaria en la lista ordenada de palabras de un archivo invertido. B ú squeda por m ú ltiple palabras, los resultados tienen que ser combinados para general una respuesta final. Problema: frecuencia de la palabra

Indices Archivos invertidos pueden tambi é n apuntar a la posici ó n exacta de ocurrencia de una palabra, pero es muy costoso. Tener la posici ó n exacta permite responder preguntas de frases o proximidad. Actualmente no se conoce c ó mo las m á quinas de b ú squeda permiten b ú squeda por frases.

Indices Apuntar a una p á gina o una posici ó n es una indicaci ó n de la granularidad de un í ndice. Los í ndices pueden ser menos densos si apuntan a un bloque l ó gico Reduce la varianza dada por los tama ñ os de documentos, haciendo bloques del mismo tama ñ o. Reduce el tama ñ o de los punteros Reduce el n ú mero de referencias