Los motores de búsqueda

Slides:



Advertisements
Presentaciones similares
¿Cómo está diseñada/pensada la Ocsi web? Aquí se muestran los principios que se han tomado para elaborar la e-ocsi Javier Liras.
Advertisements

Sesión 1: Servidores de Blogs y Editores de Páginas Web en línea
Complejidad Computacional
Ricardo Gaitán Pacheco Octubre 2001 MERCADO DE EMPLEO PARA PERSONAS CON DISCAPACIDAD (
© Dr. Iván E. Calimano Formas, usos, etc.
Ricardo Ferrís Castell
Nau Gran dHivern Intr. a la creación y gestión de páginas web Introducción a la web.
CREACIÓN DE PÁGINAS WEB CON SHAREPOINT DESIGNER 2007 (Sesión 1) Ricardo Ferrís Castell ( ) Departament D Informàtica.
Herramientas informáticas
Matemática Financiera 1º ADEUtilización de la Función TIR en el cálculo del tanto efectivo 1 de 37 Cálculo de tantos efectivos Utilización de la función.
Internet y tecnologías web
1 ¿Por qué Google es Google?: El futuro de la web Conferencia-Coloquio ATI, Madrid, 11 de Mayo de 2006 Mayo de 2006 ( Área reservada a imagen ) [Diapositivas.
JOURNAL CITATION REPORTS®
Conceptos básicos de Internet
Prof. Natalia Duarte e-Marketing Marketing en Buscadores.
Cómo cargar contenidos en un curso en Moodle
BUSCADORES DE LA WEB.
1. 2 ANTONIO ActividadesYOMIS PADRESMIS HERMANOS POR LA MAÑANA AL MEDIODIA POR LA TARDE EN LA NOCHE 3 Días FestivosYOPADRESHERMANOS POR LA MAÑANA AL.
IBD Clase 7.
Procesadores de Lenguaje
CLASE 4 EL ENSAMBLADOR.
ACADEMIA PARA PADRES Tema: Servicios de Tecnología
Koldo Parra de la Horra 1 MANUAL DEL PUBLICADOR EN JOOMLA (9) Todo lo que necesitas saber para publicar tus artículos en la página Web del Centro Insertar.
1 MEJORA DE UN ANALIZADOR AUTOMÁTICO DE ESTILOS PARA TEXTOS EN INGLÉS TÉCNICO: DESARROLLO DE LA AYUDA DE USUARIO. Madrid 2001Pilar Santamaría Rebollo.
BASE DE DATOS Primeros pasos
Interacción con MercadoLibre ¿Cómo empiezo a vender en MercadoLibre Interacción con MercadoLibre.
Buscando información en la red
4. Mantenimiento de los espacios de trabajo. Manual de formación 2 4. Modificación de los espacios de trabajo 4.1 Introducción……………………………….……..……..…pág.
Universidad Nacional Autónoma de Honduras
Solución de problema Herramientas aplicables
Para qué necesitabais esa información y concretar qué es lo que sabíais sobre el tema Vamos a aprender a buscar información útil en Internet.
Para ello lo primero que debemos hacer es acudir a la BIOS, para conseguir que arranque nuestro CD de instalación de Windows una vez que encendamos nuestro.
Rogelio Ferreira Escutia. Construir Tráfico 3 Contenido útil y actualizado para hacer volver al usuario. Contenido Util (la más importante!!!)
Marketing para Tecnología de Información
Fernando de Janon. Internet Es una red de redes, que se conecta a nivel mundial www: World wide web, es el estándar que permite visualizar textos, imágenes,
Casos de éxito de difusión a la comunidad universitaria Ing. Pedro Benítez Mejía.
Definicion Son bases de datos creadas a partir de la información obtenida por programas que sistemáticamente recorren la Internet, localizando recursos.
Base de Datos Relacional.
Guía de Facebook. Indice 1.¿Qué es Facebook y qué ventajas tiene? 2.¿Cómo me registro? 3.La página de empresa.
ENSEÑANZA Y APLICACIÓN DE MÉTODOS ÁGILES PARA EL DESARROLLO DE UNA APLICACIÓN COMPUTACIONAL Jorge Cornejo Elgueta ENSEÑANZA Y APLICACIÓN DE MÉTODOS ÁGILES.
Objetivo. Dado que ya tenemos la planificación temporal del proyecto, que responde a: ¿Qué se hará?, ¿Quién lo hará?, y ¿Cuándo lo hará? ¿Qué recursos.
POLÍTICA DE PRECIOS.
“¿Qué Pienso de mi futuro?”
Tema 3. Optimización de Código
Ampliación de Sistemas Operativos
DEMO Slide 1 Press Esc to exit Usando Reason!Able Una guía simple para empezar The Reason Group, June 2001 Tr. Gerardo Bolado
EL INTERNET El Internet es una red informática descentralizada, que para permitir la conexión entre computadoras opera a través de un protocolo de comunicaciones.
WEB 3.0 Conocida como la Web semántica. Se ve hacia el futuro como la mezcla de inteligencia e innovación tecnológica. A mediano plazo se esperan las mejoras.
1 Search Engine Optimization. 22 Objetivo Adquirir conceptos básicos de SEO y herramientas de uso.
PAGINA WEB Kelly Hernández Santiago Aranzazu 11:c Carlos Fernández.
Elaborado por: Aldo López Garrido Aránzazu Andrade Lara David González Quiroz.
Google Objetivos: comprender y conocer los beneficios que nos entrega este buscador. Nombres: -Javiera Arratia -Milena Pereira Curso: 2ºMedio B Fecha:
GOOGLE     Es el buscador más utilizado es la fuente prioritaria de sus ingresos y utilización, tienen desarrolladas.
Autora: Francisca Montañez Muñoz
Internet y Navegadores Unidad 5. Fecha: 1 de agosto de 2011 Periodo# : 2 Objetivo: identificar el contenido de una dirección web Tema: Elementos de una.
Un buscador es una página de internet que permite realizar búsquedas en la red. Su forma de utilización es muy sencilla, basta con introducir una o más.
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
LA IDEA DE NEGOCIO Se basa en un servicio ofrecido a las empresas o persona que tiene un negocio, y quieren vender su producto por internet, nosotros.
TALLER #5 GERMAN BECDACH MUÑOZ. PREGUNTAS  Qué es una pagina web? Una página web es el nombre de un documento o información electrónica adaptada para.
Internet y Navegadores Unidad 5. Fecha: 1 de agosto de 2011 Periodo# : 2 Objetivo: identificar el contenido de una dirección web Tema: Elementos de una.
Docente: Ing. Aldo Farfán Sánchez. CIP N°
La tecnología de Internet es una precursora de la llamada “superautopista de la información”, un objetivo teórico de las comunicaciones informáticas.
Tema: Motores de Búsqueda
la publicidad en las paginas web han sido de gran impacto en nuestros tiempos modernos ya que ella han logrado atraer a publico en general, ha demás.
Bases de Datos y Sistemas de Gestión de Bases Relacionales.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
En Internet: Los datos se transforman en información cuando una persona los lee, los comprende y los usa con algún fin: para estudiar, para trabajar,
¿Internet? Es un conjunto descentralizado de redes de comunicación interconectadas que utilizan la familia de protocolos TCP/IP, garantizando que las redes.
Primer nivel – Piramide SEO
Hacia 1888 el británico William Morris creo el movimiento “Arts and Crafts” ya que como consecuencia de la revolución industrial la producción artesanal.
Transcripción de la presentación:

Los motores de búsqueda Autor: Stefano Chiazza Tutor: Xavier Sánchez Búsqueda en Wibo a través de más de 650 páginas Abat Oliba

Objetivos El estudio de los motores de búsqueda en cuanto a su funcionamiento. La programación de un prototipo, implementado en Java, MySQL, HTML y JSP.

Los buscadores

Qué son Los buscadores son programas informáticos que se dedican a analizar la Web para posteriormente poder buscar en ella. Están formados por las cinco partes que se presentan a continuación: INTERFAZ: punto de interconexión con el usuario. En la interfaz se introducirán las palabras a buscar y se recibirán los resultados. RASTREADOR: Programa que analiza la red. BASE DE DATOS: Lugar en el que se almacenará la información encontrada. ÍNDICES: Algoritmos que modelarán la base de datos. PROGRAMA DE BÚSQUEDA: Programa que buscará en la base de datos.

Por qué se utilizan “Aunque es sumamente difícil medir el tamaño de la Web, se estima que hoy en día unos 1.000.000.000 usuarios utilizan la Web, y que esta contiene del orden de 4.000.000.000 documentos, un volumen equivalente a entre catorce y veintiocho millones de libros” Pablo Castells, La Web Semántica Así, podemos admitir que una estructuración de esta información es necesaria. ¿Se imaginan el tiempo que tardaría una persona para encontrar todos los libros que contengan una palabra determinada en una pequeña biblioteca de cien libros? “Ahora se puede buscar a lo equivalente a 70 millas de altura en papel en menos de un segundo. Creemos que es fantástico” Lawrence Page, cofundador de Google

Situación actual Según el portal SearchEngineWath.com se realizan unos 213 millones de búsquedas al día, con un total de 6.400 millones en Marzo de 2006 en EEUU. Por este motivo, el mundo de los buscadores mueve grandes cantidades de dinero (el 99% del cual es publicidad, según El País). El mercado actual está dominado por Google, que indexaba hace un tiempo el 71.16% de toda la red y que cuenta con más de 9.500 empleados bajo un lema: “organizar la información mundial y hacerla universalmente accesible y útil”.

En vista al futuro Dos son las tendencias actuales: Búsqueda semántica: de esta nueva generación de motores de búsqueda se espera que consigan entender a la perfección al usuario. A modo de ejemplo: buscadores capaces de entender la diferencia entre ‘libros de niños’, ‘libros para niños’, ‘libros con niños’. Búsqueda personalizada: buscadores que almacenan todos los movimientos de los usuarios en sus cuentas (búsquedas, e-mails, etc.) para dar con temas de interés personal.

Prototipo

Idea El objetivo de este trabajo ha sido la implementación de un prototipo de buscador. Hacerlo a escala de red de redes es una tarea que se me presenta hoy por hoy inabarcable: hacer una base de datos eficiente, un rastreador rápido, etc. De esta manera, Wibo rastreará sólo las páginas Abat Oliba y permitirá buscar en ellas.

Tecnologías Java, JSP y HTML como lenguajes de programación MySQL como herramienta de base de datos

Diseño e implementación Wibo ha sido diseñado para que sea de lo más eficiente. Este motor de búsqueda está orientado a páginas Abat Oliba. Por este motivo, no controla muchos de los posibles errores con los que un buscador a gran escala debe tratar. Está formado por un crawler, una base de datos, un programa de búsqueda y una interfaz.

Diseño e implementación Base de datos Diseñada para estructurar la información de un modo más racional. A continuación se presenta el modelo entidad-relación:

Diseño e implementación Base de datos Las imágenes que seguidamente se presentan muestran muy bien su estructura: Tabla URLS: Tabla PALABRAS: Tabla PALABRAS_URL:

Diseño e implementación Rastreador Rastrea las páginas de la fundación Abat Oliba. Analiza en un proceso completo y sólo cuando alguien decide ejecutarlo. Está formado por dos clases: DatosURL y Rastreador.

Diseño e implementación Rastreador Clase Rastreador: Es la clase que contiene el cuerpo principal del programa y, por lo tanto, será la que se ejecutará. La primera URL que rastrea (y es la única establecida antes de ejecutar el programa) es http://www.uao.es. Se basa en una sentencia iterativa y, por lo tanto, se ejecutará siempre y cuando tenga en espera más páginas por rastrear.

Diseño e implementación Rastreador Clase Rastreador: El proceso que sigue al analizar una Web es el siguiente: Verificará que la URL que está analizando no está en la base de datos para añadirla si no lo está. Si la URL es incorrecta, tendrá métodos para controlar el error. Analiza la página. Aquí, existirán dos procesos: el de extracción de palabras y el de análisis de hipervínculos hacia otras páginas. Una vez analizada la página, con las palabras contadas y los vínculos extraídos, actualizará la base de datos. Volverá a empezar de nuevo y analizará la página primera en la cola de por analizar.

Diseño e implementación Rastreador Clase DatosURL: Es una clase que sirve para que el programador tenga una visión más precisa de los errores que puedan acaecer durante la tarea de rastreo. A modo de ejemplo, el encuentro inesperado con una URL mal formada (*http://www.uaoes)

Diseño e implementación Algoritmo de búsqueda El algoritmo de búsqueda de Wibo ordena los resultados según el número de veces que aparece una de las palabras buscadas en cada página de la base de datos (siempre y cuando aparezca al menos una vez). Permite buscar documentos conteniendo las palabras buscadas, con la posibilidad de introducir todas las que se quieran. Se devolverán aquellos documentos que las contengan todas.

Diseño e implementación Algoritmo de búsqueda Sigue los siguientes pasos: A partir de lo que recibe por parte del usuario, fragmenta el texto según los espacios en blanco para obtener las palabras. Cogerá de la base de datos las páginas que contengan la primera palabra en orden descendiente de apariciones. A partir de esta lista de páginas, la recorrerá comenzando de la primera URL hasta la última, y para cada palabra comprobará si aparece en la URL que se está analizando. Si no aparece, la eliminará de la lista. Presentará los resultados.

Diseño e implementación Interfaz Programada en HTML y JSP. Simple …

272.727 relaciones palabras-url. Resultados 694 páginas analizadas. 17.155 palabras encontradas. 272.727 relaciones palabras-url. Tiempo de ejecución del rastreador: 3.4 horas con una media de 18s por página.

Mejoras Aplicar el protocolo de robots.txt. Hacerlo a escala de red de redes. No almacenar los metatags de las páginas. Mejorar la base de datos. Optimizar al conjunto.

Gracias