Taller de Base de Datos Minería de Datos en la Web Descubrimiento de patrones y modelos en la Web Minería de Contenido –Contenido de páginas y fuentes.

Slides:



Advertisements
Presentaciones similares
¿Caracterìsticas SEO? 1.Resultados a largo plazo 2.Depende de múltiples factores 3.No se pueden comprar los resultados 4.No se paga por click 5.Excelente.
Advertisements

Análisis de encadenamiento
En la siguiente presentación, se les dará a conocer acerca de las WIKIS: que es?, para que sirve?, como se utiliza?, y se les presentara una serie de.
Modelando aplicaciones
ARQUITECTURA DE LA INFORMACIÓN Trabajo Final Yohanna Ayala Marleny Tubiñez Cira Orta Germán Orta Juan Vicente Mijares Yennis Marbey Puente.
Pensiones Civiles del Estado PROYECTO: Página Web PCE
Base de Datos Distribuidas FUNDAMENTOS DE BASES DE DATOS DISTRIBUIDAS
La web semántica y su impacto en la recuperación de información
Ingeniería en Ciencias Económicas y Financieras
Ingeniería Matemática
Ingeniería en Ciencias Económicas y Financieras
ING. ERIKA ASCENCIO JORDÁN DOCENTE UNIVERSIDAD ECOTEC Sonnia Mendoza Carlos Morocho PAGINAS WEB.
JSP Copyright ISIPE – Instituto de Servicios Informáticos para Empresas – Universidad Siglo 21 – Cualquier copia u otro uso debe ser autorizado expresamente.
Unidad académica: Ingenierías
Hola Bartolo: Soy Luis García Rodríguez, el que hacía el trabajo del Pagerank de google. Te mando el trabajo creo que más o menos listo, hay muchas cosas.
Cualquier sitio web puede ser utilizado en un momento determinado como medio para llevar a cabo ciertos aprendizajes, por ejemplo se pueden aprender cosas.
Buscador Es un sistema informático que busca archivos almacenados en servidores web HERRAMIENTAS DE COMPUTACION I.
Tema 4: Cadenas de Markov
Arquitectura de la Información para el World Wide Web.
TRANSFORMACIONES LINEALES PARA REDES NEURALES ARTIFICIALES
Matemáticas para Ciencias de la Computación MCC3182 Profesor: Claudio Gutiérrez Soto Página Web:
HTML HyperText Markup Language (Lenguaje de Marcas de Hipertexto)
Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
Especificación de Consultas M
1 Search Engine Optimization. 22 Objetivo Adquirir conceptos básicos de SEO y herramientas de uso.
Proceso estocástico Cadena de Markov Estado Transición
Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Sesión 6: Campos de Markov
BUSCADORES y NAVEGADORES.
Hecho por: Celeste Amalvy Y Victoria D´Arrisso. Funcionalidades. Localizar un ordenador de forma inequívoca. Realizar una conexión con otro ordenador.
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Sesión 5: Modelos Ocultos de Markov
Sesión 5: Modelos Ocultos de Markov
Distribuciones derivadas del muestreo
Organizado por Agustina Tenenbaum Justina Garayzabal.
¿QUÉ ES LA INTERNET? Podemos definir a Internet como una "red de redes", es decir, una red que no sólo interconecta computadoras, sino que interconecta.
Capítulo 7 Estimación de Parámetros Estadística Computacional
¿Qué es la Internet? Es una "red de redes", ¿Cómo así…?
Raúl Monroy (de las notas de Jane Hilston)
Internet y Navegadores Unidad 5. Fecha: 1 de agosto de 2011 Periodo# : 2 Objetivo: identificar el contenido de una dirección web Tema: Elementos de una.
Sistemas de Control y Proceso Adaptativo
CONCEPTOS. Una página web es un documento creado en formato HTML (Hypertext Markup Language) que es parte de un grupo de documentos hipertexto o recursos.
BUSCADORES.
Alumnas: Mercedes Bosio Martina Moure. Protocolo de comunicación Permitir localizar un ordenador de forma inequívoca Permitir realizar una conexión con.
 Este protocolo opera a través de solicitudes y respuestas, entre un "cliente" y un "servidor". El cliente para los usuarios es el navegador web, usado.
 Una página web es el nombre de un documento o información electrónica adaptada para la World Wide Web y que puede ser accedida mediante un navegador.
TALLER #5 GERMAN BECDACH MUÑOZ. PREGUNTAS  Qué es una pagina web? Una página web es el nombre de un documento o información electrónica adaptada para.
Sesión 6: Campos de Markov. © L.E. Sucar: PGM - CAM2 Campos de Markov Introducción –Modelo de Ising Representación –Tipos de Modelos –Redes de Markov.
Por: Mónica María Rúa Blandón
Medición de efectividad y eficiencia de un sitio Web Objetivo Saber cómo impacta la inversión de una cantidad significativa (50% del total de su capital)
Tecnologías de la información y comunicación.. Buscadores de informaciónBuscadores de información O Un buscador es una página web que ofrece algún sistema.
Introducción al análisis de sistemas
Taller Nombre: Luis Andrés Zea. ¿Qué es una página web? Una página web es el nombre de un documento o información electrónica adaptada para la World Wide.
INTERNET Búsqueda y evaluación de información WWW Universidad Interamericana de Puerto Rico Recinto Metropolitano Centro de Acceso a la Información.
Internet y sus servicios
MOTORES DE BUSQUEDA.
Jairo Pinto Ing. sistemas
ACTIVIDAD N° 1. ELEMENTOS DE INFORMACIÓN FUENTE Una fuente es todo aquello que emite mensajes. Por ejemplo, una fuente puede ser una computadora y mensajes.
INTERNET. - Es una "red de redes", es decir, una red que no sólo interconecta computadoras, sino que interconecta redes de computadoras entre sí. - sirve.
75.41 Algoritmos y Programación II Cátedra Ing. Patricia Calvo Complejidad algorítmica.
Tema: Motores de Búsqueda
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
En Internet: Los datos se transforman en información cuando una persona los lee, los comprende y los usa con algún fin: para estudiar, para trabajar,
Crear una presentación para la web.
TALLER # 5.  QUE ES UNA PAGINA WEB? Una página web es el nombre de un documento o información electrónica adaptada para la World Wide Web y que puede.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
GESTIÓN Y ADMINISTRACIÓN WEB. INTRODUCCIÓN A INTERNET Internet constituye una vía de comunicación y una fuente de recursos de información a escala mundial.
Antonio de Jesús González Arce Matricula DHTIC.
La burbuja de los filtros Editores automáticos y curadores humanos en la tierra de la web.
Transcripción de la presentación:

Taller de Base de Datos Minería de Datos en la Web Descubrimiento de patrones y modelos en la Web Minería de Contenido –Contenido de páginas y fuentes de datos en la Web. Minería de Uso –Registros de navegación almacenados en archivos de log en los servidores. Minería de Estructura –Estructura de enlaces entre páginas en la Web.

Taller de Base de Datos Minería de Contenido Clasificación de texto Extracción de frases características de grupos de documentos. Búsqueda de patrones en textos (reglas de asociación). Agrupaciones de documentos Construcción automática de jerarquías de documentos.

Taller de Base de Datos Minería de Uso Extracción de perfiles de usuario en interfaces adaptivas. Búsqueda de patrones de navegación. Personificación, segmentación y diseño de sitios.

Minería de Estructura Algoritmos de jerarquización de páginas en motores de búsqueda.(ejemplo Google) Búsqueda de comunidades en la Web. Taller de Base de Datos

Identificación de páginas Autoridades Un 99% de la Web es inútil para un 99% de los usuarios [Brin98]. Muchos enlaces en la Web son anotaciones humanas sobre la calidad de las páginas y recursos en general. Más formalmente: si una página X apunta a una página Y, entonces el autor de X le confiere un cierto grado de importancia a la página Y. Algoritmo PageRange: ordena páginas en base a la estructura de enlace en la Web. Taller de Base de Datos

Enfoque Ingenuo Una página es autoridad si es apuntada por muchas páginas. Problema: Fácil de falsear: basta con generar mucha páginas que apunten a una página cuyo grado de autoridad se desea mejorar. No mide calidad de las páginas que recomiendan. Taller de Base de Datos

Cadenas de Markov Una cadena de Markov es un proceso probabilístico sin memoria modelada como: Un conjunto de estados S={s 1,s 2,…,s n } que representan los posibles valores que la variable aleatoria puede tomar. Una colección de probabilidades de transición representadas como una matriz P de nxn. P i,j =Pr( El proceso salte del estado i al estado j, dado que está en el estado i) Un vector de nx1 П 0, donde П i 0 es la probabilidad de la variable de estar en el estado i en el tiempo 0. Taller de Base de Datos

Propiedad Markoviana Sea x t el estado del proceso en el paso t, entonces Pr(x t |x 1,…,x n )=Pr(x t |x t-1 ) Notación: P i,j t = probabilidad de llegar al estado j desde el estado i en t pasos. П k es el vector de probabilidad no condicional. Representa la probabilidad de estar en k pasos en cada estado, dado que partimos con probabilidad П 0. Taller de Base de Datos

Propiedades de cadenas de Markov Un estado i se comunica con un estado j, si para algún estado t, t’ P i,j t >0 y P j,i t’ >0. Una cadena de Markov es irreducible si todo par de estados se comunican. Un estado i tiene periodo d si dado que x 0 = i solo podemos tener x n =i cuando n es múltiplo de d. Una cadena de markov es periódica si tiene algún periodo mayor que 1. Taller de Base de Datos

Distribución de probabilidades estacionarias П 1 = П 0 P … П t = П t-1 P Si converge П t tenemos distribución estacionaria П=lim t->∞ П t O bien П t tal que ПP=П Intuitivamente П t representa la fracción en que el proceso se encuentra en el estado i. Taller de Base de Datos

Teorema Fundamental Dada una cadena de Markov finita, aperiódica e irreducible, entonces existe un estado de equilibrio o distribución de probabilidades estacionaria П. ПP=П Taller de Base de Datos

PageRank Modelemos a un navegante de la Web como una cadena de Markov, cada página define un estado. Enfoque Básico: Si el navegante está en una página i, salta a una página con probabilidad j. Lo que es equivalente a escribir: Taller de Base de Datos

Problema de enfoque Básico No siempre la cadena generada en el modelo básico es irreducible y aperiódica. Ciclotrón Taller de Base de Datos

Enfoque de PageRank Un navegante está en un URL i Hace click en una enlace i con probabilidad 1-ε Se aburre y se va a otro sitio con probabilidad ε Donde M es el número de páginas que no son apuntadas por i, y ε representa la prob. de que el navegante no siga ningún enlace de la página i. Esta cadena de Markov es irreducible y aperiódica Se tiene: Taller de Base de Datos

PageRank Una página tiene buen ranking si es apuntada por muchas buenas páginas. Funciona en la práctica: base del éxito del Google Resistente a spam: –Falsear pageRank cuesta dinero: debo convencer a buenos sitios queme apunten. No es costoso computarlo. Taller de Base de Datos

Algoritmo Hits J. Kleinberg.Authoritative Sources in a Hiperlinked Enviroment Problemas de PageRank: Muchos enlaces tiene propósitos de navegación y no la intención de conferir autoridad. Muchos enlaces representan publicidad pagada. –PageRank no discrimina enlaces Una página muy apuntada como Hotmail, no es autoridad en cualquier tópico. –PageRank no discrimina tópicos (yahoo es autoridad en cualquier tópico) Taller de Base de Datos

Algoritmo Hits Primera Etapa Construcción de un grafo en la Web focalizado en un tópico Dado una consulta σ, determinamos un grafo S σ con las siguientes características. S σ debe ser relativamente pequeño. S σ debe ser rico en páginas relevantes. S σ contiene muchas páginas que son autoridades. Taller de Base de Datos

Algoritmo Hits: Primera Etapa (cont.) Para parámetros t (t ≈ 200) y d (d ≈ 50) Recolectamos las t mejores páginas de σ, R σ, entregadas por un buscador (ej, Altavista, HotBot, Google). Agregamos a S σ y R σ todas las páginas apuntadas por R σ Agregamos a S σ un conjunto arbitrario de d páginas que apuntan a R Σ. Taller de Base de Datos

Ejemplo Usando Alta vista con t=200 y d=50, S σ satisface las tres condiciones y contiene de 1000 a 5000 páginas. G[S σ ] es el grafo que se obtiene de S σ al eliminarse grafos intrínsecos y de travesía (en el mismo sitio). Taller de Base de Datos

Hits: Idea Dos páginas que son autoridades en un tópico son en general apuntadas por la mismas páginas (Hub). Toda página x tiene un peso por ser autoridad Aut(x) y un peso por ser hub Hub(x). Invariante: Σ xє S σ Aut(x)=1=Σ xє S σ Hub(x) Una buena autoridad es apuntada por muchos buenos hubs. Aut(x)= Σ yєIn(x) Hub(y) Un buen hub apunta muchas buenas autoridades Hub(x) = Σ yєOut(x) Aut(x) Taller de Base de Datos

Algoritmo Hits Inicialmente para todo x Aut(x)=Hub(x)=0 Iteramos haciendo –Hub(x) Σ yєOut(x) Aut(x) –Aut(x) Σ yєIn(x) Hub(y) –Normalizamos Aut(x) y Hub(y) La iteración termina cuando Aut(x) y Hub(x) no varían significativamente. Taller de Base de Datos

Problema deHit Hub pueden contener múltiples tópicos Spam: Muchas páginas en un mismo sitio apuntando a un mismo sitio popular. Mejoras: Menor ponderación de páginas que apuntan a un mismo sitio. Fraccionamiento de Hubs en un mismo link Uso de texto de ancla, etc. Taller de Base de Datos