La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Sistema de Análisis de Patrones de Navegación usando Web Mining Integrantes Víctor Macas Fanny Idrovo Patricio Alcívar.

Presentaciones similares


Presentación del tema: "Sistema de Análisis de Patrones de Navegación usando Web Mining Integrantes Víctor Macas Fanny Idrovo Patricio Alcívar."— Transcripción de la presentación:

1 Sistema de Análisis de Patrones de Navegación usando Web Mining Integrantes Víctor Macas Fanny Idrovo Patricio Alcívar

2 Introducción Objetivo Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

3 Introducción Objetivo Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

4 Los miles de personas que navegan por la Web van dejando registrados todos sus accesos o visitas en archivos especiales. El proyecto analiza el comportamiento del usuario en un sitio Web usando los conceptos Web Mining (WM). WM genera conocimiento. El proyecto describe el proceso necesario para generar conocimiento (patrones de navegación) Caso Real: Introducción

5 Qué es Web Mining? Web Mining es el descubrimiento y análisis de información útil en la World Wide Web. Introducción

6 Áreas de enfoque Web Mining se clasifica en función de la parte de la Web que se mina, por tanto existen tres áreas o enfoques: 1. Minería del contenido de la Web 2. Minería de la estructura de la Web 3. Minería del uso de la Web Introducción

7 Minería del contenido de la Web Es el descubrimiento de información útil desde los contenidos textuales y gráficos de los documentos Web, y tiene sus orígenes en el procesamiento del lenguaje natural y en la recuperación de la información. Introducción

8 Minería de la estructura de la Web Es el proceso de descubrir el modelo subyacente a la estructura de enlaces de la Web y analiza, fundamentalmente, la topología de los hipervínculos (con o sin descripción de los enlaces) Introducción

9 Minería del uso de la Web Es la aplicación de técnicas de minería de datos para descubrir patrones de acceso (o hábitos) desde los sitios Web. El principal objetivo es entender y servir mejor las necesidades de las aplicaciones basadas en Web. > Introducción

10 Problema Los administradores o empresas que están detrás de los sitios Web no conocen la existencia de la información valiosa que se puede obtener analizando los patrones de movimiento que siguen sus usuarios dentro del sitio Introducción

11 Solucion propuesta Sistema de análisis de patrones de navegación usando Web Mining Aplicacion: MineroWeb Una herramienta que analiza información útil de la Web (archivos log de un servidor web) mediante el uso de técnicas de Web Mining: Reglas de Asociacion Secuencia de Patrones Clusterizacion Reportes estadisticos de trafico del sitio Introducción

12 Objetivos Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

13 Analizar los archivos Log de un servidor Web y así encontrar patrones de navegación de los visitantes de un sitio Web, usando técnicas de la minería de datos. Objetivos Predecir la forma de navegar por el sitio (Reglas asociación) Predecir el posible tiempo en que los usuarios volverán a navegar por ciertas páginas (Patrones secuenciales) Agrupar a usuarios por la preferencia entre sus páginas (Clusterizacion)

14 Introducción Objetivo Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

15 Datos Iniciales. log Esquema básico: Minería de datos

16 Introducción Objetivos Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

17 Materia prima de la Aplicacion: Log de un servidor Web [01/Jan/2006:18:08: ] "GET /images/folder_icons/356.gif HTTP/1.0" [01/Jan/2006:18:08: ] "GET /images/folder_icons/100.gif HTTP/1.0" [01/Jan/2006:18:08: ] "GET /images/lv_esquina3.gif HTTP/1.0" [01/Jan/2006:18:08: ] "GET /images/folder_icons/310.gif HTTP/1.0" [01/Jan/2006:18:08: ] "GET /private/mycourses/website/folders/assignment/assignment_view.jsp?folderId=-2&websiteId=948 HTTP/1.1" [01/Jan/2006:18:08: ] "GET /images/reply.gif HTTP/1.1" [01/Jan/2006:18:08: ] "GET /images/open.gif HTTP/1.1" [01/Jan/2006:18:08: ] "GET /private/mycourses/website/folders/link_view.jsp?folderId=19&websiteId=948 HTTP/1.1" [01/Jan/2006:18:08: ] "GET /private/mycourses/website/folders/view.js HTTP/1.1" [01/Jan/2006:18:08: ] "GET / HTTP/1.0" [01/Jan/2006:18:09: ] "GET /private/mycourses/website/folders/forums_view.jsp?folderId=20&websiteId=948 HTTP/1.1" [01/Jan/2006:18:09: ] "GET /images/newdoc.gif HTTP/1.1" [01/Jan/2006:18:09: ] "GET /private/mycourses/website/ /index.jsp?folderId=7&websiteId=948 HTTP/1.1" [01/Jan/2006:18:09: ] "GET /servlet/UserPhotoServlet?userCode=9451 HTTP/1.1" [16/Feb/2006:00:06: ] "GET /images/KDnuggets_logo.gif HTTP/1.1" "http://www.kdnuggets.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MyIE2)" Fuente de datos Formatos de archivo: ELF y CLF

18 Ejemplo: Log servidor Web Servidor Log servidor Web [16/Nov/2005:16:32: ] "GET … HTTP/1.1" [16/Nov/2005:16:32: ] "GET /gps.html HTTP/1.1" [16/Nov/2005:16:32: ] "GET /inicio.html/ HTTP/1.1" 200 … Contenido página usuarios Fuente de datos

19 Ejemplo: Una línea del Log [16/Nov/2005:16:32: ] "GET /jobs/ HTTP/1.1" "http://www.google.com/search?q=salary+for+data+ mining&hl=en&lr=&start=10&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR ) Fuente de datos

20 Dirección IP del cliente que accesa Campo: IP [16/Nov/2005:16:32: ] "GET /jobs/ HTTP/1.1" "http://www.google.com/search?q=salary+for+data+mining&hl=en&lr=&start=10&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR ) Fuente de datos

21 - El nombre del usuario remoto (usualmente omitido y reemplazado por un -) - Login del usuario remoto (tambien usualmente omitido y reemplazado por un -) Fuente de datos Campo: Nombre, Login [16/Nov/2005:16:32: ] "GET /jobs/ HTTP/1.1" "http://www.google.com/search?q=salary+for+data+mining&hl=en&lr=&start=10&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR )

22 [16/Nov/2005:16:32: ] Fecha: dd/mm/yyy tiempo: Hh:mm:ss Time Zone: (+|-)HH00 Relativo a GMT es US EST Fuente de datos Campo: Fecha/Tiempo/TZ [16/Nov/2005:16:32: ] "GET /jobs/ HTTP/1.1" "http://www.google.com/search?q=salary+for+data+mining&hl=en&lr=&start=10&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR )

23 "GET /jobs/inicio.html/ HTTP/1.1" Metodo: GET HEAD POST … URL: Relativo al dominio Protocolo HTTP: Ej: HTTP/1.0 o HTTP/1.1 Fuente de datos Campo: Pedido [16/Nov/2005:16:32: ] "GET /jobs/inicio.html HTTP/1.1" "http://www.google.com/search?q=salary+for+data+mining&hl=en&lr=&start=10&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR )

24 200 Codigo de estado (respuesta). Mas importantes son: 200 – OK (mas frecuente) 206 – acceso parcial 301 – permanentemente redireccionado 302 – temporalmente redireccionado 304 – no modificado 404 – no encontrado Fuente de datos Campo: Codigo estado [16/Nov/2005:16:32: ] "GET /jobs/ HTTP/1.1" "http://www.google.com/search?q=salary+for+data+mining&hl=en&lr=&start=10&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR )

25 =&start=10&sa=N URL del visitante desde donde vino a mi página Fuente de datos Campo: Referrer [16/Nov/2005:16:32: ] "GET /jobs/ HTTP/1.1" "http://www.google.com/search?q=salary+for+data+mining&hl=en&lr=&start=10&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR )

26 "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR ) User agent (browser) Fuente de datos Campo: User Agent [16/Nov/2005:16:32: ] "GET /jobs/ HTTP/1.1" "http://www.google.com/search?q=salary+for+data+mining&hl=en&lr=&start=10&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR )

27 Introducción Objetivo Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

28 Preparación de los Datos Un registro válido debe: Todos los campos deben ser diferente al valor null. El campo CodEstado debe tener alguno de los valores válidos para nuestro análisis. El campo NombreArchivo debe almacenar un tipo de archivo diferente a: jpg, bmp, gif, exe, js, css, pdf, doc, txt. Si se considera como registro válido es almacenado en la tabla Registro_Log con su respectivo id. Limpieza

29 Preparación de los Datos Identificación de usuarios Identificación de páginas Registrar sesiones en tablas de acuerdo a usuario y tiempo. Cada sesión tiene un usuario Un usuario puede tener varias sesiones La sesión esta limitada por el tiempo de sesionización. Formato resumido, rápida adaptación a algoritmos. Sesionización

30 Introducción Objetivo Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

31 Reglas de Asociación Preparación Data Generación de Matriz Algoritmo Apriori Reglas de Asociación Encontrar las asociaciones que se producen entre los diferentes sitios de la página Web cuando los usuarios acceden a ésta.

32 X Y [/public/about.jsp ]---->/public/team.jsp Soporte: Soporte (X Y) = Probabilidad (X U Y) Confianza: Confianza (X Y) = Probabilidad (X / Y) Reglas de Asociación

33

34 Registro_Log Registro_Sesion Registro_Paginas_Site Preparación de Data Reglas de Asociación

35 Sesión / Página 12345….. # páginas … :::::: 0 :::::: 0 # sesiones01010…..0 S1= ( …+0)/# sesiones Generación Matriz Reglas de Asociación

36 Candidatos antecedentes (Sop > Soporte) 0… # sesiones 0…..:::::: 0 :::::: # páginas… Sesión / Página S1 S2 ……S5 ……Sn 1 Algoritmo Apriori (matriz, soporte, confianza) Usa conocimiento a priori de las propiedades de los ítems (páginas) frecuentes que ya se han encontrado. Si un conjunto no puede pasar un test, todos sus súper conjuntos también fallarán el mismo test 2 1 2Solo si conf(1 2) > confianza confianza=Prob (X / Y) Reglas de Asociación

37 Preparación Data Generación de Matriz Algoritmo Patrones Secuenciales Generación FBP-Arbol Descubrir patrones en los cuales la presencia de un conjunto de ítems es seguido por otro ítem en orden temporal. Encontrar y predecir el comportamiento de los visitantes de un sitio Web con respecto al tiempo. Patrones Secuenciales

38 [x1 x2 x3] [y1 y2] en t días Soporte: Soporte (X Y) = Probabilidad (X U Y) Confianza: Confianza (X Y) = Probabilidad (X / Y) [/public/team.jsp ->]---->/public/findUsers.jsp-> /private/mycourses/website/folders/assignment/assignment_view.jsp-> /public/portalDocument.js en 2 dias

39 Patrones Secuenciales

40 Página / Página 12345…..# páginas … … … … … :::::: 0 :::::: 0 # páginas020010…..0 Generación Matriz TM[i,j] representa el número de veces que los usuarios han visitado la página j después de la página i. Umbral Página / Página 12345….. # página s … … … … … :::::: 0 :::::: 0 # páginas …..0 FTM caminos frecuentes Si un 2-camino(camino con 2 páginas) no es frecuente un 3-camino(camino con 3 páginas) del que sea subcamino el 2-camino tampoco lo será (propiedad Apriori).

41 Patrones Secuenciales Generación FBP-Árbol (Matriz FTM, Lista de Caminos) Pag 2 30 Pag 1 Pag 3 78 Pag 4 64 Pag Punto de Ruptura Antecedente Consecuente

42 Patrones Secuenciales La confianza de una regla de comportamiento-frecuente se representa como conf(PIND PDEP) y define la probabilidad de recorrer el camino PDEP una vez se ha recorrido el camino PIND. Se recorre el árbol desde las hojas al nodo raíz. Teniendo en cuenta el soporte de cada camino las reglas se son calculados como sigue. Buscar en hojas el punto de ruptura. Si la hoja no es Punto ruptura, ir a hoja anterior. Si la hoja es Punto Ruptura, calcular confianza. Si conf > confianza, genera Patrón Si conf < confianza, podar rama de árbol. Algoritmo Patrones (FBP-Arbol, soporte, confianza)

43 Clusterización Encontrar entre los distintos visitantes grupos con características similares de navegación Web. Proporciona como salida k conjuntos de patrones sobre las características similares de navegación (páginas visitadas) de los usuarios. Preparación Data Generación de Matriz Algoritmo K-Medias Grupos

44 Clusterización Cluster #1 /js/tiny_mce/blank.htm /js/tiny_mce/themes/advanced/color_picker.htm Cluster #2 /js/tiny_mce/profiles/blank.htm

45 Clusterización

46 M[i,j] representa al usuario i visitando la página j en algunas de las sesiones iniciadas por el usuario i. Usuario / Página 12345….. # págin as … :::::: 0 :::::: 0 # Usuarios01010…..0 Generación Matriz

47 Clusterización Algoritmo K-Medias (Matriz, soporte) Usuario / Página 12345…..# páginas … :::::: 0 :::::: 0 # Usuarios01010… Repetir los pasos 2 y 3 hasta que los centróides no varíen 1.Seleccionar centroides aleatorios Distancia Euclídea δ²E (Xi, Xj) = || Xi-Xj||2 = (Xi - Xj)T(Xi - Xj) 2. Asignar cada objeto al grupo cuyo centróide sea el más cercano al objeto. 3. Cuando todos los objetos hayan sido asignados, recalcular la posición de los k centróides. Determinar la media de cada grupo

48 Introducción Objetivo Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

49 Reportes Estadísticos Objetivos Análisis del sitio Web Links o páginas mas visitados Cantidad de usuarios que visitan el sitio Web La descarga de bytes de nuestro sitio Web Mejorar el sitio Web

50 Introducción Objetivo Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

51 Tipos de Reporte Urls externos Tiempo de visita Tipo de navegador Cantidad de usuarios que visitan el sitio Bytes de descarga de las paginas Número de visitas por página

52 Tipos de Reporte Fecha de Rango

53 Tipos de Reporte Fecha de Rango

54 Tipos de Reporte Páginas mas visitadas

55 Tipos de Reporte Tiempos de visita por página

56 Tipos de Reporte Tiempos de visita por página

57 Tipos de Reporte Tipo de navegador y Sistema operativo

58 Tipos de Reporte Bytes de descarga de las páginas

59 Tipos de Reporte Número de visitas por página

60 Introducción Objetivo Esquema Básico: Minería de Datos Fuente de Datos Preparación de los Datos Métodos de Minería Reportes Estadísticos Tipos de Reportes Conclusiones Agenda

61 Conclusiones La aplicación permite analizar los archivos log de un servidor Web encontrando patrones de navegación de los visitantes del sitio Web. Basándose en los accesos de los usuarios se encontró asociaciones entre los diferentes sitios de la página Web definidas en las reglas encontradas. Con los patrones secuenciales encontrados se puede predecir el comportamiento de los visitantes con respecto al tiempo. Se encontró grupos de paginas con características similares con el método de clusterización. Tomar decisiones Mejoras del Sitio Web Segmentación del sitio Web. Búsqueda fácil de la información Marketing - competitivos Conocer gustos del cliente. Mejorar o crear ofertas según el cliente

62 GRACIAS

63

64 Demostración del Sistema


Descargar ppt "Sistema de Análisis de Patrones de Navegación usando Web Mining Integrantes Víctor Macas Fanny Idrovo Patricio Alcívar."

Presentaciones similares


Anuncios Google