La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín.

Presentaciones similares


Presentación del tema: "Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín."— Transcripción de la presentación:

1 Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín Bautista Dra. María Amparo Vila Miranda Departamento de Ciencias de la Computación e Inteligencia Artificial. Universidad de Granada. Tesis Doctoral

2 2 La Minería Web se define como el proceso global de descubrir información o conocimiento potencialmente útil y previamente desconocido a partir de los datos de la web [Etzioni, 1996]. Forma intermedia Técnicas de minería de datos adecuadas para el análisis de la información que se encuentra en la web Motivación

3 3 Minería Web Minería Web de Uso Minería Web de Estructura Minería Web de Contenido Documentos Web Enlaces entre e intra Documentos Archivos Log Motivación

4 4 ¿Cómo es el comportamiento de navegación del usuario en la web? ¿Cómo podemos identificar a los usuarios que navegan por la web si no se registran? ¿Cómo podemos ofrecer una información más adecuada al usuario durante su navegación?... Minería de Datos Lógica Difusa Motivación

5 5 La obtención de patrones de navegación, a través de la técnica de reglas de asociación difusas. Realizar un análisis demográfico, utilizando la técnica del clustering difuso para la agrupación y caracterización de sesiones de usuarios. Construcción de perfiles de usuario, a través de un modelo general de obtención y representación de los mismos en XML. La aplicación de la lógica difusa en la minería web de uso. La aplicación de la lógica difusa en la minería web de uso. Objetivos

6 6 Minería Web de Uso. (Capítulo 3) - Modelo de datos. Análisis de patrones de navegación. (Capítulo 4) - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real (E.T.S.I.I.T.). Análisis demográfico. (Capítulo 5) - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.). Perfiles de usuario y lógica difusa. (Capítulo 6) - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real (E.T.S.I.I.T.). Conclusiones y trabajos futuros. (Capítulo 7) Contenidos

7 7 Minería Web de Uso. (Capítulo 3) - Modelo de datos. Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real. Análisis demográfico. - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real. Perfiles de usuario y lógica difusa. - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real. Conclusiones y trabajos futuros. Contenidos

8 8 Colección de Datos de Uso Preprocesamiento de Datos de Uso Descubrimiento de Patrones de Uso Interpretación de los resultados - Servidor Web - Servidor Proxy - Máquina del Usuario - Heterogeneidad y Carencia de Estructura - Forma Intermedia Técnicas de Minería: - Clustering - Reglas de Asociación - Interpretar patrones - Construir perfiles Minería Web de Uso – Etapas (Capítulo 3) Minería Web de Uso Etapas (Capítulo 3)

9 9 Performance Log File Format (PLFF) Tipos de ficheros Registros de Accesos Registros de Error Registros de Referencia Registros de Agentes Common Log File Format (CLFF) Extended Common Log File Format (ECLFF) Minería Web de Uso – Etapas (Capítulo 3) Minería Web de Uso Tipos de ficheros log (Capítulo 3) Minería Web de Uso Tipos de ficheros log (Capítulo 3)

10 10 Archivo Extended Common Log File Format (ECLFF) Host o IP Identificación de usuario Autentificación de usuario Fecha/Hora Petición Estado Bytes Pág. Referenciada Agente Minería Web de Uso Ejemplo de Fichero ECLFF

11 11 Una página web p i P, es un documento HTML identificable a través de la red con una URL. Una sesión de usuario s j S, se define como una secuencia de accesos temporales a un sitio particular de la Web por un usuario. Viene determinada por un conjunto de clicks en el sitio web, denominado clickstream. La relación entre una página p i P y la sesión s j S en la que se visita viene dada por la matriz UP, donde cada valor representa el tiempo de la permanencia del usuario en la página p i en la sesión s j Minería Web de Uso Modelo de datos (Capítulo 3)

12 12 Caracterizaremos el clickstream para la identificación de sesiones de usuarios (Método timeout [Chen et al., 1996]): Sea r k el k th click del clickstream R de una dirección IP en t k segundos. Sea r k+1 el (k+1) th click del clickstream de la misma dirección IP en t k+1 segundos después del click r k. T es el tiempo de espera calculada como la diferencia entre ambos click en un sitio web es T =(t k+1 - t k ) Si T β, entonces el click r k es estimada como final de la sesión S i, mientras el click r k+1 es el clickstream de la sesión S i+1. Minería Web de Uso Modelo de datos (cont.)

13 13 Identificación de sesiones de usuario: Identificación de sesiones de usuario: Minería Web de Uso Modelo de datos (cont.)

14 14 Minería Web de Uso (Capítulo 3) - Modelo de datos. Análisis de patrones de navegación. (Capítulo 4) - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real (E.T.S.I.I.T). Análisis demográfico. - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real. Perfiles de usuario y lógica difusa. - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real. Conclusiones y trabajos futuros. Contenidos

15 15 Objetivo Objetivo Obtener patrones de navegación del usuario y así tener una mejor descripción de su comportamiento en la web y de esa manera saber realmente lo que sucede en el sitio web. Problema Problema - Problema de navegación temporal: intervalo horario – página visitada. - Problema de navegación intrapágina: pagina visitada - página referenciada. Metodología usada Metodología usada Reglas de asociación difusas. Patrones de navegación

16 16 Patrones de navegación Medidas de interés: Medidas de interés: hemos utilizado diferentes medidas para la obtención de las reglas de asociación difusas, tanto medidas objetivas como subjetivas [Liu et al., 2000]. Algoritmo: Algoritmo: AprioriTID Reglas de asociación difusas (Capítulo 4) Definición: Definición: [Delgado et al., 2003] Dado I un conjunto de ítems, definiremos una transacción difusa, donde. Sea el grado de pertenencia de i a y notaremos a el grado de inclusión de un ítemset en una transacción difusa definida como

17 17 Hora.PesoEtiqueta 08:301.0Mañana 12:450.5Medio Día 15:250.4Tarde 20:200.3Noche Problema 1: Problema 1: problema de navegación temporal. Ítems: fecha/hora y páginas visitadas Transacciones: tablas transaccionales difusa para la obtención de las reglas, para los ítems fecha/hora y páginas visitadas. IP/Pag.MadrugadaMañanaMedio díaTardeNochePag 1 Pag 2 Pag 3 IP IP IP IP Patrones de navegación Modelo asociado a la navegación temporal - Fecha-Página visitada

18 18 Fecha/Hora Página Visitada. Mañana - Soporte =60%; confianza =1.0; FC =1.0 Interpretación: del conjunto analizado el 60% presentaba esta regla, la cual nos indica que los usuarios se conectan por la mañana a esa página. Patrones de navegación Ejemplo de regla de asociación difusa – Fecha-Página visitada

19 19 IP/Pag.Pag 1 Pag 2 Pag 3 Pag 4 IP IP IP IP Problema 2: Problema 2: problema de navegación entre páginas. Ítems: páginas visitadas y páginas referenciadas. : Transacciones: tablas transaccionales difusa para la obtención de las reglas, para los ítems páginas visitadas y páginas referenciadas: IP/Pag.Pag 1 Pag 2 Pag 3 Pag 4 IP IP IP IP Obtención de los pesos Frecuencia peso Patrones de navegación Modelo asociado a la navegación entre páginas - Página visitada – Página referenciada (Capítulo 4)

20 20 página visitada página referenciada /dt/?c= Soporte =40%; confianza =1.0; FC =1.0 Interpretación: esto indica que los usuarios vistan a la página /dt/?c=11670 y luego se van a la página esta regla se encuentra en un 40% dentro del conjunto analizado. Patrones de navegación Ejemplo de regla de asociación difusa – Página visitada – Página referenciada

21 21 Obtención de las creencias del usuario Creencia del Usuario: 1. Foro asignaturas 2. Tablón de anuncios actividades 3. Eventos página principal 4. Programación página principal Para esto hemos realizado una encuesta (referente a la navegación entre páginas). Medidas de calidad subjetivas: Medidas de calidad subjetivas: reglas conforme (confm), reglas con consecuentes inesperados (unexpConseq), reglas con antecedentes inesperados (unexpCond) y ambos lados de la reglas inesperados (bsUnexp) [Liu et al., 2000]. Patrones de navegación Medidas de calidad (Capítulo 4)

22 22 Conjuntos de datos: Conjuntos de datos: Patrones de navegación Medidas de calidad (cont.) Conjuntos de datos Entrada de datos originales Entrada de datos preprocesadas Preprocesamiento Conjunto Eliminación entradas idénticas Conjunto Eliminación entradas sin el campo de referencia Conjunto Eliminación de imágenes Conjunto Eliminación javascript Conjunto Preprocesamiento completo

23 23 N° ReglaSupConFCLifP-SCfUCqUCdbs Regla Regla Regla Regla Regla Reglas obtenidas del conjunto 5: Reglas obtenidas del conjunto 5: Discusión de los resultados: Discusión de los resultados: el usuario navega habitualmente por las diferentes secciones del foro. N° ReglaReglas Obtenidas Regla 1GET/apps/tablon/ Regla 2GET/apps/foro/index.php Regla 3GET/apps/foro/index.php?idforo=asignaturas Regla 4GET/apps/foro/index.php?action=foro&idforo=escuela Regla 5GET/apps/foro/index.php?idforo=general Patrones de navegación Resultados (Capítulo 4) Foro

24 24 Minería Web de Uso - Modelo de datos. Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real. Análisis demográfico. (Capítulo 5) - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.). Perfiles de usuario y lógica difusa. - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real. Conclusiones y trabajos futuros. Contenidos

25 25 Clustering de Páginas Web Clustering Difuso de Sesiones de usuario Objetivo. Objetivo. Caracterizar distintos tipos de usuarios a través de: - análisis de los grupos de páginas por los que navegan en función de su dirección. - análisis de los grupos de sesiones en función de las páginas visitadas. Metodología. Metodología. Análisis demográfico

26 26 Definición clásica Definición clásica Dado un conjunto X = {x 1,x 2,…,x n } queremos obtener una partición P= {A 1, A 2,…,A c } tal que una cierta medida de semejanza entre los elementos de un mismo grupo sea lo mayor posible y la de entre miembros de dos grupos sea mínima. Clustering difuso: Cuando la partición es difusa: Análisis demográfico Ideas básicas acerca de los métodos de clustering

27 27 Levenshtein. Levenshtein. Coseno. Coseno. Análisis demográfico Medidas utilizadas (Capítulo 5)

28 28 Coseno extendido. Coseno extendido. Análisis demográfico Medidas utilizadas (cont.)

29 29 Definición clásica Definición clásica Dado un conjunto X = {x 1,x 2,…,x n } queremos obtener una partición P= {A 1, A 2,…,A c } tal que una cierta medida de semejanza entre los elementos de un mismo grupo sea lo mayor posible y la de entre miembros de dos grupos sea mínima. Clustering difuso: Cuando la partición es difusa: Análisis demográfico Ideas básicas acerca de los métodos de clustering

30 30 Técnica utilizada Técnica utilizada : Clustering jerárquico (SPSS). Criterios utilizados : Criterios utilizados : (Basados en su relación con la lógica difusa) [Delgado et al., 1996] Mínima distancia entre los elementos de un grupo, máxima distancia entre grupos. Distancia al Crisp más cercano. Análisis demográfico Obtención de la partición inicial de datos (Capítulo 5)

31 31 Datos Iniciales Clustering Jerárquico Clustering Validación de Resultados Páginas Web Sesiones de Usuario C-medias difuso C-medias Análisis demográfico

32 32 Coeficiente de partición. Coeficiente de partición. Coeficiente de Entropía. Coeficiente de Entropía. Análisis demográfico Validación del clustering

33 33 Análisis demográfico Datos Iniciales Clustering Jerárquico Clustering Validación de Resultados Páginas Web Sesiones de Usuario C-medias difusoC-medias

34 34 Modelo de datos asociado. Modelo de datos asociado. Un Conjunto de páginas definida como: Las páginas web puede ser vista conceptualmente como una matriz página-página mxm : Objetivo. Objetivo. Obtener grupos de páginas web más similares para saber cuales son las más representativas de la navegación del usuario. Análisis demográfico Clustering de páginas similares (Capítulo 5)

35 35 Conjuntos de datos: Conjuntos de datos: Análisis demográfico Medida: Levenshtein Técnica: clustering con el algoritmo c-medias Número de particiones iniciales: 12 (obtenidos con el análisis de clustering jerárquico previamente). Resultados del clustering de páginas similares Conjuntos de datos Entrada de datos originales Entrada de datos preprocesadas Preprocesamiento Conjunto Eliminación entradas idénticas Conjunto Preprocesamiento completo Conjunto Preprocesamiento completo

36 36 Cluster[Centroide] Cluster 0[GET/apps/foro/index.php] Cluster 1[GET/apps/tablon] Cluster 2[GET/usuarios/jmlvega/idragon/formate.css] Cluster 3[GET/apps/foro/index.php?action=foro&idforo=general] Cluster 4[GET/alumnos/diegorp/canalplus.html] Cluster 5[GET/apps/foro/index.php?action=foro&idforo=asignaturas] Cluster 6[GET/js/protWindows/themes/default.css] Cluster 7[GET/apps/foro/index.php?action=foro\&idforo=escuela] Cluster 8[GET/alumnos/mlii] Cluster 9[GET/HTTP/1.1] Cluster 10[GET/apps/foro/index.php?action=hebra\&idhebra=1939] Cluster 11[GET/apps/foro/index.php?action=foro&idforo=compra] Entropía0.00 C. De Partición1.00 Foro Tablón Alumnos Sin caracterizar Análisis demográfico Resultados del clustering de páginas similares

37 37 Datos Iniciales Clustering Jerárquico Clustering Validación de Resultados Páginas Web Sesiones de Usuario C-medias difusoC-medias Análisis demográfico

38 38 A partir de esta matriz de peso sesión-página obtendremos una matriz de semejanza entre las sesiones definida y para obtener esta semejanza aplicaremos la medida del coseno y coseno extendido. Modelo de datos asociado. Modelo de datos asociado. Objetivo. Objetivo. Obtener grupos de sesiones de usuarios que navegan por la web con características similares. Análisis demográfico Conjunto de sesiones S definida como: Conjunto de páginas P, definida como : Matriz sesión-página mxn : Clustering de difuso de sesiones de usuarios (Capítulo 5)

39 39 Conjuntos de datos: Conjuntos de datos: Análisis demográfico Medidas: coseno y coseno extendido. Técnica: clustering difuso con el algoritmo c-medias difuso. Número de particiones iniciales: 12 (obtenidos mediante el análisis jerárquico previamente) Resultados del clustering de sesiones de usuario Conjuntos de datos Entrada de datos originales Entrada de datos preprocesadas N° Sesiones Conjunto Conjunto

40 40 Coseno extendido Discusión de los resultados: Discusión de los resultados: la medida del coseno extendido fue la que mejor representación entregaba de las sesiones con respecto a los centroidos. Coseno Análisis demográfico Resultados del clustering de sesiones de usuario (cont.)

41 41 Minería Web de Uso - Modelo de datos. Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real. Análisis demográfico. - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real. Perfiles de usuario y lógica difusa. (Capítulo 6) - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real (E.T.S.I.I.T). Conclusiones y trabajos futuros. Contenidos

42 42 Objetivo. Objetivo. Construcción de perfiles de usuario, a través de la navegación de que realiza el usuario en la web, y así poder identificar diferentes grupos sociales y/o demográficos. Plantear un modelo de obtención y representación de los perfiles de usuarios en XML. Perfiles de usuario

43 43 Preprocesamiento de la información Método para la identificación de sesiones Técnica de Minería para realizar agrupamiento de sesiones Representación de los perfiles en XML Fuente de información (Ficheros log) Identificación de entradas Identificación de sesiones de usuarios Grupos de sesiones Perfiles de usuario Análisis demográfico Modelo para la obtención del perfil de usuario (Capítulo 6) Preprocesamiento de la información Método para la identificación de sesiones Técnica de Minería para realizar agrupamiento de sesiones Representación de los perfiles en XML Fuente de información (Ficheros log) Identificación de entradas Identificación de sesiones de usuarios Grupos de sesiones Perfiles de usuario

44 44 Relativo a los aspectos sociales: rango de edad, nivel educativo, idioma… Ficheros Log Se asocian pesos a las páginas Resultado de una agregación de perfiles asociados a cada sesión V i : Variables demográficas L i : Variables de identificación K i : Variables de clickstream z i : Perfil simple de la sesión Definición de perfil de usuario: Definición de perfil de usuario: colección de datos acerca de las preferencias o intereses de navegación de los usuarios. Definición formal de perfil de usuario: Definición formal de perfil de usuario: [Martín-Bautista et al., 2002]. Análisis demográfico Definición de perfil de usuario

45 45 V i : Variables demográficas L i : Variables de identificación z i : Perfil simple de la sesión K i : Variables de clickstream Análisis demográfico Modelo de representación en XML del perfil de usuario

46 46 V i : Variables demográficas L i : Variables de identificación z i : Perfil simple de la sesión K i : Variables de clickstream Análisis demográfico Ejemplo de perfil de usuario

47 47 Sea C = {c 1,c 2,...,c n } los clusters de sesiones de usuarios más representativas de la navegación realizada por los usuarios en el sitio web de la escuela, siendo n el número de la partición inicial. Sea Q= {q 1,q 2,...,q n } el conjunto de los perfiles de los usuarios obtenidos. Entonces: C = {c 1,c 2,...,c n } Q= {q 1,q 2,...,q n } Análisis demográfico Obtención del perfil de usuario a partir del clustering difuso

48 48 *GET/apps/foro/index.phpHTTP/1.1* *GET/apps/foro/index.php?action=foro&idforo=asignaturasHTTP/1.1* *GET/apps/foro/index.php?action=foro&idforo=generalHTTP/1.1* *GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1* *GET/apps/tablon/HTTP/1.1* *GET/apps/foro/index.php?action=hebra&idhebra=1819&page=0HTTP/1.1* *GET/apps/foro/index.php?action=hebra&idhebra=696HTTP/1.1* *GET/apps/foro/index.php?action=hebra&idhebra=1349HTTP/1.0* *GET/page.php?pageid=googlemapsHTTP/1.1* Joven Paciente Español Ingeniería Informática Telecomunicación Foros Asignatura General Anecdotario Googlemaps Perfil de alumno obtenido del caso real (Perfil 11, Anexo C) Perfil de alumno obtenido del caso real (Perfil 11, Anexo C)

49 49 *GET/usuarios/jmlvega/idragon//formate.cssHTTP/1.1* *GET/apps/convocatorias/styles/convocatorias.cssHTTP/1.1* *GET/profesores/jmaroza/anecdotario/chmanual.htmHTTP/1.1* *GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1* *GET/planes/index.php?id=3&id2=127HTTP/1.1* *GET/page.php?pageid=horarioHTTP/1.1* *GET/apps/foro/index.php?action=hebra&idhebra=1617HTTP/1.1* Adulto Muy Paciente Español Ingeniería Informática Telecomunicación Index skin/reloaded convocatorias ubuntu planes estudio Horario Perfil de profesor obtenido del caso real (Perfil 10, Anexo C) Perfil de profesor obtenido del caso real (Perfil 10, Anexo C)

50 50 Algunos resultados Algunos resultados Perfil 10 está clasificado por la página GET/apps/convocatorias. Perfil 12 está clasificado por la página GET/apps/descargas. Perfil 3 está clasificado por la página GET/alumnos/shin/shin.htm. Perfil 7 está clasificado por la página GET/alumnos/mlii. Perfil 4 está clasificado por la página GET/apps/foro/index.php. Perfil 6 está clasificado por las páginas: GET/apps/foro/index.php, GET/apps/tablon,GET/alumnos/diegorp/canalplus.html, GET/alumnos/diegorp/canal.css. Alumno Profesor Metodología Metodología Árbol de decisión. Algoritmo J4.8 (C4.5), (WEKA). Análisis demográfico Clasificación de los perfiles a partir de las páginas web

51 51 Minería Web de Uso - Modelo de datos. Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real. Análisis demográfico. - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real. Perfiles de usuario y lógica difusa. - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real. Conclusiones y trabajos futuros. (Capítulo 7) Contenidos

52 52 Obtención de patrones de navegación: Obtención de patrones de navegación: Hemos planteado un modelo de obtención de reglas de asociación difusas. Hemos llevado a cabo un proceso de interpretación semántica aplicando tanto medidas de interés objetivas como medidas de interés subjetivas. Hemos experimentado sobre un sitio web real. Conclusiones Conclusiones y Trabajos Futuros

53 53 Análisis demográfico: Utilizando diversas técnicas del clustering hemos podido establecer una metodología para realizar diferentes agrupaciones de los elementos que participan en un sitio web. Hemos utilizado el clustering jerárquico para la obtención de la partición inicial de los datos y hemos utilizado el coeficiente de partición y la entropía como medidas de validación para las técnicas anteriores. Por último, hemos experimentado sobre un caso real que nos permitió identificar diferentes grupos demográficos de usuarios. Conclusiones

54 54 Construcción de perfiles de usuario: Hemos planteado una nueva representación de los perfiles de usuarios en XML Hemos definido un modelo de obtención de los perfiles de usuarios, basándonos en el análisis demográfico realizado en el clustering difuso de las sesiones de usuarios. Hemos realizado una clasificación de los perfiles de usuarios a través de las páginas web más representativas. Conclusiones

55 55 Extender los resultados obtenidos a otros sitios web hasta desarrollar una herramienta integrada que incluya tanto los procesos de análisis descritos como la actualización dinámica y online de los perfiles de usuario. Ampliar el estudio de otras agrupaciones, asociaciones y relaciones entre los elementos que participan en el sitio web. En un futuro, extenderemos el uso de los perfiles de usuario para desarrollar un sistema de recomendación que complete el proceso de personalización aquí iniciado. Trabajos futuros

56 56 Gracias… Cada día sabemos más y entendemos menos… Albert Einstein


Descargar ppt "Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín."

Presentaciones similares


Anuncios Google