Víctor Heughes Escobar Jeria Granada, 2007

Víctor Heughes Escobar Jeria Granada, 2007
Tesis Doctoral Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín Bautista Dra. María Amparo Vila Miranda CON LA VENIA DEL TRIBUNAL DARÉ INICIO A MI PRESENTACIÓN. Comenzaremos explicando el por qué DE NUESTRO TRABAJO... Departamento de Ciencias de la Computación e Inteligencia Artificial. Universidad de Granada.

Motivación La Minería Web se define como “el proceso global de descubrir información o conocimiento potencialmente útil y previamente desconocido a partir de los datos de la web” [Etzioni, 1996]. Forma intermedia Técnicas de minería de datos adecuadas para el análisis de la información que se encuentra en la web Como es sabido por todos, la web juega un papel muy importante en la difusión de la información y en nuestro diario vivir. Para poder obtener información o conocimiento útil de la web existe un área de estudio preocupado de la extracción y análisis de la información llamada Minería Web. En este proceso de pueden distinguir diferentes etapas: siendo una de las etapas más importante la del preprocesamiento de la información, ya que la información que nos podemos encontrar en la web es heterogénea y también mucha de esta información carece de estructura, es por eso que es necesario obtener una forma intermedia de representación de la información para poder ser analizada en la etapa de Minería. En esta etapa se utilizan técnicas provenientes de la minería clásica que han sido adecuadas para el análisis de la información que se encuentra en la web. En la minería web podemos distinguir tres tipos...

Motivación Documentos Web Enlaces entre e intra Archivos Log
Minería Web Minería Web de Contenido Minería Web de Estructura Minería Web de Uso Documentos Web Enlaces entre e intra Documentos Archivos Log La minería web de contenido, es un proceso automático que va más allá de la extracción de palabras claves, ya que se trata de generar conocimiento válido acerca del contenido de los documentos que se encuentran en la Web. La minería web de estructura estudia las estructuras de los enlaces de los entre o intra documentos, para descubrir patrones útiles de las estructuras de los enlaces. Y por último la minería web de uso, que es un proceso de descubrimiento automático de patrones de accesos o uso de servicios de la Web, centrándose en el comportamiento de los usuarios cuando interactúan en la Web. A partir de los patrones obtenidos en esta ultima área se pueden realizar diversos procesos, podemos mencionar por ejemplo el proceso de personalización que permitirá dar una información más adecuada al usuario durante su navegación ó el proceso de marketing que permitirá ofrecer al usuario algún producto que realmente le sea interesante ó simplemente realizar un proceso de reestructuración del sitio web. La información que deja registrada el usuario en su navegación muchas veces es incompleta, a veces puede ser imprecisa o tal vez simplemente no se tiene y por eso necesario manejar esta información de alguna manera que nos permita optimizar los procesos que suceden en la web. Podemos ver con más detalle los diferentes tipos de minería web en el capitulo 2 de la tesis. De lo comentado previamente surgen algunas preguntas...

Motivación Minería de Datos Lógica Difusa
¿Cómo es el comportamiento de navegación del usuario en la web? ¿Cómo podemos identificar a los usuarios que navegan por la web si no se registran? ¿Cómo podemos ofrecer una información más adecuada al usuario durante su navegación?... Minería de Datos A partir de lo expuesto hasta ahora surgen algunas preguntas (leer las preguntas) Trataremos de responder a estas preguntas a lo largo de la presentación. Para ello utilizaremos la minería de datos para la extracción del conocimeinto y la logica difusa para el manejo de la impresicion. Este es la idea básica de la memoria. Lógica Difusa

La aplicación de la lógica difusa en la minería web de uso.
Objetivos La aplicación de la lógica difusa en la minería web de uso. La obtención de patrones de navegación, a través de la técnica de reglas de asociación difusas. Realizar un análisis demográfico, utilizando la técnica del clustering difuso para la agrupación y caracterización de sesiones de usuarios. Construcción de perfiles de usuario, a través de un modelo general de obtención y representación de los mismos en XML. La aplicación de la lógica difusa en la minería web de uso. Nos hemos centrado en los siguientes objetivos. obtención de los patrones de navegación que nos permita determinar el comportamiento de los usuarios por algún sitio Web, utilizaremos para ello las reglas de asociación difusas Realizar un análisis demográfico de los usuarios que navegan por el sitio web. Utilizaremos la técnica del clustering difuso . Por último, plantearemos un modelo de obtención y representación en xml para la construcción de los perfiles de usuario basados en la lógica difusa. Los modelos empleados y los resultados obtenidos se presentarán de acuerdo con el esquema de la memoria según los siguientes apartados.

Contenidos Minería Web de Uso. (Capítulo 3)
- Modelo de datos. Análisis de patrones de navegación. (Capítulo 4) - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real (E.T.S.I.I.T.). Análisis demográfico. (Capítulo 5) - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.). Perfiles de usuario y lógica difusa. (Capítulo 6) - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real (E.T.S.I.I.T.). Conclusiones y trabajos futuros. (Capítulo 7) Comenzaremos explicando el área de la minería web de uso, donde veremos un modelo de datos que nos acompañará durante los diversos análisis. Realizaremos un análisis de patrones de navegación utilizando las reglas de asociación difusas. Luego, analizaremos diferentes enfoques en la utilización del clustering para realizar un análisis demográfico. Y a partir del análisis demográfico, plantearemos un modelo de obtención y representación de perfiles de usuario basado en la lógica difusa. Es importante decir que, todos los análisis han sido realizados sobre datos reales obtenidos del servidor web de la ETSIIT de la Universidad de Granada. Para terminar, veremos algunas conclusiones y trabajos futuros.

Contenidos Minería Web de Uso. (Capítulo 3) - Modelo de datos. Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real. Análisis demográfico. - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real. Perfiles de usuario y lógica difusa. - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real. Conclusiones y trabajos futuros. Comenzaremos explicando la minería web de uso

Minería Web de Uso – Etapas (Capítulo 3)
Descubrimiento de Patrones de Uso Colección de Datos de Uso Interpretación de los resultados Preprocesamiento de Datos de Uso Técnicas de Minería: - Clustering - Reglas de Asociación - Servidor Web - Servidor Proxy - Máquina del Usuario En este proceso se distinguen diferentes etapas: Colección de datos de uso: aquí podemos encontrar las diferentes fuentes de información para el análisis, como por ejemplo: servidores web, servidor proxy o la propia máquina del usuario. El conjunto de datos más comúnmente utilizado en este proceso son los ficheros log. Como ya hemos comentado anteriormente, la etapa del preprocesamiento es sin duda una de las más importante del proceso, como la información es heterogénea y carece de estructura es necesario obtener una forma intermedia de representación de la información para ser analizada en la ... Etapa de descubrimiento de patrones de uso, donde se aplican técnicas provenientes de la minería clásica que han sido adecuadas para el análisis de la información en la web. Las técnicas más utilizadas en esta área son las reglas de asociación y el clustering. La última etapa es la clásica de interpretación de resultados donde se interpretan los patrones o reglas menos interesantes para el usuario ó también se puede construir perfiles de usuarios. Podemos ver con más detalle la descripción de las etapas de minería web de uso en el capitulo 3 de la tesis. Como hemos comentado la principal fuente de datos son los ficheros logs. - Heterogeneidad y Carencia de Estructura - Forma Intermedia - Interpretar patrones - Construir perfiles

Registros de Referencia
Minería Web de Uso Minería Web de Uso Minería Web de Uso – Etapas (Capítulo 3) Tipos de ficheros log (Capítulo 3) Tipos de ficheros log (Capítulo 3) Tipos de ficheros Registros de Error Registros de Referencia Registros de Accesos Registros de Agentes En los ficheros logs queda registrado la información relacionada con la navegación de los usuarios. Existen diferentes tipos de fichero log, esto dependerá del tipo de servidor web que se esté utilizando. Los tipos más comunes son los que se encuentran dentro de la elipse, y para los diferentes análisis que realizaremos utilizaremos el tipo de fichero log ECLFF. En la tesis podemos ver una descripción más detallada de los diferentes tipos de ficheros log, aquí sólo veremos la descripción del archivo que hemos utilizado para nuestros análisis. Common Log File Format (CLFF) Extended Common Log File Format (ECLFF) Performance Log File Format (PLFF)

Archivo Extended Common Log File Format (ECLFF)
Minería Web de Uso Ejemplo de Fichero ECLFF Archivo Extended Common Log File Format (ECLFF) Identificación de usuario Fecha/Hora Estado Pág. Referenciada Autentificación de usuario Agente Host o IP Petición Bytes Dentro de este tipo de archivo, también queda almacenada los agentes de navegación que utiliza el usuario, la fecha y hora de conexión y también la IP de su conexión. Se pueden distinguir en este tipo de archivo diferentes campos, en donde se puede destacar el campo de la página referenciada, ya que este campo nos indica hacia donde el usuario se dirige después de haber visitado otra página. Los campos de identificación y autentificación generalmente están vacíos. Estos campos pueden ser completados a través de otras fuentes de información: tales como formulario o el registro de un usuario. El problema de la no identificación del usuario hace que el concepto de sesiones de usuario no sea inmediato y deba obtenerse a partir de suposiciones adicionales, como veremos a continuación en nuestro modelo de datos.

Modelo de datos (Capítulo 3)
Minería Web de Uso Modelo de datos (Capítulo 3) Una página web pi P , es un documento HTML identificable a través de la red con una URL. Una sesión de usuario sj S, se define como una secuencia de accesos temporales a un sitio particular de la Web por un usuario. Viene determinada por un conjunto de clicks en el sitio web, denominado clickstream. La relación entre una página pi P y la sesión sj S en la que se visita viene dada por la matriz UP, donde cada valor representa el tiempo de la permanencia del usuario en la página pi en la sesión sj Para el modelo de datos, hemos definido diferentes elementos que están presente en la web: Podemos considerar una página web como un documento html identificable a través de la red por una dirección. También podemos definir una sesión de usuario como una secuencia de accesos a un sitio web particular por un usuario. Esta sesión de usuario viene determinado por un conjunto de click en el sitio web, denominado clickstream. La relación existen entre las páginas visitada y la sesión de usuario, viene dada por una matriz, donde cada valor representa el tiempo de permanecía del usuario en la página. Utilizando estas definiciones, podremos identificar las sesiones de usuarios...

Minería Web de Uso Modelo de datos (cont.) Caracterizaremos el clickstream para la identificación de sesiones de usuarios (Método timeout [Chen et al., 1996]): Sea rk el kth click del clickstream R de una dirección IP en tk segundos. Sea rk+1 el (k+1)th click del clickstream de la misma dirección IP en tk+1 segundos después del click rk. T es el tiempo de espera calculada como la diferencia entre ambos click en un sitio web es T =(tk+1 - tk) Si T< β, siendo β el tiempo de espera máximo, entonces el click rk y rk+1 son considerados partes de la sesión Si. En otro caso, si T> β, entonces el click rk es estimada como final de la sesión Si, mientras el click rk+1 es el clickstream de la sesión Si+1. Para la identificación de las sesiones hemos utilizado el método timeout, el cual se basa en el tiempo de espera entre dos click. Este método se basa en la siguiente idea: cuando el tiempo de espera entre dos click es menor a la de un cierto umbral de tiempo y ambos clicks corresponden a la misma IP se puede considerar que los dos forman parte de la misma sesión. De lo contrario, si el tiempo de espera es mayor que el umbral, diremos que un click corresponderá al final de una sesión y el otro al inicio otra sesión. Veamos un ejemplo práctico que ilustra a este método...

Identificación de sesiones de usuario:
Minería Web de Uso Modelo de datos (cont.) Identificación de sesiones de usuario: En la tabla podemos ver 4 entradas que ha realizado el usuario en su navegación, donde: la primera entrada y la cuarta poseen la misma IP, y el tiempo de espera esta dentro del umbral predefinido (comúnmente de 30 minutos), podemos decir que ambas corresponde a la misma sesión. En cambio, las entradas 1 y 2 tienen diferentes IP, por tanto podemos decir que corresponde a diferentes sesiones. Hemos identificado las sesiones de usuario a partir del tiempo de permanencia de los usuarios en las páginas web. Es importante destacar que al considerar un umbral de tiempo hemos introducido un cierto grado de imprecisión en el proceso. Por ello las sesiones de usuarios que hemos identificado son en sí mismas de naturaleza imprecisa.

Contenidos Minería Web de Uso (Capítulo 3) - Modelo de datos. Análisis de patrones de navegación. (Capítulo 4) - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real (E.T.S.I.I.T). Análisis demográfico. - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real. Perfiles de usuario y lógica difusa. - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real. Conclusiones y trabajos futuros. Visto el concepto de sesión de usuario, comenzaremos a explicar el análisis para la obtención de los patrones de navegación

Patrones de navegación
Objetivo Obtener patrones de navegación del usuario y así tener una mejor descripción de su comportamiento en la web y de esa manera saber realmente lo que sucede en el sitio web. Problema Problema de navegación temporal: intervalo horario – página visitada. Problema de navegación intrapágina: pagina visitada - página referenciada. Objetivo: obtener patrones de navegación del usuario para una mejor descripción de su comportamiento en la web y de esa manera saber realmente lo que sucede en el sitio web. aquí se presentan dos problemas: El primero está relacionado con la navegación temporal, en donde se relacionan los campos de fecha/hora y las páginas visitadas. Y el segundo está relacionado con la navegación entre las páginas, en donde se relacionan los campos de las páginas visitadas y referenciadas. Utilizaremos la técnica de las reglas de asociación difusas para cumplir con el objetivo planteado. Metodología usada Reglas de asociación difusas.

Reglas de asociación difusas (Capítulo 4) Definición: [Delgado et al., 2003] Dado I un conjunto de ítems, definiremos una transacción difusa , donde Sea el grado de pertenencia de i a y notaremos a el grado de inclusión de un ítemset en una transacción difusa definida como Medidas de interés: hemos utilizado diferentes medidas para la obtención de las reglas de asociación difusas, tanto medidas objetivas como subjetivas [Liu et al., 2000]. Algoritmo: AprioriTID El concepto de regla de asociación difusa que hemos utilizado es el desarrollado por Delgado y otros en el 2003, que se explica con detalle en la memoria. Se basa en el concepto de transacción difusa. En la transparencia podemos ver la definición de una transacción difusa, que no es más que una transacción con grados de pertenencia Asociado al concepto de regla está el de medida de calidad para la obtención de patrones de navegación, tanto medidas objetivas como subjetivas. De las medidas objetivas hemos utilizado la medida de soporte, confianza, Factor de certeza que son las más comúnmente utilizadas. Su definición se encuentra en la memoria. En las medidas subjetivas hemos utilizado el enfoque de impresiones generales debidas a Liu , que se basa en las creencias que tiene el usuario de las asociaciones que pueden existir. Estas medidas también se encuentran detalladas en la memoria. El algoritmo final para la obtención de reglas es el aprioriTID . Que ha sido implementado en su versión difusa específicamente para este caso. Ahora comentaremos los diferentes problemas que hemos planteado para la obtención de los patrones de navegación.

Modelo asociado a la navegación temporal - Fecha-Página visitada Problema 1: problema de navegación temporal. Ítems: fecha/hora y páginas visitadas Transacciones: tablas transaccionales difusa para la obtención de las reglas, para los ítems fecha/hora y páginas visitadas. Hora. Peso Etiqueta 08:30 1.0 Mañana 12:45 0.5 Medio Día 15:25 0.4 Tarde 20:20 0.3 Noche IP/Pag. Madrugada Mañana Medio día Tarde Noche Pag1 Pag2 Pag3 IP1 1.0 0.4 0.8 IP2 0.5 IP3 0.7 0.3 IP4 0.2 Problema: navegación temporal. El modelo de datos asociado a este problema es el siguiente: Ítem: son los valores de los campos relacionados con este problema, es decir, la fecha/hora y las páginas visitadas. Transacciones: hemos definido una tabla transaccional difusa, donde se encuentran los pesos de los diferentes ítems. Para obtenerlos: Hemos definido diferentes etiquetas lingüísticas (que pueden ser vistas en el capitulo 4 de la tesis) para el campo de la fecha/hora y así tener una mejor representación del horario de conexión. Los pesos del campo fecha/hora se han obtenido a través de las etiquetas lingüísticas que están relacionadas con el horario de conexión. Los pesos de las páginas se han determinado a través de la frecuencia relativa de una página en una determinada IP. Esta tabla transaccional difusa es la base de la obtención de las reglas de asociación difusas.

Ejemplo de regla de asociación difusa – Fecha-Página visitada Fecha/Hora → Página Visitada. Mañana → Soporte =60%; confianza =1.0; FC =1.0 Interpretación: del conjunto analizado el 60% presentaba esta regla, la cual nos indica que los usuarios se conectan por la mañana a esa página. Podemos ver el resultado de una regla de asociación difusa que está relacionada con los campos fecha/hora-página visitada Esta regla nos dice que hay una asociación entre el hecho de conectarse por la mañana y visitar una determinada página. Esta información obtenida puede ser útil para un proceso de marketing el cual este relacionada con el contenido de la página visitada o tal vez, para una simple reestructuración de la información.

Modelo asociado a la navegación entre páginas - Página visitada – Página referenciada (Capítulo 4) Problema 2: problema de navegación entre páginas. Ítems: páginas visitadas y páginas referenciadas. Transacciones: tablas transaccionales difusa para la obtención de las reglas, para los ítems páginas visitadas y páginas referenciadas: peso Frecuencia IP/Pag. Pag1 Pag2 Pag3 Pag4 IP1 4 7 IP2 8 IP3 6 2 IP4 3 10 IP/Pag. Pag1 Pag2 Pag3 Pag4 IP1 0.4 0.7 IP2 0.8 IP3 0.6 0.2 IP4 0.3 1 Problema: navegación entre páginas. El modelo de datos es el siguiente: Ítem: los campos relacionados con este problema son la las páginas visitadas y las páginas referenciadas. Transacciones: hemos definido una tabla transaccional difusa, donde se encuentran los pesos de los diferentes ítems. Los pesos de las páginas tanto visitadas o como refernciadas se han determinado a través de la frecuencia relativa de una página en una determinada IP. Esta tabla transaccional difusa es la base de la obtención de las reglas de asociación difusas. Obtención de los pesos

Ejemplo de regla de asociación difusa – Página visitada – Página referenciada página visitada → página referenciada /dt/?c= → - Soporte =40%; confianza =1.0; FC =1.0 Interpretación: esto indica que los usuarios vistan a la página /dt/?c=11670 y luego se van a la página esta regla se encuentra en un 40% dentro del conjunto analizado. Podemos ver el resultado de una regla de asociación difusa que está relacionada con los campos página visitada-página referenciada Esta regla nos dice que el usuario hay una asociación en el hecho de visitar una determinada página y el dirigirse a otra página determinada. Esta información obtenida nos dice cual sería el comportamiento más habitual del usuario en su navegación, lo cual serviría para realizar diferentes procesos como marketing, personalización o una reestructuración de la información en el sitio web.

Medidas de calidad (Capítulo 4) Medidas de calidad subjetivas: reglas conforme (confm), reglas con consecuentes inesperados (unexpConseq), reglas con antecedentes inesperados (unexpCond) y ambos lados de la reglas inesperados (bsUnexp) [Liu et al., 2000]. Obtención de las creencias del usuario Para esto hemos realizado una encuesta (referente a la navegación entre páginas). Creencia del Usuario: 1. Foro → asignaturas 2. Tablón de anuncios → actividades 3. Eventos → página principal 4. Programación → página principal Pasamos ahora a ver el análisis de la calidad de las reglas en datos reales, mediante medidas subjetivas. Como ya hemos comentado anteriormente, hemos utilizado el enfoque de impresiones generales, donde las medidas asociadas conducen a los conceptos de: reglas conforme, reglas con el consecuente inesperado, reglas con el antecedente inesperado Y ambos inesperados. Este enfoque se basa en las creencias subjetivas que tiene el usuario sobre las relaciones que ellos creen que existen. Para obtener estas impresiones subjetivas, hemos considerado el problema de navegación entre páginas y hemos realizado una encuesta a un grupo de usuarios y de ella se ha desprendido los siguientes resultados. Los resultados muestran patrones que el usuario piensa o cree que existen dentro del sitio de web. A partir de estos resultados hemos realizado los diferentes análisis relacionados con las reglas de asociación difusas. Podemos ver más detalladamente este enfoque en el capítulo 4 de la tesis. Ahora veremos los diversos conjuntos de datos analizados y los resultados obtenidos del análisis del sitio web de la Escuela.

Medidas de calidad (cont.) Conjuntos de datos: Conjuntos de datos Entrada de datos originales Entrada de datos preprocesadas Preprocesamiento Conjunto 1 100900 100810 Eliminación entradas idénticas Conjunto 2 46950 Eliminación entradas sin el campo de referencia Conjunto 3 16518 Eliminación de imágenes Conjunto 4 12910 Eliminación javascript Conjunto 5 98202 15676 Preprocesamiento completo Hemos analizado diversos conjuntos de datos incluyendo transacciones con páginas de distintos tipos para la obtención de patrones de navegación. Aquí solo veremos los resultados obtenidos al analizar el conjunto 5, los demás resultados los podemos ver en el capitulo 4 de la tesis.

Resultados (Capítulo 4) Reglas obtenidas del conjunto 5: N° Regla Reglas Obtenidas Regla 1 GET/apps/tablon/ → Regla 2 GET/apps/foro/index.php → Regla 3 GET/apps/foro/index.php?idforo=asignaturas → Regla 4 GET/apps/foro/index.php?action=foro&idforo=escuela → Regla 5 GET/apps/foro/index.php?idforo=general → Foro N° Regla Sup Con FC Lif P-S Cf UCq UCd bs Regla 1 0.052 0.47 0.39 6.98 0.04 0.0 1.0 Regla 2 0.076 0.50 0.32 2.98 0.05 Regla 3 0.02 0.85 0.83 6.35 Regla 4 0.01 0.80 6.17 Regla 5 0.03 0.65 4.88 De los resultados podemos comentar que: las reglas 1 y 2, son las reglas más representativas del conjunto analizado por los valores altos de soporte. Además, esta regla se han repetido habitualmente en los diversos análisis realizados. las reglas 3, 4 y 5 son reglas que reflejan un comportamiento habitual, este comportamiento esta relacionado con la navegación de los usuarios en las diferentes secciones del foro del sitio de la escuela. (confianza y fc) También podemos decir que las reglas 3, 4 y 5 en su totalidad han sido inesperadas por el usuario, esto lo podemos confirmar con las medidas subjetivas encontradas que reflejan esta situación. Podemos inferir a través de este comportamiento de navegación, que la mayoría de los usuarios que navegan por la web de la escuela corresponden a alumnos. Discusión de los resultados: el usuario navega habitualmente por las diferentes secciones del foro.

Análisis demográfico. (Capítulo 5)
Contenidos Minería Web de Uso - Modelo de datos. Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real. Análisis demográfico. (Capítulo 5) - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.). Perfiles de usuario y lógica difusa. - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real. Conclusiones y trabajos futuros. Una vez finalizado el estudio de los patrones de navegación pasamos a explicar lo relacionado con los problemas para el análisis demográfico

Análisis demográfico Objetivo. Metodología.
Caracterizar distintos tipos de usuarios a través de: análisis de los grupos de páginas por los que navegan en función de su dirección. análisis de los grupos de sesiones en función de las páginas visitadas. Metodología. El objetivo de éste es: Caracterizar distintos tipos de usuarios a través de dos procesos: análisis de los grupos de páginas por los que navegan en función de su dirección. análisis de los grupos de sesiones en función de las páginas visitadas. Metodología: Utilizaremos la técnica de clustering para el agrupamiento de páginas web. Y utilizaremos el clustering difuso para el agrupamiento de sesiones de usuario. Hemos utilizado un clustering tradicional o Crisp en el primer caso, ya que el agrupamiento lo hemos realizado utilizando las direcciones de las páginas y estas direcciones son precisas, y así determinamos cuales son las páginas más utilizadas y que tipo de contenido al usuario le interesa. En cambio hemos utilizado el clustering difuso para las sesiones, ya que estas las hemos definido a través de un umbral de tiempo, que les da un carácter impreciso. Clustering de Páginas Web Clustering Difuso de Sesiones de usuario

Definición clásica Ideas básicas acerca de los métodos de clustering
Análisis demográfico Ideas básicas acerca de los métodos de clustering Definición clásica Dado un conjunto X = {x1,x2,…,xn} queremos obtener una partición P= {A1, A2,…,Ac} tal que una cierta medida de semejanza entre los elementos de un mismo grupo sea lo mayor posible y la de entre miembros de dos grupos sea mínima. Clustering difuso: Cuando la partición es difusa: En la diapositiva podemos ver la idea básica de clustering clásico, en donde dado un conjunto de elementos de X queremos obtener una partición P, tal que cierta medida de semejanza entre los elementos de un mismo grupo sea lo mayor posible y la de entre miembros de dos grupos sea mínima. Para el clustering difuso, suponemos que la partición es difusa y que debe cumplir con las propiedades que podemos ver en la transparencia. Podemos ver más detalles acerca los modelos de clustering empleados: definición formal, etc en el capítulo 5 de la memoria. Para poder saber la similitud o distancia entre los elementos o grupos, es necesario utilizar medidas de semejanzas.

Levenshtein. Coseno. Medidas utilizadas (Capítulo 5)
Análisis demográfico Medidas utilizadas (Capítulo 5) Levenshtein. Coseno. Nosotros hemos utilizado diferentes medidas de semejanza para los diferentes enfoques que hemos planteados. La medida de Levenshtein la hemos utilizado para saber cuan similares son las direcciones de las páginas web . La medida del coseno nos permitirá saber la similaridad entre dos sesiones de usuarios en un espacio N-dimensional.

Coseno extendido. Medidas utilizadas (cont.) Análisis demográfico
La medida del coseno extendido es una extensión de la medida del coseno, donde esta medida toma en cuenta la sintaxis de las páginas, lo cual no lo hacia la medida del coseno Podemos ver otras medias de semejanza en el capitulo 5 de nuestro trabajo.

Ideas básicas acerca de los métodos de clustering
Análisis demográfico Ideas básicas acerca de los métodos de clustering Definición clásica Dado un conjunto X = {x1,x2,…,xn} queremos obtener una partición P= {A1, A2,…,Ac} tal que una cierta medida de semejanza entre los elementos de un mismo grupo sea lo mayor posible y la de entre miembros de dos grupos sea mínima. Clustering difuso: Cuando la partición es difusa: Un problema común en que se presenta en el análisis de clustering es determinar el número de la partición inicial de los datos.

Obtención de la partición inicial de datos (Capítulo 5)
Análisis demográfico Obtención de la partición inicial de datos (Capítulo 5) Técnica utilizada: Clustering jerárquico (SPSS). Criterios utilizados: (Basados en su relación con la lógica difusa) [Delgado et al., 1996] Mínima distancia entre los elementos de un grupo, máxima distancia entre grupos. Distancia al Crisp más cercano. Para resolver este problema hemos utilizado la técnica del clustering jerárquico, mediante la herramienta SPSS. Una vez obtenido el clustering jerárquico, la partición inicial se obtiene mediante el uso de diferentes criterios basados en la relación entre el clustering jerárquico y la lógica difusa Estos criterios se basan en maximizar y minimizar la distancia entre los elementos y grupos según distintas funciones de distancias. En el capítulo 5 se encuentra descrito con más detalles los fundamentos de estos métodos y los análisis realizados basándonos en ellos.

Análisis demográfico Sesiones de Páginas Web Datos Iniciales Usuario
Clustering Jerárquico Clustering C-medias C-medias difuso Como ya lo mencionamos anteriormente realizaremos un agrupamiento de páginas web a través de sus direcciones, utilizando el algoritmo c-medias Y para el otro caso de agrupamiento de sesiones de usuario utilizaremos el algoritmo de c-medias difuso. Ambos algoritmos han sido implementados específicamente para este trabajo. validaremos Ambos enfoque a través de coeficientes que nos permitan saber si los resultados son correctos. Utilizaremos diferentes coeficientes para validar los resultados, siendo estos... Validación de Resultados

Coeficiente de partición.
Análisis demográfico Validación del clustering Coeficiente de partición. Coeficiente de Entropía. El coeficiente de partición y el coeficiente de entropía. Estos coeficientes nos permitirán corroborar los resultados en los diferentes enfoques que hemos planteados y así saber si los resultados son correctos.

Análisis demográfico Sesiones de Usuario Páginas Web Datos Iniciales
Clustering Jerárquico Clustering C-medias C-medias difuso Ahora veremos el análisis del agrupamiento de las páginas web utilizando el algoritmo c-medias. Validación de Resultados

Modelo de datos asociado. Objetivo.
Análisis demográfico Clustering de páginas similares (Capítulo 5) Modelo de datos asociado. Un Conjunto de páginas definida como: Las páginas web puede ser vista conceptualmente como una matriz página-página mxm : Objetivo. Obtener grupos de páginas web más similares para saber cuales son las más representativas de la navegación del usuario. Objetivo. Obtener grupos de páginas web más similares para saber cuales son las más representativas de la navegación del usuario. Modelo de datos asociado. En este modelo hemos definido un conjunto de páginas como P={p1,p2,...,pn}. Las cuales las podemos ver conceptualmente como una matriz pagina-pagina (mxm): Donde la similitud entre las direcciones de las páginas la hemos obtenido utilizando la medida de Levenshtein.

Entrada de datos originales Entrada de datos preprocesadas
Análisis demográfico Resultados del clustering de páginas similares Conjuntos de datos: Conjuntos de datos Entrada de datos originales Entrada de datos preprocesadas Preprocesamiento Conjunto 1 100900 100810 Eliminación entradas idénticas Conjunto 2 16518 12910 Preprocesamiento completo Conjunto 3 98202 15676 Medida: Levenshtein Técnica: clustering con el algoritmo c-medias Número de particiones iniciales: 12 (obtenidos con el análisis de clustering jerárquico previamente). Hemos analizado diversos conjuntos de datos, en la presentación veremos los resultados correspondientes al conjunto 3, los otros resultados de los demás conjuntos pueden ser vistos en el capitulo 5 de la tesis. Hemos utilizado la medida de Levenshtein. Hemos utilizado la técnica del clustering a través del algoritmo c-medias Y previamente a este análisis, hemos utilizado el clustering jerárquico para la obtención del número de partición inicial de los datos, el cual fue 12.

Resultados del clustering de páginas similares
Análisis demográfico Resultados del clustering de páginas similares Cluster [Centroide] Cluster 0 [GET/apps/foro/index.php] Cluster 1 [GET/apps/tablon] Cluster 2 [GET/usuarios/jmlvega/idragon/formate.css] Cluster 3 [GET/apps/foro/index.php?action=foro&idforo=general] Cluster 4 [GET/alumnos/diegorp/canalplus.html] Cluster 5 [GET/apps/foro/index.php?action=foro&idforo=asignaturas] Cluster 6 [GET/js/protWindows/themes/default.css] Cluster 7 [GET/apps/foro/index.php?action=foro\&idforo=escuela] Cluster 8 [GET/alumnos/mlii] Cluster 9 [GET/HTTP/1.1] Cluster 10 [GET/apps/foro/index.php?action=hebra\&idhebra=1939] Cluster 11 [GET/apps/foro/index.php?action=foro&idforo=compra] Entropía 0.00 C. De Partición 1.00 Tablón Foro Alumnos En la tabla podemos ver que las páginas más representativas está relacionadas con secciones del foro del sitio de la escuela. Podemos inferir que los usuarios que visitan estas páginas pueden ser tanto alumnos como profesores. También podemos mencionar de los otros grupos de páginas que : Uno de los grupos esta relacionado con el tablón de anuncios el cual puede ser visitado tanto por alumnos como profesores. Existen otros grupos que están relacionados principalmente con páginas personales de alumnos Otros grupos están sin clasificar. Sin caracterizar

Análisis demográfico Sesiones de Usuario Páginas Web Datos Iniciales
Clustering Jerárquico Clustering C-medias C-medias difuso A continuación veremos el enfoque que está relacionado con el agrupamiento de sesiones de usuarios a través de clustering difuso, utilizando el algoritmo c-medias difuso. Validación de Resultados

Modelo de datos asociado.
Análisis demográfico Clustering de difuso de sesiones de usuarios (Capítulo 5) Objetivo. Obtener grupos de sesiones de usuarios que navegan por la web con características similares. Modelo de datos asociado. Conjunto de sesiones S definida como: Conjunto de páginas P, definida como : Matriz sesión-página mxn : A partir de esta matriz de peso sesión-página obtendremos una matriz de semejanza entre las sesiones definida y para obtener esta semejanza aplicaremos la medida del coseno y coseno extendido. El objetivo es obtener grupos de sesiones de usuarios que navegan por la web con características similares. Modelo de datos asociado: -Aquí hacemos referencia al modelo planteado en el capitulo 3 de la identificación de sesiones de usuarios. Donde definimos cada sesión de usuario por un conjunto de páginas visitadas, donde las sesiones de usuarios pueden ser vistas conceptualmente como una matriz sesión-pagina. - A partir de esta matriz de peso sesión-página obtendremos una matriz de semejanza entre las sesiones definida SS =[sim(si,sj)], i=j=m, y para obtener esta semejanza aplicaremos la medida del coseno y coseno extendido.

Entrada de datos originales Entrada de datos preprocesadas
Análisis demográfico Resultados del clustering de sesiones de usuario Conjuntos de datos: Conjuntos de datos Entrada de datos originales Entrada de datos preprocesadas N° Sesiones Conjunto 1 100900 12910 2024 Conjunto 2 98202 15676 2780 Medidas: coseno y coseno extendido. Técnica: clustering difuso con el algoritmo c-medias difuso. Número de particiones iniciales: 12 (obtenidos mediante el análisis jerárquico previamente) Hemos analizado diversos conjuntos de datos, en la presentación veremos los resultados correspondientes al conjunto 2, los otros resultados de los demás conjuntos pueden ser vistos en el capitulo 5 de la tesis. Hemos utilizado las medidas de coseno y coseno extendido para ver cual de las dos nos entregaba una mejor representación de los grupos de usuarios. Hemos utilizado la técnica del clustering difuso través del algoritmo c-medias difuso Y previamente a este análisis, hemos utilizado el clustering jerárquico para la obtención del número de partición inicial de los datos, el cual fue 12.

Resultados del clustering de sesiones de usuario (cont.)
Análisis demográfico Resultados del clustering de sesiones de usuario (cont.) Coseno Coseno extendido En este análisis hemos obtenido 12 grupos de usuarios con características de navegación similares en sus preferencias o intereses. También podemos inferir a partir de estos resultados si los usuarios se identifican con el un alumno o con un profesor. Esto lo profundizaremos en el siguiente capitulo de la presentación. Otros de los aspectos importantes por mencionar, es que en todos los análisis realizados siempre la medida del coseno extendido entregaba mejores resultados. Esto lo hemos confirmado a través de los coeficientes de validación que hemos explicado anteriormente. Discusión de los resultados: la medida del coseno extendido fue la que mejor representación entregaba de las sesiones con respecto a los centroidos.

Contenidos Minería Web de Uso - Modelo de datos. Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real. Análisis demográfico. - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real. Perfiles de usuario y lógica difusa. (Capítulo 6) - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real (E.T.S.I.I.T). Conclusiones y trabajos futuros. Una vez concluido el análisis demográfico , podemos abordar el estudio de los perfiles de usuario. Donde plantearemos un modelo de obtención y representación de los perfiles de usuario en xml, basado en la lógica difusa

Perfiles de usuario Objetivo.
Construcción de perfiles de usuario, a través de la navegación de que realiza el usuario en la web, y así poder identificar diferentes grupos sociales y/o demográficos. Plantear un modelo de obtención y representación de los perfiles de usuarios en XML. Los objetivos que nos hemos planteado para este apartado son: - La construcción de perfiles de usuario, a través de las navegaciones de que realiza el usuario en la web, y así poder identificar diferentes grupos sociales y/o demográficos. - Y plantear un modelo de obtención y representación de los perfiles de usuarios en XML.

Modelo para la obtención del perfil de usuario (Capítulo 6)
Análisis demográfico Modelo para la obtención del perfil de usuario (Capítulo 6) Identificación de entradas Identificación de entradas Fuente de información (Ficheros log) Fuente de información (Ficheros log) Identificación de sesiones de usuarios Identificación de sesiones de usuarios Método para la identificación de sesiones Método para la identificación de sesiones Preprocesamiento de la información Preprocesamiento de la información 4 4 7 7 2 2 6 6 5 5 1 1 8 8 3 3 Grupos de sesiones Grupos de sesiones Perfiles de usuario Perfiles de usuario Recapitulando lo realizado hasta ahora, el modelo ó metodología que hemos planteado comienza con: El análisis de la información que es almacenada en los ficheros log. Luego esta información es preprocesada eliminando los elementos sucios o ruidosos del conjunto de datos, para poder identificar los accesos o entradas que realiza el usuario al sitio web. Teniendo identificado los accesos, se comienza con el proceso de identificación de las sesiones de usuario, la cual la hemos realizado con el método timeout. Una vez identificada las sesiones, se analizan las sesiones a través del clustering difuso para determinar los diferentes grupos sociales o demográficos de usuarios. Una vez identificado los grupos de usuarios, se realiza el proceso de representación en XML y de estos se obtiene los diferentes perfiles de usuario. (circulitos a las etpas) Representación de los perfiles en XML Representación de los perfiles en XML Técnica de Minería para realizar agrupamiento de sesiones Técnica de Minería para realizar agrupamiento de sesiones

Vi: Variables demográficas
Análisis demográfico Definición de perfil de usuario Definición de perfil de usuario: colección de datos acerca de las preferencias o intereses de navegación de los usuarios . Definición formal de perfil de usuario: [Martín-Bautista et al., 2002]. Relativo a los aspectos sociales: rango de edad, nivel educativo, idioma… Vi: Variables demográficas Ficheros Log En la literatura relacionada con la personalización y los perfiles de usuarios, podemos encontrar diferentes definiciones que suelen coincidir en que un perfil de usuario es una colección de datos acerca de las preferencias o intereses de navegación de los usuarios. Podemos ver estas definiciones en el capitulo 6 de la tesis. Nosotros utilizaremos una definición un poco más formal que describe a un perfil de usuarios como una tupla de variables. Esta tupla esta formada por: Las variables demográficas están relacionadas con los aspectos sociales de los usuarios, por ejemplo la edad, el idioma, el nivel educativo, entre otros. Las variables de identificación están relacionados con los ficheros logs, ya que en ellos se almacenan aspectos relacionados con la navegación del usuario. La variable clickstream está relacionado con las sesiones de usuarios, donde una sesión está definida por un conjunto de páginas visitadas por el usuario. Perfil simple esta relacionado con la recuperación de la información que realiza el usuario en su navegación por el sitio web, dicho de otra forma esta relacionado con el contenido de las páginas que el usuario a visitado. Li: Variables de identificación Ki: Variables de clickstream Resultado de una agregación de perfiles asociados a cada sesión z’i: Perfil simple de la sesión Se asocian pesos a las páginas

z’i: Perfil simple de la sesión
Análisis demográfico Modelo de representación en XML del perfil de usuario Li: Variables de identificación Ki: Variables de clickstream Vi: Variables demográficas Hemos hecho esta representación del perfil de usuario en xml porque, hoy en día es el lenguaje de representación e intercambio de información más relevante y nos permitirá manejar y actualizar el perfil de usuario en el futuro. El modelo que planteamos se basa en la definición que hemos realizado anteriormente, donde: La variable de identificación esta relacionada con la navegación que realiza el usuario. En esta identificación se presenta el problema de los usuarios registrados y no registrados. La variable clickstream como comentamos anteriormente esta relacionado con las paginas que visita el usuario en su navegación o sea las sesiones de usuarios. Hemos definido diferentes características de los usuarios como la edad, el género, el idioma, el nivel educativo y la paciencia. Los valores de estas variables pueden ser obtenidos directamente del usuario o se pueden deducir a partir de la navegación. Por ejemplo, la etiqueta edad se puede completar tomando la información directamente de un formulario que haya rellenado el usuario, de lo contrario a falta de esa información se podría estimar en función de las páginas visitadas. Hay otras variables que por su carácter impreciso se podran modelar a través de la lógica difusa. La etiqueta paciencia, está determinada por el tiempo de navegación del usuario en algún sitio web. Para esta variable hemos definido etiquetas lingüísticas para representar de mejor manera el tiempo de navegación del usuario. Y por ultimo la variable del perfil simple, como hemos dicho anteriormente está relacionado por el contenido de las páginas visitadas por el usuario. Muchos de las variables que se encuentran en este modelo se han inferido a través de las páginas visitadas por los usuarios, sólo la variable de clickstream se ha obtenido a través del análisis del clustering difuso. Podemos ver una descripción más detallada de este modelo en el capitulo 6 de la tesis z’i: Perfil simple de la sesión

z’i: Perfil simple de la sesión
Análisis demográfico Ejemplo de perfil de usuario Li: Variables de identificación Ki: Variables de clickstream Vi: Variables demográficas A partir del modelo general planteado anteriormente, hemos obtenido un modelo particular para el análisis del sitio de la Escuela. Nosotros partimos de la navegación de usuario no registrado o de los que desconocemos su identidad, por lo tanto los campos que aquí consideramos se han incluido en función de la información de la que disponemos. Explicaremos cada unos de los campos: los tipos de usuarios que tenemos a priori en el sitio web de la escuela son: alumnos y profesores. Por lo tanto, estos son los valores que podrá tomar el atributo tipo de la variable de identificación. La variable clickstream está relacionada con las páginas que visita el usuario en el sitio de la Escuela. Hemos definido para las variables demográficas 3 variables_ Edad: en este caso, esta relacionada con la identificación de los usuarios, ya que si el usuario identificado es un alumno lo hemos puesto la etiqueta de joven. Si es un profesor le hemos puesto la etiqueta de adulto. En la memoria se recoge la definición de dichas etiquetas. Idioma: el idioma le hemos puesto la etiqueta de español, principalmente porque el sitio esta completamente en ese idioma. Paciencia: esta determinada por el tiempo de navegación de los usuarios por el sitio web. Esta ha sido identificada a través de etiquetas lingüísticas {paciente, poco paciente, muy paciente}, para obtener una mejor representación del tiempo. Para obtener los valores en la variable del perfil simple, hemos considerado el contenido de las palabras claves y la descripcion de las etiquetas META y Title. z’i: Perfil simple de la sesión

Obtención del perfil de usuario a partir del clustering difuso
Análisis demográfico Obtención del perfil de usuario a partir del clustering difuso Sea C = {c1,c2,...,cn} los clusters de sesiones de usuarios más representativas de la navegación realizada por los usuarios en el sitio web de la escuela, siendo n el número de la partición inicial. Sea Q= {q1,q2,...,qn} el conjunto de los perfiles de los usuarios obtenidos. Entonces: C = {c1,c2,...,cn} → Q= {q1,q2,...,qn} Para realizar la representación de los perfiles de usuarios, lo hemos hecho a través del análisis realizado en la agrupación de sesiones de usuarios obtenida del proceso de clustering difuso. La identificación de los perfiles de usuario se ha realizado en función de las clases demográficas más representativas de los datos analizados. A continuación vamos a ver dos ejemplos muy representativos de las dos clases demográficas que hemos obtenidos en nuestro análisis: los alumnos y los profesores

Perfil de alumno obtenido del caso real (Perfil 11, Anexo C)
<?xml version="1.0" encoding="UTF-8"?> <Perfil11> <Identificacion_Usuario> <Tipo Tipo="alumno" /> </Identificacion_Usuario> <Paginas> <Pagina Pagina_Visitada="0">*GET/apps/foro/index.phpHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="1">*GET/apps/foro/index.php?action=foro&idforo=asignaturasHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="2">*GET/apps/foro/index.php?action=foro&idforo=generalHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="3">*GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="4">*GET/apps/tablon/HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="5">*GET/apps/foro/index.php?action=hebra&idhebra=1819&page=0HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="6">*GET/apps/foro/index.php?action=hebra&idhebra=696HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="7">*GET/apps/foro/index.php?action=hebra&idhebra=1349HTTP/1.0*</Pagina> <Pagina Pagina_Visitada="8">*GET/page.php?pageid=googlemapsHTTP/1.1*</Pagina> </Paginas> <Var_Demograficas> <Edad>Joven</Edad> <Paciencia>Paciente</Paciencia> <Idioma>Español</Idioma> </Var_Demograficas> <Perfil_Simple> <Terminos Termino="0">Ingeniería</Terminos> <Terminos Termino="1">Informática</Terminos> <Terminos Termino="2">Telecomunicación</Terminos> <Terminos Termino="3">Foros</Terminos> <Terminos Termino="4">Asignatura</Terminos> <Terminos Termino="5">General</Terminos> <Terminos Termino="6">Anecdotario</Terminos> <Terminos Termino="7">Googlemaps</Terminos> </Perfil_Simple> </Perfil11> Perfil de alumno obtenido del caso real (Perfil 11, Anexo C) Podemos ver un perfil obtenido en nuestro análisis que corresponde al perfil de un alumno

Perfil de profesor obtenido del caso real (Perfil 10, Anexo C)
<?xml version="1.0" encoding="UTF-8"?> <Perfil10> <Identificacion_Usuario> <Tipo Tipo="profesor" /> </Identificacion_Usuario> <Paginas> <Pagina Pagina_Visitada="0">*GET/usuarios/jmlvega/idragon//formate.cssHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="1">*GET/apps/convocatorias/styles/convocatorias.cssHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="2">*GET/profesores/jmaroza/anecdotario/chmanual.htmHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="3">*GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="4">*GET/planes/index.php?id=3&id2=127HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="5">*GET/page.php?pageid=horarioHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="6">*GET/apps/foro/index.php?action=hebra&idhebra=1617HTTP/1.1*</Pagina> </Paginas> <Var_Demograficas> <Edad>Adulto</Edad> <Paciencia>Muy Paciente</Paciencia> <Idioma>Español</Idioma> </Var_Demograficas> <Perfil_Simple> <Terminos Termino="0">Ingeniería</Terminos> <Terminos Termino="1">Informática</Terminos> <Terminos Termino="2">Telecomunicación</Terminos> <Terminos Termino="3">Index</Terminos> <Terminos Termino="4">skin/reloaded</Terminos> <Terminos Termino="5">convocatorias</Terminos> <Terminos Termino="6">ubuntu</Terminos> <Terminos Termino="7">planes</Terminos> <Terminos Termino="8">estudio</Terminos> <Terminos Termino="9">Horario</Terminos> </Perfil_Simple> </Perfil10> Perfil de profesor obtenido del caso real (Perfil 10, Anexo C) Diapositiva 50(ejemplo del perfil del profesor) - Podemos ver otro ejemplo de un perfil obtenido en nuestro análisis que corresponde al perfil de un profesor - Podemos ver todos los perfiles obtenidos en el anexo C.

Metodología Clasificación de los perfiles a partir de las páginas web
Análisis demográfico Clasificación de los perfiles a partir de las páginas web Metodología Árbol de decisión. Algoritmo J4.8 (C4.5), (WEKA). Algunos resultados Perfil 10 está clasificado por la página GET/apps/convocatorias. Perfil 12 está clasificado por la página GET/apps/descargas. Perfil 3 está clasificado por la página GET/alumnos/shin/shin.htm. Perfil 7 está clasificado por la página GET/alumnos/mlii. Perfil 4 está clasificado por la página GET/apps/foro/index.php. Perfil 6 está clasificado por las páginas: GET/apps/foro/index.php, GET/apps/tablon,GET/alumnos/diegorp/canalplus.html, GET/alumnos/diegorp/canal.css. Profesor Finalmente, hemos obtenido una confirmación de que los perfiles de usuarios son coherentes a través de su clasificación en función de las paginas más representativas. Para esto hemos utilizado el algoritmo J4.8 (C4.5), que es un algoritmo de aprendizaje basado en un árbol de decisión, implementado en weka. Algunos resultados obtenidos: Estos resultados refleja que el perfil 10, que corresponde al perfil del profesor, esta clasificado por la página de convocatoria En cambio los demás perfiles, que corresponden a la de un alumno, están clasificado claramente por diferentes páginas que visita el alumno. Estos resultados confirman nuestros análisis para la obtención de los perfiles de usuarios. Podemos ver los demás resultados en el capitulo 6 de la tesis. Alumno

Contenidos Minería Web de Uso - Modelo de datos. Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de patrones de navegación: caso real. Análisis demográfico. - Clustering de páginas similares: caso real. - Clustering difuso de sesiones de usuarios: caso real. Perfiles de usuario y lógica difusa. - Modelo de obtención y representación en XML de los perfiles de usuario. - Aplicación para un caso real. Conclusiones y trabajos futuros. (Capítulo 7) A continuación pararemos a ver las conclusiones y trabajos futuros

Conclusiones y Trabajos Futuros
Obtención de patrones de navegación: Hemos planteado un modelo de obtención de reglas de asociación difusas . Hemos llevado a cabo un proceso de interpretación semántica aplicando tanto medidas de interés objetivas como medidas de interés subjetivas. Hemos experimentado sobre un sitio web real. Hemos planteado un modelo de obtención de reglas de asociación difusas. Hemos llevado a cabo un proceso de interpretación semántica aplicando tanto medidas de interés objetivas como medidas de interés subjetivas. Hemos experimentado sobre un sitio web real.

Conclusiones Análisis demográfico:
Utilizando diversas técnicas del clustering hemos podido establecer una metodología para realizar diferentes agrupaciones de los elementos que participan en un sitio web. Hemos utilizado el clustering jerárquico para la obtención de la partición inicial de los datos y hemos utilizado el coeficiente de partición y la entropía como medidas de validación para las técnicas anteriores. Por último, hemos experimentado sobre un caso real que nos permitió identificar diferentes grupos demográficos de usuarios. Análisis demográfico: - Utilizando diversas técnicas del clustering hemos podido establecer una metodología para realizar diferentes agrupaciones de los elementos que participan en un sitio web. - Hemos utilizado el clustering jerárquico para la obtención de la partición inicial de los datos y hemos utilizado el coeficiente de partición y la entropía como medidas de validación para las técnicas anteriores. - Por último, hemos experimentado sobre un caso real que nos permitió identificar diferentes grupos demográficos de usuarios.

Conclusiones Construcción de perfiles de usuario: Hemos planteado una nueva representación de los perfiles de usuarios en XML Hemos definido un modelo de obtención de los perfiles de usuarios, basándonos en el análisis demográfico realizado en el clustering difuso de las sesiones de usuarios. Hemos realizado una clasificación de los perfiles de usuarios a través de las páginas web más representativas. Hemos planteado una nueva representación de los perfiles de usuarios en XML. Hemos definido un modelo de obtención de los perfiles de usuarios, basándonos en el análisis demográfico realizado en el clustering difuso de las sesiones de usuarios. Hemos realizado una clasificación de los perfiles de usuarios a través de las páginas web más representativas.

Trabajos futuros Extender los resultados obtenidos a otros sitios web hasta desarrollar una herramienta integrada que incluya tanto los procesos de análisis descritos como la actualización dinámica y online de los perfiles de usuario. Ampliar el estudio de otras agrupaciones, asociaciones y relaciones entre los elementos que participan en el sitio web. En un futuro, extenderemos el uso de los perfiles de usuario para desarrollar un sistema de recomendación que complete el proceso de personalización aquí iniciado. Extender los resultados obtenidos a otros sitios web hasta desarrollar una herramienta integrada que incluya tanto los procesos de análisis descritos como la actualización dinámica y online de los perfiles de usuario. - Ampliar el estudio de otras agrupaciones, asociaciones y relaciones entre los elementos que participan en el sitio web. - En un futuro, extenderemos el uso de los perfiles de usuario para desarrollar un sistema de recomendación que complete el proceso de personalización aquí iniciado.

Gracias… “Cada día sabemos más y entendemos menos…” Albert Einstein
Y con esto finalizo mi presentación y quedo a disposición del tribunal

Víctor Heughes Escobar Jeria Granada, 2007

Presentaciones similares

Presentación del tema: "Víctor Heughes Escobar Jeria Granada, 2007"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Víctor Heughes Escobar Jeria Granada, 2007

Presentaciones similares

Presentación del tema: "Víctor Heughes Escobar Jeria Granada, 2007"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback