La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

José Jacobo Zubcoff Vallejo

Presentaciones similares


Presentación del tema: "José Jacobo Zubcoff Vallejo"— Transcripción de la presentación:

1 José Jacobo Zubcoff Vallejo
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Director: Juan Carlos Trujillo Mondéjar Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos

2 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

3 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

4 Parte I: Introducción Contexto
Actualmente las empresas recogen grandes cantidades de datos Necesidad de “extraer” o “descubrir” conocimiento útil a partir de ellos El proceso seguido para descubrir conocimiento se denomina: KDD (Knowledge Discovery in Databases) “es el proceso no trivial de identificación de patrones válidos, noveles, potencialmente útiles y comprensibles en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996) El descubrimiento1 de conocimiento en bases de datos, del inglés Knowledge Discovery in Databases (KDD) fue definido por Fayyad como “el proceso no trivial de identificación de patrones válidos, noveles, potencial- mente útiles y, en definitiva, comprensible en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996a) Integración y preprocesado de los datos La fase de integración (Figura 1.1) comprende la selección de las fuentes de datos, la transformación y limpieza de los datos y, finalmente, la carga de los mismos en el repositorio. Esta fase es la que más tiempo ocupa de todas las fases del proceso de búsqueda de conocimiento (Pyle 1999, Strange 2002, Agosta 2002). El resultado de la integración es un almacén de datos que contiene datos limpios y preparados para el análisis. Minería de datos La fase de minería de datos (mostrada como el núcleo del descubrimiento de cono- cimiento en la Figura 1.1), es la encargada de obtener los conocimientos en forma de patrones. Esta fase comprende la selección de los datos que participarán en el análisis, la elección del algoritmo de minería y también el rol que desempeñarán los datos en el mismo. En función de la técnica de minería de datos elegida los datos pueden participar como atributos que sirven para predecir o como variables ob jetivo. En esta fase resulta fundamental el profundo conocimiento de los datos contenidos en el repositorio. La información acerca de la estructura de los datos y las relaciones existentes en los mismos ayuda a comprender el dominio de aplicación de las técnicas de minería de datos. Un vago conocimiento de los datos que participan pueden llevar a resultados erróneos o incomprensibles. ha sido definida como “una metáfora que hace referencia al descubrimiento de tesoros (o pepitas) escondidas tras montañas de da- tos” (Saporta 2000), o como un “proceso complejo que requiere un profundo conocimiento y una comprensión precisa de los datos.” (Euler 2005, Euler 2006). La selección de los datos de entrada para minería de datos es un proceso crítico en proyectos complejos donde intervienen una gran cantidad de variables. Un profundo co- nocimiento del dominio facilitaría este proceso de selección. Esa es la principal venta ja de los modelos multidimensionales de los datos, que son modelos intuitivos, cercanos a la forma de pensar del analista y que ayudan a la comprensión del dominio de aplicación. La selección del algoritmo y los a justes del mismo no deberían estar ligadas a la plata- forma de aplicación. Dado que cada herramienta de minería de datos aplica los algoritmos de forma distinta, Evaluación de los patrones resultantes El proceso finaliza con la interpretación correcta de los resultados de la minería de datos. El descubrimiento de conocimiento se obtiene a partir del análisis de los patrones descubiertos en la fase anterior. Este análisis es el que genera conocimiento, y es la etapa final en todo proceso KDD

5 Entre un 70% y un 90% del tiempo total
Parte I: Introducción Conocimiento Proceso KDD Evaluación de patrones Minería de datos: el núcleo del descubrimiento de conocimiento Minería de datos Datos para minería Almacén de datos Selección Entre un 70% y un 90% del tiempo total (Gartner Group 2005) Minería de datos ha sido definida como “una metáfora que hace referencia al descubrimiento de tesoros (o pepitas) escondidas tras montañas de da- tos” (Saporta 2000), o como un “proceso complejo que requiere un profundo conocimiento y una comprensión precisa de los datos.” (Euler 2005, Euler 2006). La selección de los datos de entrada para minería de datos es un proceso crítico en proyectos complejos donde intervienen una gran cantidad de variables. Un profundo conocimiento del dominio facilitaría este proceso de selección. Esa es la principal venta ja de los modelos multidimensionales de los datos, que son modelos intuitivos, cercanos a la forma de pensar del analista y que ayudan a la comprensión del dominio de aplicación. La selección del algoritmo y los a justes del mismo no deberían estar ligadas a la plata- forma de aplicación. Dado que cada herramienta de minería de datos aplica los algoritmos de forma distinta, Evaluación de los patrones resultantes El proceso finaliza con la interpretación correcta de los resultados de la minería de datos. El descubrimiento de conocimiento se obtiene a partir del análisis de los patrones descubiertos en la fase anterior. Este análisis es el que genera conocimiento, y es la etapa final en todo proceso KDD A continuación estableceremos el problema actual en el desarrollo de proyectos de minería de datos. Preprocesado Integración Fuentes de datos

6 El problema actual en el modelado de minería de datos
Parte I: Introducción El problema actual en el modelado de minería de datos “la minería de datos se lleva a cabo más como un arte que como una ciencia” (González-Aranda, P., Menasalvas, E., Millán, S., Ruiz, C. y Segovia, J.: 2008) Esto se debe principalmente a: Ausencia de propuestas de modelado conceptual para “todas” las etapas del proceso KDD Desventajas relacionadas con esta perspectiva Incapacidad para garantizar la calidad de los datos Duplicidad de tareas de preprocesado Imposibilidad de reutilización de modelos de minería de datos Implementación a bajo nivel, mantenibilidad y otras … debido principalmente a que: i) - las técnicas de minería de datos se aplican sobre ficheros planos o datos poco estructurados, en los cuales, al no tener información previa sobre su relación, se tienen que repetir tareas de preprocesado e iterar varias veces el algoritmo de minería de datos la perspectiva de procesos aislados puede llevar a la duplicidad de tareas que conllevan gran parte del tiempo dedicado a la búsqueda de conocimiento (entre el 70 % y el 90 % según la literatura (Pyle 1999, Strange 2002, Agosta 2002)). estos problemas mencionados anteriormente se solventarían disponiendo de modelos que trabajen a nivel conceptual. En primer lugar, en cuanto a la calidad de los datos para el análisis, no es posible garantizar la disponibilidad de los datos necesarios para el análisis. dado que la minería de datos exige una preparación previa de los datos (integrar de diversas fuentes de datos, limpieza de errores, transformación a tipos adecuados y otras tares de preprocesado), la perspectiva de procesos aislados puede llevar a la duplicidad de tareas que conllevan gran parte del tiempo dedicado a la búsqueda de conocimiento (entre el 70 % y el 90)) Finalmente, en tercer lugar, las sesiones aisladas de minería no permiten la reuti- lización de modelos lo que redunda en la duplicidad de tareas de preprocesado y modelado de datos.

7 Un modelo conceptual facilita la comprensión de los datos
Parte I: Introducción Proceso KDD Un modelo conceptual facilita la comprensión de los datos Este modelo de análisis representa los datos como hechos y como dimensiones. Un hecho es la forma de representar las medidas ba jo estudio. Las dimensiones son el contexto de análisis de esas medidas. Los modelos multidimensionales están próximos a la forma de pensar de los analistas (Pyle 1999) Los modelos de minería pueden beneficiarse de distintos aspectos del modelo multidi- mensional (Inmon 1996). Entre las venta jas de su aprovechamiento podemos mencionar: i) la riqueza descriptiva de los modelos multidimensionales permite aplicar la técnica de minería adecuada sobre un modelo intuitivo; ii) el modelo multidimensional de los datos utiliza metáforas que son cercanas a la forma de pensar del analista.

8 No así para el proceso de minería de datos en el marco KDD
Parte I: Introducción Proceso KDD Fuentes de datos OLTP Ficheros Extracción Limpieza Transformación Agregación Filtrado Unión Almacén de datos Minería de datos Conocimiento ninguna aproximación hace uso del almacén de datos o de su modelo multidimensional, sino que abordan la minería de datos desde una perspectiva aislada del resto de fases de descubrimiento de conocimiento Existen propuestas para el modelado conceptual de las primeras fases de KDD No así para el proceso de minería de datos en el marco KDD

9 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

10 Hipótesis Parte I: Introducción
Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

11 Objetivos Parte I: Introducción
Objetivo principal: Proponer “mecanismos” para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos Objetivo 1: Analizar las propuestas existentes Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos Objetivo 3: Proponer los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

12 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

13 ? Trabajos relacionados Parte I: Introducción Conocimiento
Fuentes de datos OLTP Ficheros Extracción Limpieza Transformación Agregación Filtrado Unión Almacén de datos Conocimiento Minería de datos DKE’07 INFSOF’09 DaWaK’ ECDM’07-08 La presente tesis doctoral Conceptual ninguna aproximación hace uso del almacén de datos o de su modelo multidimensional, sino que abordan la minería de datos desde una perspectiva aislada del resto de fases de descubrimiento de conocimiento LUCENTIA (Luján-Mora et al.) (Tziovara et al.) (Muñoz et al.) CWM LUCENTIA (Trujillo et al.) CWM (Luján-Mora et al.) ? CWM PBMS PMML Lógico DMX JDM SQL/MM Físico

14 Trabajos relacionados
Parte I: Introducción Trabajos relacionados CWM Metamodelo para los metadatos usados en almacenes de datos Enfocado al intercambio de metadatos a bajo nivel entre herramientas de almacenes de datos Dado que esta dirigido al modelado lógico de estos sistemas es demasiado complejo para los analistas PMML Facilita el intercambio de modelos con XML Su objetivo principal es el intercambio de modelos (y resultados) de minería Solo considera una única tabla como fuente de datos PBMS Propone modelar el repositorio para patrones de conocimiento Permite modelar los patrones resultantes de distintas técnicas de minería de datos No tiene en cuenta las fuentes de datos

15 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

16 Parte II: Perfiles UML para minería de datos
Extensión de UML con perfiles UML: lenguaje de propósito general Mecanismos de extensión permiten adaptarlo a dominios específicos La extensión de UML con Perfiles  “mecanismo de extensión ligera” (lightweight) Perfiles UML contienen: Stereotypes  nuevos elementos Tagged values  nuevas propiedades Constraints  nueva semántica Ejemplo: Modelado Multidimensional UML Dominio Multidimensional Class Fact, Dimension, Base Property FactAttribute, OID, DimensionAttribute Association Rolls-upTo

17 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

18 Parte II: Perfiles UML para minería de datos
Modelo conceptual para minería de datos en el marco de KDD

19 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

20 Técnicas de minería de datos: Reglas de asociación
Parte I: Introducción Técnicas de minería de datos: Reglas de asociación Sirve para ver la relaciones de asociación existentes en los datos Ejemplo: Análisis de la cesta de la compra

21 Parte II: Perfiles UML para minería de datos
Reglas de asociación Sirve para ver la relaciones de asociación existentes en los datos Conjunto de ítems frecuentes \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

22 Parte II: Perfiles UML para minería de datos
Reglas de asociación El perfil UML para minería de datos con reglas de asociación define 8 nuevos estereo- tipos y 11 valores etiquetados que permiten diseñar reglas de asociación sobre modelos multidimensionales de almacenes de datos. Estos nuevos elementos de modelado facilitan la tarea de diseño utilizando una semántica próxima a la forma de entender los problemas de los analistas y diseñadores de procesos de minería de datos. \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

23 Parte II: Perfiles UML para minería de datos
Reglas de asociación El perfil UML para minería de datos con reglas de asociación define 8 nuevos estereo- tipos y 11 valores etiquetados que permiten diseñar reglas de asociación sobre modelos multidimensionales de almacenes de datos. Estos nuevos elementos de modelado facilitan la tarea de diseño utilizando una semántica próxima a la forma de entender los problemas de los analistas y diseñadores de procesos de minería de datos. \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

24 Parte II: Perfiles UML para minería de datos
Reglas de asociación Basado en el Perfil UML para modelado multidimensional Permite obtener fácilmente distintos tipos de reglas de asociación: Simples y multi-dimensionales Simple o múltiple predicado Inter-dimensionales o de dimensión híbrida De uno ó múltiples niveles Desde el punto de vista multidimensional el {Caso} puede ser cualquier elemento de una dimensión dado que estos agrupan la medidas de la tabla de hechos. Por ejemplo, podemos agrupar los compras por día, mes o año, niveles distintos de una dimensión tiempo, o bien, por cliente que sería otra dimensión distinta de la del tiempo, o bien por ticket que es otra distinta de las anteriores, o bien por familia de productos que es otro nivel de la dimensión producto. Así, se puede agrupar las compras por distintos {casos} y dará como resultado conjuntos de datos distintos y reglas de asociación diferentes. Los atributos de {Entrada} permitirán generar el conjunto de ítems frecuentes y servirán para estudiar as relaciones con el atributo seleccionado como {predicción}. De esta manera, los atributos de {Entrada} solo estarán en la parte izquierda de la regla de asociación, y los atributos a predecir estarán en la parte derecha de la regla. Cualquier atributo de hecho o dimensión puede servir como entrada o predicción. Así, se definen otros dos elementos conceptuales: {Entrada} y {predicción}, que sirven para modelar la minería de datos con reglas de asociación. Además de los atributos para el modelado de las reglas de asociación, debemos considerar los parámetros que ajustan las mismas. Según la revisión de la literatura en reglas de asociación, los parámetros específicos que controlan el conjunto de ítems frecuentes son el soporte mínimo ( {MinSupp}) y la confianza mínima ( {MinConf}) que la regla debe satisfacer, el máximo número de registros del conjunto de datos ( {MaxItemSetSize - MISS}) y el número máximo de predicados o el número máximo de apariciones de un atributo en el cuerpo de una regla ( {MaxNumberOfPredicates - MNOP}).

25 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

26 Técnicas de minería de datos: Clasificación
Parte I: Introducción Técnicas de minería de datos: Clasificación Permite conocer cuales son los factores más influyentes en una variable Ejemplo: Análisis del riesgo de muerte por infarto Presión sistólica < 91 Presión sistólica > 91 Edad > 62 años Síntoma “Taquicardia” Síntoma “Indigestión” Colesterol < 200 Triglicéridos < 200

27 Parte II: Perfiles UML para minería de datos
Clasificación Permite conocer cuales son los factores más influyentes en una variable

28 Parte II: Perfiles UML para minería de datos
Clasificación + Restricciones

29 Parte II: Perfiles UML para minería de datos
Clasificación Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad El proceso de poda del árbol es el que, en definitiva, da forma al árbol. Este proceso se lleva a cabo automáticamente ajustando algunos parámetros del algoritmo (ver~\figureref{Classification}). Por ejemplo, el \textit{soporte mínimo} permite controlar la partición de un nodo asignando un umbral mínimo a partir del cual se puede dividir el nodo. La \textit{confianza mínima} controla la mínima confianza para que un nodo exista. La profundidad del árbol de decisión se controla con el parámetro \textit{número máximo de ramas}. El \textit{número máximo de atributos} de entrada selecciona automáticamente los mejores clasificadores dentro del conjunto de atributos de entrada hasta un máximo indicado por este parámetro. Otros criterios que intervienen en la poda del árbol son: el propio \textit{algoritmo} utilizado, el \textit{método de partición} que define las ramas en las que se divide un nodo y el criterio de homogeneidad para poder dividir el nodo (\textit{métrica de homogeneidad}).

30 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

31 Técnicas de minería de datos: Clustering
Parte I: Introducción Técnicas de minería de datos: Clustering Descubre “grupos” de comportamiento común Ejemplo: Segmentación de mercado según datos de tarjetas de crédito Nº de coches = 2 Nº de hijos = 2 Viajes anuales > 2 Tarjeta tipo = “Oro” Nº de coches = 0 Nº de hijos = 0 Viajes anuales > 3 Tarjeta tipo = “Platinum” \begin{itemize} \item \textbf{Soporte mínimo.} Especifica el número de ítems que son necesarios para construir un clúster. Así, se puede garantizar que cada clúster resultante cumplirá unos requisitos (ítems en el clúster) mínimos. \item \textbf{Número máximo de iteraciones.} Dado que los algoritmos de clustering se aplican de manera iterativa, este parámetro establece un límite para el número de iteraciones del algoritmo para la construcción de clústers. así es posible controlar el ajuste del patrón resultante a los datos (de manera similar a los algoritmos de clasificación). \item \textbf{Número máximo de clústers.} Se puede definir \textit{a priori} el número máximo de clústers a construir. También está relacionado con el sobreajuste del modelo a los datos y con la cantidad de datos. \item \textbf{Número de clústers.} En este caso, se puede esperar obtener un número de clústers ``deseado'', para facilitar el análisis posterior y por lo tanto también controla el proceso de generación de clústers con algún tipo de medida de homogeneidad. \item \textbf{Tolerancia mínima del error.} Esta es una medida para determinar la convergencia del modelo. en el caso de no cumplir con el umbral mínimo requerido sirve para detener la construcción de clústers. \item \textbf{Máximo número de atributos de entrada.} Controla cuantos atributos se pueden usar como entrada para el proceso de clustering. En el caso en que se supere esta cantidad, se limita la generación de nuevos clústers. \item \textbf{Tamaño de la muestra.} Permite controlar el número de casos usados en la construcción de los clústers. \item \textbf{Número máximo de clases.} Este parámetro especifica el número de categorías en un valor de un atributo de entrada. Se pueden generar varias clases y el límite está en este valor. \item \textbf{Sensibilidad.} Otra medida para determinar la homogeneidad (detectar clústers según mayores o menores variaciones en su densidad). \item \textbf{Exclusiones del conjunto de datos.} Se pueden excluir expresamente algunos ítems del conjunto de datos. \end{itemize}

32 Parte II: Perfiles UML para minería de datos
Clustering Descubre “grupos” de comportamiento común \begin{itemize} \item \textbf{Soporte mínimo.} Especifica el número de ítems que son necesarios para construir un clúster. Así, se puede garantizar que cada clúster resultante cumplirá unos requisitos (ítems en el clúster) mínimos. \item \textbf{Número máximo de iteraciones.} Dado que los algoritmos de clustering se aplican de manera iterativa, este parámetro establece un límite para el número de iteraciones del algoritmo para la construcción de clústers. así es posible controlar el ajuste del patrón resultante a los datos (de manera similar a los algoritmos de clasificación). \item \textbf{Número máximo de clústers.} Se puede definir \textit{a priori} el número máximo de clústers a construir. También está relacionado con el sobreajuste del modelo a los datos y con la cantidad de datos. \item \textbf{Número de clústers.} En este caso, se puede esperar obtener un número de clústers ``deseado'', para facilitar el análisis posterior y por lo tanto también controla el proceso de generación de clústers con algún tipo de medida de homogeneidad. \item \textbf{Tolerancia mínima del error.} Esta es una medida para determinar la convergencia del modelo. en el caso de no cumplir con el umbral mínimo requerido sirve para detener la construcción de clústers. \item \textbf{Máximo número de atributos de entrada.} Controla cuantos atributos se pueden usar como entrada para el proceso de clustering. En el caso en que se supere esta cantidad, se limita la generación de nuevos clústers. \item \textbf{Tamaño de la muestra.} Permite controlar el número de casos usados en la construcción de los clústers. \item \textbf{Número máximo de clases.} Este parámetro especifica el número de categorías en un valor de un atributo de entrada. Se pueden generar varias clases y el límite está en este valor. \item \textbf{Sensibilidad.} Otra medida para determinar la homogeneidad (detectar clústers según mayores o menores variaciones en su densidad). \item \textbf{Exclusiones del conjunto de datos.} Se pueden excluir expresamente algunos ítems del conjunto de datos. \end{itemize}

33 Parte II: Perfiles UML para minería de datos
Clustering + Restricciones

34 Parte II: Perfiles UML para minería de datos
Clustering

35 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

36 Técnicas de minería de datos: Análisis de series temporales
Parte I: Introducción Técnicas de minería de datos: Análisis de series temporales Permite conocer una variable temporal, describir sus parámetros y predecir valores futuros Ejemplo: Estudio de cobertura de algas en el litoral Mediterráneo de Alicante \item \textbf{Período.} Este parámetro permite facilitar al algoritmo la búsqueda de la longitud del período que se observa en los datos. \item \textbf{Número de períodos.} Para controlar de alguna manera la cantidad de datos que se van a analizar, el número de períodos indica cuántos ciclos se van a generar en el análisis. \item \textbf{Ventana bajo análisis.} Indica la longitud de tiempo que se desea analizar. Con este parámetro y el número de períodos se controla el sobreajuste del modelo. \item \textbf{Soporte mínimo.} Permite restringir la creación de un nuevo ciclo indicando cuantos ítems tienen que haber para que se genere ese nuevo ciclo. Por lo tanto, sirve para controlar la sensibilidad en el descubrimiento del período de la serie temporal. \item \textbf{Tratamiento de valores ausentes.} En una serie temporal, dado que cada valor depende de las observaciones anteriores (en el tiempo), es muy importante decidir que tratamiento tendrán los valores ausentes. Existen varias opciones como tomar la media de la variable, la moda o el último valor observado, entre otros. \item \textbf{Restricción de valores.} Con este parámetro se puede limitar que conjunto de valores van a participar del análisis.

37 Parte II: Perfiles UML para minería de datos
Análisis de series temporales Permite conocer una variable temporal, describir y predecir valores futuros \item \textbf{Período.} Este parámetro permite facilitar al algoritmo la búsqueda de la longitud del período que se observa en los datos. \item \textbf{Número de períodos.} Para controlar de alguna manera la cantidad de datos que se van a analizar, el número de períodos indica cuántos ciclos se van a generar en el análisis. \item \textbf{Ventana bajo análisis.} Indica la longitud de tiempo que se desea analizar. Con este parámetro y el número de períodos se controla el sobreajuste del modelo. \item \textbf{Soporte mínimo.} Permite restringir la creación de un nuevo ciclo indicando cuantos ítems tienen que haber para que se genere ese nuevo ciclo. Por lo tanto, sirve para controlar la sensibilidad en el descubrimiento del período de la serie temporal. \item \textbf{Tratamiento de valores ausentes.} En una serie temporal, dado que cada valor depende de las observaciones anteriores (en el tiempo), es muy importante decidir que tratamiento tendrán los valores ausentes. Existen varias opciones como tomar la media de la variable, la moda o el último valor observado, entre otros. \item \textbf{Restricción de valores.} Con este parámetro se puede limitar que conjunto de valores van a participar del análisis.

38 Parte II: Perfiles UML para minería de datos
Análisis de series temporales + Restricciones

39 Parte II: Perfiles UML para minería de datos
Análisis de series temporales

40 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

41 Parte III: Aspectos prácticos
Implementación: Plataforma Eclipse

42 Parte III: Aspectos prácticos
Implementación

43 Parte III: Aspectos prácticos
Implementación: Reglas de Asociación

44 Parte III: Aspectos prácticos
Implementación: Clasificación

45 Parte III: Aspectos prácticos
Implementación: Clustering

46 Parte III: Aspectos prácticos
Implementación: Series Temporales

47 Parte III: Aspectos prácticos
Implementación: Series Temporales

48 Parte III: Aspectos prácticos
Implementación: Series Temporales

49 Parte III: Aspectos prácticos
Implementación: Series Temporales

50 Parte III: Aspectos prácticos
Implementación: Series Temporales

51 Parte III: Aspectos prácticos
Implementación: Series Temporales

52 Parte III: Aspectos prácticos
Implementación: Series Temporales Capturas de Merl por mes: AnalisisST

53 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

54 Parte III: Aspectos prácticos
Caso de estudio: Proyecto EMPAFISH European Marine Protected Areas as tools for the Fishery management and conservation Financiado por VI Programa Marco de I+D+I de la Unión Europea Participan catorce instituciones europeas

55 Parte III: Aspectos prácticos
Caso de estudio: Proyecto EMPAFISH Objetivos principales Investigar el potencial de los diferentes tipos de Áreas Marinas Protegidas en Europa para la protección de especies, hábitats o ecosistemas sensibles al efecto de la pesca Desarrollar métodos cuantitativos para evaluar el efecto de las Áreas Marinas Protegidas Proporcionar a la Unión Europea una serie de medidas integradas y propuestas de gestión para la implementación de las Áreas Marinas Protegidas como herramienta de gestión de pesquerías.

56 Parte III: Aspectos prácticos
Caso de estudio: Proyecto EMPAFISH Preguntas que guían la búsqueda de conocimiento ¿Es importante el tamaño de la zona protegida? ¿La cercanía de las áreas marinas protegidas puede afectar en alguna medida? ¿Mejora el comportamiento de las áreas marinas protegidas a lo largo del tiempo? ¿Cómo afecta a la movilidad de las especies marinas? ¿Afecta a la biodiversidad? El descubrimiento1 de conocimiento en bases de datos, del inglés Knowledge Discovery in Databases (KDD) fue definido por Fayyad como “el proceso no trivial de identificación de patrones válidos, noveles, potencial- mente útiles y, en definitiva, comprensible en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996a) Integración y preprocesado de los datos La fase de integración (Figura 1.1) comprende la selección de las fuentes de datos, la transformación y limpieza de los datos y, finalmente, la carga de los mismos en el repositorio. Esta fase es la que más tiempo ocupa de todas las fases del proceso de búsqueda de conocimiento (Pyle 1999, Strange 2002, Agosta 2002). El resultado de la integración es un almacén de datos que contiene datos limpios y preparados para el análisis. Minería de datos La fase de minería de datos (mostrada como el núcleo del descubrimiento de cono- cimiento en la Figura 1.1), es la encargada de obtener los conocimientos en forma de patrones. Esta fase comprende la selección de los datos que participarán en el análisis, la elección del algoritmo de minería y también el rol que desempeñarán los datos en el mismo. En función de la técnica de minería de datos elegida los datos pueden participar como atributos que sirven para predecir o como variables ob jetivo. En esta fase resulta fundamental el profundo conocimiento de los datos contenidos en el repositorio. La información acerca de la estructura de los datos y las relaciones existentes en los mismos ayuda a comprender el dominio de aplicación de las técnicas de minería de datos. Un vago conocimiento de los datos que participan pueden llevar a resultados erróneos o incomprensibles. Evaluación de los patrones resultantes El proceso finaliza con la interpretación correcta de los resultados de la minería de datos. El descubrimiento de conocimiento se obtiene a partir del análisis de los patrones descubiertos en la fase anterior. Este análisis es el que genera conocimiento, y es la etapa final en todo proceso KDD

57 Parte III: Aspectos prácticos
Caso de estudio Modelo multidimensional del almacén de datos

58 Modelo conceptual para Minería de datos con Clasificación
Aspectos prácticos Caso de estudio Modelo conceptual para Minería de datos con Clasificación Ajustes Entrada Predicción Caso

59 Aspectos prácticos Caso de estudio

60 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

61 Parte IV: Aspectos finales
Conclusiones El diseño de modelos de minería con la herramienta propuesta permite integrar el diseño de modelos conceptuales de minería de datos en un proceso global de búsqueda de conocimiento KDD Aprovecha datos preprocesados del almacén de datos dentro del proceso KDD (evitando duplicidades de tareas costosas) Mejora la comprensibilidad usando modelos cercanos al analista Facilita la mantenibilidad y reutilización de modelos Provee un mecanismo de documentación para la minería de datos

62 Parte IV: Aspectos finales
Conclusiones Principales aportaciones de esta tesis Una revisión del estado del arte para el modelado de minería de datos La propuesta de modelos conceptuales que describen el dominio de las diversas técnicas de minería de datos La extensión de UML con perfiles específicos para el dominio de las técnicas de minería de datos La creación de un entorno de modelado de las técnicas de minería de datos El desarrollo de un prototipo en forma de plug-in de Eclipse para el desarrollo de proyectos de descubrimiento de conocimiento

63 Parte IV: Aspectos finales
Conclusiones Podemos verificar que se cumple la Hipótesis inicial: Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

64 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

65 Parte IV: Aspectos finales
Producción científica 19 trabajos publicados como producción científica de esta tesis 2 en revistas JCR 11 en congresos internacionales (DAWAK, ECDM, GEOINFORMATICS,..) 6 en congresos o talleres nacionales (JISBD, ADIS, IDEAS,…)

66 Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Modelo conceptual para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

67 Parte IV: Aspectos finales
Trabajos futuros Propuestas para el diseño de técnicas de minería de datos aplicando el paradigma del desarrollo dirigido por modelos Estudio y posible incorporación de herramientas de modelado conceptual para de técnicas de aprendizaje automático (machine learning ) y reconocimiento de patrones (pattern recognition/matching) Marco de medición de la calidad de los modelos Validación empírica de la comprensibilidad de los modelos propuestos Incorporación de aspectos de seguridad en minería de datos Estudio e incorporación del modelado conceptual para la minería de datos geográficos Concienciación en la comunidad científica de la necesidad de abordar la minería de datos desde etapas aún más tempranas en el diseño de un proyecto de descubrimiento de conocimiento La calidad es un concepto que está compuesto de varias características, definidas en (International Organization for Standarization 2009): la funcionalidad, fiabilidad, facilidad de uso, eficiencia, mantenibilidad y portabilidad. La medición de la calidad en los modelos conceptuales propuestos es una línea de investigación muy amplia, pero que puede dar importantes avances respecto de la mejora del proceso de diseño de modelos de minería de datos con perfiles UML.

68 José Jacobo Zubcoff Vallejo
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Director: Juan Carlos Trujillo Mondéjar Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos


Descargar ppt "José Jacobo Zubcoff Vallejo"

Presentaciones similares


Anuncios Google