José Jacobo Zubcoff Vallejo

José Jacobo Zubcoff Vallejo
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Director: Juan Carlos Trujillo Mondéjar Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos

Contenido Parte I: Introducción Conceptos básicos
Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Parte I: Introducción Actualmente las empresas recogen grandes cantidades de datos Necesidad de “extraer” o “descubrir” conocimiento útil a partir de ellos El proceso seguido para descubrir conocimiento se denomina: KDD (Knowledge Discovery in Databases) es “el proceso no trivial de identificación de patrones válidos, noveles, potencialmente útiles y, en definitiva, comprensible en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996) El descubrimiento1 de conocimiento en bases de datos, del inglés Knowledge Discovery in Databases (KDD) fue definido por Fayyad como “el proceso no trivial de identificación de patrones válidos, noveles, potencialmente útiles y, en definitiva, comprensible en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996a) Integración y preprocesado de los datos La fase de integración (Figura 1.1) comprende la selección de las fuentes de datos, la transformación y limpieza de los datos y, finalmente, la carga de los mismos en el repositorio. Esta fase es la que más tiempo ocupa de todas las fases del proceso de búsqueda de conocimiento (Pyle 1999, Strange 2002, Agosta 2002). El resultado de la integración es un almacén de datos que contiene datos limpios y preparados para el análisis. Minería de datos La fase de minería de datos (mostrada como el núcleo del descubrimiento de conocimiento en la Figura 1.1), es la encargada de obtener los conocimientos en forma de patrones. Esta fase comprende la selección de los datos que participarán en el análisis, la elección del algoritmo de minería y también el rol que desempeñarán los datos en el mismo. En función de la técnica de minería de datos elegida los datos pueden participar como atributos que sirven para predecir o como variables ob jetivo. En esta fase resulta fundamental el profundo conocimiento de los datos contenidos en el repositorio. La información acerca de la estructura de los datos y las relaciones existentes en los mismos ayuda a comprender el dominio de aplicación de las técnicas de minería de datos. Un vago conocimiento de los datos que participan pueden llevar a resultados erróneos o incomprensibles. ha sido definida como “una metáfora que hace referencia al descubrimiento de tesoros (o pepitas) escondidas tras montañas de datos” (Saporta 2000), o como un “proceso complejo que requiere un profundo conocimiento y una comprensión precisa de los datos.” (Euler 2005, Euler 2006). La selección de los datos de entrada para minería de datos es un proceso crítico en proyectos complejos donde intervienen una gran cantidad de variables. Un profundo conocimiento del dominio facilitaría este proceso de selección. Esa es la principal venta ja de los modelos multidimensionales de los datos, que son modelos intuitivos, cercanos a la forma de pensar del analista y que ayudan a la comprensión del dominio de aplicación. La selección del algoritmo y los a justes del mismo no deberían estar ligadas a la plataforma de aplicación. Dado que cada herramienta de minería de datos aplica los algoritmos de forma distinta, Evaluación de los patrones resultantes El proceso finaliza con la interpretación correcta de los resultados de la minería de datos. El descubrimiento de conocimiento se obtiene a partir del análisis de los patrones descubiertos en la fase anterior. Este análisis es el que genera conocimiento, y es la etapa final en todo proceso KDD

Conocimiento Parte I: Introducción Proceso KDD Minería de datos
Evaluación de patrones Minería de datos: el núcleo del descubrimiento de conocimiento Minería de datos Datos para minería Almacén de datos Selección El descubrimiento1 de conocimiento en bases de datos, del inglés Knowledge Discovery in Databases (KDD) fue definido por Fayyad como “el proceso no trivial de identificación de patrones válidos, noveles, potencialmente útiles y, en definitiva, comprensible en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996a) Integración y preprocesado de los datos La fase de integración (Figura 1.1) comprende la selección de las fuentes de datos, la transformación y limpieza de los datos y, finalmente, la carga de los mismos en el repositorio. Esta fase es la que más tiempo ocupa de todas las fases del proceso de búsqueda de conocimiento (Pyle 1999, Strange 2002, Agosta 2002). El resultado de la integración es un almacén de datos que contiene datos limpios y preparados para el análisis. Minería de datos La fase de minería de datos (mostrada como el núcleo del descubrimiento de conocimiento en la Figura 1.1), es la encargada de obtener los conocimientos en forma de patrones. Esta fase comprende la selección de los datos que participarán en el análisis, la elección del algoritmo de minería y también el rol que desempeñarán los datos en el mismo. En función de la técnica de minería de datos elegida los datos pueden participar como atributos que sirven para predecir o como variables ob jetivo. En esta fase resulta fundamental el profundo conocimiento de los datos contenidos en el repositorio. La información acerca de la estructura de los datos y las relaciones existentes en los mismos ayuda a comprender el dominio de aplicación de las técnicas de minería de datos. Un vago conocimiento de los datos que participan pueden llevar a resultados erróneos o incomprensibles. ha sido definida como “una metáfora que hace referencia al descubrimiento de tesoros (o pepitas) escondidas tras montañas de datos” (Saporta 2000), o como un “proceso complejo que requiere un profundo conocimiento y una comprensión precisa de los datos.” (Euler 2005, Euler 2006). La selección de los datos de entrada para minería de datos es un proceso crítico en proyectos complejos donde intervienen una gran cantidad de variables. Un profundo conocimiento del dominio facilitaría este proceso de selección. Esa es la principal venta ja de los modelos multidimensionales de los datos, que son modelos intuitivos, cercanos a la forma de pensar del analista y que ayudan a la comprensión del dominio de aplicación. La selección del algoritmo y los a justes del mismo no deberían estar ligadas a la plataforma de aplicación. Dado que cada herramienta de minería de datos aplica los algoritmos de forma distinta, Evaluación de los patrones resultantes El proceso finaliza con la interpretación correcta de los resultados de la minería de datos. El descubrimiento de conocimiento se obtiene a partir del análisis de los patrones descubiertos en la fase anterior. Este análisis es el que genera conocimiento, y es la etapa final en todo proceso KDD Preprocesado Integración Entre un 70% y un 90% del tiempo total (Gartner Group 2005) Fuentes de datos

El problema actual en el modelado de minería de datos
Parte I: Introducción El problema actual en el modelado de minería de datos Actualmente, “la minería de datos se lleva a cabo más como un arte que como una ciencia” (Marbán, Segovia, Menasalvas y Fernández-Baizán 2009) Esto se debe principalmente a: Datos “poco estructurados” Ausencia de propuestas de modelado conceptual para “todas” las etapas del proceso KDD debido principalmente a que: i) - las técnicas de minería de datos se aplican sobre ficheros planos o datos poco estructurados, en los cuales, al no tener información previa sobre su relación, se tienen que repetir tareas de preprocesado e iterar varias veces el algoritmo de minería de datos la perspectiva de procesos aislados puede llevar a la duplicidad de tareas que conllevan gran parte del tiempo dedicado a la búsqueda de conocimiento (entre el 70 % y el 90 % según la literatura (Pyle 1999, Strange 2002, Agosta 2002)). estos problemas mencionados anteriormente se solventarían disponiendo de modelos que traba jen a nivel conceptual.

El problema actual en el modelado de minería de datos
Parte I: Introducción El problema actual en el modelado de minería de datos Actualmente, “la minería de datos se lleva a cabo más como un arte que como una ciencia” (Marbán, Segovia, Menasalvas y Fernández-Baizán 2009) Desventajas relacionadas con esta perspectiva Incapacidad para garantizar la calidad de los datos Duplicidad de tareas de preprocesado Imposibilidad de reutilización de modelos de minería de datos En primer lugar, en cuanto a la calidad de los datos para el análisis, no es posible garantizar la disponibilidad de los datos necesarios para el análisis. dado que la minería de datos exige una preparación previa de los datos (integrar de diversas fuentes de datos, limpieza de errores, transformación a tipos adecuados y otras tares de preprocesado), la perspectiva de procesos aislados puede llevar a la duplicidad de tareas que conllevan gran parte del tiempo dedicado a la búsqueda de conocimiento (entre el 70 % y el 90)) Finalmente, en tercer lugar, las sesiones aisladas de minería no permiten la reuti- lización de modelos lo que redunda en la duplicidad de tareas de preprocesado y modelado de datos.

El rol de los almacenes de datos
Parte I: Introducción El rol de los almacenes de datos Un modelo conceptual facilita la comprensión de los datos Este modelo de análisis representa los datos como hechos y como dimensiones. Un hecho es la forma de representar las medidas ba jo estudio. Las dimensiones son el contexto de análisis de esas medidas. Los modelos multidimensionales están próximos a la forma de pensar de los analistas (Pyle 1999) Los modelos de minería pueden beneficiarse de distintos aspectos del modelo multidimensional (Inmon 1996). Entre las venta jas de su aprovechamiento podemos mencionar: i) la riqueza descriptiva de los modelos multidimensionales permite aplicar la técnica de minería adecuada sobre un modelo intuitivo; ii) el modelo multidimensional de los datos utiliza metáforas que son cercanas a la forma de pensar del analista.

No así para el proceso de minería de datos en el marco KDD
Parte I: Introducción Proceso KDD Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformación Agregación Filtrado Unión Almacén de datos Minería de datos Conocimiento ninguna aproximación hace uso del almacén de datos o de su modelo multidimensional, sino que abordan la minería de datos desde una perspectiva aislada del resto de fases de descubrimiento de conocimiento Existen propuestas para el modelado conceptual de las primeras fases de KDD No así para el proceso de minería de datos en el marco KDD

Hipótesis Parte I: Introducción
Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

Objetivos Parte I: Introducción
Objetivo principal: Proponer “mecanismos” para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos Objetivo 1: Analizar las propuestas existentes Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos Objetivo 3: Proponer los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

Trabajos relacionados
Parte I: Introducción Trabajos relacionados Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformación Agregación Filtrado Unión Almacén de datos Conocimiento Minería de datos DaWaK’ ECDM’07-08 DKE’07 INFSOF’09 Propuestas del autor de esta tesis Conceptual ninguna aproximación hace uso del almacén de datos o de su modelo multidimensional, sino que abordan la minería de datos desde una perspectiva aislada del resto de fases de descubrimiento de conocimiento LUCENTIA (Luján-Mora et al.) LUCENTIA (Trujillo et al.) ? CWM CWM PBMS * Lógico LUCENTIA (Muñoz et al.) LUCENTIA (Luján-Mora et al.) CWM PMML (Tziovara et al.) DMX JDM SQL/MM Físico LUCENTIA (Luján-Mora et al.)

Parte I: Introducción Trabajos relacionados Common Warehouse Metamodel (CWM) Es un metamodelo para la representación de los metadatos usados en el ámbito de almacenes de datos Enfocado al intercambio de metadatos a bajo nivel entre herramientas de almacenes de datos Dado que esta dirigido al modelado lógico de estos sistemas es demasiado complejo para los analistas

Parte I: Introducción Trabajos relacionados Common Warehouse Metamodel (CWM) Es un metamodelo para la representación de los metadatos usados en el ámbito de almacenes de datos Enfocado al intercambio de metadatos a bajo nivel entre herramientas de almacenes de datos Dado que esta dirigido al modelado lógico de estos sistemas es demasiado complejo para los analistas CWM se centra en el intercambio de metadatos a nivel lógico, y sirve de base para herramientas de almacenes de datos e inteligencia de negocio. Dado su enfoque lógico, es demasiado complejo para ser usado por usuarios finales y analistas. Esto es debido a que no está definido en términos intuitivos para el usuario, sino mas cercanos a las características físicas de la implementación. Por lo tanto, verificamos que no presenta un modelo conceptual para las técnicas de minería de datos. Además, tampoco aprovecha la importante información que provee el modelo multidimensional de la estructura del almacén de datos (como las medidas, hechos, dimensiones o niveles de jerarquía) de los cuales también modela CWM.

Parte I: Introducción Trabajos relacionados Predictive Model Markup Language (PMML) Facilita el intercambio de modelos usando el estándar XML Su objetivo principal es el intercambio de modelos de minería También para el intercambio de los resultados de minería de datos No está orientado al diseño de modelos conceptuales Solo considera una única tabla como fuente de datos PMML facilita el intercambio de modelos usando el estándar XML (eXtensible Markup Language ), utilizado principalmente para intercambiar modelos de minería de datos entre herramientas. Una vez creados los modelos de minería, se pueden exportar a otras herramientas compatibles con PMML. Sin embargo, es un estándar que no está orientado al di- seño, ni tampoco orientado al proceso; asimismo, su modelo de datos no es suficientemente expresivo, por lo tanto se pierde la oportunidad de aprender de la riqueza semántica de las estructuras multidimensionales. Tampoco permite modelar flujos de datos a través del complejo proceso de KDD. Su ob jetivo principal es servir de plataforma de intercambio de modelos entre las diferentes aplicaciones que lo soportan.

Parte I: Introducción Trabajos relacionados Pattern Base Management System (PBMS) Propone un repositorio para patrones de conocimiento Permite modelar los patrones resultantes de distintas técnicas de minería de datos No facilita el modelado conceptual de la minería de datos No tiene en cuenta las fuentes de datos

Técnicas de minería de datos: Reglas de asociación
Parte I: Introducción Técnicas de minería de datos: Reglas de asociación Sirve para ver la relaciones de asociación existentes en los datos Ejemplo: Análisis de la cesta de la compra \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Parte II: Perfiles UML para minería de datos
Reglas de asociación Sirve para ver la relaciones de asociación existentes en los datos Ajustes básicos Conjunto de ítems frecuentes Soporte mínimo Soporte máximo Confianza mínima Número de filas en el conjunto Exclusiones del conjunto de ítems frecuentes Longitud de la regla de asociación \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Reglas de asociación Sirve para ver la relaciones de asociación existentes en los datos Dominio Atributos Entrada Predicción Caso Modelo Multidimensional Hechos Dimensiones Base Resultados Antecedente Consecuente Soporte Confianza Ajustes Conjunto de ítems frecuentes Soporte mínimo Soporte máximo Confianza mínima Número de filas en el conjunto Exclusiones del conjunto Longitud de la regla de asociación \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Reglas de asociación El perfil UML para minería de datos con reglas de asociación define 8 nuevos estereo- tipos y 11 valores etiquetados que permiten diseñar reglas de asociación sobre modelos multidimensionales de almacenes de datos. Estos nuevos elementos de modelado facilitan la tarea de diseño utilizando una semántica próxima a la forma de entender los problemas de los analistas y diseñadores de procesos de minería de datos. \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Reglas de asociación Basado en el Perfil UML para modelado multidimensional Permite obtener fácilmente distintos tipos de reglas de asociación: Simples y multi-dimensionales Simple o múltiple predicado Inter-dimensionales o de dimensión híbrida De uno ó múltiples niveles Desde el punto de vista multidimensional el {Caso} puede ser cualquier elemento de una dimensión dado que estos agrupan la medidas de la tabla de hechos. Por ejemplo, podemos agrupar los compras por día, mes o año, niveles distintos de una dimensión tiempo, o bien, por cliente que sería otra dimensión distinta de la del tiempo, o bien por ticket que es otra distinta de las anteriores, o bien por familia de productos que es otro nivel de la dimensión producto. Así, se puede agrupar las compras por distintos {casos} y dará como resultado conjuntos de datos distintos y reglas de asociación diferentes. Los atributos de {Entrada} permitirán generar el conjunto de ítems frecuentes y servirán para estudiar as relaciones con el atributo seleccionado como {predicción}. De esta manera, los atributos de {Entrada} solo estarán en la parte izquierda de la regla de asociación, y los atributos a predecir estarán en la parte derecha de la regla. Cualquier atributo de hecho o dimensión puede servir como entrada o predicción. Así, se definen otros dos elementos conceptuales: {Entrada} y {predicción}, que sirven para modelar la minería de datos con reglas de asociación. Además de los atributos para el modelado de las reglas de asociación, debemos considerar los parámetros que ajustan las mismas. Según la revisión de la literatura en reglas de asociación, los parámetros específicos que controlan el conjunto de ítems frecuentes son el soporte mínimo ( {MinSupp}) y la confianza mínima ( {MinConf}) que la regla debe satisfacer, el máximo número de registros del conjunto de datos ( {MaxItemSetSize - MISS}) y el número máximo de predicados o el número máximo de apariciones de un atributo en el cuerpo de una regla ( {MaxNumberOfPredicates - MNOP}).

Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Contribuciones de esta tesis Trabajos futuros

Técnicas de minería de datos: Clasificación
Parte I: Introducción Técnicas de minería de datos: Clasificación Permite conocer cuales son los factores más influyentes en una variable Ejemplo: Análisis del riesgo de muerte por infarto Presión sistólica < 91 Presión sistólica > 91 Edad > 62 años Síntoma “Taquicardia” Síntoma “Indigestión” Colesterol < 200 Triglicéridos < 200

Clasificación Permite conocer cuales son los factores más influyentes en una variable Ajustes básicos: Algoritmo Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad Límite para el conjunto de datos Exclusiones del conjunto de datos

Clasificación Sirve para ver la relaciones de asociación existentes en los datos Dominio Atributos Entrada Predicción Caso Modelo Multidimensional Hechos Dimensiones Base Resultados Antecedente Consecuente Soporte Confianza Ajustes Algoritmo Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad Límite para el conjunto de datos Exclusiones del conjunto de datos \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Clasificación

Clasificación Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad El proceso de poda del árbol es el que, en definitiva, da forma al árbol. Este proceso se lleva a cabo automáticamente ajustando algunos parámetros del algoritmo (ver~\figureref{Classification}). Por ejemplo, el \textit{soporte mínimo} permite controlar la partición de un nodo asignando un umbral mínimo a partir del cual se puede dividir el nodo. La \textit{confianza mínima} controla la mínima confianza para que un nodo exista. La profundidad del árbol de decisión se controla con el parámetro \textit{número máximo de ramas}. El \textit{número máximo de atributos} de entrada selecciona automáticamente los mejores clasificadores dentro del conjunto de atributos de entrada hasta un máximo indicado por este parámetro. Otros criterios que intervienen en la poda del árbol son: el propio \textit{algoritmo} utilizado, el \textit{método de partición} que define las ramas en las que se divide un nodo y el criterio de homogeneidad para poder dividir el nodo (\textit{métrica de homogeneidad}).

Técnicas de minería de datos: Clustering
Parte I: Introducción Técnicas de minería de datos: Clustering Descubre “grupos” de comportamiento común Ejemplo: Segmentación de mercado según datos de tarjetas de crédito Nº de coches = 2 Nº de hijos = 2 Viajes anuales > 2 Tarjeta tipo = “Oro” Nº de coches = 0 Nº de hijos = 0 Viajes anuales > 3 Tarjeta tipo = “Platinum” \begin{itemize} \item \textbf{Soporte mínimo.} Especifica el número de ítems que son necesarios para construir un clúster. Así, se puede garantizar que cada clúster resultante cumplirá unos requisitos (ítems en el clúster) mínimos. \item \textbf{Número máximo de iteraciones.} Dado que los algoritmos de clustering se aplican de manera iterativa, este parámetro establece un límite para el número de iteraciones del algoritmo para la construcción de clústers. así es posible controlar el ajuste del patrón resultante a los datos (de manera similar a los algoritmos de clasificación). \item \textbf{Número máximo de clústers.} Se puede definir \textit{a priori} el número máximo de clústers a construir. También está relacionado con el sobreajuste del modelo a los datos y con la cantidad de datos. \item \textbf{Número de clústers.} En este caso, se puede esperar obtener un número de clústers ``deseado'', para facilitar el análisis posterior y por lo tanto también controla el proceso de generación de clústers con algún tipo de medida de homogeneidad. \item \textbf{Tolerancia mínima del error.} Esta es una medida para determinar la convergencia del modelo. en el caso de no cumplir con el umbral mínimo requerido sirve para detener la construcción de clústers. \item \textbf{Máximo número de atributos de entrada.} Controla cuantos atributos se pueden usar como entrada para el proceso de clustering. En el caso en que se supere esta cantidad, se limita la generación de nuevos clústers. \item \textbf{Tamaño de la muestra.} Permite controlar el número de casos usados en la construcción de los clústers. \item \textbf{Número máximo de clases.} Este parámetro especifica el número de categorías en un valor de un atributo de entrada. Se pueden generar varias clases y el límite está en este valor. \item \textbf{Sensibilidad.} Otra medida para determinar la homogeneidad (detectar clústers según mayores o menores variaciones en su densidad). \item \textbf{Exclusiones del conjunto de datos.} Se pueden excluir expresamente algunos ítems del conjunto de datos. \end{itemize}

Clustering Descubre “grupos” de comportamiento común Ajustes básicos Soporte mínimo Número máximo de iteraciones Número máximo de clústers Número de clústers Tolerancia Máximo número de atributos de entrada Tamaño de la muestra Número máximo de categorías en un atributo de entrada Sensibilidad Exclusiones del conjunto de datos \begin{itemize} \item \textbf{Soporte mínimo.} Especifica el número de ítems que son necesarios para construir un clúster. Así, se puede garantizar que cada clúster resultante cumplirá unos requisitos (ítems en el clúster) mínimos. \item \textbf{Número máximo de iteraciones.} Dado que los algoritmos de clustering se aplican de manera iterativa, este parámetro establece un límite para el número de iteraciones del algoritmo para la construcción de clústers. así es posible controlar el ajuste del patrón resultante a los datos (de manera similar a los algoritmos de clasificación). \item \textbf{Número máximo de clústers.} Se puede definir \textit{a priori} el número máximo de clústers a construir. También está relacionado con el sobreajuste del modelo a los datos y con la cantidad de datos. \item \textbf{Número de clústers.} En este caso, se puede esperar obtener un número de clústers ``deseado'', para facilitar el análisis posterior y por lo tanto también controla el proceso de generación de clústers con algún tipo de medida de homogeneidad. \item \textbf{Tolerancia mínima del error.} Esta es una medida para determinar la convergencia del modelo. en el caso de no cumplir con el umbral mínimo requerido sirve para detener la construcción de clústers. \item \textbf{Máximo número de atributos de entrada.} Controla cuantos atributos se pueden usar como entrada para el proceso de clustering. En el caso en que se supere esta cantidad, se limita la generación de nuevos clústers. \item \textbf{Tamaño de la muestra.} Permite controlar el número de casos usados en la construcción de los clústers. \item \textbf{Número máximo de clases.} Este parámetro especifica el número de categorías en un valor de un atributo de entrada. Se pueden generar varias clases y el límite está en este valor. \item \textbf{Sensibilidad.} Otra medida para determinar la homogeneidad (detectar clústers según mayores o menores variaciones en su densidad). \item \textbf{Exclusiones del conjunto de datos.} Se pueden excluir expresamente algunos ítems del conjunto de datos. \end{itemize}

Clustering

Técnicas de minería de datos: Análisis de series temporales
Parte I: Introducción Técnicas de minería de datos: Análisis de series temporales Permite conocer una variable temporal, describir sus parámetros y predecir valores futuros Ejemplo: Estudio de cobertura de algas en el litoral Mediterráneo de Alicante \item \textbf{Período.} Este parámetro permite facilitar al algoritmo la búsqueda de la longitud del período que se observa en los datos. \item \textbf{Número de períodos.} Para controlar de alguna manera la cantidad de datos que se van a analizar, el número de períodos indica cuántos ciclos se van a generar en el análisis. \item \textbf{Ventana bajo análisis.} Indica la longitud de tiempo que se desea analizar. Con este parámetro y el número de períodos se controla el sobreajuste del modelo. \item \textbf{Soporte mínimo.} Permite restringir la creación de un nuevo ciclo indicando cuantos ítems tienen que haber para que se genere ese nuevo ciclo. Por lo tanto, sirve para controlar la sensibilidad en el descubrimiento del período de la serie temporal. \item \textbf{Tratamiento de valores ausentes.} En una serie temporal, dado que cada valor depende de las observaciones anteriores (en el tiempo), es muy importante decidir que tratamiento tendrán los valores ausentes. Existen varias opciones como tomar la media de la variable, la moda o el último valor observado, entre otros. \item \textbf{Restricción de valores.} Con este parámetro se puede limitar que conjunto de valores van a participar del análisis.

Análisis de series temporales Permite conocer una variable temporal, descubirla y predecir valores futuros Características básicas Período Número de períodos Ventana bajo análisis Soporte mínimo Tratamiento de valores ausentes Restricción de valores \item \textbf{Período.} Este parámetro permite facilitar al algoritmo la búsqueda de la longitud del período que se observa en los datos. \item \textbf{Número de períodos.} Para controlar de alguna manera la cantidad de datos que se van a analizar, el número de períodos indica cuántos ciclos se van a generar en el análisis. \item \textbf{Ventana bajo análisis.} Indica la longitud de tiempo que se desea analizar. Con este parámetro y el número de períodos se controla el sobreajuste del modelo. \item \textbf{Soporte mínimo.} Permite restringir la creación de un nuevo ciclo indicando cuantos ítems tienen que haber para que se genere ese nuevo ciclo. Por lo tanto, sirve para controlar la sensibilidad en el descubrimiento del período de la serie temporal. \item \textbf{Tratamiento de valores ausentes.} En una serie temporal, dado que cada valor depende de las observaciones anteriores (en el tiempo), es muy importante decidir que tratamiento tendrán los valores ausentes. Existen varias opciones como tomar la media de la variable, la moda o el último valor observado, entre otros. \item \textbf{Restricción de valores.} Con este parámetro se puede limitar que conjunto de valores van a participar del análisis.

Análisis de series temporales

Parte III: Aspectos prácticos
Implementación: Plataforma Eclipse

Implementación

Implementación: Reglas de Asociación

Implementación: Clasificación

Implementación: Clustering

Implementación: Series Temporales

Implementación: Series Temporales Capturas de Merl por mes: AnalisisST

Caso de estudio: Proyecto EMPAFISH European Marine Protected Areas as tools for the Fishery management and conservation Financiado por VI Programa Marco de I+D+I de la Unión Europea Participan catorce instituciones europeas

Caso de estudio: Proyecto EMPAFISH Objetivos principales Investigar el potencial de los diferentes tipos de Áreas Marinas Protegidas en Europa para la protección de especies, hábitats o ecosistemas sensibles al efecto de la pesca Desarrollar métodos cuantitativos para evaluar el efecto de las Áreas Marinas Protegidas Proporcionar a la Unión Europea una serie de medidas integradas y propuestas de gestión para la implementación de las Áreas Marinas Protegidas como herramienta de gestión de pesquerías.

Caso de estudio: Proyecto EMPAFISH Preguntas que guían la búsqueda de conocimiento ¿Es importante el tamaño de la zona protegida? ¿La cercanía de las áreas marinas protegidas puede afectar en alguna medida? ¿Mejora el comportamiento de las áreas marinas protegidas a lo largo del tiempo? ¿Cómo afecta a la movilidad de las especies marinas? ¿Afecta a la biodiversidad? El descubrimiento1 de conocimiento en bases de datos, del inglés Knowledge Discovery in Databases (KDD) fue definido por Fayyad como “el proceso no trivial de identificación de patrones válidos, noveles, potencialmente útiles y, en definitiva, comprensible en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996a) Integración y preprocesado de los datos La fase de integración (Figura 1.1) comprende la selección de las fuentes de datos, la transformación y limpieza de los datos y, finalmente, la carga de los mismos en el repositorio. Esta fase es la que más tiempo ocupa de todas las fases del proceso de búsqueda de conocimiento (Pyle 1999, Strange 2002, Agosta 2002). El resultado de la integración es un almacén de datos que contiene datos limpios y preparados para el análisis. Minería de datos La fase de minería de datos (mostrada como el núcleo del descubrimiento de conocimiento en la Figura 1.1), es la encargada de obtener los conocimientos en forma de patrones. Esta fase comprende la selección de los datos que participarán en el análisis, la elección del algoritmo de minería y también el rol que desempeñarán los datos en el mismo. En función de la técnica de minería de datos elegida los datos pueden participar como atributos que sirven para predecir o como variables ob jetivo. En esta fase resulta fundamental el profundo conocimiento de los datos contenidos en el repositorio. La información acerca de la estructura de los datos y las relaciones existentes en los mismos ayuda a comprender el dominio de aplicación de las técnicas de minería de datos. Un vago conocimiento de los datos que participan pueden llevar a resultados erróneos o incomprensibles. Evaluación de los patrones resultantes El proceso finaliza con la interpretación correcta de los resultados de la minería de datos. El descubrimiento de conocimiento se obtiene a partir del análisis de los patrones descubiertos en la fase anterior. Este análisis es el que genera conocimiento, y es la etapa final en todo proceso KDD

Caso de estudio Modelo multidimensional del almacén de datos

Modelo conceptual para Minería de datos con Clasificación
Aspectos prácticos Caso de estudio Modelo conceptual para Minería de datos con Clasificación Ajustes Entrada Predicción Caso

Aspectos prácticos Caso de estudio

Parte IV: Aspectos finales
Conclusiones El diseño de modelos de minería con la herramienta propuesta permite integrar el diseño de modelos conceptuales de minería de datos en un proceso global de búsqueda de conocimiento KDD Aprovecha el esfuerzo dedicado a las etapas previas (ETL y Almacén de datos) Evita duplicidades en tareas costosas Facilita la reutilización de modelos Provee un mecanismo de documentación

Conclusiones Principales aportaciones de esta tesis Una revisión del estado del arte para el modelado de minería de datos La propuesta de modelos conceptuales que facilitan el diseño de las diversas técnicas de minería de datos La formalización de las técnicas de minería de datos mediante el uso de metamodelos La extensión de UML con perfiles específicos para el dominio de las técnicas de minería de datos (continúa en la sig. página)

Parte IV: Aspectos finalesfinales
Conclusiones Principales aportaciones de esta tesis (continuación) La creación de un entorno de modelado de las técnicas de minería de datos La definición e implementación de las transformaciones entre modelo-código (para una plataforma específica) El desarrollo de un prototipo en forma de plug-in de Eclipse para el desarrollo de proyectos de descubrimiento de conocimiento.

Conclusiones Podemos verificar que se cumple la Hipótesis inicial: Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

Conclusiones Verificación del cumplimiento de los objetivos Objetivo principal: Hemos propuesto los perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos Objetivo 1: Hemos analizado las propuestas existentes en el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento Objetivo 2: Hemos propuesto los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos

Conclusiones Verificación del cumplimiento de los objetivos Objetivo 3: Hemos propuesto los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos Objetivo 4: Hemos diseñado e implementado los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento Objetivo 5: Hemos contrastado la viabilidad de la propuesta en un caso de estudio

Producción científica Un total de 19 trabajos publicados como producción científica de esta tesis 2 en revistas JCR 11 en congresos internacionales 6 en congresos o talleres nacionales.

Producción científica

Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Contribuciones de esta tesis Trabajos futuros

Trabajos futuro Propuestas para el diseño de técnicas de minería de datos aplicando el paradigma del desarrollo dirigido por modelos Estudio y posible incorporación de herramientas de modelado conceptual para de técnicas de aprendizaje automático (machine learning ) y reconocimiento de patrones (pattern recognition o matching) Marco de medición de la calidad de los modelos Validación empírica de la comprensibilidad de los modelos propuestos La calidad es un concepto que está compuesto de varias características, definidas en (International Organization for Standarization 2009): la funcionalidad, fiabilidad, facilidad de uso, eficiencia, mantenibilidad y portabilidad. La medición de la calidad en los modelos conceptuales propuestos es una línea de investigación muy amplia, pero que puede dar importantes avances respecto de la mejora del proceso de diseño de modelos de minería de datos con perfiles UML.

Trabajos futuro Incorporación de aspectos de seguridad en minería de datos Estudio e incorporación del modelado conceptual para la minería de datos geográficos Concienciación en la comunidad científica de la necesidad de abordar la minería de datos desde etapas aún más tempranas en el diseño de un proyecto de descubrimiento de conocimiento

José Jacobo Zubcoff Vallejo
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Director: Juan Carlos Trujillo Mondéjar Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos

José Jacobo Zubcoff Vallejo

Presentaciones similares

Presentación del tema: "José Jacobo Zubcoff Vallejo"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

José Jacobo Zubcoff Vallejo

Presentaciones similares

Presentación del tema: "José Jacobo Zubcoff Vallejo"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback