La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.

Presentaciones similares


Presentación del tema: "Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio."— Transcripción de la presentación:

1 Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos Director: Juan Carlos Trujillo Mondéjar

2 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

3 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

4 Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

5 Introducción Minería de datos: el núcleo del descubrimiento de conocimiento Preprocesado Integración Fuentes de datos Datos para minería Selección Minería de datos Evaluación de patrones Almacén de datos Proceso KDD

6 Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

7 Introducción Solución actual en la minería de datos Datos inicialmente recolectados con distinta finalidad Requiere de tareas de preprocesado e integración de datos Esta ampliamente difundido el uso de ficheros planos como repositorio de datos Se llevan a cabo sesiones aisladas de minería de datos

8 Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

9 Introducción El problema actual en el desarrollo de modelos de minería de datos Actualmente, “la minería de datos se lleva a cabo más como un arte que como una ciencia” (Marbán, Segovia, Menasalvas and Fernández-Baizán 2009) Esto se debe principalmente a: Datos poco estructurados Ausencia de propuestas de modelos conceptuales para todas las etapas del proceso KDD

10 Introducción El problema actual en el desarrollo de modelos de minería de datos Desventajas relacionadas con esta perspectiva Incapacidad para garantizar la calidad de los datos Duplicidad de tareas de preprocesado Imposibilidad de reutilización de modelos de minería de datos

11 Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

12 Introducción Errores comunes en la aplicación de la minería de datos Deficiencia en la calidad de los datos Uso inadecuado de los datos Incapacidad para evaluar los resultados Insuficiente comunicación los resultados obtenidos.

13 Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

14 Introducción El rol de los almacenes de datos Un almacén de datos es “ una colección de datos orientada a un dominio, variables en el tiempo, integrados y no volátiles que da soporte a la toma de decisiones ” (Inmon 1996). Facilita la minería de datos en los siguientes aspectos: El preprocesado de los datos El acceso a los mismos y si existe un modelo del almacén de datos, facilita además: La comprensión de la estructura y relaciones en los datos

15 El rol de los almacenes de datos El preprocesado de los datos Introducción Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformación Agregación Filtrado Unión … Almacén de datos Facilita el acceso a datos preparados para el análisis Facilita el acceso a datos preparados para el análisis

16 Introducción El rol de los almacenes de datos Un modelo conceptual facilita la comprensión de los datos

17 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

18 Introducción Hipótesis Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

19 Introducción Objetivos Objetivo principal: Proponer perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos »Objetivo 1: Analizar las propuestas existentes en el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento »Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos

20 Introducción Objetivos »Objetivo 3: Proponer los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos »Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento »Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

21 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

22 Introducción Trabajos relacionados Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformació n Agregación Filtrado Unión … Almacén de datos OLAP Informes What-if Minería de datos Conocimiento Conceptual Lógico Físico LUCENTIA (Luján-Mora et al.) DaWaK’05-06-07-08 ECDM’07-08 DKE’07 INFSOF’09 CWM DMX JDM SQL/MM PBMS * LUCENTIA (Trujillo et al.) LUCENTIA (Luján-Mora et al.) LUCENTIA (Luján-Mora et al.) LUCENTIA (Muñoz et al.) (Tziovara et al.) CWM PMML

23 Introducción Trabajos relacionados Common Warehouse Metamodel (CWM) Define modelos UML para la representación de los metadatos usados en un almacén de datos. Enfocado al intercambio de metadatos a bajo nivel entre herramientas de almacenes de datos e inteligencia empresarial. Dado que esta dirigido al modelado lógico de estos sistemas es demasiado complejo para los analistas.

24 Introducción Trabajos relacionados Common Warehouse Metamodel (CWM)

25 Introducción Trabajos relacionados Common Warehouse Metamodel (CWM)

26 Introducción Reglas de asociación Conjunto de ítems frecuentes Soporte mínimo Soporte máximo Confianza mínima Número de filas en el conjunto Exclusiones del conjunto de ítems frecuentes Longitud de la regla de asociación

27 Introducción Trabajos relacionados CWM: Reglas de asociación

28 Introducción Trabajos relacionados PMML: Reglas de asociación

29 Introducción Trabajos relacionados PBMS: Reglas de asociación n: define el nombre del patrón modelado ds: define el conjunto de datos de entrada ss: define el dominio del patrón resultante ms: describe las medidas de ajuste del patrón a las fuente de datos f: describe la relación entre el dominio y el patrón resultante

30 Introducción Clasificación Algoritmo Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad Límite para el conjunto de datos Exclusiones del conjunto de datos

31 Introducción Trabajos relacionados CWM: Clasificación

32 Introducción Trabajos relacionados PMML: Clasificación

33 Introducción Trabajos relacionados PBMS: Clasificación No hay propuesta para clasificación

34 Introducción Clustering Soporte mínimo Número máximo de iteraciones Número máximo de clústers Número de clústers Tolerancia Máximo número de atributos de entrada Tamaño de la muestra Número máximo de categorías en un atributo de entrada Sensibilidad Exclusiones del conjunto de datos

35 Introducción Trabajos relacionados CWM: Clustering

36 Introducción Trabajos relacionados PMML: Clustering

37 Introducción Trabajos relacionados PBMS: Clustering n: define el nombre del patrón modelado ds: define el conjunto de datos de entrada ss: define el dominio del patrón resultante ms: describe las medidas de ajuste del patrón a las fuente de datos f: describe la relación entre el dominio y el patrón resultante

38 Introducción Análisis de series temporales Período Número de períodos Ventana bajo análisis Soporte mínimo Tratamiento de valores ausentes Restricción de valores

39 No hay propuesta para el análisis de series temporales, sólo puede ser modelado el ajuste (su bondad) de los resultados de un test de regresión Introducción Trabajos relacionados CWM: Análisis de series temporales

40 Introducción Trabajos relacionados PMML: Análisis de series temporales No hay propuesta específica para el análisis de series temporales, entonces deben modelarse como modelos regresivos (menos específicos)

41 Introducción Trabajos relacionados PBMS: Análisis de series temporales No hay propuesta para el análisis de series temporales (tampoco regresivos)

42 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

43 Perfiles UML para Minería de Datos Reglas de asociación

44 Perfiles UML para Minería de Datos Reglas de asociación Extiende el perfil UML para el modelado multidimensional Define 8 nuevos estereotipos Además 11 valores etiquetados

45 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

46 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

47 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

48 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

49 Aspectos finales Conclusiones Hipótesis Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

50 Aspectos finales Conclusiones Verificación del cumplimiento de los objetivos Objetivo principal: Proponer perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos »Objetivo 1: Analizar las propuestas existentes en el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento »Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos

51 Aspectos finales Conclusiones Verificación del cumplimiento de los objetivos »Objetivo 3: Proponer los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos »Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento »Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

52 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

53 Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros


Descargar ppt "Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio."

Presentaciones similares


Anuncios Google