Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porAntonia Ávila Quiroga Modificado hace 9 años
1
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos Director: Juan Carlos Trujillo Mondéjar
2
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
3
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
4
Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos
5
Introducción Minería de datos: el núcleo del descubrimiento de conocimiento Preprocesado Integración Fuentes de datos Datos para minería Selección Minería de datos Evaluación de patrones Almacén de datos Proceso KDD
6
Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos
7
Introducción Solución actual en la minería de datos Datos inicialmente recolectados con distinta finalidad Requiere de tareas de preprocesado e integración de datos Esta ampliamente difundido el uso de ficheros planos como repositorio de datos Se llevan a cabo sesiones aisladas de minería de datos
8
Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos
9
Introducción El problema actual en el desarrollo de modelos de minería de datos Actualmente, “la minería de datos se lleva a cabo más como un arte que como una ciencia” (Marbán, Segovia, Menasalvas and Fernández-Baizán 2009) Esto se debe principalmente a: Datos poco estructurados Ausencia de propuestas de modelos conceptuales para todas las etapas del proceso KDD
10
Introducción El problema actual en el desarrollo de modelos de minería de datos Desventajas relacionadas con esta perspectiva Incapacidad para garantizar la calidad de los datos Duplicidad de tareas de preprocesado Imposibilidad de reutilización de modelos de minería de datos
11
Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos
12
Introducción Errores comunes en la aplicación de la minería de datos Deficiencia en la calidad de los datos Uso inadecuado de los datos Incapacidad para evaluar los resultados Insuficiente comunicación los resultados obtenidos.
13
Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos
14
Introducción El rol de los almacenes de datos Un almacén de datos es “ una colección de datos orientada a un dominio, variables en el tiempo, integrados y no volátiles que da soporte a la toma de decisiones ” (Inmon 1996). Facilita la minería de datos en los siguientes aspectos: El preprocesado de los datos El acceso a los mismos y si existe un modelo del almacén de datos, facilita además: La comprensión de la estructura y relaciones en los datos
15
El rol de los almacenes de datos El preprocesado de los datos Introducción Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformación Agregación Filtrado Unión … Almacén de datos Facilita el acceso a datos preparados para el análisis Facilita el acceso a datos preparados para el análisis
16
Introducción El rol de los almacenes de datos Un modelo conceptual facilita la comprensión de los datos
17
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
18
Introducción Hipótesis Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.
19
Introducción Objetivos Objetivo principal: Proponer perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos »Objetivo 1: Analizar las propuestas existentes en el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento »Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos
20
Introducción Objetivos »Objetivo 3: Proponer los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos »Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento »Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio
21
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
22
Introducción Trabajos relacionados Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformació n Agregación Filtrado Unión … Almacén de datos OLAP Informes What-if Minería de datos Conocimiento Conceptual Lógico Físico LUCENTIA (Luján-Mora et al.) DaWaK’05-06-07-08 ECDM’07-08 DKE’07 INFSOF’09 CWM DMX JDM SQL/MM PBMS * LUCENTIA (Trujillo et al.) LUCENTIA (Luján-Mora et al.) LUCENTIA (Luján-Mora et al.) LUCENTIA (Muñoz et al.) (Tziovara et al.) CWM PMML
23
Introducción Trabajos relacionados Common Warehouse Metamodel (CWM) Define modelos UML para la representación de los metadatos usados en un almacén de datos. Enfocado al intercambio de metadatos a bajo nivel entre herramientas de almacenes de datos e inteligencia empresarial. Dado que esta dirigido al modelado lógico de estos sistemas es demasiado complejo para los analistas.
24
Introducción Trabajos relacionados Common Warehouse Metamodel (CWM)
25
Introducción Trabajos relacionados Common Warehouse Metamodel (CWM)
26
Introducción Reglas de asociación Conjunto de ítems frecuentes Soporte mínimo Soporte máximo Confianza mínima Número de filas en el conjunto Exclusiones del conjunto de ítems frecuentes Longitud de la regla de asociación
27
Introducción Trabajos relacionados CWM: Reglas de asociación
28
Introducción Trabajos relacionados PMML: Reglas de asociación
29
Introducción Trabajos relacionados PBMS: Reglas de asociación n: define el nombre del patrón modelado ds: define el conjunto de datos de entrada ss: define el dominio del patrón resultante ms: describe las medidas de ajuste del patrón a las fuente de datos f: describe la relación entre el dominio y el patrón resultante
30
Introducción Clasificación Algoritmo Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad Límite para el conjunto de datos Exclusiones del conjunto de datos
31
Introducción Trabajos relacionados CWM: Clasificación
32
Introducción Trabajos relacionados PMML: Clasificación
33
Introducción Trabajos relacionados PBMS: Clasificación No hay propuesta para clasificación
34
Introducción Clustering Soporte mínimo Número máximo de iteraciones Número máximo de clústers Número de clústers Tolerancia Máximo número de atributos de entrada Tamaño de la muestra Número máximo de categorías en un atributo de entrada Sensibilidad Exclusiones del conjunto de datos
35
Introducción Trabajos relacionados CWM: Clustering
36
Introducción Trabajos relacionados PMML: Clustering
37
Introducción Trabajos relacionados PBMS: Clustering n: define el nombre del patrón modelado ds: define el conjunto de datos de entrada ss: define el dominio del patrón resultante ms: describe las medidas de ajuste del patrón a las fuente de datos f: describe la relación entre el dominio y el patrón resultante
38
Introducción Análisis de series temporales Período Número de períodos Ventana bajo análisis Soporte mínimo Tratamiento de valores ausentes Restricción de valores
39
No hay propuesta para el análisis de series temporales, sólo puede ser modelado el ajuste (su bondad) de los resultados de un test de regresión Introducción Trabajos relacionados CWM: Análisis de series temporales
40
Introducción Trabajos relacionados PMML: Análisis de series temporales No hay propuesta específica para el análisis de series temporales, entonces deben modelarse como modelos regresivos (menos específicos)
41
Introducción Trabajos relacionados PBMS: Análisis de series temporales No hay propuesta para el análisis de series temporales (tampoco regresivos)
42
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
43
Perfiles UML para Minería de Datos Reglas de asociación
44
Perfiles UML para Minería de Datos Reglas de asociación Extiende el perfil UML para el modelado multidimensional Define 8 nuevos estereotipos Además 11 valores etiquetados
45
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
46
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
47
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
48
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
49
Aspectos finales Conclusiones Hipótesis Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.
50
Aspectos finales Conclusiones Verificación del cumplimiento de los objetivos Objetivo principal: Proponer perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos »Objetivo 1: Analizar las propuestas existentes en el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento »Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos
51
Aspectos finales Conclusiones Verificación del cumplimiento de los objetivos »Objetivo 3: Proponer los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos »Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento »Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio
52
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
53
Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.