Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.

Slides:



Advertisements
Presentaciones similares
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Advertisements

Libro Blanco XBRL Objetivos del grupo de Tecnología de XBRL España: Objetivo general: Facilitar a las entidades interesadas en implantar XBRL el acceso.
METODOS, TECNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS
UNIVERSIDAD "ALONSO DE OJEDA"
DATA MINING MINERIA DE DATOS Gersom Costas.
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
Integrantes: Rodríguez Miranda Gabriela García Fuentes Esmeralda Materia: tecnología de la información y comunicación. Grupo : 307 Maestra : Gabriela Pichardo.
Qbox-Fundation Una plataforma de metadatos para la medición de la calidad Cecilia Stevenazzi Laura Cuadrado.
CONSTRUCCIÓN DEL MARCO TEÓRICO
Diseño del Esquema de BD
Informe caso de estudio Implementación de un Datawarehouse
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Ciclo de formulación del proyecto.
Muestra: Recolección de Datos: Análisis de Datos:
I Taller sobre Desarrollo de Software Dirigido por Modelos, MDA y Aplicaciones (DSDM'04) MDA Aplicado: Una Gramática de Grafos para la Transformación de.
Desarrollo de un sistema de clasificación de recursos electrónicos en el ámbito de la lógica matemática” Autor: Antonio Sarasa Cabezuelo Directora: María.
1. Introducción El objetivo final del proyecto piloto es probar el uso de la tecnología XBRL para el intercambio de información financiera entre el Banco.
INTELIGENCIA DE NEGOCIOS
Business Intelligence y Data Mining
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Fórum TIG-SIG Barcelona, 29 junio Criterios, definiciones y especificaciones de la calidad: ¿Existen? Dolors Institut Cartogràfic.
Contexto Proyecto consolidado dentro de la línea de investigación de Sistemas de Información en el Dpto. de Ingeniería en Sistemas de Información de la.
Dime con quién andas: Las Bases de Datos Bibliográficas como Herramientas de Medición Jane M. Russell Barnard Instituto de Investigaciones Bibliotecológicas.
PROCESO DE INVESTIGACION JURIDICA
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
José Jacobo Zubcoff Vallejo
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Plan de Sistemas de Información (PSI)
José Jacobo Zubcoff Vallejo
Formulación de Proyectos de Titulación
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
UNIVERSIDAD LATINA BASES DE DATOS DISEÑO DE BASES DE DATOS (modelos para el diseño)
Informes de Proyectos Ferias de Ciencia y Tecnología
ELEMENTOS DE CONTENIDO Y ALCANCE
Información cualitativa sobre el uso de los objetos de aprendizaje Núria Ferran y Julià Minguillón Universitat Oberta de Catalunya II Simposio Pluridisciplinar.
Taller Europeo de la Red Eureka Investigación en Minería de Datos José C. Riquelme Universidad de Sevilla Granada, 7 y 8 de Julio.
1 Dr. Jesús Sebastián Consejo Superior de Investigaciones Científicas. España México,
Capitulo 1: “La ciencia en las ciencias sociales”
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
José Jacobo Zubcoff Vallejo
UNIVERSIDAD AUTONOMA SAN FRANCISCO Asignatura: MÉTODOS DE ESTUDIO Tema: Técnicas de Documentación e Investigación.
Sesión 5. La evaluación de programas y proyectos educativos y sociales.
KDD y Técnicas de Minería de Datos en Weka
Integrantes: Dennys Quintero José Ortega Simón Fagundez Caracas 09 de Febrero de 2015.
Definición objeto de aprendizaje y propiedades Integrantes Edgar Misael Mata Vazquez Luis Angel Espinosa Arroyo Brenda Carolina Peña Garza Claudia Nataly.
PROMOVER LA EFICACIA DE LA GESTIÓN PARA LA CONSERVACIÓN EN LAS ÁREAS PROTEGIDAS.
Alejandro Sánchez Medina Grado en Ingeniería Informática del Software
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Sistema de Recomendaciones de Contenidos Educativos de VoD Centrado en las Competencias Educativas DIEGO FABIAN DURAN D. Director: PhD. JOSE LUIS ARCINIEGAS.
Hernández Sampieri (c) Derechos reservados McGraw-HIll
INGENIERIA DE SOFTWARE
Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.
Instrumento AGREE II INSTRUMENTO PARA LA EVALUACIÓN DE LA CALIDAD METODOLOGICA DE LAS GUÍAS DE PRÁCTICA CLÍNICA Dra. Anggie Ramírez Dr. Mario Tristán.
SOLUCIONES EMPRESARIALES
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
DISEÑO DE BASES DE DATOS (modelos para el diseño)
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
Las fases del ciclo de la vida de desarrollo de sistemas
Algunas anotaciones sobre las TIC y los procesos de investigación Vivian Rivera R. Setiembre, 2015.

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Contenido ¿Qué es la Normalización? Objetivos de la Normalización Que Productos se Normalizan Que son Normas Certificación de Productos Sistemas de Calidad.
Entorno de Recomendación para el Desarrollo de Objetos de Aprendizaje Manuel E. Prieto Universidad de Castilla-La Mancha, España Victor H. Menéndez Universidad.
Extracción de conocimiento a partir de Recursos Digitales para el Aprendizaje Mtro. Alfredo Zapata González Escuela Superior de Informática.
Definición del alcance de la investigación a realizar: exploratorio, descriptiva, correlacional o explicativa. Karla Dempwolff Vera Fabiola Naan Escalante.
METADATOS QUE SON LOS METADATOS? SON LOS DATOS DE LOS DATOS Los metadatos forman parte de un elemento de ArcGIS. Archivo xml complementario En los metadatos.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos Director: Juan Carlos Trujillo Mondéjar

2 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

3 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

4 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Motivación Actualmente las empresas recogen grandes cantidades de datos Necesidad de “extraer” o “descubrir” conocimiento útil a partir de ellos El proceso seguido para descubrir conocimiento se denomina: KDD (Knowledge Discovery in Databases) “es el proceso no trivial de identificación de patrones válidos, noveles, potencialmente útiles y comprensibles en los datos.” (Fayyad, Piatetsky- Shapiro and Smyth 1996) Problema: No es posible modelar conceptualmente todas las fases del proceso KDD Parte I: Introducción

5 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte I: Introducción Minería de datos: el núcleo del descubrimiento de conocimiento Preprocesado Integración Fuentes de datos Datos para minería Selección Minería de datos Evaluación de patrones Almacén de datos Proceso KDD Aprox. un del 70% del tiempo total (Gartner Group 2005) Iterativo Altamente dependiente

6 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte I: Introducción Motivación El problema actual en el modelado de minería de datos “la minería de datos se lleva a cabo más como un arte que como una ciencia” (González-Aranda, P., Menasalvas, E., Millán, S., Ruiz, C. y Segovia, J.: 2008; Riquelme, J., Ruiz, R., Gilbert, K., 2006.) Esto se debe principalmente a: Ausencia de propuestas de modelado conceptual para “todas” las etapas del proceso KDD Desventajas relacionadas con esta perspectiva Incapacidad para garantizar la calidad de los datos Duplicidad de tareas de preprocesado Dificulta la comprensibilidad de los datos

7 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte I: Introducción Motivación Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformació n Agregación Filtrado Unión … Almacén de datos Minería de datos Conocimiento Propuestas de modelado conceptual Proceso KDD

8 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte I: Introducción Motivación Un modelo conceptual mejora la comprensibilidad

9 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

10 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte I: Introducción Hipótesis Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

11 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte I: Introducción Objetivos Objetivo principal: Proponer “mecanismos” para el modelado conceptual de técnicas de minería de datos en el marco de KDD Objetivos específicos »Objetivo 1: Analizar las propuestas existentes »Objetivo 2: Proponer los modelos conceptuales »Objetivo 3: Proponer los perfiles UML »Objetivo 4: Diseñar e implementar dichos perfiles en una herramienta que integre todo el proceso KDD  Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

12 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

13 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos ? Parte I: Introducción Trabajos relacionados Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformació n Agregación Filtrado Unión … Almacén de datos Minería de datos Conocimiento Conceptual Lógico Físico DMX JDM SQL/MM LUCENTIA (Luján-Mora et al.) CWM LUCENTIA (Luján-Mora et al.) LUCENTIA (Luján-Mora et al.) LUCENTIA (Trujillo et al.) (Tziovara et al.) LUCENTIA (Muñoz et al.) CWM PBMS PMML DKE’07 INFSOF’09 DaWaK’ ECDM’07-08 La presente tesis doctoral

14 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte I: Introducción Trabajos relacionados: estándares CWM Metamodelo para los metadatos usados en almacenes de datos Enfocado al intercambio de metadatos a bajo nivel Demasiado complejo para los analistas PMML Estándar para el intercambio de modelos con XML Enfocado al intercambio de modelos (y resultados) de minería Solo considera una única tabla como fuente de datos PBMS Modelo para el repositorio de patrones de conocimiento Enfocado al modelado de los patrones resultantes No tiene en cuenta las fuentes de datos

15 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte I: Introducción Trabajos relacionados: literatura Reglas de Asociación Algoritmo A priori (Agrawal et al., 1993) R.A. multidimensionales (Han y Fu,1995) R. A. restricciones (Bayardo et al., 1999) R.A. Interesantes/inesperadas (Zhang et al., 2005) R.A. Reducción del conjunto de reglas (Liu et al., 2000) Clasificación Algoritmo C4.5 (Breiman et al., 1984) Algoritmo ID3 (Quinlan, 1986) Métodos de partición n-arios del árbol (Murthy, 1998) Clasificación con consultas SQL (Güntzel et al., 1999; Shang y Sattler, 2005) Clustering Algoritmos particionales (Kauffman y Rousseew, 1990) Clustering categorías (Jain et al., 1999) Clustering jerárquico (Guha et al., 2000) Clustering basado en densidad (Ester et al., 1996) Max. Homogeneidad (Han y Kamber, 2000) Análisis de series temporales Técnicas de suavizado exponencial (Yar y Chatfield,, 1990) Autorregresión vectorial (Johansen, 1991) Algoritmos autorregresivos (Bowerman y O’Connel, 1993) Formalización de modelos ARIMA (Box y Jenkins, 1994) Árbol autorregresivo (Meek et al., 2002)

16 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

17 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles UML: lenguaje de propósito general Mecanismos de extensión permiten adaptarlo a dominios específicos La extensión de UML con Perfiles  “mecanismo de extensión ligera” ( lightweight ) Perfiles UML contienen: » Stereotypes  nuevos elementos » Tagged values  nuevas propiedades » Constraints  nueva semántica Ejemplo: Modelado Multidimensional UMLDominio Multidimensional ClassFact, Dimension, Base PropertyFactAttribute, OID, DimensionAttribute AssociationRolls-upTo

18 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Extensión de UML con perfiles Para la definición de un nuevo perfil: »Descripción »Requisitos previos »Estereotipos »Reglas bien formadas »Comentarios Perfil UML para el modelado Multidimensional (Luján-Mora, Trujillo and Song, DKE 2006) [+60 citas]

19 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

20 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Modelo conceptual para minería de datos en el marco de KDD

21 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

22 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Reglas de asociación: Descripción Sirve para ver la relaciones de asociación existentes en los datos Ejemplo: Análisis de la cesta de la compra

23 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Reglas de asociación: Modelo conceptual Sirve para ver la relaciones de asociación existentes en los datos Conjunto de ítems frecuentes

24 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Reglas de asociación: Perfil UML

25 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Reglas de asociación: Ejemplo de modelado conceptual Análisis de la cesta de la compra Caso EntradaPredicción Ajustes

26 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

27 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Clasificación: Descripción Permite conocer cuales son los factores más influyentes en una variable Ejemplo: Análisis del riesgo de infarto Presión sistólica < 91 Presión sistólica > 91 Edad > 62 años Síntoma “Taquicardia” Síntoma “Indigestión” Colesterol < 200 Triglicéridos < 200 Factor de 1º nivel Factores de 2º nivel Factores de 3º nivel

28 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Clasificación: Modelo conceptual Control del crecimiento del árbol

29 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Clasificación: Perfil UML

30 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Clasificación: Ejemplo de modelado conceptual Análisis del riesgo de infarto Entrada Predicción Caso Ajustes

31 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

32 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Clustering: Descripción Descubre “grupos” de comportamiento común Ejemplo: Segmentación de mercado según datos de tarjetas de crédito Nº de coches = 2 Nº de hijos = 2 Viajes anuales > 2 Tarjeta tipo = “Oro” Nº de coches = 2 Nº de hijos = 2 Viajes anuales > 2 Tarjeta tipo = “Oro” Nº de coches = 0 Nº de hijos = 0 Viajes anuales > 3 Tarjeta tipo = “Platinum” Nº de coches = 0 Nº de hijos = 0 Viajes anuales > 3 Tarjeta tipo = “Platinum”

33 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Clustering: Modelo conceptual Control de los “clusters” descubiertos

34 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Clustering: Perfil UML

35 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Clustering: Ejemplo de modelado conceptual Análisis del compras con tarjeta Entrada Caso Entrada

36 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

37 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Análisis de series temporales: Descripción Permite conocer una variable temporal Ejemplo: Estudio de cobertura de algas en el litoral Mediterráneo de Alicante

38 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Análisis de series temporales: Modelo conceptual Parámetros para el descubrimiento de patrones temporales

39 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Análisis de series temporales: Perfil UML

40 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte II: Perfiles UML para minería de datos Análisis de series temporales: Ejemplo de modelado conceptual Entrada Pronóstico Caso Análisis de la cobertura algal

41 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

42 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Plataforma Eclipse

43 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Perfiles UML en Eclipse

44 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Reglas de Asociación

45 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Clasificación

46 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Clustering

47 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Series Temporales

48 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Guía de uso (1/5)

49 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Guía de uso (2/5)

50 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Guía de uso (3/5)

51 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Guía de uso (4/5)

52 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Implementación: Guía de uso (5/5)

53 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

54 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Caso de estudio: Proyecto EMPAFISH European Marine Protected Areas as tools for the Fishery management and conservation Financiado por VI Programa Marco de I+D+I de la Unión Europea Participan catorce instituciones europeas

55 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Caso de estudio: Proyecto EMPAFISH Objetivos principales Investigar el potencial de los diferentes tipos de Áreas Marinas Protegidas Desarrollar métodos cuantitativos para evaluar el efecto de las AMP Proporcionar a la Unión Europea: »Medidas integradas »Propuestas de gestión Para el uso de las AMP como herramienta de gestión de pesquerías

56 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Caso de estudio: Proyecto EMPAFISH Preguntas que guían la búsqueda de conocimiento ¿Es importante el tamaño de la zona protegida? ¿La cercanía de las áreas marinas protegidas puede afectar en alguna medida? ¿Mejora el comportamiento de las áreas marinas protegidas a lo largo del tiempo? ¿Cómo afecta a la movilidad de las especies marinas? ¿Afecta a la biodiversidad? Parte III: Aspectos prácticos

57 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Caso de estudio: Proyecto EMPAFISH Modelo multidimensional del almacén de datos

58 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Caso de estudio: Proyecto EMPAFISH Modelo conceptual para Minería de datos con Clasificación Parte III: Aspectos prácticos Predicción Caso Ajustes Entrada

59 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte III: Aspectos prácticos Caso de estudio: Proyecto EMPAFISH

60 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

61 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte IV: Aspectos finales Conclusiones La propuesta de esta Tesis Doctoral Permite integrar el diseño de modelos conceptuales de minería de datos en un proceso KDD Aprovecha datos preprocesados del almacén de datos dentro del proceso KDD (evitando duplicidades de tareas costosas) Mejora la comprensibilidad usando modelos cercanos al analista Facilita la mantenibilidad y reutilización de modelos Provee un mecanismo de documentación para la minería de datos

62 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte IV: Aspectos finales Conclusiones Objetivo principal: Proponer “mecanismos” para el modelado conceptual de técnicas de minería de datos en el marco de KDD Objetivos específicos Objetivo 1: Analizar las propuestas existentes Objetivo 2: Proponer los modelos conceptuales Objetivo 3: Proponer los perfiles UML Objetivo 4: Diseñar e implementar los modelos conceptuales en una herramienta que integre todo el proceso KDD Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

63 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte IV: Aspectos finales Conclusiones Podemos verificar que se cumple la Hipótesis inicial: Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

64 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

65 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte IV: Aspectos finales Producción científica 19 trabajos publicados como producción científica de esta tesis 2 en revistas JCR

66 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte IV: Aspectos finales Producción científica 19 trabajos publicados como producción científica de esta tesis 11 en congresos internacionales (DAWAK, ECDM, GEOINFORMATICS,..)

67 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte IV: Aspectos finales Producción científica 19 trabajos publicados como producción científica de esta tesis 6 en congresos nacionales (JISBD, ADIS, Data Gadgets,..)

68 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Contenido Parte I: Introducción »Motivación »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Extensión de UML con perfiles »Modelo conceptual para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Producción científica »Trabajos futuros

69 José Jacobo Zubcoff Vallejo Lucentia Research Group Junio 2009 Un conjunto de perfiles UML para el modelado conceptual de minería de datos en almacenes de datos Parte IV: Aspectos finales Trabajos futuros Propuestas para alinear la minería de datos al desarrollo dirigido por modelos Marco de medición de la calidad de los modelos propuestos Incorporación de aspectos de seguridad en minería de datos Incorporación de modelado conceptual para la minería de datos geográficos Propuestas para el modelado de requisitos para minería de datos

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos Director: Juan Carlos Trujillo Mondéjar