Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.

Slides:



Advertisements
Presentaciones similares
¿ Que es una muestra?.
Advertisements

SISTEMAS DE INFORMACIÓN I
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Libro Blanco XBRL Objetivos del grupo de Tecnología de XBRL España: Objetivo general: Facilitar a las entidades interesadas en implantar XBRL el acceso.
DATA MINING MINERIA DE DATOS Gersom Costas.
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
CRISP-DM (
El proceso de extracción de conocimiento
Director: Ing. Washington Pérez Codirector: Ing. Andrés de la Torre
DATA MINING Bibliografía:
Diseño del Esquema de BD
Data Mart para la gestión de reportes y apoyo a la toma de decisiones del departamento de RR.HH. de la empresa de agua S.A.” Agosto 2010.
Informe caso de estudio Implementación de un Datawarehouse
Jesús Angel Ovando División de Estudios de Posgrado Instituto Tecnológico de Orizaba.
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Autor: Antonio Sarasa Cabezuelo Directora: María Antonia Huertas.
I Taller sobre Desarrollo de Software Dirigido por Modelos, MDA y Aplicaciones (DSDM'04) MDA Aplicado: Una Gramática de Grafos para la Transformación de.
Desarrollo de un sistema de clasificación de recursos electrónicos en el ámbito de la lógica matemática” Autor: Antonio Sarasa Cabezuelo Directora: María.
Objetivos del Año Hacer valoraciones del comportamiento y principales dificultades de la Gestión de Riesgos.Hacer valoraciones del comportamiento y principales.
INTELIGENCIA DE NEGOCIOS
Proyecto CYTED Informe de Tareas Grupo de Investigación Estadística Desarrollo sostenible de Ciencia y Tecnología.
SEMANA Introducción.
Weka.
Diseño del Software Diseño de datos Diseño arquitectónico
Business Intelligence y Data Mining
Contexto Proyecto consolidado dentro de la línea de investigación de Sistemas de Información en el Dpto. de Ingeniería en Sistemas de Información de la.
PROCESO DE INVESTIGACION JURIDICA
12 de diciembre de 2006 Proyecto de Activación del Centro de Desarrollo Empresarial Reunión de Arranque con Empresas Piloto.
CONCEPTOS BÁSICOS Diseño de Sistemas.
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
José Jacobo Zubcoff Vallejo
METODOLOGÍA OMT Diseño de sistemas.
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Análisis de Sistemas.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
Minería de Dato(Datamining). Minería de Datos Datamining (Minería de datos)  El datamining (minería de datos), es el conjunto de técnicas y tecnologías.
Los proyectos de Investigación en Ingeniería .
José Jacobo Zubcoff Vallejo
Seminario de Informática Elementos Conceptuales
¿Por qué usar Data Mining?  Proporciona un punto de encuentro entre los investigadores y las personas de negocios.  Ahorra grandes cantidades de dinero.
Ingeniería del software
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
I.- Introducción a los sistemas de información
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
José Jacobo Zubcoff Vallejo
Introducción al análisis de sistemas
Ingeniería de Requisitos
KDD y Técnicas de Minería de Datos en Weka
Metodología para el trabajo de Tesina
Introducción al proceso de verificación y validación.
Integrantes: Dennys Quintero José Ortega Simón Fagundez Caracas 09 de Febrero de 2015.
Alejandro Sánchez Medina Grado en Ingeniería Informática del Software
DATA WAREHOUSE.
1 Descubrimiento de Patrones de Desempeño Académico en la Competencia de Lectura Crítica Contrato
SOLUCIONES EMPRESARIALES
PROYECTO DE INVESTIGACIÓN PROYECTO DE INVESTIGACIÓN Capítulos III Y IV Profesora: Nelwi Báez.
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
María Trinidad Serna Encinas

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
BPMN COMO HERRAMIENTA DE MODELADO DE NEGOCIO PARA LA CREACIÓN DE MODELOS CONCEPTUALES Integrantes Horenstein, Nicolás Gómez, Federico IDJEI 52.
Fundamentos de Ingeniería de Software
La Empresa La Problemática Estado Actual, Bases de datos relacionales Problemas con las consultas No muestra datos históricos Poca integridad en.
Entorno de Recomendación para el Desarrollo de Objetos de Aprendizaje Manuel E. Prieto Universidad de Castilla-La Mancha, España Victor H. Menéndez Universidad.
Extracción de conocimiento a partir de Recursos Digitales para el Aprendizaje Mtro. Alfredo Zapata González Escuela Superior de Informática.
Entregables del Proyecto
Conclusiones: En este trabajo se ha demostrado que se pueden aplicar los algoritmos OCH al ajuste de los parámetros de un modelo borroso mediante la discretización.
Transcripción de la presentación:

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos Director: Juan Carlos Trujillo Mondéjar

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

Introducción Minería de datos: el núcleo del descubrimiento de conocimiento Preprocesado Integración Fuentes de datos Datos para minería Selección Minería de datos Evaluación de patrones Almacén de datos Proceso KDD

Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

Introducción Solución actual en la minería de datos Datos inicialmente recolectados con distinta finalidad Requiere de tareas de preprocesado e integración de datos Esta ampliamente difundido el uso de ficheros planos como repositorio de datos Se llevan a cabo sesiones aisladas de minería de datos

Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

Introducción El problema actual en el desarrollo de modelos de minería de datos Actualmente, “la minería de datos se lleva a cabo más como un arte que como una ciencia” (Marbán, Segovia, Menasalvas and Fernández-Baizán 2009) Esto se debe principalmente a: Datos poco estructurados Ausencia de propuestas de modelos conceptuales para todas las etapas del proceso KDD

Introducción El problema actual en el desarrollo de modelos de minería de datos Desventajas relacionadas con esta perspectiva Incapacidad para garantizar la calidad de los datos Duplicidad de tareas de preprocesado Imposibilidad de reutilización de modelos de minería de datos

Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

Introducción Errores comunes en la aplicación de la minería de datos Deficiencia en la calidad de los datos Uso inadecuado de los datos Incapacidad para evaluar los resultados Insuficiente comunicación los resultados obtenidos.

Introducción Proceso de “descubrimiento” de conocimiento (KDD Knowledge Discovery in Databases) Solución actual en la minería de datos El problema actual en el desarrollo de modelos de minería de datos Errores comunes en la aplicación de la minería de datos El rol de los almacenes de datos

Introducción El rol de los almacenes de datos Un almacén de datos es “ una colección de datos orientada a un dominio, variables en el tiempo, integrados y no volátiles que da soporte a la toma de decisiones ” (Inmon 1996). Facilita la minería de datos en los siguientes aspectos: El preprocesado de los datos El acceso a los mismos y si existe un modelo del almacén de datos, facilita además: La comprensión de la estructura y relaciones en los datos

El rol de los almacenes de datos El preprocesado de los datos Introducción Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformación Agregación Filtrado Unión … Almacén de datos Facilita el acceso a datos preparados para el análisis Facilita el acceso a datos preparados para el análisis

Introducción El rol de los almacenes de datos Un modelo conceptual facilita la comprensión de los datos

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Introducción Hipótesis Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

Introducción Objetivos Objetivo principal: Proponer perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos »Objetivo 1: Analizar las propuestas existentes en el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento »Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos

Introducción Objetivos »Objetivo 3: Proponer los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos »Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento »Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Introducción Trabajos relacionados Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformació n Agregación Filtrado Unión … Almacén de datos OLAP Informes What-if Minería de datos Conocimiento Conceptual Lógico Físico LUCENTIA (Luján-Mora et al.) DaWaK’ ECDM’07-08 DKE’07 INFSOF’09 CWM DMX JDM SQL/MM PBMS * LUCENTIA (Trujillo et al.) LUCENTIA (Luján-Mora et al.) LUCENTIA (Luján-Mora et al.) LUCENTIA (Muñoz et al.) (Tziovara et al.) CWM PMML

Introducción Trabajos relacionados Common Warehouse Metamodel (CWM) Define modelos UML para la representación de los metadatos usados en un almacén de datos. Enfocado al intercambio de metadatos a bajo nivel entre herramientas de almacenes de datos e inteligencia empresarial. Dado que esta dirigido al modelado lógico de estos sistemas es demasiado complejo para los analistas.

Introducción Trabajos relacionados Common Warehouse Metamodel (CWM)

Introducción Trabajos relacionados Common Warehouse Metamodel (CWM)

Introducción Reglas de asociación Conjunto de ítems frecuentes Soporte mínimo Soporte máximo Confianza mínima Número de filas en el conjunto Exclusiones del conjunto de ítems frecuentes Longitud de la regla de asociación

Introducción Trabajos relacionados CWM: Reglas de asociación

Introducción Trabajos relacionados PMML: Reglas de asociación

Introducción Trabajos relacionados PBMS: Reglas de asociación n: define el nombre del patrón modelado ds: define el conjunto de datos de entrada ss: define el dominio del patrón resultante ms: describe las medidas de ajuste del patrón a las fuente de datos f: describe la relación entre el dominio y el patrón resultante

Introducción Clasificación Algoritmo Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad Límite para el conjunto de datos Exclusiones del conjunto de datos

Introducción Trabajos relacionados CWM: Clasificación

Introducción Trabajos relacionados PMML: Clasificación

Introducción Trabajos relacionados PBMS: Clasificación No hay propuesta para clasificación

Introducción Clustering Soporte mínimo Número máximo de iteraciones Número máximo de clústers Número de clústers Tolerancia Máximo número de atributos de entrada Tamaño de la muestra Número máximo de categorías en un atributo de entrada Sensibilidad Exclusiones del conjunto de datos

Introducción Trabajos relacionados CWM: Clustering

Introducción Trabajos relacionados PMML: Clustering

Introducción Trabajos relacionados PBMS: Clustering n: define el nombre del patrón modelado ds: define el conjunto de datos de entrada ss: define el dominio del patrón resultante ms: describe las medidas de ajuste del patrón a las fuente de datos f: describe la relación entre el dominio y el patrón resultante

Introducción Análisis de series temporales Período Número de períodos Ventana bajo análisis Soporte mínimo Tratamiento de valores ausentes Restricción de valores

No hay propuesta para el análisis de series temporales, sólo puede ser modelado el ajuste (su bondad) de los resultados de un test de regresión Introducción Trabajos relacionados CWM: Análisis de series temporales

Introducción Trabajos relacionados PMML: Análisis de series temporales No hay propuesta específica para el análisis de series temporales, entonces deben modelarse como modelos regresivos (menos específicos)

Introducción Trabajos relacionados PBMS: Análisis de series temporales No hay propuesta para el análisis de series temporales (tampoco regresivos)

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Perfiles UML para Minería de Datos Reglas de asociación

Perfiles UML para Minería de Datos Reglas de asociación Extiende el perfil UML para el modelado multidimensional Define 8 nuevos estereotipos Además 11 valores etiquetados

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Aspectos finales Conclusiones Hipótesis Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

Aspectos finales Conclusiones Verificación del cumplimiento de los objetivos Objetivo principal: Proponer perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos »Objetivo 1: Analizar las propuestas existentes en el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento »Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos

Aspectos finales Conclusiones Verificación del cumplimiento de los objetivos »Objetivo 3: Proponer los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos »Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento »Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros

Contenido Parte I: Introducción »Conceptos básicos »Hipótesis de trabajo y objetivos »Trabajos relacionados Parte II: Perfiles UML para minería de datos »Reglas de asociación »Clasificación »Clustering »Análisis de series temporales Parte III: Aspectos prácticos »Implementación »Caso de estudio Parte IV: Aspectos finales »Conclusiones »Contribuciones de esta tesis »Trabajos futuros