José Jacobo Zubcoff Vallejo

Slides:



Advertisements
Presentaciones similares
SISTEMAS DE INFORMACIÓN I
Advertisements

Publicaciones científicas apoyadas con tecnologías de información Jorge Walters Gastelu Marzo de 2004 Santiago, Chile.
Libro Blanco XBRL Objetivos del grupo de Tecnología de XBRL España: Objetivo general: Facilitar a las entidades interesadas en implantar XBRL el acceso.
Justificación y Descripción del Dominio de Conocimiento de una Ontología para la Formalización y Automatización de Escenarios Educativos A. Rius, M.A.
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
DISEÑO DE LA INVESTIGACIÓN
Herramientas Automáticas de Estimación
Diseño del Esquema de BD
Desarrollo de un sistema de clasificación de recursos electrónicos en el ámbito de la lógica matemática” Autor: Antonio Sarasa Cabezuelo Directora: María.
Unidad II Aspectos Metodológicos propios de los paradigmas implementados en la investigación social.
1. Introducción El objetivo final del proyecto piloto es probar el uso de la tecnología XBRL para el intercambio de información financiera entre el Banco.
UNIVERSIDAD CATÓLICA DEL MAULE FACULTAD DE CIENCIAS DE LA INGENIERÍA ESCUELA DE INGENIERÍA CIVIL INFORMÁTICA PROFESOR GUÍA: HUGO ARAYA CARRASCO. ALUMNO.
INTELIGENCIA DE NEGOCIOS
UNIVERSIDAD DE LA FF. AA. ESPE CARRERA DE INGENIERIA DE SISTEMAS PROYECTO DE TESIS : “Análisis, diseño, construcción e implementación de una Guía Interactiva.
Weka.
Diseño del Software Diseño de datos Diseño arquitectónico
Bases de Datos II OLAP Online Analytical Processing
Business Intelligence y Data Mining
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Contexto Proyecto consolidado dentro de la línea de investigación de Sistemas de Información en el Dpto. de Ingeniería en Sistemas de Información de la.
Data Mining aplicado a promociones en tarjetas de crédito/débito Diego Rafael Gómez Izquierdo Universidad de Palermo
Resultados de evaluación Módulo de formación docente Principios Pedagógicos 2011.
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
José Jacobo Zubcoff Vallejo
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Plan de Sistemas de Información (PSI)
Los proyectos de Investigación en Ingeniería .
Ximena Romano – Doris Correa
Formulación de Proyectos de Titulación
INTRODUCCIÓN A LA INGENIERÍA DEL SOFTWARE
Guía para la Búsqueda de Información
ELEMENTOS DE CONTENIDO Y ALCANCE
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
INGENIERÍA DEL SOFTWARE GESTIÓN DE PROYECTOS
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
I.- Introducción a los sistemas de información
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
José Jacobo Zubcoff Vallejo
Ingeniería de Requisitos
Facultad de Ingeniería y Tecnologías Memoria de Grado Geolocalización de documentos en el marco GIS.
EL REALISMO CIENTIFICO Y LA EDUCACION
Sesión 5. La evaluación de programas y proyectos educativos y sociales.
KDD y Técnicas de Minería de Datos en Weka
Metodología para el trabajo de Tesina
Elementos de información
Taller de trabajo: “ Taller de trabajo: Género y Cambio Climático Género y Cambio Climático ” “ Sesión: Vínculos entre Gestión de Riesgos, Género y Cambio.
Introducción al Data Warehouse
Metodología de la Investigación
Alejandro Sánchez Medina Grado en Ingeniería Informática del Software
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Sistema de Recomendaciones de Contenidos Educativos de VoD Centrado en las Competencias Educativas DIEGO FABIAN DURAN D. Director: PhD. JOSE LUIS ARCINIEGAS.
Hernández Sampieri (c) Derechos reservados McGraw-HIll
INGENIERIA DE SOFTWARE
SOLUCIONES EMPRESARIALES
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Madrid 17 de junio de Madrid, 17 de Junio de 2015.
“ La importancia del proceso evaluativo del PME”
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
BPMN COMO HERRAMIENTA DE MODELADO DE NEGOCIO PARA LA CREACIÓN DE MODELOS CONCEPTUALES Integrantes Horenstein, Nicolás Gómez, Federico IDJEI 52.
Objetivos de la prueba Los objetivos principales de realizar una prueba son: Detectar un error. Tener un buen caso de prueba, es decir que tenga más probabilidad.
Contenido ¿Qué es la Normalización? Objetivos de la Normalización Que Productos se Normalizan Que son Normas Certificación de Productos Sistemas de Calidad.
Entorno de Recomendación para el Desarrollo de Objetos de Aprendizaje Manuel E. Prieto Universidad de Castilla-La Mancha, España Victor H. Menéndez Universidad.
Extracción de conocimiento a partir de Recursos Digitales para el Aprendizaje Mtro. Alfredo Zapata González Escuela Superior de Informática.
Entregables del Proyecto
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Una propuesta metodológica para el desarrollo de plataformas de educación a distancia que incorporen estilos de aprendizaje Pedro Salcedo L M. Angélica.
Protección de un servicio Web 1.Autenticación. 2.Gestión de usuarios y grupos. 3.Gestión de servicios. 4.Gestión de sistema de ficheros. 5.Firewall. 6.Prevención.
Transcripción de la presentación:

José Jacobo Zubcoff Vallejo Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Director: Juan Carlos Trujillo Mondéjar Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Conocimiento Parte I: Introducción Proceso KDD Minería de datos Evaluación de patrones Minería de datos: el núcleo del descubrimiento de conocimiento Minería de datos Datos para minería Almacén de datos Selección El descubrimiento1 de conocimiento en bases de datos, del inglés Knowledge Discovery in Databases (KDD) fue definido por Fayyad como “el proceso no trivial de identificación de patrones válidos, noveles, potencial- mente útiles y, en definitiva, comprensible en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996a) Integración y preprocesado de los datos La fase de integración (Figura 1.1) comprende la selección de las fuentes de datos, la transformación y limpieza de los datos y, finalmente, la carga de los mismos en el repositorio. Esta fase es la que más tiempo ocupa de todas las fases del proceso de búsqueda de conocimiento (Pyle 1999, Strange 2002, Agosta 2002). El resultado de la integración es un almacén de datos que contiene datos limpios y preparados para el análisis. Minería de datos La fase de minería de datos (mostrada como el núcleo del descubrimiento de cono- cimiento en la Figura 1.1), es la encargada de obtener los conocimientos en forma de patrones. Esta fase comprende la selección de los datos que participarán en el análisis, la elección del algoritmo de minería y también el rol que desempeñarán los datos en el mismo. En función de la técnica de minería de datos elegida los datos pueden participar como atributos que sirven para predecir o como variables ob jetivo. En esta fase resulta fundamental el profundo conocimiento de los datos contenidos en el repositorio. La información acerca de la estructura de los datos y las relaciones existentes en los mismos ayuda a comprender el dominio de aplicación de las técnicas de minería de datos. Un vago conocimiento de los datos que participan pueden llevar a resultados erróneos o incomprensibles. ha sido definida como “una metáfora que hace referencia al descubrimiento de tesoros (o pepitas) escondidas tras montañas de da- tos” (Saporta 2000), o como un “proceso complejo que requiere un profundo conocimiento y una comprensión precisa de los datos.” (Euler 2005, Euler 2006). La selección de los datos de entrada para minería de datos es un proceso crítico en proyectos complejos donde intervienen una gran cantidad de variables. Un profundo co- nocimiento del dominio facilitaría este proceso de selección. Esa es la principal venta ja de los modelos multidimensionales de los datos, que son modelos intuitivos, cercanos a la forma de pensar del analista y que ayudan a la comprensión del dominio de aplicación. La selección del algoritmo y los a justes del mismo no deberían estar ligadas a la plata- forma de aplicación. Dado que cada herramienta de minería de datos aplica los algoritmos de forma distinta, Evaluación de los patrones resultantes El proceso finaliza con la interpretación correcta de los resultados de la minería de datos. El descubrimiento de conocimiento se obtiene a partir del análisis de los patrones descubiertos en la fase anterior. Este análisis es el que genera conocimiento, y es la etapa final en todo proceso KDD Preprocesado Integración Entre un 70% y un 90% del tiempo total (Gartner Group 2005) Fuentes de datos

Técnicas básicas de minería de datos Reglas de asociación Parte I: Introducción Técnicas básicas de minería de datos Reglas de asociación Clasificación Clustering Series Temporales Proceso KDD Minería de datos: el núcleo del descubrimiento de conocimiento Minería de datos El descubrimiento1 de conocimiento en bases de datos, del inglés Knowledge Discovery in Databases (KDD) fue definido por Fayyad como “el proceso no trivial de identificación de patrones válidos, noveles, potencial- mente útiles y, en definitiva, comprensible en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996a) Integración y preprocesado de los datos La fase de integración (Figura 1.1) comprende la selección de las fuentes de datos, la transformación y limpieza de los datos y, finalmente, la carga de los mismos en el repositorio. Esta fase es la que más tiempo ocupa de todas las fases del proceso de búsqueda de conocimiento (Pyle 1999, Strange 2002, Agosta 2002). El resultado de la integración es un almacén de datos que contiene datos limpios y preparados para el análisis. Minería de datos La fase de minería de datos (mostrada como el núcleo del descubrimiento de cono- cimiento en la Figura 1.1), es la encargada de obtener los conocimientos en forma de patrones. Esta fase comprende la selección de los datos que participarán en el análisis, la elección del algoritmo de minería y también el rol que desempeñarán los datos en el mismo. En función de la técnica de minería de datos elegida los datos pueden participar como atributos que sirven para predecir o como variables ob jetivo. En esta fase resulta fundamental el profundo conocimiento de los datos contenidos en el repositorio. La información acerca de la estructura de los datos y las relaciones existentes en los mismos ayuda a comprender el dominio de aplicación de las técnicas de minería de datos. Un vago conocimiento de los datos que participan pueden llevar a resultados erróneos o incomprensibles. Evaluación de los patrones resultantes El proceso finaliza con la interpretación correcta de los resultados de la minería de datos. El descubrimiento de conocimiento se obtiene a partir del análisis de los patrones descubiertos en la fase anterior. Este análisis es el que genera conocimiento, y es la etapa final en todo proceso KDD

Solución actual en la minería de datos Parte I: Introducción Solución actual en la minería de datos Datos inicialmente recolectados con distinta finalidad Requiere de arduas tareas de preprocesado e integración de datos Esta ampliamente difundido el uso de ficheros planos como repositorio de datos Se llevan a cabo sesiones aisladas de minería de datos las técnicas de minería de datos se aplican sobre ficheros planos o datos poco estructurados, en los cuales, al no tener información previa sobre su relación, se tienen que repetir tareas de preprocesado e iterar varias veces el algoritmo de minería de datos

El problema actual en el desarrollo de modelos de minería de datos Parte I: Introducción El problema actual en el desarrollo de modelos de minería de datos Actualmente, “la minería de datos se lleva a cabo más como un arte que como una ciencia” (Marbán, Segovia, Menasalvas y Fernández-Baizán 2009) Esto se debe principalmente a: Datos poco estructurados Ausencia de propuestas de modelos conceptuales para todas las etapas del proceso KDD debido principalmente a que: i) - las técnicas de minería de datos se aplican sobre ficheros planos o datos poco estructurados, en los cuales, al no tener información previa sobre su relación, se tienen que repetir tareas de preprocesado e iterar varias veces el algoritmo de minería de datos la perspectiva de procesos aislados puede llevar a la duplicidad de tareas que conllevan gran parte del tiempo dedicado a la búsqueda de conocimiento (entre el 70 % y el 90 % según la literatura (Pyle 1999, Strange 2002, Agosta 2002)). estos problemas mencionados anteriormente se solventarían disponiendo de modelos que traba jen a nivel conceptual.

El problema actual en el desarrollo de modelos de minería de datos Parte I: Introducción El problema actual en el desarrollo de modelos de minería de datos Desventajas relacionadas con esta perspectiva Incapacidad para garantizar la calidad de los datos Duplicidad de tareas de preprocesado Imposibilidad de reutilización de modelos de minería de datos En primer lugar, en cuanto a la calidad de los datos para el análisis, no es posible garantizar la disponibilidad de los datos necesarios para el análisis. dado que la minería de datos exige una preparación previa de los datos (integrar de diversas fuentes de datos, limpieza de errores, transformación a tipos adecuados y otras tares de preprocesado), la perspectiva de procesos aislados puede llevar a la duplicidad de tareas que conllevan gran parte del tiempo dedicado a la búsqueda de conocimiento (entre el 70 % y el 90)) Finalmente, en tercer lugar, las sesiones aisladas de minería no permiten la reuti- lización de modelos lo que redunda en la duplicidad de tareas de preprocesado y modelado de datos.

El rol de los almacenes de datos Parte I: Introducción El rol de los almacenes de datos Un almacén de datos es “una colección de datos orientada a un dominio, variables en el tiempo, integrados y no volátiles que da soporte a la toma de decisiones” (Inmon 1996). Facilita la minería de datos en los siguientes aspectos: El preprocesado de los datos El acceso a los mismos y si existe un modelo del almacén de datos, facilita además: La comprensión de la estructura y relaciones en los datos En primer lugar, en un almacén de datos los datos están preparados para ser analizados (Riquelme et al. 2006) dado que se han eliminado las inconsistencias y los errores y contienen datos que pueden ser utilizados directamente en el análisis. La tarea de preprocesado de datos conlleva entre un 70 y un 90 % del tiempo en el desarrollo de un proyecto de búsqueda de conocimiento (Strange 2002, Kimball and Caserta 2004). En segundo lugar, los almacenes de datos están optimizados para facilitar las consultas y el acceso a los datos para el análisis. De ésta manera, los almacenes de datos constituyen la base fundamental de los sistemas de apoyo a la decisión (Inmon 2005). Además, el uso de almacenes de datos como fuente para el análisis de los datos garantiza la calidad de los datos, i.e., la disponibilidad de los datos para el análisis y eso facilita el éxito en el proceso de minería de datos (Inmon 1996).

El rol de los almacenes de datos Parte I: Introducción El rol de los almacenes de datos El preprocesado de los datos Fuentes de datos Extracción Almacén de datos Limpieza OLTP Transformación Agregación Filtrado Facilita el acceso a datos preparados para el análisis Ficheros … Unión …

El rol de los almacenes de datos Parte I: Introducción El rol de los almacenes de datos Un modelo conceptual facilita la comprensión de los datos Este modelo de análisis representa los datos como hechos y como dimensiones. Un hecho es la forma de representar las medidas ba jo estudio. Las dimensiones son el contexto de análisis de esas medidas. Los modelos multidimensionales están próximos a la forma de pensar de los analistas (Pyle 1999) Los modelos de minería pueden beneficiarse de distintos aspectos del modelo multidi- mensional (Inmon 1996). Entre las venta jas de su aprovechamiento podemos mencionar: i) la riqueza descriptiva de los modelos multidimensionales permite aplicar la técnica de minería adecuada sobre un modelo intuitivo; ii) el modelo multidimensional de los datos utiliza metáforas que son cercanas a la forma de pensar del analista.

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Hipótesis Parte I: Introducción Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

Objetivos Parte I: Introducción Objetivo principal: Proponer perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos Objetivo 1: Analizar las propuestas existentes en el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos

Objetivos Parte I: Introducción Objetivo 3: Proponer los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Trabajos relacionados Parte I: Introducción Trabajos relacionados Fuentes de datos OLTP Ficheros … Extracción Limpieza Transformación Agregación Filtrado Unión Almacén de datos Conocimiento OLAP Informes What-if Minería de datos DaWaK’05-06-07-08 ECDM’07-08 DKE’07 INFSOF’09 Conceptual ninguna aproximación hace uso del almacén de datos o de su modelo multidimensional, sino que abordan la minería de datos desde una perspectiva aislada del resto de fases de descubrimiento de conocimiento LUCENTIA (Luján-Mora et al.) LUCENTIA (Trujillo et al.) CWM CWM PBMS * Lógico LUCENTIA (Muñoz et al.) LUCENTIA (Luján-Mora et al.) CWM PMML (Tziovara et al.) Físico LUCENTIA (Luján-Mora et al.) DMX JDM SQL/MM

Trabajos relacionados Parte I: Introducción Trabajos relacionados Common Warehouse Metamodel (CWM) Es un metamodelo para la representación de los metadatos usados en el ámbito de almacenes de datos Enfocado al intercambio de metadatos a bajo nivel entre herramientas de almacenes de datos Dado que esta dirigido al modelado lógico de estos sistemas es demasiado complejo para los analistas

Trabajos relacionados Parte I: Introducción Trabajos relacionados Common Warehouse Metamodel (CWM) Es un metamodelo para la representación de los metadatos usados en el ámbito de almacenes de datos Enfocado al intercambio de metadatos a bajo nivel entre herramientas de almacenes de datos Dado que esta dirigido al modelado lógico de estos sistemas es demasiado complejo para los analistas CWM se centra en el intercambio de metadatos a nivel lógico, y sirve de base para herramientas de almacenes de datos e inteligencia de negocio. Dado su enfoque lógico, es demasiado complejo para ser usado por usuarios finales y analistas. Esto es debido a que no está definido en términos intuitivos para el usuario, sino mas cercanos a las características físicas de la implementación. Por lo tanto, verificamos que no presenta un modelo conceptual para las técnicas de minería de datos. Además, tampoco aprovecha la importante información que provee el modelo multidimensional de la estructura del almacén de datos (como las medidas, hechos, dimensiones o niveles de jerarquía) de los cuales también modela CWM.

Trabajos relacionados Parte I: Introducción Trabajos relacionados Predictive Model Markup Language (PMML) Facilita el intercambio de modelos usando el estándar XML Su objetivo principal es el intercambio de modelos de minería También para el intercambio de los resultados de minería de datos No está orientado al diseño de modelos conceptuales Solo considera una única tabla como fuente de datos PMML facilita el intercambio de modelos usando el estándar XML (eXtensible Markup Language ), utilizado principalmente para intercambiar modelos de minería de datos entre herramientas. Una vez creados los modelos de minería, se pueden exportar a otras herra- mientas compatibles con PMML. Sin embargo, es un estándar que no está orientado al di- seño, ni tampoco orientado al proceso; asimismo, su modelo de datos no es suficientemente expresivo, por lo tanto se pierde la oportunidad de aprender de la riqueza semántica de las estructuras multidimensionales. Tampoco permite modelar flujos de datos a través del complejo proceso de KDD. Su ob jetivo principal es servir de plataforma de intercambio de modelos entre las diferentes aplicaciones que lo soportan.

Trabajos relacionados Parte I: Introducción Trabajos relacionados Pattern Base Management System (PBMS) Propone un repositorio para patrones de conocimiento Permite modelar los patrones resultantes de distintas técnicas de minería de datos No facilita el modelado conceptual de la minería de datos No tiene en cuenta las fuentes de datos

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Técnicas de minería de datos: Reglas de asociación Parte I: Introducción Técnicas de minería de datos: Reglas de asociación Sirve para ver la relaciones de asociación existentes en los datos Ejemplo: Análisis de la cesta de la compra \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Parte II: Perfiles UML para minería de datos Reglas de asociación Sirve para ver la relaciones de asociación existentes en los datos Ajustes básicos Conjunto de ítems frecuentes Soporte mínimo Soporte máximo Confianza mínima Número de filas en el conjunto Exclusiones del conjunto de ítems frecuentes Longitud de la regla de asociación \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Parte II: Perfiles UML para minería de datos Reglas de asociación Sirve para ver la relaciones de asociación existentes en los datos Dominio Atributos Entrada Predicción Caso Modelo Multidimensional Hechos Dimensiones Base Resultados Antecedente Consecuente Soporte Confianza Ajustes Conjunto de ítems frecuentes Soporte mínimo Soporte máximo Confianza mínima Número de filas en el conjunto Exclusiones del conjunto Longitud de la regla de asociación \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Parte II: Perfiles UML para minería de datos Reglas de asociación El perfil UML para minería de datos con reglas de asociación define 8 nuevos estereo- tipos y 11 valores etiquetados que permiten diseñar reglas de asociación sobre modelos multidimensionales de almacenes de datos. Estos nuevos elementos de modelado facilitan la tarea de diseño utilizando una semántica próxima a la forma de entender los problemas de los analistas y diseñadores de procesos de minería de datos. \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Parte II: Perfiles UML para minería de datos Reglas de asociación Basado en el Perfil UML para modelado multidimensional Permite obtener fácilmente distintos tipos de reglas de asociación: Simples y multi-dimensionales Simple o múltiple predicado Inter-dimensionales o de dimensión híbrida De uno ó múltiples niveles Desde el punto de vista multidimensional el {Caso} puede ser cualquier elemento de una dimensión dado que estos agrupan la medidas de la tabla de hechos. Por ejemplo, podemos agrupar los compras por día, mes o año, niveles distintos de una dimensión tiempo, o bien, por cliente que sería otra dimensión distinta de la del tiempo, o bien por ticket que es otra distinta de las anteriores, o bien por familia de productos que es otro nivel de la dimensión producto. Así, se puede agrupar las compras por distintos {casos} y dará como resultado conjuntos de datos distintos y reglas de asociación diferentes. Los atributos de {Entrada} permitirán generar el conjunto de ítems frecuentes y servirán para estudiar as relaciones con el atributo seleccionado como {predicción}. De esta manera, los atributos de {Entrada} solo estarán en la parte izquierda de la regla de asociación, y los atributos a predecir estarán en la parte derecha de la regla. Cualquier atributo de hecho o dimensión puede servir como entrada o predicción. Así, se definen otros dos elementos conceptuales: {Entrada} y {predicción}, que sirven para modelar la minería de datos con reglas de asociación. Además de los atributos para el modelado de las reglas de asociación, debemos considerar los parámetros que ajustan las mismas. Según la revisión de la literatura en reglas de asociación, los parámetros específicos que controlan el conjunto de ítems frecuentes son el soporte mínimo ( {MinSupp}) y la confianza mínima ( {MinConf}) que la regla debe satisfacer, el máximo número de registros del conjunto de datos ( {MaxItemSetSize - MISS}) y el número máximo de predicados o el número máximo de apariciones de un atributo en el cuerpo de una regla ( {MaxNumberOfPredicates - MNOP}).

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Contribuciones de esta tesis Trabajos futuros

Técnicas de minería de datos: Clasificación Parte I: Introducción Técnicas de minería de datos: Clasificación Permite conocer cuales son los factores más influyentes en una variable Ejemplo: Análisis del riesgo de muerte por infarto Presión sistólica < 91 Presión sistólica > 91 Edad > 62 años Síntoma “Taquicardia” Síntoma “Indigestión” Colesterol < 200 Triglicéridos < 200

Parte II: Perfiles UML para minería de datos Clasificación Permite conocer cuales son los factores más influyentes en una variable Ajustes básicos: Algoritmo Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad Límite para el conjunto de datos Exclusiones del conjunto de datos

Parte II: Perfiles UML para minería de datos Clasificación Sirve para ver la relaciones de asociación existentes en los datos Dominio Atributos Entrada Predicción Caso Modelo Multidimensional Hechos Dimensiones Base Resultados Antecedente Consecuente Soporte Confianza Ajustes Algoritmo Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad Límite para el conjunto de datos Exclusiones del conjunto de datos \begin{itemize} \item \textbf{Soporte mínimo.} Dado que los algoritmos aplicados en la búsqueda de reglas de asociación generan en un primer paso un conjunto de ítems frecuentes, se debe establecer el umbral mínimo para que un ítem pase a formar parte de del conjunto. \item \textbf{Soporte máximo.} De manera análoga al concepto anterior, se debe establecer un valor máximo para que un ítems pase a formar parte del conjunto de ítems. Este parámetro ayuda a controlar la generación de reglas de asociación muy frecuentes (y ya conocidas) \item \textbf{Confianza mínima.} La confianza está relacionada con la probabilidad condicionada de la ocurrencia de un ítems en el conjunto de datos. Por tanto, establecer un mínimo a partir del cual un ítem pueda formar parte del conjunto de ítems frecuentes, permite controlar el crecimiento del conjunto de datos frecuentes. \item \textbf{Número de filas en el conjunto de ítems frecuentes.} También se puede controlar el conjunto de ítems frecuentes estableciendo el número máximo de ítems que puede contener el conjunto de datos frecuentes. \item \textbf{Longitud de la regla de asociación.} El predicado de la regla de asociación resulta de la lectura del conjunto de ítems frecuentes, por tanto, se puede controlar la longitud del predicado estableciendo límites para el conjunto de ítems frecuentes. \item \textbf{Exclusiones del conjunto de ítems frecuentes.} Se pueden excluir expresamente algunos ítems del conjunto de datos frecuentes. \end{itemize}

Parte II: Perfiles UML para minería de datos Clasificación

Parte II: Perfiles UML para minería de datos Clasificación Soporte mínimo Confianza mínima Número máximo de niveles Medida de homogeneidad El proceso de poda del árbol es el que, en definitiva, da forma al árbol. Este proceso se lleva a cabo automáticamente ajustando algunos parámetros del algoritmo (ver~\figureref{Classification}). Por ejemplo, el \textit{soporte mínimo} permite controlar la partición de un nodo asignando un umbral mínimo a partir del cual se puede dividir el nodo. La \textit{confianza mínima} controla la mínima confianza para que un nodo exista. La profundidad del árbol de decisión se controla con el parámetro \textit{número máximo de ramas}. El \textit{número máximo de atributos} de entrada selecciona automáticamente los mejores clasificadores dentro del conjunto de atributos de entrada hasta un máximo indicado por este parámetro. Otros criterios que intervienen en la poda del árbol son: el propio \textit{algoritmo} utilizado, el \textit{método de partición} que define las ramas en las que se divide un nodo y el criterio de homogeneidad para poder dividir el nodo (\textit{métrica de homogeneidad}).

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Técnicas de minería de datos: Clustering Parte I: Introducción Técnicas de minería de datos: Clustering Descubre “grupos” de comportamiento común Ejemplo: Segmentación de mercado según datos de tarjetas de crédito Nº de coches = 2 Nº de hijos = 2 Viajes anuales > 2 Tarjeta tipo = “Oro” Nº de coches = 0 Nº de hijos = 0 Viajes anuales > 3 Tarjeta tipo = “Platinum” \begin{itemize} \item \textbf{Soporte mínimo.} Especifica el número de ítems que son necesarios para construir un clúster. Así, se puede garantizar que cada clúster resultante cumplirá unos requisitos (ítems en el clúster) mínimos. \item \textbf{Número máximo de iteraciones.} Dado que los algoritmos de clustering se aplican de manera iterativa, este parámetro establece un límite para el número de iteraciones del algoritmo para la construcción de clústers. así es posible controlar el ajuste del patrón resultante a los datos (de manera similar a los algoritmos de clasificación). \item \textbf{Número máximo de clústers.} Se puede definir \textit{a priori} el número máximo de clústers a construir. También está relacionado con el sobreajuste del modelo a los datos y con la cantidad de datos. \item \textbf{Número de clústers.} En este caso, se puede esperar obtener un número de clústers ``deseado'', para facilitar el análisis posterior y por lo tanto también controla el proceso de generación de clústers con algún tipo de medida de homogeneidad. \item \textbf{Tolerancia mínima del error.} Esta es una medida para determinar la convergencia del modelo. en el caso de no cumplir con el umbral mínimo requerido sirve para detener la construcción de clústers. \item \textbf{Máximo número de atributos de entrada.} Controla cuantos atributos se pueden usar como entrada para el proceso de clustering. En el caso en que se supere esta cantidad, se limita la generación de nuevos clústers. \item \textbf{Tamaño de la muestra.} Permite controlar el número de casos usados en la construcción de los clústers. \item \textbf{Número máximo de clases.} Este parámetro especifica el número de categorías en un valor de un atributo de entrada. Se pueden generar varias clases y el límite está en este valor. \item \textbf{Sensibilidad.} Otra medida para determinar la homogeneidad (detectar clústers según mayores o menores variaciones en su densidad). \item \textbf{Exclusiones del conjunto de datos.} Se pueden excluir expresamente algunos ítems del conjunto de datos. \end{itemize}

Parte II: Perfiles UML para minería de datos Clustering Descubre “grupos” de comportamiento común Ajustes básicos Soporte mínimo Número máximo de iteraciones Número máximo de clústers Número de clústers Tolerancia Máximo número de atributos de entrada Tamaño de la muestra Número máximo de categorías en un atributo de entrada Sensibilidad Exclusiones del conjunto de datos \begin{itemize} \item \textbf{Soporte mínimo.} Especifica el número de ítems que son necesarios para construir un clúster. Así, se puede garantizar que cada clúster resultante cumplirá unos requisitos (ítems en el clúster) mínimos. \item \textbf{Número máximo de iteraciones.} Dado que los algoritmos de clustering se aplican de manera iterativa, este parámetro establece un límite para el número de iteraciones del algoritmo para la construcción de clústers. así es posible controlar el ajuste del patrón resultante a los datos (de manera similar a los algoritmos de clasificación). \item \textbf{Número máximo de clústers.} Se puede definir \textit{a priori} el número máximo de clústers a construir. También está relacionado con el sobreajuste del modelo a los datos y con la cantidad de datos. \item \textbf{Número de clústers.} En este caso, se puede esperar obtener un número de clústers ``deseado'', para facilitar el análisis posterior y por lo tanto también controla el proceso de generación de clústers con algún tipo de medida de homogeneidad. \item \textbf{Tolerancia mínima del error.} Esta es una medida para determinar la convergencia del modelo. en el caso de no cumplir con el umbral mínimo requerido sirve para detener la construcción de clústers. \item \textbf{Máximo número de atributos de entrada.} Controla cuantos atributos se pueden usar como entrada para el proceso de clustering. En el caso en que se supere esta cantidad, se limita la generación de nuevos clústers. \item \textbf{Tamaño de la muestra.} Permite controlar el número de casos usados en la construcción de los clústers. \item \textbf{Número máximo de clases.} Este parámetro especifica el número de categorías en un valor de un atributo de entrada. Se pueden generar varias clases y el límite está en este valor. \item \textbf{Sensibilidad.} Otra medida para determinar la homogeneidad (detectar clústers según mayores o menores variaciones en su densidad). \item \textbf{Exclusiones del conjunto de datos.} Se pueden excluir expresamente algunos ítems del conjunto de datos. \end{itemize}

Parte II: Perfiles UML para minería de datos Clustering

Parte II: Perfiles UML para minería de datos Clustering

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Técnicas de minería de datos: Análisis de series temporales Parte I: Introducción Técnicas de minería de datos: Análisis de series temporales Permite conocer una variable temporal, describir sus parámetros y predecir valores futuros Ejemplo: Estudio de cobertura de algas en el litoral Mediterráneo de Alicante \item \textbf{Período.} Este parámetro permite facilitar al algoritmo la búsqueda de la longitud del período que se observa en los datos. \item \textbf{Número de períodos.} Para controlar de alguna manera la cantidad de datos que se van a analizar, el número de períodos indica cuántos ciclos se van a generar en el análisis. \item \textbf{Ventana bajo análisis.} Indica la longitud de tiempo que se desea analizar. Con este parámetro y el número de períodos se controla el sobreajuste del modelo. \item \textbf{Soporte mínimo.} Permite restringir la creación de un nuevo ciclo indicando cuantos ítems tienen que haber para que se genere ese nuevo ciclo. Por lo tanto, sirve para controlar la sensibilidad en el descubrimiento del período de la serie temporal. \item \textbf{Tratamiento de valores ausentes.} En una serie temporal, dado que cada valor depende de las observaciones anteriores (en el tiempo), es muy importante decidir que tratamiento tendrán los valores ausentes. Existen varias opciones como tomar la media de la variable, la moda o el último valor observado, entre otros. \item \textbf{Restricción de valores.} Con este parámetro se puede limitar que conjunto de valores van a participar del análisis.

Parte II: Perfiles UML para minería de datos Análisis de series temporales Permite conocer una variable temporal, descubirla y predecir valores futuros Características básicas Período Número de períodos Ventana bajo análisis Soporte mínimo Tratamiento de valores ausentes Restricción de valores \item \textbf{Período.} Este parámetro permite facilitar al algoritmo la búsqueda de la longitud del período que se observa en los datos. \item \textbf{Número de períodos.} Para controlar de alguna manera la cantidad de datos que se van a analizar, el número de períodos indica cuántos ciclos se van a generar en el análisis. \item \textbf{Ventana bajo análisis.} Indica la longitud de tiempo que se desea analizar. Con este parámetro y el número de períodos se controla el sobreajuste del modelo. \item \textbf{Soporte mínimo.} Permite restringir la creación de un nuevo ciclo indicando cuantos ítems tienen que haber para que se genere ese nuevo ciclo. Por lo tanto, sirve para controlar la sensibilidad en el descubrimiento del período de la serie temporal. \item \textbf{Tratamiento de valores ausentes.} En una serie temporal, dado que cada valor depende de las observaciones anteriores (en el tiempo), es muy importante decidir que tratamiento tendrán los valores ausentes. Existen varias opciones como tomar la media de la variable, la moda o el último valor observado, entre otros. \item \textbf{Restricción de valores.} Con este parámetro se puede limitar que conjunto de valores van a participar del análisis.

Parte II: Perfiles UML para minería de datos Análisis de series temporales

Parte II: Perfiles UML para minería de datos Análisis de series temporales

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Parte III: Aspectos prácticos Implementación: Plataforma Eclipse

Parte III: Aspectos prácticos Implementación

Parte III: Aspectos prácticos Implementación: Reglas de Asociación

Parte III: Aspectos prácticos Implementación: Reglas de Asociación

Parte III: Aspectos prácticos Implementación: Clasificación

Parte III: Aspectos prácticos Implementación: Clasificación

Parte III: Aspectos prácticos Implementación: Clasificación

Parte III: Aspectos prácticos Implementación: Clustering

Parte III: Aspectos prácticos Implementación: Clustering

Parte III: Aspectos prácticos Implementación: Clustering

Parte III: Aspectos prácticos Implementación: Series Temporales

Parte III: Aspectos prácticos Implementación: Series Temporales

Parte III: Aspectos prácticos Implementación: Series Temporales Capturas de Merl por mes: AnalisisST

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Parte III: Aspectos prácticos Caso de estudio: Proyecto EMPAFISH European Marine Protected Areas as tools for the Fishery management and conservation Financiado por VI Programa Marco de I+D+I de la Unión Europea Participan catorce instituciones europeas

Parte III: Aspectos prácticos Caso de estudio: Proyecto EMPAFISH Objetivos principales Investigar el potencial de los diferentes tipos de Áreas Marinas Protegidas en Europa para la protección de especies, hábitats o ecosistemas sensibles al efecto de la pesca Desarrollar métodos cuantitativos para evaluar el efecto de las Áreas Marinas Protegidas Proporcionar a la Unión Europea una serie de medidas integradas y propuestas de gestión para la implementación de las Áreas Marinas Protegidas como herramienta de gestión de pesquerías.

Parte III: Aspectos prácticos Caso de estudio: Proyecto EMPAFISH Preguntas que guían la búsqueda de conocimiento ¿Es importante el tamaño de la zona protegida? ¿La cercanía de las áreas marinas protegidas puede afectar en alguna medida? ¿Mejora el comportamiento de las áreas marinas protegidas a lo largo del tiempo? ¿Cómo afecta a la movilidad de las especies marinas? ¿Afecta a la biodiversidad? El descubrimiento1 de conocimiento en bases de datos, del inglés Knowledge Discovery in Databases (KDD) fue definido por Fayyad como “el proceso no trivial de identificación de patrones válidos, noveles, potencial- mente útiles y, en definitiva, comprensible en los datos.” (Fayyad, Piatetsky-Shapiro and Smyth 1996a) Integración y preprocesado de los datos La fase de integración (Figura 1.1) comprende la selección de las fuentes de datos, la transformación y limpieza de los datos y, finalmente, la carga de los mismos en el repositorio. Esta fase es la que más tiempo ocupa de todas las fases del proceso de búsqueda de conocimiento (Pyle 1999, Strange 2002, Agosta 2002). El resultado de la integración es un almacén de datos que contiene datos limpios y preparados para el análisis. Minería de datos La fase de minería de datos (mostrada como el núcleo del descubrimiento de cono- cimiento en la Figura 1.1), es la encargada de obtener los conocimientos en forma de patrones. Esta fase comprende la selección de los datos que participarán en el análisis, la elección del algoritmo de minería y también el rol que desempeñarán los datos en el mismo. En función de la técnica de minería de datos elegida los datos pueden participar como atributos que sirven para predecir o como variables ob jetivo. En esta fase resulta fundamental el profundo conocimiento de los datos contenidos en el repositorio. La información acerca de la estructura de los datos y las relaciones existentes en los mismos ayuda a comprender el dominio de aplicación de las técnicas de minería de datos. Un vago conocimiento de los datos que participan pueden llevar a resultados erróneos o incomprensibles. Evaluación de los patrones resultantes El proceso finaliza con la interpretación correcta de los resultados de la minería de datos. El descubrimiento de conocimiento se obtiene a partir del análisis de los patrones descubiertos en la fase anterior. Este análisis es el que genera conocimiento, y es la etapa final en todo proceso KDD

Parte III: Aspectos prácticos Caso de estudio Modelo multidimensional del almacén de datos

Modelo conceptual para Minería de datos con Clasificación Aspectos prácticos Caso de estudio Modelo conceptual para Minería de datos con Clasificación Entrada Predicción Caso

Caso de estudio Aspectos prácticos Transformación a código de los modelos conceptuales de minería de datos

Aspectos prácticos Caso de estudio

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Parte IV: Aspectos finales Conclusiones El diseño de modelos de minería con la herramienta propuesta permite integrar el diseño de modelos conceptuales de minería de datos en un proceso global de búsqueda de conocimiento KDD Aprovecha el esfuerzo dedicado a las etapas previas (ETL y Almacén de datos) Evita duplicidades en tareas costosas Facilita la reutilización de modelos Provee un mecanismo de documentación

Parte IV: Aspectos finales Conclusiones Principales aportaciones de esta tesis Una revisión del estado del arte para el modelado de minería de datos La propuesta de modelos conceptuales que facilitan el diseño de las diversas técnicas de minería de datos La formalización de las técnicas de minería de datos mediante el uso de metamodelos La extensión de UML con perfiles específicos para el dominio de las técnicas de minería de datos (continúa en la sig. página)

Parte IV: Aspectos finalesfinales Conclusiones Principales aportaciones de esta tesis (continuación) La creación de un entorno de modelado de las técnicas de minería de datos La definición e implementación de las transformaciones entre modelo-código (para una plataforma específica) El desarrollo de un prototipo en forma de plug-in de Eclipse para el desarrollo de proyectos de descubrimiento de conocimiento.

Parte IV: Aspectos finales Conclusiones Podemos verificar que se cumple la Hipótesis inicial: Es factible modelar conceptualmente las técnicas de minería de datos de una manera integrada con el modelado del almacén de datos en el marco del proceso de descubrimiento de conocimiento.

Parte IV: Aspectos finales Conclusiones Verificación del cumplimiento de los objetivos Objetivo principal: Hemos propuesto los perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimiento Objetivos específicos Objetivo 1: Hemos analizado las propuestas existentes en el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento Objetivo 2: Hemos propuesto los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos

Parte IV: Aspectos finales Conclusiones Verificación del cumplimiento de los objetivos Objetivo 3: Hemos propuesto los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos Objetivo 4: Hemos diseñado e implementado los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento Objetivo 5: Hemos contrastado la viabilidad de la propuesta en un caso de estudio

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Producción científica Trabajos futuros

Parte IV: Aspectos finales Producción científica Un total de 19 trabajos publicados como producción científica de esta tesis 2 en revistas JCR 11 en congresos internacionales 6 en congresos o talleres nacionales.

Parte IV: Aspectos finales Producción científica

Parte IV: Aspectos finales Producción científica

Parte IV: Aspectos finales Producción científica

Parte IV: Aspectos finales Producción científica

Contenido Parte I: Introducción Conceptos básicos Hipótesis de trabajo y objetivos Trabajos relacionados Parte II: Perfiles UML para minería de datos Reglas de asociación Clasificación Clustering Análisis de series temporales Parte III: Aspectos prácticos Implementación Caso de estudio Parte IV: Aspectos finales Conclusiones Contribuciones de esta tesis Trabajos futuros

Parte IV: Aspectos finales Trabajos futuro Propuestas para el diseño de técnicas de minería de datos aplicando el paradigma del desarrollo dirigido por modelos Estudio y posible incorporación de herramientas de modelado conceptual para de técnicas de aprendizaje automático (machine learning ) y reconocimiento de patrones (pattern recognition o matching) Marco de medición de la calidad de los modelos Validación empírica de la comprensibilidad de los modelos propuestos La calidad es un concepto que está compuesto de varias características, definidas en (International Organization for Standarization 2009): la funcionalidad, fiabilidad, facilidad de uso, eficiencia, mantenibilidad y portabilidad. La medición de la calidad en los modelos conceptuales propuestos es una línea de investigación muy amplia, pero que puede dar importantes avances respecto de la mejora del proceso de diseño de modelos de minería de datos con perfiles UML.

Parte IV: Aspectos finales Trabajos futuro Incorporación de aspectos de seguridad en minería de datos Estudio e incorporación del modelado conceptual para la minería de datos geográficos Concienciación en la comunidad científica de la necesidad de abordar la minería de datos desde etapas aún más tempranas en el diseño de un proyecto de descubrimiento de conocimiento

José Jacobo Zubcoff Vallejo Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio de 2009 Alicante, España Director: Juan Carlos Trujillo Mondéjar Grupo de Investigación Lucentia Departamento de Lenguajes y Sistemas Informáticos