La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Proceso KDD MSc. Carlos Alberto Cobos Lozada

Presentaciones similares


Presentación del tema: "Proceso KDD MSc. Carlos Alberto Cobos Lozada"— Transcripción de la presentación:

1 Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co
Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

2 Resumen Previo ¿Qué es minería de datos? ¿Por qué la minería de datos?
¿La minería de datos es totalmente automática? ¿Cómo se desarrolla un proyecto de minería de datos? Falacias de la minería de datos Tareas de la minería de datos Descripción Clasificación – Estimación – Predicción Agrupamiento por similitud (Clustering) Reglas de Asociación Aplicaciones

3 Proceso de Minería de Datos
Los algoritmos son sólo una parte de un proceso llamado Descubrimiento de Conocimiento por los Científicos de la Computación, y Minería de Datos por los estadísticos El proceso comienza con el reconocimiento de un problema y termina con el control de una solución implementada Todo el proceso debe ser soportado por una metodología exitosa

4 Metodologías para la Minería de Datos
Fayyad et al. (Ciencias de la Computación) WEKA SEMMA (SAS) (Estadísticos) SAS Enterprise Miner CRISP-DM (SPSS, OHRA, …) (Negocios) SPSS Clementine Abril de 2004

5 Metodología de Fayyad Conocimiento Datos Transformados Patrones
Interpretación y evaluación Datos Procesados Minería de datos Datos Objetivo Transformación y selección de características Pre procesamiento y limpieza Selección Datos

6 Metodología SEMMA Soportado por SAS Enterprise Mining SAMPLE EXPLORE
Datos de entrada, Muestreo, Partición de datos EXPLORE Explorar distribuciones, Visualizar, Entender, Asociar, Selección de variables MODIFY Transformación de variables, Filtrar valores extremos (anómalos), Agrupación, SOM / Kohonen MODEL Regresiones, Árboles de Decisión, Redes Neuronales, Inducción de reglas ASSESS Evaluación, Puntuación, Reporte

7 Metodología CRISP-DM CRoss-Industry Standard Process for Data Mining
Desarrollada por compañías de minería de datos (SPSS, NCR, OHRA, ChryslerDaimler) y fundada por la Comisión Europea Independiente de herramientas Independiente de la industria Modelo de proceso jerárquico

8 Metodología CRISP-DM Mapeo de modelos generales a especializados
El Dominio de aplicación- área específica en la que se desarrolla el proyecto El Tipo de Problema de minería de datos Aspectos Técnicos de cada proyecto (valores faltantes, anómalos, otros) Las Herramientas y técnicas de minería de datos del proyecto Existen dos tipos de mapeos: Mapeando para el presente: Para un solo Proyecto, denominado sencillo Mapeando para el Futuro: Para un contexto predefinido teniendo como base experiencias pasadas. Sirve para orientar proyectos de contextos similares

9 Metodología CRISP-DM Determinar objetivos del negocio Background
Criterios de éxito del negocio Evaluar la situación Inventario de recursos Requerimientos, supuestos y restricciones Riesgos y contingencias Terminología Costos y beneficio Determinar objetivos de la minería de datos Objetivos de la minería de datos Criterios de éxito de la minería de datos Construir plan del proyecto Plan del proyecto Evaluación inicial de herramientas y técnicas. Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos

10 Metodología CRISP-DM Recolección inicial de datos
Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos Recolección inicial de datos Reporte de la recolección Inicial de datos. Descripción de datos Reporte de descripción de datos Exploración de datos Reporte de exploración de datos Verificar la calidad de los datos Reporte de calidad de los datos

11 Metodología CRISP-DM Selección de datos Razón para inclusión/exclusión
Limpieza de datos Reporte de limpieza de datos Construcción de datos Atributos derivados Registros generados Integración de datos Formato de datos Reformateo de datos Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos

12 Metodología CRISP-DM Seleccionar la técnica de modelado
Supuestos del modelado Generar el diseño de test Diseño del test Construir el modelo Configuración de parámetros Modelo Descripción del modelo. Evaluación del modelo Revisión de la configuración de parámetros Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos

13 Metodología CRISP-DM Evaluar los resultados
Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos Evaluar los resultados Evaluar los resultados de minería de datos Vs. los criterios de éxito del negocio. Aprobar modelos Revisar el proceso Revisión del proceso Determinar el siguiente paso Lista de posibles acciones Decisión

14 Metodología CRISP-DM Plan de despliegue
Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos Plan de despliegue Plan de monitoreo y mantenimiento Producir los reportes finales Reportes finales Presentación final Revisión del proyecto Documentación de experiencias

15 Breve Comparación de Metodologías
Datos Datos Objetivo Datos Procesados Datos Transformados Patrones Conocimiento Selección Pre procesamiento y limpieza Transformación y selección de características Minería de datos Interpretación y evaluación Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos SAMPLE Datos de entrada, Muestreo, Partición de datos EXPLORE Explorar distribuciones, Visualizar, Entender, Asociar, Selección de variables MODEL Regresiones, Árboles de Decisión, Redes Neuronales, Inducción de reglas MODIFY Transformación de variables, Filtrar valores extremos (anómalos), Agrupación, SOM / Kohonen ASSESS Evaluación, Puntuación, Reporte

16 Referencias Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc ISBN Pete Chapman, Julian Clinton, Randy Kerber and other. CRISP-DM 1.0. Step-by-step data mining guide, SPSS Inc. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003.


Descargar ppt "Proceso KDD MSc. Carlos Alberto Cobos Lozada"

Presentaciones similares


Anuncios Google