La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

La metodología CRISP-DM

Presentaciones similares


Presentación del tema: "La metodología CRISP-DM"— Transcripción de la presentación:

1 La metodología CRISP-DM
Actividad 2 Segunda Parte

2 Bibliografía Chapman, P. et al. CRISP-DM 1.0: Step-by-step data mining guide. CRISP-DM Consortium, 2000. Hernández, J. et al. Introducción a la minería de datos. Madrid, Universidad Politécnica de Valencia, 2004. Metodologías para la Realización de Proyectos de Data Mining. España, Madrid: Data Mining Institute, <

3 Principales metodologías
<

4 La metodología CRISP-DM
Acrónico de CRoss-Industry Standard Process for Data Mining (Proceso de Construcción Cruzada Estándar de Minería de Datos). Propuesta inicialmente por un consorcio de empresas encabezadas por SPSS. Es liberada para su empleo y desarrollo por parte de la comunidad internacional. Diseñada de forma neutral a cualquier herramienta de análisis de datos. Trata el proceso de forma global y toma en cuenta los aspectos empresariales o de negocio de este.

5 Etapas propuestas por CRISP-DM
Tomado de [CHAPMAN et al. 2000]

6 Etapas (1/3) Comprensión del Negocio
Esta fase inicial se enfoca en la comprensión de los objetivos del proyecto y exigencias desde una perspectiva de negocio, para definir un problema de minería de datos y elaborar un plan preliminar diseñado para alcanzar dichos objetivos. Comprensión de datos La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten la familiarización con los datos para identificar problemas con su calidad, descubrir los primeros conocimientos, y/o encontrar subconjuntos interesantes para formar hipótesis en cuanto a la información oculta.

7 Etapas (2/3) Preparación de datos
Esta fase cubre todas las actividades necesarias para conformar el conjunto de datos final (los datos que serán utilizados por las herramientas de modelado) de los datos en brutos iniciales. Las tareas de preparación de datos probablemente van a ser realizadas muchas veces y sin un orden prescripto, e incluyen la selección de registros y atributos, así como la transformación y limpieza de la información. Modelado En esta fase, varias técnicas de modelado son seleccionadas y aplicadas, y sus parámetros son calibrados. Es a menudo necesario, de acuerdo a los algoritmos y técnicas seleccionados, volver a la fase de Preparación de Datos.

8 Etapas (3/3) Evaluación En esta etapa, se evalúan los modelos construidos, revisando cada uno de los pasos ejecutados para crearlo, a fin de comprobar si cumple correctamente con los objetivos del negocio. Un objetivo clave es determinar si hay alguna cuestión importante de negocio que no ha sido considerada suficientemente. En el final de esta fase, se toma una decisión para el uso de los resultados de minería de datos. Despliegue La fase de despliegue puede ser tan simple como la generación de un informe o tan compleja como la repetición del proceso de minería a través de la organización. En muchos casos, es el cliente, y no el analista de datos, quien lleva a cabo el paso de despliegue, sin embargo, resulta conveniente la participación de ambos para comprender rápidamente que acciones ejecutar a fin de emplear los modelos obtenidos.

9 Etapas de CRISP-DM desde dentro

10 Comprensión del Negocio (1/2)
Objetivos del negocio El primer objetivo del analista de datos para un contexto es entender, desde una perspectiva de negocio, lo que el cliente realmente quiere lograr. Criterios de éxito del negocio Se describen los criterios para un resultado acertado o útil al proyecto desde el punto de vista del negocio. Objetivos de la minería de datos Un objetivo de minería de datos declara objetivos del proyecto en términos técnicos, para cumplir con los objetivos del negocio. Criterios de éxito de la minería de datos Se definen los criterios de un resultado exitoso para el proyecto en términos técnicos, por ejemplo, un cierto nivel de predicción. Además, también puede expresarse en términos subjetivos, y en este caso, deben ser identificadas las personas que hacen el juicio.

11 Comprensión del Negocio (2/2)
Evaluación de la situación Se enuncian los recursos disponibles para el proyecto (personal, datos, recursos computacionales, otros). Se realiza un cronograma del proceso, se enumeran las presunciones, restricciones y disponibilidad de recursos. Se listan los riesgos que podrían retrasar el proyecto y los planes de contingencia correspondientes. Se realiza un análisis de costo-beneficio para el proyecto, tan específico como sea posible. Elaborar el plan del proyecto Se describe el plan para alcanzar los objetivos de minería y con ello los del negocio; dicho plan debe especificar los pasos durante el resto del proyecto, incluyendo la selección inicial de herramientas y técnicas, y una lista de las etapas a ser ejecutadas, juntos con su duración, recursos requeridos, entradas, salidas, y dependencias.

12 Comprensión de Datos Recolectar y describir los datos iniciales
Se confecciona una lista del conjunto de datos obtenidos, sus localizaciones, y los métodos usados para conseguirlos Se describen los datos que han sido adquiridos, incluyendo su formato y cantidad; además se evalúa si satisfacen las exigencias previstas. Explorar y verificar la calidad de los datos Esta tarea está dirigida a responder interrogantes de minería de datos usando visualización y técnicas de reporte. De ser apropiado pueden ser incluidos gráficos para indicar las características de datos, de donde se desprenden las conclusiones o hipótesis iniciales del proyecto. Se examina la calidad de los datos en relación a si están completos, si son correctos o contiene errores y que tan comunes son estos, si existen valores omitidos, entre otros.

13 Preparación de Datos Selección de datos
Se decide cuales datos serán excluidos y cuales usados para el análisis, de acuerdo a su importancia respecto a los objetivos de la minería de datos, su calidad, y las restricciones técnicas. Cubre la selección de atributos (columnas) así como la selección de registros (filas). Construcción, limpieza y transformación de datos Se incluye la construcción de operaciones de preparación de datos, como la creación de atributos derivados a partir de otros, y la transformación de sus valores. Se igual manera, se describe la creación de registros completamente nuevos y que para el modelado puedan tener sentido. Se describen las decisiones y acciones que fueron tomadas para limpiar o solucionar los problemas de calidad de datos detectados. Integrar los datos Es resumida la información, producto de la combinación de múltiples tablas para crear la vista minable.

14 Modelado (1/2) Selección de las técnicas de modelado
Como primer paso durante el modelado, se debe seleccionar la técnica de modelado que será usada. Si múltiples técnicas son aplicadas, se realiza esta tarea separadamente para cada una de ellas. Suposiciones del modelado Se registra cualquier presunción de la técnica de modelado seleccionada, que pueden ser, por ejemplo, que todos los atributos tengan distribuciones uniformes, que el atributo a predecir debe ser simbólico, entre otros. Generar el diseño del experimento Se describe el plan intencionado para el entrenamiento, la prueba, y la evaluación de los modelos. Un componente primario del plan determina como dividir un conjunto de datos disponible en datos de entrenamiento, datos de prueba, y conjunto de datos de validación.

15 Modelado (2/2) Escenario de parámetros
Se listan los parámetros y sus valores escogidos, así como el razonamiento para elegir los parámetros de ajustes. Modelos Se listan los modelos reales producidos por la herramienta de modelado, no un informe. Descripción de los modelos Se describen los modelos obtenidos, informándose su interpretación y documentándose cualquier dificultad encontrada con sus significados.

16 Evaluación Evaluación y aprobación de modelos
Se resumen los resultados de minería de datos en términos de criterios de éxito del negocio. Después de la valoración de los modelos, se toma una decisión al respecto. Revisar el proceso Se resume la revisión de proceso destacándose las actividades que han sido omitidas y/o aquellas que deberían ser repetidas.

17 Despliegue Planificación de la explotación
De acuerdo al desarrollo de los resultados de la minería en el negocio, se determina una estrategia para su despliegue, donde se incluyen los pasos necesarios y como realizarlos. Planificar el monitoreo y el mantenimiento Se resume la estrategia de supervisión y mantenimiento, incluyendo los pasos necesarios y como realizarlos, a fin de evitar largos periodos innecesarios de uso incorrecto de los resultados de minería de datos. Producir reportes finales Se redacta un informe escrito final del compromiso de la minería de datos, lo que incluye todo el desarrollo anterior, y el resumen y la organización de los resultados. A menudo se realizará una reunión en la conclusión el la que los resultados son presentados verbalmente. De igual modo se resumen las experiencias importantes ganadas durante el proyecto.

18 Próxima Actividad: La Preparación de los Datos
Fin de la Segunda Parte Próxima Actividad: La Preparación de los Datos


Descargar ppt "La metodología CRISP-DM"

Presentaciones similares


Anuncios Google