La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

CRISP-DM (http://www.crisp-dm.org/)

Presentaciones similares


Presentación del tema: "CRISP-DM (http://www.crisp-dm.org/)"— Transcripción de la presentación:

1 CRISP-DM (http://www.crisp-dm.org/)
CRoss Industry Standard Process for Data Mining Es un modelo de proceso de data-mining que es independiente de la herramienta, la aplicación y la industria. La versión 1.0 de la guía se publicó en 2000 El consorcio que promueve el uso de CRIPS actualmente está inactivo, pero la metodología todavía se encuentra en uso Marcelo A. Soria

2 Fases: etapas del proceso
La metodología CRISP es un modelo jerárquico compuesto por cuatro niveles de abstracción: Fases: etapas del proceso Tareas genéricas: tareas generales, completas y estables Tareas especializadas: especificación de las tareas generales Instancias de procesos: acciones y decisiones concretas Fases Tareas genéricas Tareas especializadas Instancias de procesos Marcelo A. Soria

3 El modelo de referencia y la guía del usuario
Fases, descripción general de las tareas del proyecto y salidas esperadas Modelo de referencia Instrucciones más detalladas de cada fase y tarea Guía del usuario Marcelo A. Soria

4 Mapeando tareas generales y específicas
¿Cómo mapear? Describir y analizar el contexto específico de una aplicación Eliminar detalles innecesarios y que no se apliquen al contexto Agregar aquellos detalles específicos del modelo Especializar las partes genéricas del modelo de acuerdo al contexto Marcelo A. Soria

5 Mapeando tareas generales y específicas
Contextos de data mining Dominio de aplicación Area específica de aplicación del proyecto de data mining (p.ej. bioinformática) Objetivos del proyecto de data-mining (p.ej., clasificación) Temas específicos de data-mining que se refieren a las dificultades y particularidades del proyecto (p.ej., presencia de genes con secuencias desconocidas) Herramientas y técnicas de data mining que se utilizan en el proyecto (p.ej, Blast, Bioconductor) Tipo de problema Aspectos técnicos Técnicas y herramientas Marcelo A. Soria

6 Mapeando tareas generales y específicas
Mapeando con contextos Mapeando para el presente Se aplica un modelo de procesos genéricos para resolver un problema único. Se mapean los procesos genérícos a tareas específicas para un único uso Mapeando para el futuro Los procesos genéricos se especializan continuamente de acuerdo a los requerimientos de un contexto pre-existente o se generalizan las experiencias de casos únicos. Marcelo A. Soria

7 El modelo de referencia
Contiene las fases del proyecto, sus tareas respectivas y algunas relaciones entre tareas. A este nivel no es posible identificar todas las relaciones. Fases Comprensión del dominio Comprensión de los datos Preparación de los datos Modelado Evaluación Despliegue / implementación Marcelo A. Soria

8 1. Comprensión del dominio
1. Determinar objetivos 1.1 Información general del dominio 1.2 Definir objetivos 1.3 Definir el criterio de éxito 2. Evaluar la situación 2.1 Recursos 2.2 Requerimientos, supuestos, condicionantes 2.3 Condiciones de riesgo y contingencias 2.4 Terminología 2.5 Determinar costos y beneficios 3. Objetivos de data mining 3.1 Determinar los objetivos 3.2 Definir el criterio de éxito 4. Producir el plan del proyecto 4.1 Redacción del proyecto 4.2 Evaluación inicial de técnicas y herramientas Marcelo A. Soria

9 2. Comprensión de los datos
1. Colección inicial de datos Informe inicial de colección de datos 2. Describir los datos Informe de descripción de datos 3. Exploración de datos Informe de exploración de datos 4. Verificar la calidad de los datos Informe de calidad de los datos Marcelo A. Soria

10 3. Preparación de los datos
1. Obtener / Seleccionar el conjunto inicial de datos 2. Limpiar datos 3. Construir datos Crear atributos derivados Crear nuevos registros Aplicar transformaciones 4. Integración de los datos 5. Formateo de los datos Conjunto de datos listo para el análisis Marcelo A. Soria

11 1. Seleccionar la técnica de modelado 2. Generar el diseño de prueba
Crear conjuntos de entrenamiento y de prueba 3. Construir el modelo Determinar parámetros del modelo Modelar Describir el modelo 4. Analizar el modelo Evaluación (comportamiento, ranking de modelos) Reajuste de los parámetros del modelo Modelos Marcelo A. Soria

12 1. Evaluación de resultados Análisis de los resultados de DM
Selección de modelos 2. Proceso de revisión 3. ¿Próximos pasos? Lista de posibles acciones Decisiones Marcelo A. Soria

13 5. Despliegue / Implementación
1. Plan de despliegue / implementación Análisis de los resultados de DM Selección de modelos 2. Plan de monitoreo y mantenimiento Informe de descripción de datos 3. Preparación del informe final 4. Revisión del proyecto Proyecto terminado Marcelo A. Soria

14 Data Mining Group (http://www.dmg.org/)
Es otra iniciativa, en este caso activa, para establecer estandares en DM. Este consorcio no intenta producir una metodología de data-mining, sino establecer estandares para las herramientas y el modelado. Su producto principal es el Predictive Model Markup Language (PMML) PMML permite describir en forma estandarizada con esquemas XML un modelo de análisis, que luego se puede implementar con cualquier herramienta que lo soporte Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS, Salford Systems, NASA, VISA, etc..


Descargar ppt "CRISP-DM (http://www.crisp-dm.org/)"

Presentaciones similares


Anuncios Google