La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

CRoss Industry Standard Process for Data Mining Es un modelo de proceso de data-mining que es independiente de la herramienta, la aplicación y la industria.

Presentaciones similares


Presentación del tema: "CRoss Industry Standard Process for Data Mining Es un modelo de proceso de data-mining que es independiente de la herramienta, la aplicación y la industria."— Transcripción de la presentación:

1 CRoss Industry Standard Process for Data Mining Es un modelo de proceso de data-mining que es independiente de la herramienta, la aplicación y la industria. La versión 1.0 de la guía se publicó en 2000 El consorcio que promueve el uso de CRIPS actualmente está inactivo, pero la metodología todavía se encuentra en uso CRISP-DM (http://www.crisp-dm.org/) Marcelo A. Soria

2 La metodología CRISP es un modelo jerárquico compuesto por cuatro niveles de abstracción: Marcelo A. Soria Fases: etapas del proceso Tareas genéricas: tareas generales, completas y estables Tareas especializadas: especificación de las tareas generales Instancias de procesos: acciones y decisiones concretas Fases Tareas genéricas Tareas especializadas Instancias de procesos

3 Marcelo A. Soria El modelo de referencia y la guía del usuario Modelo de referencia Guía del usuario Fases, descripción general de las tareas del proyecto y salidas esperadas Instrucciones más detalladas de cada fase y tarea

4 Marcelo A. Soria ¿Cómo mapear? Mapeando tareas generales y específicas Describir y analizar el contexto específico de una aplicación Eliminar detalles innecesarios y que no se apliquen al contexto Agregar aquellos detalles específicos del modelo Especializar las partes genéricas del modelo de acuerdo al contexto

5 Marcelo A. Soria Area específica de aplicación del proyecto de data mining (p.ej. bioinformática) Objetivos del proyecto de data-mining (p.ej., clasificación) Temas específicos de data-mining que se refieren a las dificultades y particularidades del proyecto (p.ej., presencia de genes con secuencias desconocidas) Herramientas y técnicas de data mining que se utilizan en el proyecto (p.ej, Blast, Bioconductor) Contextos de data mining Dominio de aplicación Tipo de problema Aspectos técnicos Técnicas y herramientas Mapeando tareas generales y específicas

6 Marcelo A. Soria Mapeando para el presente Se aplica un modelo de procesos genéricos para resolver un problema único. Se mapean los procesos genérícos a tareas específicas para un único uso Mapeando con contextos Mapeando tareas generales y específicas Mapeando para el futuro Los procesos genéricos se especializan continuamente de acuerdo a los requerimientos de un contexto pre-existente o se generalizan las experiencias de casos únicos.

7 Marcelo A. Soria El modelo de referencia Contiene las fases del proyecto, sus tareas respectivas y algunas relaciones entre tareas. A este nivel no es posible identificar todas las relaciones. 1.Comprensión del dominio 2.Comprensión de los datos 3.Preparación de los datos 4.Modelado 5.Evaluación 6.Despliegue / implementación Fases

8 Marcelo A. Soria 1. Comprensión del dominio 1. Determinar objetivos 1.1 Información general del dominio 1.2 Definir objetivos 1.3 Definir el criterio de éxito 2. Evaluar la situación 2.1 Recursos 2.2 Requerimientos, supuestos, condicionantes 2.3 Condiciones de riesgo y contingencias 2.4 Terminología 2.5 Determinar costos y beneficios 3. Objetivos de data mining 3.1 Determinar los objetivos 3.2 Definir el criterio de éxito 4. Producir el plan del proyecto 4.1 Redacción del proyecto 4.2 Evaluación inicial de técnicas y herramientas

9 Marcelo A. Soria 2. Comprensión de los datos 1. Colección inicial de datos Informe inicial de colección de datos 2. Describir los datos Informe de descripción de datos 3. Exploración de datos Informe de exploración de datos 4. Verificar la calidad de los datos Informe de calidad de los datos

10 Marcelo A. Soria 3. Preparación de los datos 1. Obtener / Seleccionar el conjunto inicial de datos 2. Limpiar datos 3. Construir datos Crear atributos derivados Crear nuevos registros Aplicar transformaciones 4. Integración de los datos 5. Formateo de los datos Conjunto de datos listo para el análisis

11 Marcelo A. Soria 4. Modelado 1. Seleccionar la técnica de modelado 2. Generar el diseño de prueba Crear conjuntos de entrenamiento y de prueba 3. Construir el modelo Determinar parámetros del modelo Modelar Describir el modelo 4. Analizar el modelo Evaluación (comportamiento, ranking de modelos) Reajuste de los parámetros del modelo Modelos

12 Marcelo A. Soria 5. Evaluación 1. Evaluación de resultados Análisis de los resultados de DM Selección de modelos 2. Proceso de revisión 3. ¿Próximos pasos? Lista de posibles acciones Decisiones

13 Marcelo A. Soria 5. Despliegue / Implementación 1. Plan de despliegue / implementación Análisis de los resultados de DM Selección de modelos 2. Plan de monitoreo y mantenimiento Informe de descripción de datos 3. Preparación del informe final 4. Revisión del proyecto Proyecto terminado

14 Data Mining Group (http://www.dmg.org/) Es otra iniciativa, en este caso activa, para establecer estandares en DM. Este consorcio no intenta producir una metodología de data-mining, sino establecer estandares para las herramientas y el modelado. Su producto principal es el Predictive Model Markup Language (PMML) PMML permite describir en forma estandarizada con esquemas XML un modelo de análisis, que luego se puede implementar con cualquier herramienta que lo soporte Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS, Salford Systems, NASA, VISA, etc..


Descargar ppt "CRoss Industry Standard Process for Data Mining Es un modelo de proceso de data-mining que es independiente de la herramienta, la aplicación y la industria."

Presentaciones similares


Anuncios Google