La metodología CRISP-DM

Slides:



Advertisements
Presentaciones similares
CRISP-DM (
Advertisements

* Es el proceso de organizar, planear, dirigir y controlar; actividades y recursos con el fin de lograr un objetivo.
El análisis de los riesgos determinará cuáles son los factores de riesgo que potencialmente tendrían un mayor efecto sobre nuestro proyecto y, por lo.
Copyright Avantare Consultores S.A de C.V. 1 ACO_PRE_DINI_INICIO_001 PIID’s (Practice Implementation Indicators Descriptions)
UNIVERSIDAD REGIONAL AUTÓNOMA DE LOS ANDES UNIANDES IBARRA TEMA: METODOLOGÍA DE LA AUDITORÍA DE GESTIÓN DOCENTE: ING. WILMER ARIAS 1.
Personalización en Entornos Virtuales de Aprendizaje un enfoque competencial PERSONAL(ONTO) TIN C02.
NORMA ISO DIS 9001:2015 Draft International Standard.
Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.
Plan de Trabajo Consideraciones Técnicas Urbanismo I y III-A 2006-Setiembre.
FACULTAD DE INGENIERÍA INGENIERÍA DE MANTENIMIENTO MECÁNICO INTEGRANTES: Robert Lugo Mario Piai Miguel Osorio Adrián Rojas ENFOQUE ESTRATÉGICO Y COMO SE.
TEMA: PSP (Personal Software Process) ANALISIS DE SISTEMAS I ING. EDGAR RAUL MOLINA INTEGRAMTES: HANNSEL E. CORDON AC JESSICA IDALMY KRESS FREDERIC HESTIB.
NIA Planeación de una auditoria de Estados Financieros. NOMBRE: Beatriz Acero Zapana CURSO: Auditoria Financiera ESCUELA: Ciencias Contables y Financiera.
Informática Empresarial Docente – Carlos Andrés Bonil Mariño INFORMATICA EMPRESARIAL  CARLOS ANDRES BONIL MARIÑO  INGENIERO DE SISTEMAS.
Los requisitos para una planificación eficaz ya que es la tarea más importante en cuanto condiciona el hacer y el actuar. Los objetivos deben ser alcanzables.
Proceso de Implantación y Aceptación del Sistema de Información (IAS)
Ejercicio práctico.
Metodología de la investigación
Análisis de resultados Evaluación diagnóstica en línea
IEEE-std Práctica Recomendada para la Especificación de Requerimientos de Software Fuente: IEEE Recommendad Practice for Software Requirements.
EXPOSITOR L.C. EDUARDO M. ENRÍQUEZ G.
Título Webquest Nivel Educativo Sector Curricular
Evaluación y Contexto para la Mejora de Procesos de Negocio.
ANALISIS DE RIESGOS POR OFICIO
Gestión de Software Conferencia # 2 Niveles de PSP: PSP0.1.
Auditoria Informática Unidad III
APRENDIZAJE BASADO EN PROYECTOS
ARTICULACION DE COMPONENTES BASICOS DE UN PROYECTO
TRABAJO DE TITULACIÓN “MANEJO BASICO DE INDICADORES DE PARTICIPACION CIUDADANA UTILIZANDO ALGORITMOS Y TECNICAS DE MINERIA DE DATOS COMO APOYO EN LA GESTION.
PROYECTOS DE CIENCIAS ENSEÑANZA MEDIA 2015 COLEGIO INGLÉS DE TALCA
Metodología de la programación
Ciclo de vida De los Sistemas
Algoritmo Capitulo Cinco.
Antecedentes sobre Investigación de Mercados
TRABAJO ESPECAL DE GRADO
TEMAS 9 y 10: Planificación de la producción
Modelo de interacción de usuario.  El Desarrollo basado en modelos de la interfaz de usuario, en inglés Model-based User Interface Development (MB-UID),
Diagrama de Flujo La presentación gráfica de sistemas es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos.
Investigación de mercados
GESTION POR PROCESOS.
1.-Seleccione 2.-Describa El ciclo propuesto en este modelo y las preguntas orientadoras, están diseñados para ayudar al proceso de reflexión.
Auditoria de Tecnologías de Información PLANIFICACION Ing. Eder Gutiérrez Quispe.
Instituto Universitario Politécnico Santiago Mariño Extensión San Cristóbal Metodología de la Investigación Realizado por: Sánchez C, Stefhanny N. Cedula:
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
La planeación y la organización de los procesos técnicos.
GUÍA PARA SELECCIONAR TÉCNICAS Y COMPETENCIAS LABORALES
EXPOSITOR L.C. EDUARDO M. ENRÍQUEZ G.
Gerencia de iniciativas emprendedoras Unidad 1. Tema 1 Cronograma
Proyecto "Las mascotas" Informática 6° Básico.
Establecimiento de un Sistema de Documentación y Registros Paso Duodécimo / Principio 7 CAPÍTULO 3 Mod 12 El sistema de Análisis de Peligros y de Puntos.
Universidad Nacional Experimental Francisco De Miranda Vice-rectorado Académico Municipalización Universitaria Morón Estado Carabobo MORÓN NOVIEMBRE 2018.
PLANILLAS DE INSPECCIÓN HOJAS DE CONTROL HOJAS DE INSPECCIÓN HOJAS DE VERIFICACIÓN DIFERENTES FORMAS DE LLAMARLAS.
IEEE Estándar para documentación de pruebas de software
DIAGRAMA DE FLUJO DE PROCESO
CICLO PHVA. Ciclo PHVA El ciclo PHVA es una herramienta de la mejora continua, presentada por Deming a partir del año 1950, la cual se basa en un ciclo.
TALLER DE INVESTIGACION I PROCESO DE CAPTACION DE LA INFORMACION Y ELABORACION DEL CRONOGRAMA DE INVESTIGACION.
Desarrollo de Sistemas de Información Contable - Sis USB 1 METODOLOGIAS DE DESARROLLO DE SOFTWARE.
Análisis de Procesos Informáticos Ing. Renato Toasa  Daniel Quintana  Leonardo Herrera  Fernando Moya.
GC-F-004 V.01 CENTRO DE INDUSTRIA Y LA CONSTRUCCIÓN REGIONAL TOLIMA.
PROYECTO DE INVERSION Y EL CICLO DE PROYECTOS. CONCEPTOS DE PROYECTOS.
Desarrollo de Sistemas de Información Contable - Sis USB 1 METODOLOGIAS DE DESARROLLO DE SOFTWARE.
La evaluación de la lectura en el proyecto PISA 2009.
ANÁLISIS DE RIESGOS Estudio de las causas de las posibles amenazas y probables eventos no deseados.
Estudio de Viabilidad del Sistema (EVS). Estudio de Viabilidad del Sistema Cuestiones ¿Qué es la viabilidad de un sistema? ¿Cuáles son los objetivos del.
Plan de Sistemas de Información (PSI). Plan de Sistemas de Información (PSI) Descripción y Objetivos Tiene como objetivo la obtención de un marco de referencia.
PLANIFICACION Diego Hernández.
ICI 502 Procesos de Software
Luis Fernando Muñoz Pantoja Ingeniero de Sistemas Copyright 2019 Luis Fernando Muñoz Pantoja Ingeniero de Sistemas Derechos reservados UML.
La Metodología Kimball, es una metodología empleada para la construcción de un almacén de datos (data warehouse, DW) que no es más que, una colección de.
Los modelos de gestión de la calidad  La cultura de la calidad ha llegado a las I.E.  Con ello una nueva manera de entender la gestión de la calidad.
Transcripción de la presentación:

La metodología CRISP-DM Actividad 2 Segunda Parte

Bibliografía Chapman, P. et al. CRISP-DM 1.0: Step-by-step data mining guide. CRISP-DM Consortium, 2000. Hernández, J. et al. Introducción a la minería de datos. Madrid, Universidad Politécnica de Valencia, 2004. Metodologías para la Realización de Proyectos de Data Mining. España, Madrid: Data Mining Institute, 2004. <http://www.estadistico.com>

Principales metodologías <http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm>

La metodología CRISP-DM Acrónico de CRoss-Industry Standard Process for Data Mining (Proceso de Construcción Cruzada Estándar de Minería de Datos). Propuesta inicialmente por un consorcio de empresas encabezadas por SPSS. Es liberada para su empleo y desarrollo por parte de la comunidad internacional. Diseñada de forma neutral a cualquier herramienta de análisis de datos. Trata el proceso de forma global y toma en cuenta los aspectos empresariales o de negocio de este.

Etapas propuestas por CRISP-DM Tomado de [CHAPMAN et al. 2000]

Etapas (1/3) Comprensión del Negocio Esta fase inicial se enfoca en la comprensión de los objetivos del proyecto y exigencias desde una perspectiva de negocio, para definir un problema de minería de datos y elaborar un plan preliminar diseñado para alcanzar dichos objetivos. Comprensión de datos La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten la familiarización con los datos para identificar problemas con su calidad, descubrir los primeros conocimientos, y/o encontrar subconjuntos interesantes para formar hipótesis en cuanto a la información oculta.

Etapas (2/3) Preparación de datos Esta fase cubre todas las actividades necesarias para conformar el conjunto de datos final (los datos que serán utilizados por las herramientas de modelado) de los datos en brutos iniciales. Las tareas de preparación de datos probablemente van a ser realizadas muchas veces y sin un orden prescripto, e incluyen la selección de registros y atributos, así como la transformación y limpieza de la información. Modelado En esta fase, varias técnicas de modelado son seleccionadas y aplicadas, y sus parámetros son calibrados. Es a menudo necesario, de acuerdo a los algoritmos y técnicas seleccionados, volver a la fase de Preparación de Datos.

Etapas (3/3) Evaluación En esta etapa, se evalúan los modelos construidos, revisando cada uno de los pasos ejecutados para crearlo, a fin de comprobar si cumple correctamente con los objetivos del negocio. Un objetivo clave es determinar si hay alguna cuestión importante de negocio que no ha sido considerada suficientemente. En el final de esta fase, se toma una decisión para el uso de los resultados de minería de datos. Despliegue La fase de despliegue puede ser tan simple como la generación de un informe o tan compleja como la repetición del proceso de minería a través de la organización. En muchos casos, es el cliente, y no el analista de datos, quien lleva a cabo el paso de despliegue, sin embargo, resulta conveniente la participación de ambos para comprender rápidamente que acciones ejecutar a fin de emplear los modelos obtenidos.

Etapas de CRISP-DM desde dentro

Comprensión del Negocio (1/2) Objetivos del negocio El primer objetivo del analista de datos para un contexto es entender, desde una perspectiva de negocio, lo que el cliente realmente quiere lograr. Criterios de éxito del negocio Se describen los criterios para un resultado acertado o útil al proyecto desde el punto de vista del negocio. Objetivos de la minería de datos Un objetivo de minería de datos declara objetivos del proyecto en términos técnicos, para cumplir con los objetivos del negocio. Criterios de éxito de la minería de datos Se definen los criterios de un resultado exitoso para el proyecto en términos técnicos, por ejemplo, un cierto nivel de predicción. Además, también puede expresarse en términos subjetivos, y en este caso, deben ser identificadas las personas que hacen el juicio.

Comprensión del Negocio (2/2) Evaluación de la situación Se enuncian los recursos disponibles para el proyecto (personal, datos, recursos computacionales, otros). Se realiza un cronograma del proceso, se enumeran las presunciones, restricciones y disponibilidad de recursos. Se listan los riesgos que podrían retrasar el proyecto y los planes de contingencia correspondientes. Se realiza un análisis de costo-beneficio para el proyecto, tan específico como sea posible. Elaborar el plan del proyecto Se describe el plan para alcanzar los objetivos de minería y con ello los del negocio; dicho plan debe especificar los pasos durante el resto del proyecto, incluyendo la selección inicial de herramientas y técnicas, y una lista de las etapas a ser ejecutadas, juntos con su duración, recursos requeridos, entradas, salidas, y dependencias.

Comprensión de Datos Recolectar y describir los datos iniciales Se confecciona una lista del conjunto de datos obtenidos, sus localizaciones, y los métodos usados para conseguirlos Se describen los datos que han sido adquiridos, incluyendo su formato y cantidad; además se evalúa si satisfacen las exigencias previstas. Explorar y verificar la calidad de los datos Esta tarea está dirigida a responder interrogantes de minería de datos usando visualización y técnicas de reporte. De ser apropiado pueden ser incluidos gráficos para indicar las características de datos, de donde se desprenden las conclusiones o hipótesis iniciales del proyecto. Se examina la calidad de los datos en relación a si están completos, si son correctos o contiene errores y que tan comunes son estos, si existen valores omitidos, entre otros.

Preparación de Datos Selección de datos Se decide cuales datos serán excluidos y cuales usados para el análisis, de acuerdo a su importancia respecto a los objetivos de la minería de datos, su calidad, y las restricciones técnicas. Cubre la selección de atributos (columnas) así como la selección de registros (filas). Construcción, limpieza y transformación de datos Se incluye la construcción de operaciones de preparación de datos, como la creación de atributos derivados a partir de otros, y la transformación de sus valores. Se igual manera, se describe la creación de registros completamente nuevos y que para el modelado puedan tener sentido. Se describen las decisiones y acciones que fueron tomadas para limpiar o solucionar los problemas de calidad de datos detectados. Integrar los datos Es resumida la información, producto de la combinación de múltiples tablas para crear la vista minable.

Modelado (1/2) Selección de las técnicas de modelado Como primer paso durante el modelado, se debe seleccionar la técnica de modelado que será usada. Si múltiples técnicas son aplicadas, se realiza esta tarea separadamente para cada una de ellas. Suposiciones del modelado Se registra cualquier presunción de la técnica de modelado seleccionada, que pueden ser, por ejemplo, que todos los atributos tengan distribuciones uniformes, que el atributo a predecir debe ser simbólico, entre otros. Generar el diseño del experimento Se describe el plan intencionado para el entrenamiento, la prueba, y la evaluación de los modelos. Un componente primario del plan determina como dividir un conjunto de datos disponible en datos de entrenamiento, datos de prueba, y conjunto de datos de validación.

Modelado (2/2) Escenario de parámetros Se listan los parámetros y sus valores escogidos, así como el razonamiento para elegir los parámetros de ajustes. Modelos Se listan los modelos reales producidos por la herramienta de modelado, no un informe. Descripción de los modelos Se describen los modelos obtenidos, informándose su interpretación y documentándose cualquier dificultad encontrada con sus significados.

Evaluación Evaluación y aprobación de modelos Se resumen los resultados de minería de datos en términos de criterios de éxito del negocio. Después de la valoración de los modelos, se toma una decisión al respecto. Revisar el proceso Se resume la revisión de proceso destacándose las actividades que han sido omitidas y/o aquellas que deberían ser repetidas.

Despliegue Planificación de la explotación De acuerdo al desarrollo de los resultados de la minería en el negocio, se determina una estrategia para su despliegue, donde se incluyen los pasos necesarios y como realizarlos. Planificar el monitoreo y el mantenimiento Se resume la estrategia de supervisión y mantenimiento, incluyendo los pasos necesarios y como realizarlos, a fin de evitar largos periodos innecesarios de uso incorrecto de los resultados de minería de datos. Producir reportes finales Se redacta un informe escrito final del compromiso de la minería de datos, lo que incluye todo el desarrollo anterior, y el resumen y la organización de los resultados. A menudo se realizará una reunión en la conclusión el la que los resultados son presentados verbalmente. De igual modo se resumen las experiencias importantes ganadas durante el proyecto.

Próxima Actividad: La Preparación de los Datos Fin de la Segunda Parte Próxima Actividad: La Preparación de los Datos