Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Metodologías para Minería de Datos
Tema 4 Dr. Francisco J. Mata
2
Temario Introducción Metodología CRISP Metodología de Berry y Linoff
Metodología SEMMA Dr. Francisco J. Mata
3
Introducción Minería de datos es una forma de aprender del pasado para hacer mejores decisiones en el futuro Una metodología está basada en mejores prácticas Dr. Francisco J. Mata
4
Metodologías de minería de datos
Tratan de evitar dos resultados indeseables en el proceso de aprendizaje Aprender cosas que no son ciertas Aprender cosas que aunque ciertas no son útiles Dr. Francisco J. Mata
5
Aprender cosas que no son ciertas
Más peligroso que aprender cosas que no son útiles Decisiones importantes pueden estar basadas en información o conocimiento incorrecto Dr. Francisco J. Mata
6
Problemas que llevan a conclusiones falsas
Patrones en los datos pueden no representar reglas El modelo desarrollado puede no reflejar la población relevante Los datos pueden estar en un nivel equivocado de detalle Dr. Francisco J. Mata
7
Patrones en los datos pueden no reflejar reglas
Los seres humanos dependen tanto de patrones en sus vidas que tienden a verlos aunque no existan Ejemplos de patrones Alternancia de día y noche Estaciones Horas y días de programas en la TV Dr. Francisco J. Mata
8
Patrones en los datos pueden no reflejar reglas
El desafío de la minería de datos es encontrar patrones que tengan valor predictivo El partido que no tiene la presidencia tiende a ganar más puestos en el Congreso durante las elecciones de medio periodo Razones políticas Cuando la Liga Americana gana la Serie Mundial, los Republicanos ganan la Casa Blanca No hay razón aparente En las elecciones presidenciales, el hombre más alto gana Desde 1945 Carter versus Ford Gore versus Bush Dr. Francisco J. Mata
9
El modelo desarrollado puede no reflejar la población relevante
Para hacer alguna predicción se crea un modelo de la situación Este modelo se desarrolla a partir de una muestra de la población Muestras sesgadas Dr. Francisco J. Mata
10
Los datos pueden estar en un nivel equivocado de detalle
¿Cayeron las ventas en octubre? Dr. Francisco J. Mata
11
Aprender cosas que aunque ciertas no son útiles
Aprender cosas que ya son conocidas Aprender cosas que no pueden ser utilizadas Dr. Francisco J. Mata
12
Aprender cosas que ya son conocidas
Muchos de los patrones en los datos representan cosas que ya conocemos Personas retiradas no responden a ofertas para planes de retiro Personas que viven donde no hay torres de celular tienden a no comprar téléfonos celulares Dr. Francisco J. Mata
13
Aprender cosas que ya son conocidas
Aprender cosas que ya conocemos tiene sin embargo un propósito útil Demuestra que la minería de datos está funcionando y que los datos son razonablemente precisos Dr. Francisco J. Mata
14
Aprender cosas que no pueden ser utilizadas
La minería de datos puede descubrir relaciones que son tanto ciertas como desconocidas per difíciles de utilizar Problemas regulatorios Historia de crédito de un cliente puede predecir futuros reclamos de seguro, pero la ley no permite discriminar a los clientes No se puede cambiar el ambiente en que se opera Un producto puede ser más apropiado para ciertos climas que otros pero no se puede cambiar el clima Un servicio puede ser peor en ciertas condiciones topografía pero no se puede cambiar estas condiciones Dr. Francisco J. Mata
15
CRISP-DM Cross Industry Standard Process for Data Mining
Desarrollada en 1996 por Daimler Benz (ahora Daimler Chrysler) ISL (ahora parte de SPSS), que lanzara en 1994 Clementine (software para minería de datos) NCR creador de Teradata (software para bodega de datos) Independiente de la herramientas de minería de datos utilizados Guía CRISP-DM Versión 1.0 ( Dr. Francisco J. Mata
16
Divisiones de CRISP-DM
Dr. Francisco J. Mata
17
Fases de CRISP-DM Dr. Francisco J. Mata
18
Fases de CRISP-DM Entendimiento del negocio
Comprender los objetivos y requerimientos del proyecto desde la perspectiva del negocio Este conocimiento es luego convertido en la definición de un problema de minería de datos y un plan preliminar es desarrollado para alcanzar estos objetivos Dr. Francisco J. Mata
19
Fases de CRISP-DM Entendimiento de los datos
Recolección inicial de datos Continúa con actividades para Familiarizarse con los datos Identificar problemas con la calidad de los datos Descubrir percepciones de su naturaleza interna o detectar subconjuntos interesantes para formar hipótesis Dr. Francisco J. Mata
20
Fases de CRISP-DM Preparación de datos
Actividades para construir el conjunto de datos final, el cual será utilizado como entrada a las herramientas de modelaje Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecido Incluyen extracción, transformación y carga (ETL) Dr. Francisco J. Mata
21
Fases de CRISP-DM Modelado
Varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros calibrados a valores óptimos Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problema Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datos Dr. Francisco J. Mata
22
Fases de CRISP-DM Modelado
Dr. Francisco J. Mata
23
Fases de CRISP-DM Evaluación
Determina si el modelo construido satisface los objetivos del negocio ¿Existen aspectos del negocio que no hayan sido considerados suficientemente? Evaluar resultados Resultados=Modelos+Descrubimientos Dr. Francisco J. Mata
24
Fases de CRISP-DM Aplicación del modelo o sus resultados
Tan simple como generar un reporte o tan complejo como implementar un proceso continuo de minería de datos a través de la empresa Dr. Francisco J. Mata
25
Tareas genéricas Dr. Francisco J. Mata
26
Tareas genéricas y salidas para entender el negocio
Dr. Francisco J. Mata
27
Tareas genéricas y salidas para entender los datos
Dr. Francisco J. Mata
28
Tareas genéricas y salidas para preparación de datos
Dr. Francisco J. Mata
29
Tareas genéricas y salidas para modelado
Dr. Francisco J. Mata
30
Tareas genéricas y salidas para evaluación
Dr. Francisco J. Mata
31
Tareas genéricas y salidas para aplicación del modelo o sus resultados
Dr. Francisco J. Mata
32
Fases, tareas, salidas, actividades
Guía del usuario para CRISP-DM (página 35) Dr. Francisco J. Mata
33
Metodología de Berry y Linoff
Dr. Francisco J. Mata
34
Metodología SEMMA Desarrollada por SAS
Sample: Muestreo Explore: Exploración Modify: Modificar Model: Modelaje Assess: Evaluar Apoyada por el Enterprise Data Miner Dr. Francisco J. Mata
35
Comparación metodologías
Entendimiento del negocio Traducir probl. negocio en probl. minería Entendimiento de los datos Muestro Exploración Seleccionar datos Arreglar problema datos Transformar datos Preparación de datos Modificación Construir modelo Evaluar modelo Modelaje Modelaje Evaluación Evaluación (objetivos del negocio) SEMMA Puesta en operación Puesta en operación Evaluar resultados CRISP Berry y Linoff Dr. Francisco J. Mata
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.