La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.

Presentaciones similares


Presentación del tema: "Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4."— Transcripción de la presentación:

1 Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4

2 Temario Introducción Introducción Metodología CRISP Metodología CRISP Metodología de Berry y Linoff Metodología de Berry y Linoff Metodología SEMMA Metodología SEMMA Dr. Francisco J. Mata2

3 Introducción Minería de datos es una forma de aprender del pasado para hacer mejores decisiones en el futuro Minería de datos es una forma de aprender del pasado para hacer mejores decisiones en el futuro Una metodología está basada en mejores prácticas Una metodología está basada en mejores prácticas Dr. Francisco J. Mata3

4 Metodologías de minería de datos Tratan de evitar dos resultados indeseables en el proceso de aprendizaje Tratan de evitar dos resultados indeseables en el proceso de aprendizaje Aprender cosas que no son ciertas Aprender cosas que no son ciertas Aprender cosas que aunque ciertas no son útiles Aprender cosas que aunque ciertas no son útiles Dr. Francisco J. Mata4

5 Aprender cosas que no son ciertas Más peligroso que aprender cosas que no son útiles Más peligroso que aprender cosas que no son útiles Decisiones importantes pueden estar basadas en información o conocimiento incorrecto Decisiones importantes pueden estar basadas en información o conocimiento incorrecto Dr. Francisco J. Mata5

6 Problemas que llevan a conclusiones falsas Patrones en los datos pueden no representar reglas Patrones en los datos pueden no representar reglas El modelo desarrollado puede no reflejar la población relevante El modelo desarrollado puede no reflejar la población relevante Los datos pueden estar en un nivel equivocado de detalle Los datos pueden estar en un nivel equivocado de detalle Dr. Francisco J. Mata6

7 Patrones en los datos pueden no reflejar reglas Los seres humanos dependen tanto de patrones en sus vidas que tienden a verlos aunque no existan Los seres humanos dependen tanto de patrones en sus vidas que tienden a verlos aunque no existan Ejemplos de patrones Ejemplos de patrones Alternancia de día y noche Alternancia de día y noche Estaciones Estaciones Horas y días de programas en la TV Horas y días de programas en la TV Dr. Francisco J. Mata7

8 Patrones en los datos pueden no reflejar reglas El desafío de la minería de datos es encontrar patrones que tengan valor predictivo El desafío de la minería de datos es encontrar patrones que tengan valor predictivo El partido que no tiene la presidencia tiende a ganar más puestos en el Congreso durante las elecciones de medio periodo El partido que no tiene la presidencia tiende a ganar más puestos en el Congreso durante las elecciones de medio periodo Razones políticas Razones políticas Cuando la Liga Americana gana la Serie Mundial, los Republicanos ganan la Casa Blanca Cuando la Liga Americana gana la Serie Mundial, los Republicanos ganan la Casa Blanca No hay razón aparente No hay razón aparente En las elecciones presidenciales, el hombre más alto gana En las elecciones presidenciales, el hombre más alto gana Desde 1945 Desde 1945 Carter versus Ford Carter versus Ford Gore versus Bush Gore versus Bush Dr. Francisco J. Mata8

9 El modelo desarrollado puede no reflejar la población relevante Para hacer alguna predicción se crea un modelo de la situación Para hacer alguna predicción se crea un modelo de la situación Este modelo se desarrolla a partir de una muestra de la población Este modelo se desarrolla a partir de una muestra de la población Muestras sesgadas Muestras sesgadas Dr. Francisco J. Mata9

10 Los datos pueden estar en un nivel equivocado de detalle Dr. Francisco J. Mata10 ¿Cayeron las ventas en octubre?

11 Aprender cosas que aunque ciertas no son útiles Aprender cosas que ya son conocidas Aprender cosas que ya son conocidas Aprender cosas que no pueden ser utilizadas Aprender cosas que no pueden ser utilizadas Dr. Francisco J. Mata11

12 Aprender cosas que ya son conocidas Muchos de los patrones en los datos representan cosas que ya conocemos Muchos de los patrones en los datos representan cosas que ya conocemos Personas retiradas no responden a ofertas para planes de retiro Personas retiradas no responden a ofertas para planes de retiro Personas que viven donde no hay torres de celular tienden a no comprar téléfonos celulares Personas que viven donde no hay torres de celular tienden a no comprar téléfonos celulares Dr. Francisco J. Mata12

13 Aprender cosas que ya son conocidas Aprender cosas que ya conocemos tiene sin embargo un propósito útil Aprender cosas que ya conocemos tiene sin embargo un propósito útil Demuestra que la minería de datos está funcionando y que los datos son razonablemente precisos Demuestra que la minería de datos está funcionando y que los datos son razonablemente precisos Dr. Francisco J. Mata13

14 Aprender cosas que no pueden ser utilizadas La minería de datos puede descubrir relaciones que son tanto ciertas como desconocidas per difíciles de utilizar La minería de datos puede descubrir relaciones que son tanto ciertas como desconocidas per difíciles de utilizar Problemas regulatorios Problemas regulatorios Historia de crédito de un cliente puede predecir futuros reclamos de seguro, pero la ley no permite discriminar a los clientes Historia de crédito de un cliente puede predecir futuros reclamos de seguro, pero la ley no permite discriminar a los clientes No se puede cambiar el ambiente en que se opera No se puede cambiar el ambiente en que se opera Un producto puede ser más apropiado para ciertos climas que otros pero no se puede cambiar el clima Un producto puede ser más apropiado para ciertos climas que otros pero no se puede cambiar el clima Un servicio puede ser peor en ciertas condiciones topografía pero no se puede cambiar estas condiciones Un servicio puede ser peor en ciertas condiciones topografía pero no se puede cambiar estas condiciones Dr. Francisco J. Mata14

15 Dr. Francisco J. Mata15 CRISP-DM Cross Industry Standard Process for Data Mining Cross Industry Standard Process for Data Mining Desarrollada en 1996 por Desarrollada en 1996 por Daimler Benz (ahora Daimler Chrysler) Daimler Benz (ahora Daimler Chrysler) ISL (ahora parte de SPSS), que lanzara en 1994 Clementine (software para minería de datos) ISL (ahora parte de SPSS), que lanzara en 1994 Clementine (software para minería de datos) NCR creador de Teradata (software para bodega de datos) NCR creador de Teradata (software para bodega de datos) Independiente de la herramientas de minería de datos utilizados Independiente de la herramientas de minería de datos utilizados Guía CRISP-DM Versión 1.0 (http://www.crisp- dm.org/CRISPWP-0800.pdf) Guía CRISP-DM Versión 1.0 (http://www.crisp- dm.org/CRISPWP-0800.pdf)http://www.crisp- dm.org/CRISPWP-0800.pdfhttp://www.crisp- dm.org/CRISPWP-0800.pdf

16 Dr. Francisco J. Mata16 Divisiones de CRISP-DM

17 Dr. Francisco J. Mata17 Fases de CRISP-DM

18 Dr. Francisco J. Mata18 Fases de CRISP-DM Entendimiento del negocio Entendimiento del negocio Comprender los objetivos y requerimientos del proyecto desde la perspectiva del negocio Comprender los objetivos y requerimientos del proyecto desde la perspectiva del negocio Este conocimiento es luego convertido en la definición de un problema de minería de datos y un plan preliminar es desarrollado para alcanzar estos objetivos Este conocimiento es luego convertido en la definición de un problema de minería de datos y un plan preliminar es desarrollado para alcanzar estos objetivos

19 Dr. Francisco J. Mata19 Fases de CRISP-DM Entendimiento de los datos Entendimiento de los datos Recolección inicial de datos Recolección inicial de datos Continúa con actividades para Continúa con actividades para Familiarizarse con los datos Familiarizarse con los datos Identificar problemas con la calidad de los datos Identificar problemas con la calidad de los datos Descubrir percepciones de su naturaleza interna o detectar subconjuntos interesantes para formar hipótesis Descubrir percepciones de su naturaleza interna o detectar subconjuntos interesantes para formar hipótesis

20 Dr. Francisco J. Mata20 Fases de CRISP-DM Preparación de datos Preparación de datos Actividades para construir el conjunto de datos final, el cual será utilizado como entrada a las herramientas de modelaje Actividades para construir el conjunto de datos final, el cual será utilizado como entrada a las herramientas de modelaje Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecido Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecido Incluyen extracción, transformación y carga (ETL) Incluyen extracción, transformación y carga (ETL)

21 Dr. Francisco J. Mata21 Fases de CRISP-DM Modelado Modelado Varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros calibrados a valores óptimos Varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros calibrados a valores óptimos Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problema Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problema Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datos Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datos

22 Fases de CRISP-DM Modelado Dr. Francisco J. Mata22

23 Dr. Francisco J. Mata23 Fases de CRISP-DM Evaluación Evaluación Determina si el modelo construido satisface los objetivos del negocio Determina si el modelo construido satisface los objetivos del negocio ¿Existen aspectos del negocio que no hayan sido considerados suficientemente? Evaluar resultados Resultados=Modelos+Descrubimientos

24 Dr. Francisco J. Mata24 Fases de CRISP-DM Aplicación del modelo o sus resultados Aplicación del modelo o sus resultados Tan simple como generar un reporte o tan complejo como implementar un proceso continuo de minería de datos a través de la empresa Tan simple como generar un reporte o tan complejo como implementar un proceso continuo de minería de datos a través de la empresa

25 Dr. Francisco J. Mata25 Tareas genéricas

26 Dr. Francisco J. Mata26 Tareas genéricas y salidas para entender el negocio

27 Dr. Francisco J. Mata27 Tareas genéricas y salidas para entender los datos

28 Dr. Francisco J. Mata28 Tareas genéricas y salidas para preparación de datos

29 Dr. Francisco J. Mata29 Tareas genéricas y salidas para modelado

30 Dr. Francisco J. Mata30 Tareas genéricas y salidas para evaluación

31 Dr. Francisco J. Mata31 Tareas genéricas y salidas para aplicación del modelo o sus resultados

32 Dr. Francisco J. Mata32 Fases, tareas, salidas, actividades Guía del usuario para CRISP-DM (página 35) Guía del usuario para CRISP-DM (página 35)

33 Metodología de Berry y Linoff Dr. Francisco J. Mata33

34 Metodología SEMMA Desarrollada por SAS Desarrollada por SAS Sample: Muestreo Sample: Muestreo Explore: Exploración Explore: Exploración Modify: Modificar Modify: Modificar Model: Modelaje Model: Modelaje Assess: Evaluar Assess: Evaluar Apoyada por el Enterprise Data Miner Apoyada por el Enterprise Data Miner Dr. Francisco J. Mata34

35 Comparación metodologías Dr. Francisco J. Mata35 Entendimiento del negocio Entendimiento de los datos Preparación de datos Modelaje Evaluación (objetivos del negocio) Puesta en operación Traducir probl. negocio en probl. minería Seleccionar datos Arreglar problema datos Transformar datos Puesta en operación Evaluar resultados Construir modelo Evaluar modelo Muestro Exploración Modelaje Evaluación Modificación Berry y Linoff CRISP SEMMA


Descargar ppt "Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4."

Presentaciones similares


Anuncios Google