La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Presentaciones similares


Presentación del tema: "Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica."— Transcripción de la presentación:

1 Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica

2 Minería de datos Dr. Francisco J. Mata 2 Árboles de decisión Conjunto de reglas representadas en forma de una estructura de árbol

3 Minería de datos Dr. Francisco J. Mata 3 Árboles de decisión Son muy útiles cuando hay más de una manera para convertirse en miembro de una clase meta Modelo para encontrar tarjeta habientes rentables puede identificar tres tipos de clientes: Tarjeta habientes que mantienen saldos altos Tarjeta habientes que compran mucho Tarjeta habientes que ocasionalmente hacen compras grandes y pagan sus balances a tiempo Cada uno de estos representa un paso diferente a través del árbol.

4 Minería de datos Dr. Francisco J. Mata 4 Árboles de decisión El paso a través del árbol de decisión explica la clasificación Envía hijos a escuela pública

5 Minería de datos Dr. Francisco J. Mata 5 Árboles de decisión Cada hoja contiene información sobre el número de observaciones que caen en ella y la proporción para cada clase La clase más densa se selecciona como la clasificación para el nodo

6 Minería de datos Dr. Francisco J. Mata 6 Árboles de decisión Se utilizan para Asignar scores a los datos Explorar datos Hacer clasificaciones y predicciones Comprender que variables son más importantes

7 Minería de datos Dr. Francisco J. Mata 7 Árboles de decisión y scoring Se puede asignar un score a los datos de acuerdo a la hoja a la que fueron clasificados

8 Minería de datos Dr. Francisco J. Mata 8 Árboles de decisión y scoring

9 Minería de datos Dr. Francisco J. Mata 9 Árboles de decisión y scoring Problemas Usualmente hay muy pocas hojas por lo que hay pocos valores de scoring

10 Minería de datos Dr. Francisco J. Mata 10 Árboles de decisión y exploración Árboles de decisión son útiles para explorar un conjunto de datos y entender cómo ciertas variables (input) inciden sobre otra (target)

11 Minería de datos Dr. Francisco J. Mata 11 Árboles de decisión y exploración Ciudades producto no está bien Ciudades producto está bien Penetración de un producto en ciudades

12 Minería de datos Dr. Francisco J. Mata 12 Árboles de decisión y clasificaciones/predicciones Aplicación más común

13 Minería de datos Dr. Francisco J. Mata 13 Árboles de decisión y clasificaciones/predicciones Predecir clientes que pondrían órdenes si se les envía catálogo de Navidad, basado en aquellos que pusieron órdenes el año pasado

14 Minería de datos Dr. Francisco J. Mata 14 Árboles de decisión y variables más importantes Ayuda a eliminar variables para otros modelos, por ejemplo regresión

15 Minería de datos Dr. Francisco J. Mata 15 Árboles de decisión y variables más importantes

16 Minería de datos Dr. Francisco J. Mata 16 Proceso para crear un árbol de decisión Se utiliza un conjunto de datos de entrenamiento (training) para crear el árbol Se utiliza un conjunto de datos de validación para reducir la complejidad del árbol y generalizarlo (proceso de poda o pruning) Eliminar el problema del overfitting

17 Minería de datos Dr. Francisco J. Mata 17 Proceso para crear un árbol de decisión Tres conjuntos de datos obtenidos de particionar el conjunto de datos original Entrenamiento: 40% Validación: 30% Prueba: 30%

18 Minería de datos Dr. Francisco J. Mata 18 Algoritmos más comunes para árboles de decisión CART (classification and regression trees) C4.5 CHAID (chi square automatic induction) Varían en Medida de pureza utilizada para los grupos Forma de poda

19 Minería de datos Dr. Francisco J. Mata 19 Creación de árboles de decisión Proceso recursivo Se inicia con todos los datos del conjunto de adiestramiento en la raíz Para cada variable input se decide la mejor forma para separar los valores de la variable target Se selecciona la variable input y criterio de mejor separación mediante ésta para los valores de la variable target Se divide el nodo en cuestión en dos o más hijos de acuerdo con aquella variable que mejor divide la variable target Se repite proceso con los otros nodos hasta que no sea posible más divisiones

20 Minería de datos Dr. Francisco J. Mata 20 Divisiones

21 Minería de datos Dr. Francisco J. Mata 21 Divisiones Medida para evaluar la calidad de una división en un árbol de decisión se denomina pureza

22 Minería de datos Dr. Francisco J. Mata 22 Medidas de pureza Depende de la variable target no de las variables input Variable target categórica Gini (diversidad de población) Entropía (ganancia de información) Radio de ganancia de información Prueba chi cuadrado Variable target intervalo o radio Reducción en varianza Prueba F

23 Minería de datos Dr. Francisco J. Mata 23 Pureza Índice de Gini Utilizado en las ciencias sociales y la economía Probabilidad de que dos cosas escogidas al azar de una población sean la misma Una población pura tiene un índice de Gini de 1 Si hay dos grupos igualmente representados en una población el índice de Gini es 0.5 El índice de Gini es la suma de los cuadrados de las proporciones de las poblaciones p p 2 2 El objetivo es maximizar el índice de Gini

24 Minería de datos Dr. Francisco J. Mata 24 Gini

25 Minería de datos Dr. Francisco J. Mata 25 Gini

26 Minería de datos Dr. Francisco J. Mata 26 Gini

27 Minería de datos Dr. Francisco J. Mata 27 Pureza Entropía Utilizada en la teoría de la información para medir la cantidad de información almacenada en un número de bits Una población pura tiene una entropía de 0 Si existen dos grupos igualmente representados la entropía es 1 Cálculo de entropía -(p 1 log p 1 + p 2 log p 2 ) El objetivo es minimizar entropía

28 Minería de datos Dr. Francisco J. Mata 28 Entropía

29 Minería de datos Dr. Francisco J. Mata 29 Entropía

30 Minería de datos Dr. Francisco J. Mata 30 Entropía

31 Minería de datos Dr. Francisco J. Mata 31 Gini versus entropía Entropía tiene preferencia por grupos más pequeños y puros Gini tiene preferencia por grupos similares en tamaño

32 Minería de datos Dr. Francisco J. Mata 32 Pureza Chi cuadrado Prueba importante en estadística para medir la probabilidad de que la frecuencia observada de una muestra sea debida sólo a la variación de la muestra Es relativa a la proporción en la población original (nodo padre) Si las proporciones en los hijos son las mismas que en el padre entonces el valor de chi cuadrado es 0 Si los hijos son puros, el valor de chi cuadrado es alto Para una población dividida 50%-50%, el valor es igual al tamaño de la población

33 Minería de datos Dr. Francisco J. Mata 33 Pureza Chi cuadrado Cálculo para el chi cuadrado para cada hijo: (observado (c1) – esperado (c1)) 2 / esperado (c1) + (observado (c2) –esperado (c2)) 2 / esperado (c2) c i número de instancias de clase i en el hijo obsevado (c i ): número de instancias observadas de clase i en el hijo esperado (c i ): número de instancias esperadas de clase i en el hijo tamaño del hijo multiplicado por la proporción de la clase en el padre El objetivo es maximizar chi cuadrado

34 Minería de datos Dr. Francisco J. Mata 34 Chi cuadrado

35 Minería de datos Dr. Francisco J. Mata 35 Chi cuadrado Coinciden en este caso

36 Minería de datos Dr. Francisco J. Mata 36 Algoritmos y pureza CART: Gini C4.5: entropía CHAID: chi cuadrado

37 Minería de datos Dr. Francisco J. Mata 37 Valores perdidos Tratamiento Ignorar registros con valores perdidos (puede introducir sesgo) Tratar los valores perdidos como legítimos y asignarlos a un nodo del árbol

38 Minería de datos Dr. Francisco J. Mata 38 Error en un árbol de decisión Para una hoja: 1-probabilidad de clase dominante para la hoja Para un árbol: Suma ponderada de error de hoja i multiplicada por probabilidad de que un registro pertenezca a esta hoja

39 Minería de datos Dr. Francisco J. Mata 39 Poda de árboles de decisión Incrementa la estabilidad del modelo al reducir su complejidad

40 Minería de datos Dr. Francisco J. Mata 40 Poda

41 Minería de datos Dr. Francisco J. Mata 41 Poda Con el conjunto de entrenamiento, cada división del árbol reduce el error Pero al aumentar el número de hojas, éstas contienen menos registros o tuples y se reduce la posibilidad de que la distribución de resultados en una hoja sea similar de un conjunto de datos a otros (overfitting) Los datos de prueba son utilizados para encontrar el punto donde la complejidad adicional empieza a dañar en lugar de ayudar

42 Minería de datos Dr. Francisco J. Mata 42 Poda

43 Minería de datos Dr. Francisco J. Mata 43 Algoritmo típico de poda Identificar sub-árboles candidatos para poda Tasa de error ajustada: AE(T) = E(T) + α leaf_count (T) Se inicia considerando todos los subárboles que contienen la raíz α se incrementa Si AE(T i ) <= E(T completo), T i es un árbol candidato para conservar y aquellas ramas que no pertenecen a él son podadas El proceso se repite de nuevo para los subárboles en T i

44 Minería de datos Dr. Francisco J. Mata 44 Poda Varía de acuerdo con los diferentes algoritmos CART C4.5 CHAID

45 Resultados clasificación Minería de datos Dr. Francisco J. Mata 45

46 Resultados clasificación Minería de datos Dr. Francisco J. Mata 46 Error clasificar solicitud como buena siendo mala: 140/453= 31% Error clasificar solicitud como mala siendo buena: 122/1931= 6% Error de mala clasificación: ( )/2384=11%

47 Resultados clasificación Clasificado 1Clasificado 0 Realmente 1Verdadero positivoFalso negativo Realmente 0Falso positivoVerdadero negativo Minería de datos Dr. Francisco J. Mata 47

48 Resultados clasificación Minería de datos Dr. Francisco J. Mata 48

49 Resultados de clasificación Minería de datos Dr. Francisco J. Mata 49 Variable Adiestramiento Validación respuesta 1=malo 0=bueno

50 Resultado clasificación Regla: IF <= VALUE AND DEBTINC < THEN NODE : 5 N : 12 1 : 83.3% 0 : 16.7% Interpretación: Minería de datos Dr. Francisco J. Mata 50

51 Minería de datos Dr. Francisco J. Mata 51 Ventajas de los árboles de decisiones Fácil de entender Resultados se adaptan bien a reglas de negocios No se requieren suposiciones acerca de los datos Variables input pueden ser continuas y categóricas

52 Minería de datos Dr. Francisco J. Mata 52 Desventajas de los árboles de decisiones Algunos algoritmos sólo pueden tratar variables target binarias Otros algoritmos pueden tratar variables target con más de dos valores pero no funcionan bien cuando el número de casos de entrenamiento es pequeño por clase Son costosos en términos computacionales


Descargar ppt "Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica."

Presentaciones similares


Anuncios Google