La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de.

Presentaciones similares


Presentación del tema: "Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de."— Transcripción de la presentación:

1 Data Mining Hugo M. Castro

2 Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de los datos y descubrir relaciones entre variables

3 Data Mining Trabajo conjunto Negocios Especialista Problema puntual Datos al nivel más detallado No un solo enfoque No una sola solución

4 Data Mining Dos tipos de modelos Predictivos Clasificación Regresión Descriptivos Asociación Segmentación

5 Data Mining Modelos Predictivos Clasificación Predice un valor discreto Sí / No Alto / Mediano / Bajo Regresión Predice un valor continuo Importes Cantidades

6 Data Mining Modelos Descriptivos Asociación Análisis de Canasta Soporte Confianza Segmentación

7 Modelos de Data Mining Entrenamiento Supervisado No supervisado Prueba Evaluación

8 Modelos de Data Mining PRUEBA De los casos históricos disponibles se destina una cierta cantidad para entrenar el modelo y se reserva una porción de ellos para probar el modelo Se presentan los casos como si fueran nuevos y se coteja la respuesta del modelo con los valores reales

9 Modelos de Data Mining Matriz de confusión Sí No Sí No Predicción Real Cantidad de casos

10 Matriz de confusión Sobre un total de 900 casos el modelo predijo 455 como sí y en realidad era sí 384 como no y en realidad era no 839 predicciones correctas (93,2%) El resto (6,8%) los predijo en forma incorrecta PRECISION

11 Modelos predictivos Los atributos (variables) son columnas de la tabla Variables de entrada (atributos descriptivos) Variable objetivo (atributo objetivo) El entrenamiento tiene por objeto descubrir las relaciones entre las variables de entrada y la variable objetivo En producción usa ese conocimiento para predecir el valor de la variable objetivo

12 Modelos predictivos Pautas para la evaluación Precisión No hay un algoritmo que sea siempre más preciso que otro u otros Interpretabilidad Facilidad para interpretar los resultados Velocidad Entrenamiento Producción

13 Modelos de clasificación Predicen el valor de un atributo con una cantidad finita de valores posibles Bayes Redes Neuronales K-vecinos (CBR) Árboles de decisión

14 Bayes Construcción y entrenamiento De los 10 casos hay 6 con calificación B y 4 con calificación M. Sin saber nada más, la probabilidad a priori de que la calificación sea B es 0,6 y de que sea M es 0,4 La información sobre Nivel de Ingresos, Nivel de Deudas y si es casado o no apunta a calcular la probabilidad a posteriori de que sea calificado B o M.

15 Bayes Nivel de Ingresos De los que tienen Nivel de Ingresos A hay 3 B y 0 M. De los que tienen Nivel de Ingresos M hay 2 B y 1 M. De los que tienen Nivel de Ingresos B hay 1 B y 3 M.

16 Bayes De los 6 B hay 3 que tienen Nivel del Ingresos A. Luego P(B/Ingresos A) = 3/6 = 0.5 De los 6 B hay 2 que tienen Nivel del Ingresos M. Luego P(B/Ingresos M) = 2/6 = 0.33 De los 6 B hay 1 que tiene Nivel del Ingresos B. Luego P(B/Ingresos B) = 1/6 = 0.17

17 Bayes De la misma manera P(M/Ingresos A) = 0 P(M/Ingresos M) = 0.25 P(M/Ingresos B) = 0.75

18 Bayes Nivel de Deudas De los que tienen Nivel de Deudas A hay 1 B y 3 M. De los que tienen Nivel de Deudas M hay 3 B y 0 M. De los que tienen Nivel de Deudas B hay 2 B y 1 M.

19 Bayes Calculamos las probabilidades de la misma forma que en el caso anterior P(B/Deudas A) = 0.17 P(B/Deudas M) = 0.50 P(B/Deudas B) = 0.33 P(M/Deudas A) = 0.75 P(M/Deudas M) = 0 P(M/Deudas B) = 0.25

20 Bayes Casado De los que tienen Casado sí hay 4 B y 1 M De los que tienen Casado no hay 2 B y 3 M Con lo que P(B/Casado sí) = 0.67 P(B/Casado no) = 0.33 P(M(Casado sí) = 0.25 P(M/Casado no) = 0.75

21 Bayes FrecuenciasProbabilidades condicionales BuenoMaloBuenoMalo 640,600,40 Nivel de ingresos Alto 300,500 Mediano 210,330,25 Bajo 130,170,75

22 Bayes FrecuenciasProbabilidades condicionales BuenoMaloBuenoMalo 640,600,40 Nivel de Deudas Alto 130,170,75 Mediano 300,500 Bajo 210,330,25 CasadoSí 410,670,25 No 230,330,75

23 Bayes PRODUCCION Tomás tiene Nivel de Ingresos A Nivel de Deudas B Casado no

24 Bayes La probabilidad a posteriori de que Tomás tenga una calificación B sale del producto de P(B) = 0.6 P(B/Ingresos A) = 0.5 P(B/Deudas B) = 0.33 P(B/Casado no) = 0.33 Esta probabilidad resulta 0.6 x 0.5 x 0.33 x 0.33 =

25 Bayes La probabilidad a posteriori de que Tomás tenga una calificación M sale del producto de P(M) = 0.4 P(M/Ingresos A) = 0 P(M/Deudas B) = 0.25 P(M/Casado no) = 0.75 Esta probabilidad resulta 0.4 x 0 x 0.25 x 0.75 = 0

26 Bayes Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que El modelo predice queTomás va a tener calificación B

27 Bayes Por su parte Lucía tiene Nivel de Ingresos M Nivel de Deudas B Casado sí

28 Bayes En base a estos datos, Lucía tiene probabilidad de calificación B igual a 0,6 x 0,33 x 0,33 x 0,67 = 0,04378 probabilidad de calificación M igual a 0,4 x 0,25 x 0,25 x 0,25 = 0,00625

29 Bayes Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que El modelo predice queLucía va a tener calificación B

30 Bayes A su vez Horacio tiene Nivel de Ingresos B Nivel de Deudas A Casado sí

31 Bayes En base a estos datos, Horacio tiene probabilidad de calificación B igual a 0,6 x 0,17 x 0,17 x 0,67 = 0,0116 probabilidad de calificación M igual a 0,4 x 0,75 x 0,75 x 0,25 = 0,0562

32 Bayes Como la probabilidad de tener calificación M es mayor que la de tener B, resulta que El modelo predice que Horacio va a tener calificación M

33 Redes Neuronales NODO W FACTOR DE PONDERACION CONEXION COMPONENTES

34 Redes Neuronales w1w1 w2w2 w3w3 ENTRADAS v SALIDA NODO Puede ser más de una, pero todas tienen el mismo valor X1X1 x2x2 x3x3

35 Redes neuronales Estructura Nodos Conexiones Factores de ponderación

36 Perceptrón de tres capas Aprendizaje supervisado Se presentan los casos de entrenamiento con sus respuestas Errores Cambios en los factores de ponderación Prueba

37 Perceptrón de tres capas Entrada Intermedia Salida w kj w ji Datos de entrada Respuesta Respuesta deseada Corrección de factores de ponderación

38 K-vecinos También llamada CBR Razonamiento basado en casos Resuelve un problema tomando en cuenta casos parecidos Función de vecindad o de distancia Función de combinación

39 K-vecinos El modelo de los K-vecinos no tiene fase de entrenamiento Entra directamente en la fase de producción K indica la cantidad de casos parecidos (vecinos) que se van a considerar En este caso vamos a tomar K = 3

40 K-vecinos Función de vecindad para nivel de ingresos y nivel de deudas 0 si son iguales 1 si uno tiene A y el otro M 1 si uno tiene M y el otro B 2 si uno tiene A y el otro B para casado 0 si son iguales 1 si son distintos

41 K-vecinos Función de vecindad Para cada caso a resolver se confronta con todos los casos testigo Se suman los 3 valores Se eligen los 3 (K) casos testigo que tienen el menor valor de esta función

42 TomásLucíaHoracio Jorge = = = 2 Carlos = = = 2 Andrea = = = 4 Débora = = = 4 Sergio = = = 1 Vanesa = = = 1 Mario = = = 0 Gala = = = 3 Paola = = = 4 Román = = = 2

43 K-Vecinos Tomás tiene como vecinos a Andrea (1), Débora (1), Paola (1) Lucía tiene a Débora (1), Paola (1), Román (1) Y Horacio a Sergio (1), Vanesa (1), Mario (0)

44 K-Vecinos Función de combinación Vamos a tomar como valor de la predicción sobre la calificación aquella que corresponda a la mayoría de los vecinos. Ejemplos Vecinos: B B M - Predicción: B Vecinos: M B M - Predicción: M

45 K-Vecinos PREDICCIONES Andrea B, Débora B, Paola B Predicción para Tomás: B Débora B, Paola B, Román B Predicción para Lucía: B Sergio M, Vanesa B, Mario M Predicción para Horacio: M

46 Árboles de decisión ID3 Elección de los mejores separadores Entropía Mide la incertidumbre sobre un suceso Entropía (S) = Σ i –p i log 2 p i

47 Arbol de decisión Niv. ingresos Niv. deuda Casado Niv. deuda A M B A M B Sí No A M B B M M B MB B M

48 Arbol de decisión Niv. ingresos Niv. deuda Casado Niv. deuda A M B A M B Sí No A M B B M M B MB B M Tomás B Lucía B Horacio M

49 Modelos de regresión El más difundido es una versión del modelo de los k-vecinos Función de vecindad Equilibrio Función de combinación Mayor peso de los más cercanos

50 Los compradores Función de vecindad Debe ser un coeficiente que sea mayor cuando el caso es más cercano Deben influir en él en forma pareja los valores de las variables de entrada (sexo y edad) Tomamos como vecinos a los cinco casos

51 Los compradores Función de vecindad Para la edad abs (edad del caso – edad testigo) / rango máximo de edades Ejemplo: para Natalia |45 – 33| / 25 = 0,48 Para el sexo: 0 si son iguales 1 si son distintos

52 Los compradores FUNCIÓN DE COMBINACIÓN El valor que vamos a adjudicar a la predicción del monto de la compra de María es la suma de los montos de compra de los casos testigo ponderada por el coeficiente obtenido

53 Los compradores EdadSexoTotal2 - TotalNorm.CompraAporte Carla0,720 1,280, ,6 Fernando0,2411,240,760, ,6 Alberto0,2811,280,720, ,0 Natalia0,480 1,520, ,0 Oscar01110, ,0 TOTALES 5,281,00461,2

54 Los compradores La predicción de la compra de María es 461,2 En números redondos 460

55 Pautas de evaluación Precisión Proporción de aciertos en la matriz de confusión No hay un algoritmo que siempre sea más preciso que otros Interpretabilidad Velocidad Entrenamiento producción

56 Modelos descriptivos No realizan predicciones Analizan otros aspectos de los datos Asociación Segmentación

57 Modelo de asociación Análisis de canasta ¿La venta de Cordon Bleu incide sobre la venta de papas fritas? Búsqueda sistemática Umbral de soporte Umbral de confianza

58 Análisis de Canasta con un Modelo de Asociación Caso 1: Dos productos Cantidad total de tickets: Cantidad de tickets que contienen cerveza: Cantidad de tickets que contienen pañales: Cantidad de tickets que contienen pañales y cerveza:

59 Soporte y confianza Valores clave Soporte (p+c) =10.000/ = 0,02. Esto significa que el 2% de todos los clientes compra pañales y cerveza Confianza (p c) = (p+c)/p = / = 0,50. O sea que el 50% de los que compran pañales compran cerveza Confianza (c p) = (p+c)/c = / = 0,33. O sea que el 33% de los que compran cerveza compran pañales

60 Confianza esperada y Empuje (lift) Confianza esperada (c) = 30000/ = 0,06 = 6% Empuje (lift) de los pañales sobre la cerveza E(p c) = confianza (p c) / confianza esperada ( c ) Vemos que el empuje de los pañales sobre la cerveza es 50/6 = 8,33 Esto significa que los clientes que compran pañales compran 8.33 más cerveza que el común de los clientes.

61 El soporte depende sólo de los productos que se combinan. La confianza y la confianza esperada dependen del sentido de la influencia.

62 Reglas de asociación : pañales y cerveza Si compra pañales entonces compra cerveza con un soporte del 2%, una confianza esperada del 6% una confianza del 50% y un empuje del 8,33%

63 Reglas de asociación : cerveza y pañales Si compra cerveza entonces compra pañales con un soporte del 2%, una confianza esperada del 4% una confianza del 33% y un empuje del 8,33%

64 Conclusiones El soporte y el empuje en ambas reglas es el mismo La confianza y la confianza esperada son diferentes. Si se fija el umbral de confianza en el 50% no aparece la segunda regla. DEPENDE de cuál es el antecedente y cuál el consecuente en la regla (sentido de la influencia)

65 Modelos de segmentación Mapas auto-organizados de Kohonen Entrenamiento no supervisado Dos capas Entrada Salida Centroides (RBF) Mecanismo de entrenamiento

66 Mapas de Kohonen El propósito de los Mapas de Kohonen es separar los registros de datos de entrada en una cierta cantidad de categorías Los registros de cada categoría tienen características similares y distintas de los de las otras categorías Segmentación

67 Mapas de Kohonen Salida Entrada

68 Mapas de Kohonen Dos capas de nodos Entrada: un nodo por cada dato Salida: un nodo por cada categoría Los nodos de la capa de salida están conectados entre sí La suma de los w que llegan a cada nodo de salida es constante

69 Mapas de Kohonen El entrenamiento es no supervisado Se presenta un registro a la capa de entrada Cada uno se los nodos de la capa de salida recibe impulsos de los de los de la capa de entrada Cada nodo de salida produce una salida

70 Mapas de Kohonen Salida Entrada El nodo 3 es el que produce la salida mayor

71 Mapas de Kohonen Por haber sido el ganador, el nodo 3 adquiere el derecho a aprender Para ello va a aumentar los w que corresponden a entradas no nulas Como la suma de los w que llegan al nodo 3 es constante debe disminuir los w que corresponden a los ceros

72 Mapas de Kohonen Si se presenta un registro de entrada parecido al anterior, es muy posible que el ganador sea el mismo nodo 3. Por eso los registros semejantes van a parar a la misma categoría Una vez entrenado, el mapa de Kohonen se puede usar para categorizar nuevos registros

73 Redes de Función de Base Radial Sirven para segmentación de grandes cantidades de registros Se basan en la definición de centroides Centros de gravedad en espacios de muchas dimensiones Cada centroide agrupa casos similares

74 Centroides Se definen tantos centroides como categorías En el caso del banco se definen 3 centroides Arbitrariamente se toman los tres primeros casos como centroides

75 Cantidad de servicios Antigüedad

76 Centroides Calculamos la distancia de cada caso a cada uno de los centroides La distancia se calcula como D = x 2 + y 2 Adjudicamos cada caso al centroide más próximo Atención al caso 12

77 Centroides CasoAntig.Serv.A (3,3) B (4,5) C (5,2) Grupo A B C A A A A B

78 Centroides CasoAntig.Serv.A (3,3) B (4,5) C (5,2) Grup o C B B C C B B

79 Centroides Al grupo A pertenecen los casos 1 (3;3) 4 (1;5) 5 (1;2) 6 (2;1) 7 (2;4) Su centro de gravedad (promedio de coordenadas) es A ( 1,8 ; 3)

80 Centroides De la misma manera, el centro de gravedad del grupo B es B (5,3 ; 5,3) Y el centro de gravedad del grupo C es C (5,5 ; 2,2)

81 Centroides Ahora volvemos a efectuar los cálculos de distancias con los nuevos centroides A, B y C. Como antes, se asigna cada caso al grupo cuyo centroide está más próximo Para el caso 12 las distancias con B: 2,18 C: 3,49 Con lo que el caso 12 pasa al grupo B El proceso termina cuando de un paso a otro ya no hay cambios

82 Cantidad de servicios Antigüedad A B C

83 Centroides Hemos separado los clientes en tres grupos: A: Clientes nuevos con un buen potencial de aceptación de productos B: Clientes antiguos buenos compradores de servicios C: Clientes antiguos que no se engancharon con el banco Campañas de marketing diferenciadas

84 El proceso de Data Mining Se define el problema Hay que entender el negocio Hay que entender los datos Se construye la base de datos para Data Mining Recolección Selección Depuración Carga Actualización

85 El proceso de Data Mining Se exploran los datos Distribución Relación Influencia Se preparan los datos Se eligen variables Se eligen las filas Se crean nuevas variables Se transforman las variables

86 El proceso de Data Mining Se construye el modelo Se entrena y ejecuta el modelo Datos para entrenamiento Datos para prueba Se prueba el modelo Se evalúan los resultados Se rehacen corridas si es necesario Se guardan los resultados

87 El análisis de riesgos préstamos con problemas ¿Cuáles? Calificación del préstamo Sin problemas Sub stándard Perdido No clasificado Nodisponible

88 El análisis de riesgos Muestra: casos Entrenamiento: Prueba: Valor de la cuota U$s 0 – u$s Categorización 5 franjas de u$s

89 Datos relevantes El préstamo Tipo de préstamo Monto Cuota Plazo El propósito Tipo de propiedad Destino

90 Datos relevantes El tomador Edad Estado civil Nivel de ingresos La región Estado Zona Minorías

91 Primer modelo Categorización errónea Montos pequeños tienden a tener más problemas 80% de las cuotas no llegan a u$s % de los préstamos cae en la primera franja

92 Nueva categorización Cinco categorías con 1/5 de los casos en cada una Precisión Acierto en el 67% de los casos Acierto en el 76 % de los casos sin problemas y perdidos Es demasiado bueno (!)

93 ¿Por qué? Un atributo descriptivo que están usando es el monto de la deuda Esto permite predecir bisn casos sub standard o perdidos Pero en realidad ese monto es alto porque ya tiene problemas Se elimina

94 Cambios Se elimina el monto de la deuda como atributo descriptivo La precisión se reduce a 46% en general 37% de los casos perdidos

95 Nuevo modelo Se eliminan las categorías No clasificado No disponible Menos del 1% del total Se unifican Sub standard Perdidos Casos con problemas

96 Nuevo modelo Quedan dos categorías OK (sin problemas) No OK (con problemas) La precisión en la predicción es 82% en general 20% de casos con problemas

97 Arboles de decisión Usando un modelo de árboles de decisión se llega a una precisión 85% en general 23% en préstamos con problemas ¿Hay algo más para hacer?

98 Hagamos cuentas Hay alrededor de préstamos con problemas por año No detectarlo a tiempo cuesta a USDA u$s cada uno Intervenir en un caso cuesta u$s 500 Se supone que interviniendo a tiempo se evitan problemas en el 30% de los casos

99 Hagamos cuentas Aún con un porcentaje bajo de identificación de casos con problemas USDA ahorra por año u$s 11,9 millones Dado que el 29% de las predicciones No OK eran realmente OK (con lo que se interviene inútilmente) El ahorro es de u$s 9,1 millones

100 Conclusiones No solamente cuenta la precisión No hay que guiarse solamente por la matriz de confusión No necesariamente un nivel bajo de aciertos en la predicción invalida el uso del modelo Hay que tener en cuenta otros factores

101 Data Mining Dónde se puede utilizar Marketing: Segmentación, campañas, rentabilidad, lealtad,... Ventas: Esquemas de comportamiento, hábitos de compra Finanzas: Inversiones, administración de cartera Bancos y Seguros: Aprobación de créditos y pólizas Seguridad: Detección de fraudes Medicina: Análisis de tratamientos Fabricación: control de calidad, adjudicación de recursos Internet: Análisis de clicks (Web mining)

102 Data Mining Trabajo conjunto Problema puntual Modelos predictivos Modelos descriptivos Algoritmos El proceso de Data Mining Áreas de aplicación


Descargar ppt "Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de."

Presentaciones similares


Anuncios Google