La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Data Mining Hugo M. Castro.

Presentaciones similares


Presentación del tema: "Data Mining Hugo M. Castro."— Transcripción de la presentación:

1 Data Mining Hugo M. Castro

2 Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de los datos y descubrir relaciones entre variables El proceso de DM esta fuertemente asociado con la tecnologia de DWH.

3 Data Mining Trabajo conjunto Problema puntual
Negocios Especialista Problema puntual Datos al nivel más detallado No un solo enfoque No una sola solución

4 Data Mining Dos tipos de modelos Predictivos Descriptivos
Clasificación Regresión Descriptivos Asociación Segmentación

5 Data Mining Modelos Predictivos Clasificación Regresión
Predice un valor discreto Sí / No Alto / Mediano / Bajo Regresión Predice un valor continuo Importes Cantidades

6 Data Mining Modelos Descriptivos Asociación Segmentación
Análisis de Canasta Soporte Confianza Segmentación

7 Modelos de Data Mining Entrenamiento Prueba Evaluación Supervisado
No supervisado Prueba Evaluación

8 Modelos de Data Mining PRUEBA
De los casos históricos disponibles se destina una cierta cantidad para entrenar el modelo y se reserva una porción de ellos para probar el modelo Se presentan los casos como si fueran nuevos y se coteja la respuesta del modelo con los valores reales

9 Modelos de Data Mining Matriz de confusión Predicción No Sí Sí 455 29
Cantidad de casos Predicción No 455 29 Real No 32 384

10 Matriz de confusión Sobre un total de 900 casos el modelo predijo
455 como sí y en realidad era sí 384 como no y en realidad era no 839 predicciones correctas (93,2%) El resto (6,8%) los predijo en forma incorrecta PRECISION

11 Modelos predictivos Los atributos (variables) son columnas de la tabla
Variables de entrada (atributos descriptivos) Variable objetivo (atributo objetivo) El entrenamiento tiene por objeto descubrir las relaciones entre las variables de entrada y la variable objetivo En producción usa ese conocimiento para predecir el valor de la variable objetivo

12 Modelos predictivos Pautas para la evaluación Precisión
No hay un algoritmo que sea siempre más preciso que otro u otros Interpretabilidad Facilidad para interpretar los resultados Velocidad Entrenamiento Producción

13 Modelos de clasificación
Predicen el valor de un atributo con una cantidad finita de valores posibles Bayes Redes Neuronales K-vecinos (CBR) Árboles de decisión

14 Bayes Construcción y entrenamiento
De los 10 casos hay 6 con calificación B y 4 con calificación M. Sin saber nada más, la probabilidad a priori de que la calificación sea B es 0,6 y de que sea M es 0,4 La información sobre Nivel de Ingresos, Nivel de Deudas y si es casado o no apunta a calcular la probabilidad a posteriori de que sea calificado B o M.

15 Bayes Nivel de Ingresos
De los que tienen Nivel de Ingresos A hay 3 B y 0 M. De los que tienen Nivel de Ingresos M hay 2 B y 1 M. De los que tienen Nivel de Ingresos B hay 1 B y 3 M.

16 Bayes De los 6 B hay 3 que tienen Nivel del Ingresos A. Luego P(B/Ingresos A) = 3/6 = 0.5 De los 6 B hay 2 que tienen Nivel del Ingresos M. Luego P(B/Ingresos M) = 2/6 = 0.33 De los 6 B hay 1 que tiene Nivel del Ingresos B. Luego P(B/Ingresos B) = 1/6 = 0.17

17 Bayes De la misma manera P(M/Ingresos A) = 0 P(M/Ingresos M) = 0.25
P(M/Ingresos B) = 0.75

18 Bayes Nivel de Deudas De los que tienen Nivel de Deudas A hay 1 B y 3 M. De los que tienen Nivel de Deudas M hay 3 B y 0 M. De los que tienen Nivel de Deudas B hay 2 B y 1 M.

19 Bayes Calculamos las probabilidades de la misma forma que en el caso anterior P(B/Deudas A) = 0.17 P(B/Deudas M) = 0.50 P(B/Deudas B) = 0.33 P(M/Deudas A) = 0.75 P(M/Deudas M) = 0 P(M/Deudas B) = 0.25

20 Bayes Casado De los que tienen Casado sí hay 4 B y 1 M
De los que tienen Casado no hay 2 B y 3 M Con lo que  P(B/Casado sí) = 0.67 P(B/Casado no) = 0.33 P(M(Casado sí) = 0.25 P(M/Casado no) = 0.75

21 Probabilidades condicionales
Bayes Frecuencias Probabilidades condicionales Bueno Malo 6 4 0,60 0,40 Nivel de ingresos Alto 3 0,50 Mediano 2 1 0,33 0,25 Bajo 0,17 0,75

22 Probabilidades condicionales
Bayes Frecuencias Probabilidades condicionales Bueno Malo 6 4 0,60 0,40 Nivel de Deudas Alto 1 3 0,17 0,75 Mediano 0,50 Bajo 2 0,33 0,25 Casado 0,67 No

23 Bayes PRODUCCION Tomás tiene Nivel de Ingresos A Nivel de Deudas B
Casado no

24 Bayes La probabilidad a posteriori de que Tomás tenga una calificación B sale del producto de P(B) = 0.6 P(B/Ingresos A) = 0.5 P(B/Deudas B) = 0.33 P(B/Casado no) = 0.33 Esta probabilidad resulta 0.6 x 0.5 x 0.33 x 0.33 =

25 Bayes La probabilidad a posteriori de que Tomás tenga una calificación M sale del producto de P(M) = 0.4 P(M/Ingresos A) = 0 P(M/Deudas B) = 0.25 P(M/Casado no) = 0.75 Esta probabilidad resulta 0.4 x 0 x 0.25 x 0.75 = 0

26 Bayes Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que El modelo predice queTomás va a tener calificación B

27 Bayes Por su parte Lucía tiene Nivel de Ingresos M Nivel de Deudas B
Casado sí

28 Bayes En base a estos datos, Lucía tiene
probabilidad de calificación B igual a 0,6 x 0,33 x 0,33 x 0,67 = 0,04378 probabilidad de calificación M igual a 0,4 x 0,25 x 0,25 x 0,25 = 0,00625

29 Bayes Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que El modelo predice queLucía va a tener calificación B

30 Bayes A su vez Horacio tiene Nivel de Ingresos B Nivel de Deudas A
Casado sí

31 Bayes En base a estos datos, Horacio tiene
probabilidad de calificación B igual a 0,6 x 0,17 x 0,17 x 0,67 = 0,0116 probabilidad de calificación M igual a 0,4 x 0,75 x 0,75 x 0,25 = 0,0562

32 Bayes Como la probabilidad de tener calificación M es mayor que la de tener B, resulta que El modelo predice que Horacio va a tener calificación M

33 Redes Neuronales COMPONENTES CONEXION NODO W FACTOR DE PONDERACION

34 Redes Neuronales NODO w1 w2 w3 X1 ENTRADAS x2 v
Puede ser más de una, pero todas tienen el mismo valor w3 SALIDA x3

35 Redes neuronales Estructura Nodos Conexiones Factores de ponderación

36 Perceptrón de tres capas
Aprendizaje supervisado Se presentan los casos de entrenamiento con sus respuestas Errores Cambios en los factores de ponderación Prueba

37 Perceptrón de tres capas
wji wkj Datos de entrada Respuesta deseada Respuesta Corrección de factores de ponderación Entrada Salida Intermedia

38 K-vecinos También llamada CBR Razonamiento basado en casos
Resuelve un problema tomando en cuenta casos parecidos Función de vecindad o de distancia Función de combinación

39 K-vecinos El modelo de los K-vecinos no tiene fase de entrenamiento
Entra directamente en la fase de producción K indica la cantidad de casos parecidos (vecinos) que se van a considerar En este caso vamos a tomar K = 3

40 K-vecinos Función de vecindad para nivel de ingresos y nivel de deudas
0 si son iguales 1 si uno tiene A y el otro M 1 si uno tiene M y el otro B 2 si uno tiene A y el otro B para casado 1 si son distintos

41 K-vecinos Función de vecindad Para cada caso a resolver se confronta con todos los casos testigo Se suman los 3 valores Se eligen los 3 (K) casos testigo que tienen el menor valor de esta función

42 Tomás Lucía Horacio Jorge Carlos Andrea Débora Sergio Vanesa Mario
= 3 1 2 0 = 3 2 0 0 = 2 Carlos = 3 0 2 1 = 3 1 0 1 = 2 Andrea 0 1 0 = 1 1 1 1 = 3 2 1 1 = 4 Débora 1 0 0 = 1 0 0 1 = 1 1 2 1 = 4 Sergio 2 2 0 = 4 Vanesa 1 1 0 = 2 Mario 2 2 1 = 5 0 0 0 = 0 Gala Paola Román

43 K-Vecinos Tomás tiene como vecinos a Andrea (1), Débora (1), Paola (1)
Lucía tiene a Débora (1), Paola (1), Román (1) Y Horacio a Sergio (1), Vanesa (1), Mario (0)

44 K-Vecinos Función de combinación
Vamos a tomar como valor de la predicción sobre la calificación aquella que corresponda a la mayoría de los vecinos. Ejemplos Vecinos: B B M - Predicción: B Vecinos: M B M - Predicción: M

45 K-Vecinos PREDICCIONES Andrea B, Débora B, Paola B
Predicción para Tomás: B Débora B, Paola B, Román B Predicción para Lucía: B Sergio M, Vanesa B, Mario M Predicción para Horacio: M

46 Árboles de decisión ID3 Elección de los mejores separadores Entropía
Mide la incertidumbre sobre un suceso Entropía (S) = Σi –pi log2 pi

47 Arbol de decisión Niv. ingresos B Niv. deuda Casado M B M M Niv. deuda
No M B M M Niv. deuda B M A B M B

48 Arbol de decisión Niv. ingresos B Niv. deuda Casado M B M M Niv. deuda
No M B M M Niv. deuda Tomás B Lucía B Horacio M B M A B M B

49 Modelos de regresión El más difundido es una versión del modelo de los k-vecinos Función de vecindad Equilibrio Función de combinación Mayor peso de los más cercanos

50 Los compradores Función de vecindad
Debe ser un coeficiente que sea mayor cuando el caso es más cercano Deben influir en él en forma pareja los valores de las variables de entrada (sexo y edad) Tomamos como vecinos a los cinco casos

51 Los compradores Función de vecindad Para la edad Para el sexo:
abs (edad del caso – edad testigo) / rango máximo de edades Ejemplo: para Natalia |45 – 33| / 25 = 0,48 Para el sexo: 0 si son iguales 1 si son distintos

52 Los compradores FUNCIÓN DE COMBINACIÓN
El valor que vamos a adjudicar a la predicción del monto de la compra de María es la suma de los montos de compra de los casos testigo ponderada por el coeficiente obtenido

53 Los compradores Edad Sexo Total 2 - Total Norm. Compra Aporte Carla
0,72 1,28 0,24 190 45,6 Fernando 1 1,24 0,76 0,14 640 89,6 Alberto 0,28 750 105,0 Natalia 0,48 1,52 0,29 500 145,0 Oscar 0,19 400 76,0 TOTALES 5,28 1,00 461,2

54 Los compradores La predicción de la compra de María es 461,2
En números redondos 460

55 Pautas de evaluación Precisión Interpretabilidad Velocidad
Proporción de aciertos en la matriz de confusión No hay un algoritmo que siempre sea más preciso que otros Interpretabilidad Velocidad Entrenamiento producción

56 Modelos descriptivos No realizan predicciones
Analizan otros aspectos de los datos Asociación Segmentación

57 Modelo de asociación Análisis de canasta
¿La venta de Cordon Bleu incide sobre la venta de papas fritas? Búsqueda sistemática Umbral de soporte Umbral de confianza

58 Análisis de Canasta con un Modelo de Asociación
Caso 1: Dos productos Cantidad total de tickets: Cantidad de tickets que contienen cerveza: Cantidad de tickets que contienen pañales: Cantidad de tickets que contienen pañales y cerveza:

59 Soporte y confianza Valores clave
Soporte (p+c) =10.000/ = 0,02. Esto significa que el 2% de todos los clientes compra pañales y cerveza Confianza (pc) = (p+c)/p = / = 0,50. O sea que el 50% de los que compran pañales compran cerveza Confianza (cp) = (p+c)/c = / = 0,33. O sea que el 33% de los que compran cerveza compran pañales

60 Confianza esperada y Empuje (lift)
Confianza esperada (c) = 30000/ = 0,06 = 6% Empuje (lift) de los pañales sobre la cerveza E(pc) = confianza (pc) / confianza esperada ( c ) Vemos que el empuje de los pañales sobre la cerveza es 50/6 = 8,33 Esto significa que los clientes que compran pañales compran 8.33 más cerveza que el común de los clientes.

61 El soporte depende sólo de los productos que se combinan
El soporte depende sólo de los productos que se combinan. La confianza y la confianza esperada dependen del sentido de la influencia.

62 Reglas de asociación : pañales y cerveza
Si compra pañales entonces compra cerveza con un soporte del 2%, una confianza esperada del 6% una confianza del 50% y un empuje del 8,33%

63 Reglas de asociación : cerveza y pañales
Si compra cerveza entonces compra pañales con un soporte del 2%, una confianza esperada del 4% una confianza del 33% y un empuje del 8,33%

64 Conclusiones El soporte y el empuje en ambas reglas es el mismo
La confianza y la confianza esperada son diferentes. Si se fija el umbral de confianza en el 50% no aparece la segunda regla. DEPENDE de cuál es el antecedente y cuál el consecuente en la regla (sentido de la influencia)

65 Modelos de segmentación
Mapas auto-organizados de Kohonen Entrenamiento no supervisado Dos capas Entrada Salida Centroides (RBF) Mecanismo de entrenamiento

66 Mapas de Kohonen El propósito de los Mapas de Kohonen es separar los registros de datos de entrada en una cierta cantidad de categorías Los registros de cada categoría tienen características similares y distintas de los de las otras categorías Segmentación

67 Mapas de Kohonen Salida Entrada

68 Mapas de Kohonen Dos capas de nodos Entrada: un nodo por cada dato
Salida: un nodo por cada categoría Los nodos de la capa de salida están conectados entre sí La suma de los w que llegan a cada nodo de salida es constante

69 Mapas de Kohonen El entrenamiento es no supervisado
Se presenta un registro a la capa de entrada Cada uno se los nodos de la capa de salida recibe impulsos de los de los de la capa de entrada Cada nodo de salida produce una salida

70 Mapas de Kohonen El nodo 3 es el que produce la salida mayor Salida
Entrada El nodo 3 es el que produce la salida mayor

71 Mapas de Kohonen Por haber sido el ganador, el nodo 3 adquiere el derecho a aprender Para ello va a aumentar los w que corresponden a entradas no nulas Como la suma de los w que llegan al nodo 3 es constante debe disminuir los w que corresponden a los ceros

72 Mapas de Kohonen Si se presenta un registro de entrada parecido al anterior, es muy posible que el ganador sea el mismo nodo 3. Por eso los registros semejantes van a parar a la misma categoría Una vez entrenado, el mapa de Kohonen se puede usar para categorizar nuevos registros

73 Redes de Función de Base Radial
Sirven para segmentación de grandes cantidades de registros Se basan en la definición de centroides Centros de gravedad en espacios de muchas dimensiones Cada centroide agrupa casos similares

74 Centroides Se definen tantos centroides como categorías
En el caso del banco se definen 3 centroides Arbitrariamente se toman los tres primeros casos como centroides

75 Cantidad de servicios Antigüedad

76 Centroides Calculamos la distancia de cada caso a cada uno de los centroides La distancia se calcula como D = x2 + y2 Adjudicamos cada caso al centroide más próximo Atención al caso 12

77 Centroides Caso Antig. Serv. A (3,3) B (4,5) C (5,2) Grupo 1 3 5 A 2 4
5 A 2 4 10 B C 8 9 25 18 16 6 20 7 13

78 Centroides Caso Antig. Serv. A (3,3) B (4,5) C (5,2) Grupo 9 4 1 5 16
10 B 11 6 13 12 7 17 18 14 8 29 15 25 20

79 Centroides Al grupo A pertenecen los casos
1 (3;3) 4 (1;5) 5 (1;2) 6 (2;1) 7 (2;4) Su centro de gravedad (promedio de coordenadas) es A ( 1,8 ; 3)

80 Centroides De la misma manera, el centro de gravedad del grupo B es
Y el centro de gravedad del grupo C es C (5,5 ; 2,2)

81 Centroides Ahora volvemos a efectuar los cálculos de distancias con los nuevos centroides A, B y C. Como antes, se asigna cada caso al grupo cuyo centroide está más próximo Para el caso 12 las distancias con B: 2,18 C: 3,49 Con lo que el caso 12 pasa al grupo B El proceso termina cuando de un paso a otro ya no hay cambios

82 B Cantidad de servicios A C Antigüedad

83 Centroides Hemos separado los clientes en tres grupos:
A: Clientes nuevos con un buen potencial de aceptación de productos B: Clientes antiguos buenos compradores de servicios C: Clientes antiguos que no se engancharon con el banco Campañas de marketing diferenciadas

84 El proceso de Data Mining
Se define el problema Hay que entender el negocio Hay que entender los datos Se construye la base de datos para Data Mining Recolección Selección Depuración Carga Actualización

85 El proceso de Data Mining
Se exploran los datos Distribución Relación Influencia Se preparan los datos Se eligen variables Se eligen las filas Se crean nuevas variables Se transforman las variables

86 El proceso de Data Mining
Se construye el modelo Se entrena y ejecuta el modelo Datos para entrenamiento Datos para prueba Se prueba el modelo Se evalúan los resultados Se rehacen corridas si es necesario Se guardan los resultados

87 El análisis de riesgos 600.000 préstamos 50.000 con problemas ¿Cuáles?
Calificación del préstamo Sin problemas Sub stándard Perdido No clasificado Nodisponible

88 El análisis de riesgos Muestra: 12.000 casos Valor de la cuota
Entrenamiento: 8.000 Prueba: 4.000 Valor de la cuota U$s 0 – u$s Categorización 5 franjas de u$s

89 Datos relevantes El préstamo El propósito Tipo de préstamo Monto Cuota
Plazo El propósito Tipo de propiedad Destino

90 Datos relevantes El tomador La región Edad Estado civil
Nivel de ingresos La región Estado Zona Minorías

91 Primer modelo Categorización errónea
Montos pequeños tienden a tener más problemas 80% de las cuotas no llegan a u$s 400 99% de los préstamos cae en la primera franja

92 Nueva categorización Cinco categorías con 1/5 de los casos en cada una
Precisión Acierto en el 67% de los casos Acierto en el 76 % de los casos sin problemas y perdidos Es demasiado bueno (!)

93 ¿Por qué? Un atributo descriptivo que están usando es el monto de la deuda Esto permite predecir bisn casos sub standard o perdidos Pero en realidad ese monto es alto porque ya tiene problemas Se elimina

94 Cambios Se elimina el monto de la deuda como atributo descriptivo
La precisión se reduce a 46% en general 37% de los casos perdidos

95 Nuevo modelo Se eliminan las categorías Menos del 1% del total
No clasificado No disponible Menos del 1% del total Se unifican Sub standard Perdidos Casos con problemas

96 Nuevo modelo Quedan dos categorías OK (sin problemas)
No OK (con problemas) La precisión en la predicción es 82% en general 20% de casos con problemas

97 Arboles de decisión Usando un modelo de árboles de decisión se llega a una precisión 85% en general 23% en préstamos con problemas ¿Hay algo más para hacer?

98 Hagamos cuentas Hay alrededor de préstamos con problemas por año No detectarlo a tiempo cuesta a USDA u$s cada uno Intervenir en un caso cuesta u$s 500 Se supone que interviniendo a tiempo se evitan problemas en el 30% de los casos

99 Hagamos cuentas Aún con un porcentaje bajo de identificación de casos con problemas USDA ahorra por año u$s 11,9 millones Dado que el 29% de las predicciones No OK eran realmente OK (con lo que se interviene inútilmente) El ahorro es de u$s 9,1 millones

100 Conclusiones No solamente cuenta la precisión
No hay que guiarse solamente por la matriz de confusión No necesariamente un nivel bajo de aciertos en la predicción invalida el uso del modelo Hay que tener en cuenta otros factores

101 Data Mining Dónde se puede utilizar
Marketing: Segmentación, campañas, rentabilidad, lealtad,... Ventas: Esquemas de comportamiento, hábitos de compra Finanzas: Inversiones, administración de cartera Bancos y Seguros: Aprobación de créditos y pólizas Seguridad: Detección de fraudes Medicina: Análisis de tratamientos Fabricación: control de calidad, adjudicación de recursos Internet: Análisis de clicks (Web mining)

102 Data Mining Trabajo conjunto Problema puntual Modelos predictivos
Modelos descriptivos Algoritmos El proceso de Data Mining Áreas de aplicación


Descargar ppt "Data Mining Hugo M. Castro."

Presentaciones similares


Anuncios Google