La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.

Presentaciones similares


Presentación del tema: "Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8."— Transcripción de la presentación:

1 Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8

2 Minería de datos Dr. Francisco J. Mata 2 Análisis de asociación Encuentra reglas de asociación las cuales especifican cuáles eventos pueden ocurrir simultáneamente Análisis de canasta de supermercado Objetos que se consumen simultáneamente Análisis de patrones secuenciales Orden en que las cosas ocurren

3 Minería de datos Dr. Francisco J. Mata 3 Análisis de canasta de supermercado

4 Minería de datos Dr. Francisco J. Mata 4 Aplicaciones de análisis de canasta de supermercado Elementos comprados simultáneamente Compras hechas con una misma tarjeta de crédito (ej., hotel y carro de alquiler) Servicios optativos u opcionales Combinaciones inusuales en reclamos de seguros (pueden ser un indicador de fraude) Combinaciones de tratamiento e historia de pacientes (pueden indicar complicaciones)

5 Minería de datos Dr. Francisco J. Mata 5 Asociación Útil para Minería indirecta Utilizada como punto de arranque Puede servir para plantear hipótesis de asociaciones en minería directa Diferencia entre almacenes nuevos y viejos

6 Minería de datos Dr. Francisco J. Mata 6 Tipos de reglas Útiles Los días jueves los compradores de supermercados frecuentemente compran pañales desechables y cerveza Triviales Consumidores que compran contratos de mantenimiento son más propensos a comprar electrodomésticos grandes Inexplicables Al abrir un almacén de ferretería nuevo, uno de los productos más vendidos son sillas de inodoro

7 Minería de datos Dr. Francisco J. Mata 7 Datos para el análisis de canasta de supermercado

8 Minería de datos Dr. Francisco J. Mata 8 Preparación de datos para análisis de canasta de supermercado

9 Minería de datos Dr. Francisco J. Mata 9 Análisis de canasta de supermercado ClienteProductos adquiridos 1jugo, soda 2leche, jugo, limpiador ventanas 3jugo, detergente 4jugo, detergente, soda 5limpiador ventanas, soda JugoLimpiador ventanas LecheSodaDetergente Jugo41122 Limpiador ventanas Leche11100 Soda21031 Detergente20012 Transacciones Tabla de co-ocurrencia de ítems

10 Minería de datos Dr. Francisco J. Mata 10 Análisis de canasta de supermercado Extensión de una tabla de co-ocurrencia a 3 dimensiones

11 Minería de datos Dr. Francisco J. Mata 11 Reglas de asociación JugoLimpiador ventanas LecheSodaDetergente Jugo41122 Limpiador ventanas Lecha11100 Soda21031 Detergente20012 Patrones que se pueden observar 1.Jugo y soda al igual que jugo y detergente son más propensos a comprarse juntos que cualquiera otros dos productos 2. Detergente nunca se compra con limpiador de ventanas o leche 3. Leche nunca se compra con soda o detergente

12 Minería de datos Dr. Francisco J. Mata 12 ¿Qué tan buena es una regla de asociación? Confianza Número de transacciones con todos los ítemes mencionados en la regla dividido por el número de transacciones con los ítemes que aparecen en la parte si de la regla Proporción de transacciones en las cuales la regla es verdadera p(condición y resultado)/p(condición)

13 Minería de datos Dr. Francisco J. Mata 13 ¿Qué tan buena es una regla de asociación? ¿Cuál es la confianza para la regla si un cliente compra soda entonces también compra jugo?: 2 de 3 compras de soda también incluyen jugo, por lo tanto 67% p(soda y jugo)/p(soda)= 0.4/0.6=67% ¿Cuál es la confianza de la regla reversa: si un cliente compra jugo entonces también compra soda? 2 de 4 compras de jugo también incluyen soda, por lo tanto 50% p(jugo y soda)/p(jugo)=0.4/0.8=50% ClienteProductos adquiridos 1jugo, soda 2leche, jugo, limpiador ventanas 3jugo, detergente 4jugo, detergente, soda 5limpiador ventanas, soda Transacciones

14 Minería de datos Dr. Francisco J. Mata 14 ¿Qué tan buena es una regla de asociación? Apoyo Número de transacciones que contienen todos los ítemes que aparecen en la regla dividido entre el número total de transacciones Porcentaje de transacciones que contienen todos los ítemes que aparecen en la regla p(condición y resultado)

15 Minería de datos Dr. Francisco J. Mata 15 ¿Qué tan buena es una regla de asociación? ¿Cuál es la apoyo para la regla si un cliente compra soda entonces también compra jugo?: 2 de 5 compras contienen de soda y jugo, por lo tanto 40% p(soda y jugo)=2/5=40% ¿Cuál es el apoyo de la regla reversa: si un cliente compra jugo entonces también compra soda? La misma de la regla anterior, 40% p(soda y jugo)=p(jugo y soda) ClienteProductos adquiridos 1jugo, soda 2leche, JN, limpiador ventanas 3jugo, detergente 4jugo, detergente, soda 5limpiador ventanas, soda Transacciones

16 Minería de datos Dr. Francisco J. Mata 16 ¿Qué tan buena es una regla de asociación? Lift o mejoría Mide cuánto mejor es una regla para predicción que una estimación hecha tomando un cliente al azar Número de transacciones que soportan la regla dividido entre número de transacciones esperado asumiendo que no existe relación entre los ítemes p(condición y resultado)/(p(condición) * p(resultado)) Cuando el lift < 1 la regla es peor que una estimación educada y la negación de la regla produce una mejor regla que una estimación al azar

17 Minería de datos Dr. Francisco J. Mata 17 ¿Qué tan buena es una regla de asociación? ¿Cuál es el lift para la regla si un cliente compra soda entonces también compra jugo?: p(soda y jugo)/(p(soda) * p(jugo))=0.4/(0.6 * 0.8)=0.83 ¿Cuál es el lift de la regla negada: si un cliente compra soda entonces no compra jugo? p(soda y no jugo)/(p(soda) * p(no jugo))= 0.2/(0.6 * 0.2)=1.66 ClienteProductos adquiridos 1jugo, soda 2leche, jugo, limpiador ventanas 3jugo, detergente 4jugo, detergente, soda 5limpiador ventanas, soda Transacciones

18 Minería de datos Dr. Francisco J. Mata 18 Ejercicio ÍtemesProbabilidad A45% B42.5% C40% A y B25% A y C20% B y C15% B y C y no A????? A y B y C5% Calcular apoyo, confianza y lift para reglas si A y B entonces C, si A y C entonces B, si B y C entonces A, y si A entonces B

19 Minería de datos Dr. Francisco J. Mata 19 Respuesta ReglaApoyoConfianzaLift Si A y B entonces C 5%20%0.50 Si A y C entonces B 5%25%0.59 Si B y C entonces A 5%33%0.74 Si A entonces B25%59%1.31

20 Minería de datos Dr. Francisco J. Mata 20 Pasos básicos para obtener reglas de asociacíón

21 Minería de datos Dr. Francisco J. Mata 21 Seleccionar conjunto adecuado de ítemes Debe considerarse necesidades del negocio Nivel de detalle debe ser adecuado

22 Minería de datos Dr. Francisco J. Mata 22 Seleccionar conjunto adecuado de ítemes

23 Minería de datos Dr. Francisco J. Mata 23 Seleccionar conjunto adecuado de ítemes

24 Minería de datos Dr. Francisco J. Mata 24 Seleccionar conjunto adecuado de ítemes Taxonomías de productos son de utilidad Análisis de asociación produce mejores resultados cuando los productos aparecen aproximadamente en el mismo número de transacciones (reglas no están dominadas por los productos más comunes) Productos raros pueden ser subidos en la taxonomía para que aparezcan más frecuentemente

25 Minería de datos Dr. Francisco J. Mata 25 Ítemes virtuales Ítemes virtuales no aparecen en la taxonomía Pueden ser agregados para identificar Localización Tiempo (día, mes) Almacenes nuevos vrs. viejos Marcas

26 Minería de datos Dr. Francisco J. Mata 26 Ítemes virtuales Deben ser escogidos cuidadosamente para evitar reglas redundantes

27 Minería de datos Dr. Francisco J. Mata 27 Ítemes virtuales Si reglas redundates aparecen entonces utilice elementos generalizados

28 Minería de datos Dr. Francisco J. Mata 28 Cálculo de probabilidades

29 Minería de datos Dr. Francisco J. Mata 29 Determinar reglas

30 Minería de datos Dr. Francisco J. Mata 30 Determinar reglas Entre más accionable sea la regla mejor En la práctica las reglas más accionables tienen un ítem como resultado Mejor: Si pañales desechables y jueves entonces cerveza Peor: Si jueves entonces pañales desechables y cerveza

31 Minería de datos Dr. Francisco J. Mata 31 Determinar reglas Cuando el lift para una regla es menor que 1, negar el resultado produce una mejor regla

32 Minería de datos Dr. Francisco J. Mata 32 El problema de reglas con muchos ítemes Generar reglas de asociación requiere múltiples pasos: Generar matriz de co-ocurrencias para un ítem Generar matriz de co-ocurrencia para dos ítemes (sirve para generar reglas con dos productos) Generar matriz de co-ocurrencia para tres ítemes (sirve para generar reglas con tres productos) Se puede continuar hasta el número total de ítemes Cada paso incrementa exponencialmente el tiempo

33 Minería de datos Dr. Francisco J. Mata 33 El problema de muchos ítemes Fórmula binomial Número de combinaciones para 100 ítemes ¡Un supermercado puede tener entre 10,000 y 30,000 productos!

34 Minería de datos Dr. Francisco J. Mata 34 El problema de muchas transacciones El número de transacciones por lo general es muy grande En el transcurso de un año una cadena de supermecados de tamaño mediano puede generar millones de transacciones

35 Minería de datos Dr. Francisco J. Mata 35 Superación de limitaciones prácticas Soluciónes: Utilizar prunning considerando un apoyo mínimo (mínimo número de transacciones conteniendo la combinación) Si existe 1 millón de transacciones y se utiliza unapoyo mínimo del 1% entonces sólo las reglas apoyadas por 10,000 transacciones serán consideradas Apoyo mínimo tiene un efecto de cascada Si utilizamos el apoyo mínimo de 1% y la regla es si A, B y C entonces D para que la combinación A, B, C y D aparezca por lo menos un 1% todos los elementos en la combinación deben aparecer por lo menos 1% y todas las combinaciones de dos y tres elementos deben aparecer por lo menos un 1%

36 Minería de datos Dr. Francisco J. Mata 36 Superación de limitaciones prácticas Solución: Limitar el número de ítemes en una regla Uso de taxonomías para reducir el número de ítemes

37 Minería de datos Dr. Francisco J. Mata 37 Algoritmo apriori Mejora el rendimiento utilizando conocimiento a priori Utiliza prunning Todos los subconjuntos de un conjunto frecuente de elementos deben ser frecuentes apoyo (I) < min_apoyo entonces apoyo (I unión {a}) < min_apoyo para todo elemento a

38 Minería de datos Dr. Francisco J. Mata 38 Algoritmo apriori Pasos: Sea L-1 el conjunto de k-1 elementos que satisfacen el criterio de apoyo mínimo Join para k elementos: añadir un ítem diferente a cada uno de los elementos en L-1 Prune para k: eliminar todos los conjuntos de L con k ítemes que no satisfacen el criterio de apoyo mínimo

39 Minería de datos Dr. Francisco J. Mata 39 Ejemplo algoritmo apriori Apoyo 2 o 2/9=22%

40 Minería de datos Dr. Francisco J. Mata 40 Ejemplo algoritmo apriori Apoyo 2 o 2/9=22%

41 Minería de datos Dr. Francisco J. Mata 41 Fortalezas del análisis de canasta de supermercado Resultados se pueden entender claramente De gran utilidad para minería indirecta Computacionalmente simple aunque con crecimiento exponencial en tiempo

42 Minería de datos Dr. Francisco J. Mata 42 Debilidades del análisis de canasta de supermecado Complejidad crece exponencialmente conforme crece el tamaño del problema Difícil determinar los elementos apropiados Elementos raros pueden producir problemas

43 Minería de datos Dr. Francisco J. Mata 43 Cuando aplicar análisis de asociación Problemas de minería indirecta que consisten en elementos bien definidos los cuales se agrupan de maneras interesantes Estos problemas ocurren usualmente en el comercio, donde transacciones de punto de venta son las bases del análisis

44 Minería de datos Dr. Francisco J. Mata 44 Cuando aplicar análisis de asociación Se puede aplicar también en problemas de minería directa Comparar ventas en almacenes nuevos y viejos El algoritmo se puede modificar para considerar reglas que contienen un producto en particular (comprender sus patrones de venta)


Descargar ppt "Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8."

Presentaciones similares


Anuncios Google