La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Análisis de asociación

Presentaciones similares


Presentación del tema: "Análisis de asociación"— Transcripción de la presentación:

1 Análisis de asociación
Parte teórica Tema 8 Minería de datos Dr. Francisco J. Mata

2 Análisis de asociación
Encuentra reglas de asociación las cuales especifican cuáles eventos pueden ocurrir simultáneamente Análisis de canasta de supermercado Objetos que se consumen simultáneamente Análisis de patrones secuenciales Orden en que las cosas ocurren Minería de datos Dr. Francisco J. Mata

3 Análisis de canasta de supermercado
Minería de datos Dr. Francisco J. Mata

4 Aplicaciones de análisis de canasta de supermercado
Elementos comprados simultáneamente Compras hechas con una misma tarjeta de crédito (ej., hotel y carro de alquiler) Servicios optativos u opcionales Combinaciones inusuales en reclamos de seguros (pueden ser un indicador de fraude) Combinaciones de tratamiento e historia de pacientes (pueden indicar complicaciones) Minería de datos Dr. Francisco J. Mata

5 Asociación Útil para Minería indirecta
Utilizada como punto de arranque Puede servir para plantear hipótesis de asociaciones en minería directa Diferencia entre almacenes nuevos y viejos Minería de datos Dr. Francisco J. Mata

6 Tipos de reglas Útiles Triviales Inexplicables
Los días jueves los compradores de supermercados frecuentemente compran pañales desechables y cerveza Triviales Consumidores que compran contratos de mantenimiento son más propensos a comprar electrodomésticos grandes Inexplicables Al abrir un almacén de ferretería nuevo, uno de los productos más vendidos son sillas de inodoro Minería de datos Dr. Francisco J. Mata

7 Datos para el análisis de canasta de supermercado
Minería de datos Dr. Francisco J. Mata

8 Preparación de datos para análisis de canasta de supermercado
Minería de datos Dr. Francisco J. Mata

9 Análisis de canasta de supermercado
Cliente Productos adquiridos 1 jugo, soda 2 leche, jugo, limpiador ventanas 3 jugo, detergente 4 jugo, detergente, soda 5 limpiador ventanas, soda Transacciones Tabla de co-ocurrencia de ítems Jugo Limpiador ventanas Leche Soda Detergente 4 1 2 Limpiador ventanas 3 Minería de datos Dr. Francisco J. Mata

10 Análisis de canasta de supermercado
Extensión de una tabla de co-ocurrencia a 3 dimensiones Minería de datos Dr. Francisco J. Mata

11 Reglas de asociación Patrones que se pueden observar
Jugo Limpiador ventanas Leche Soda Detergente 4 1 2 Lecha 3 Patrones que se pueden observar Jugo y soda al igual que jugo y detergente son más propensos a comprarse juntos que cualquiera otros dos productos 2. Detergente nunca se compra con limpiador de ventanas o leche 3. Leche nunca se compra con soda o detergente Minería de datos Dr. Francisco J. Mata

12 ¿Qué tan buena es una regla de asociación?
Confianza Número de transacciones con todos los ítemes mencionados en la regla dividido por el número de transacciones con los ítemes que aparecen en la parte si de la regla Proporción de transacciones en las cuales la regla es verdadera p(condición y resultado)/p(condición) Minería de datos Dr. Francisco J. Mata

13 ¿Qué tan buena es una regla de asociación?
Cliente Productos adquiridos 1 jugo, soda 2 leche, jugo, limpiador ventanas 3 jugo, detergente 4 jugo, detergente, soda 5 limpiador ventanas, soda Transacciones ¿Cuál es la confianza para la regla si un cliente compra soda entonces también compra jugo?: 2 de 3 compras de soda también incluyen jugo, por lo tanto 67% p(soda y jugo)/p(soda)= 0.4/0.6=67% ¿Cuál es la confianza de la regla reversa: si un cliente compra jugo entonces también compra soda? 2 de 4 compras de jugo también incluyen soda, por lo tanto 50% p(jugo y soda)/p(jugo)=0.4/0.8=50% Minería de datos Dr. Francisco J. Mata

14 ¿Qué tan buena es una regla de asociación?
Apoyo Número de transacciones que contienen todos los ítemes que aparecen en la regla dividido entre el número total de transacciones Porcentaje de transacciones que contienen todos los ítemes que aparecen en la regla p(condición y resultado) Minería de datos Dr. Francisco J. Mata

15 ¿Qué tan buena es una regla de asociación?
Cliente Productos adquiridos 1 jugo, soda 2 leche, JN, limpiador ventanas 3 jugo, detergente 4 jugo, detergente, soda 5 limpiador ventanas, soda Transacciones ¿Cuál es la apoyo para la regla si un cliente compra soda entonces también compra jugo?: 2 de 5 compras contienen de soda y jugo, por lo tanto 40% p(soda y jugo)=2/5=40% ¿Cuál es el apoyo de la regla reversa: si un cliente compra jugo entonces también compra soda? La misma de la regla anterior, 40% p(soda y jugo)=p(jugo y soda) Minería de datos Dr. Francisco J. Mata

16 ¿Qué tan buena es una regla de asociación?
“Lift” o mejoría Mide cuánto mejor es una regla para predicción que una estimación hecha tomando un cliente al azar Número de transacciones que soportan la regla dividido entre número de transacciones esperado asumiendo que no existe relación entre los ítemes p(condición y resultado)/(p(condición) * p(resultado)) Cuando el lift < 1 la regla es peor que una estimación educada y la negación de la regla produce una mejor regla que una estimación al azar Minería de datos Dr. Francisco J. Mata

17 ¿Qué tan buena es una regla de asociación?
Cliente Productos adquiridos 1 jugo, soda 2 leche, jugo, limpiador ventanas 3 jugo, detergente 4 jugo, detergente, soda 5 limpiador ventanas, soda Transacciones ¿Cuál es el “lift” para la regla si un cliente compra soda entonces también compra jugo?: p(soda y jugo)/(p(soda) * p(jugo))=0.4/(0.6 * 0.8)=0.83 ¿Cuál es el “lift” de la regla negada: si un cliente compra soda entonces no compra jugo? p(soda y no jugo)/(p(soda) * p(no jugo))= 0.2/(0.6 * 0.2)=1.66 Minería de datos Dr. Francisco J. Mata

18 Ejercicio Ítemes Probabilidad A 45% B 42.5% C 40% A y B 25% A y C 20%
B y C 15% B y C y no A ????? A y B y C 5% Calcular apoyo, confianza y “lift” para reglas si A y B entonces C, si A y C entonces B, si B y C entonces A, y si A entonces B Minería de datos Dr. Francisco J. Mata

19 Respuesta Regla Apoyo Confianza “Lift” Si A y B entonces C 5% 20% 0.50
Si A y C entonces B 25% 0.59 Si B y C entonces A 33% 0.74 Si A entonces B 59% 1.31 Minería de datos Dr. Francisco J. Mata

20 Pasos básicos para obtener reglas de asociacíón
Minería de datos Dr. Francisco J. Mata

21 Seleccionar conjunto adecuado de ítemes
Debe considerarse necesidades del negocio Nivel de detalle debe ser adecuado Minería de datos Dr. Francisco J. Mata

22 Seleccionar conjunto adecuado de ítemes
Minería de datos Dr. Francisco J. Mata

23 Seleccionar conjunto adecuado de ítemes
Minería de datos Dr. Francisco J. Mata

24 Seleccionar conjunto adecuado de ítemes
Taxonomías de productos son de utilidad Análisis de asociación produce mejores resultados cuando los productos aparecen aproximadamente en el mismo número de transacciones (reglas no están dominadas por los productos más comunes) Productos raros pueden ser subidos en la taxonomía para que aparezcan más frecuentemente Minería de datos Dr. Francisco J. Mata

25 Ítemes virtuales Ítemes virtuales no aparecen en la taxonomía
Pueden ser agregados para identificar Localización Tiempo (día, mes) Almacenes nuevos vrs. viejos Marcas Minería de datos Dr. Francisco J. Mata

26 Ítemes virtuales Deben ser escogidos cuidadosamente para evitar reglas redundantes Minería de datos Dr. Francisco J. Mata

27 Ítemes virtuales Si reglas redundates aparecen entonces utilice elementos generalizados Minería de datos Dr. Francisco J. Mata

28 Cálculo de probabilidades
Minería de datos Dr. Francisco J. Mata

29 Determinar reglas Minería de datos Dr. Francisco J. Mata

30 Determinar reglas Entre más “accionable” sea la regla mejor
En la práctica las reglas más accionables tienen un ítem como resultado Mejor: Si pañales desechables y jueves entonces cerveza Peor: Si jueves entonces pañales desechables y cerveza Minería de datos Dr. Francisco J. Mata

31 Determinar reglas Cuando el “lift” para una regla es menor que 1, negar el resultado produce una mejor regla Minería de datos Dr. Francisco J. Mata

32 El problema de reglas con muchos ítemes
Generar reglas de asociación requiere múltiples pasos: Generar matriz de co-ocurrencias para un ítem Generar matriz de co-ocurrencia para dos ítemes (sirve para generar reglas con dos productos) Generar matriz de co-ocurrencia para tres ítemes (sirve para generar reglas con tres productos) Se puede continuar hasta el número total de ítemes Cada paso incrementa exponencialmente el tiempo Minería de datos Dr. Francisco J. Mata

33 El problema de muchos ítemes
Número de combinaciones para 100 ítemes Fórmula binomial ¡Un supermercado puede tener entre 10,000 y 30,000 productos! Minería de datos Dr. Francisco J. Mata

34 El problema de muchas transacciones
El número de transacciones por lo general es muy grande En el transcurso de un año una cadena de supermecados de tamaño mediano puede generar millones de transacciones Minería de datos Dr. Francisco J. Mata

35 Superación de limitaciones prácticas
Soluciónes: Utilizar “prunning” considerando un apoyo mínimo (mínimo número de transacciones conteniendo la combinación) Si existe 1 millón de transacciones y se utiliza unapoyo mínimo del 1% entonces sólo las reglas apoyadas por 10,000 transacciones serán consideradas Apoyo mínimo tiene un efecto de cascada Si utilizamos el apoyo mínimo de 1% y la regla es si A, B y C entonces D para que la combinación A, B, C y D aparezca por lo menos un 1% todos los elementos en la combinación deben aparecer por lo menos 1% y todas las combinaciones de dos y tres elementos deben aparecer por lo menos un 1% Minería de datos Dr. Francisco J. Mata

36 Superación de limitaciones prácticas
Solución: Limitar el número de ítemes en una regla Uso de taxonomías para reducir el número de ítemes Minería de datos Dr. Francisco J. Mata

37 Algoritmo apriori Mejora el rendimiento utilizando conocimiento a priori Utiliza “prunning” Todos los subconjuntos de un conjunto frecuente de elementos deben ser frecuentes apoyo (I) < min_apoyo entonces apoyo (I unión {a}) < min_apoyo para todo elemento a Minería de datos Dr. Francisco J. Mata

38 Algoritmo apriori Pasos:
Sea L-1 el conjunto de k-1 elementos que satisfacen el criterio de apoyo mínimo Join para k elementos: añadir un ítem diferente a cada uno de los elementos en L-1 Prune para k: eliminar todos los conjuntos de L con k ítemes que no satisfacen el criterio de apoyo mínimo Minería de datos Dr. Francisco J. Mata

39 Ejemplo algoritmo apriori
Apoyo 2 o 2/9=22% Minería de datos Dr. Francisco J. Mata

40 Ejemplo algoritmo apriori
Apoyo 2 o 2/9=22% Minería de datos Dr. Francisco J. Mata

41 Fortalezas del análisis de canasta de supermercado
Resultados se pueden entender claramente De gran utilidad para minería indirecta Computacionalmente simple aunque con crecimiento exponencial en tiempo Minería de datos Dr. Francisco J. Mata

42 Debilidades del análisis de canasta de supermecado
Complejidad crece exponencialmente conforme crece el tamaño del problema Difícil determinar los elementos apropiados Elementos raros pueden producir problemas Minería de datos Dr. Francisco J. Mata

43 Cuando aplicar análisis de asociación
Problemas de minería indirecta que consisten en elementos bien definidos los cuales se agrupan de maneras interesantes Estos problemas ocurren usualmente en el comercio, donde transacciones de punto de venta son las bases del análisis Minería de datos Dr. Francisco J. Mata

44 Cuando aplicar análisis de asociación
Se puede aplicar también en problemas de minería directa Comparar ventas en almacenes nuevos y viejos El algoritmo se puede modificar para considerar reglas que contienen un producto en particular (comprender sus patrones de venta) Minería de datos Dr. Francisco J. Mata


Descargar ppt "Análisis de asociación"

Presentaciones similares


Anuncios Google