Análisis de asociación

Slides:



Advertisements
Presentaciones similares
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities scuola.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.
JUAN JOSÉ VENEGAS MORENO
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.
1 PRINCIPALES INDICADORES DEL DESARROLLO DE LA SOCIEDAD DE LA INFORMACIÓN EN GALICIA CUADRO DE MANDO Apartado: Empresas Septiembre de 2004.
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 5.- 1ª PARTE. EL A.O. Y SUS APLICACIONES
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Respuestas Buscando a Nemo.
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Introducción a la minería de datos
Árboles de decisión Tema 9 Parte teórica Minería de datos
Área Razón Social 0 0 Telefónica Servicios Audiovisuales S.A. / Telefónica España S.A. Título de la ponencia / Otros datos de interés / Kit.
Los Objetos de la Clase Escriban la palabra (the word) en español para los objetos de la clase (#1-20).
Unidad de competencia II Estadística descriptiva:
Capítulo 3 Descripción de datos, medidas de tendencia central
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities alimentazione.
CONTROL ESTADÍSTICO DE PROCESOS
1. Apoyo exterior sobre ala inferior de viga de acero
Distribuciones de probabilidad bidimensionales o conjuntas
-17 Expectativas sobre la situación económica (Europa) Septiembre 2013 Indicador > +20 Indicador 0 a +20 Indicador 0 a -20 Indicador < -20 Total Unión.
1 Conversatorio con Consumidores que compran en Supermercados de la ciudad de Barranquilla Análisis Estadístico Desarrollado por: Andrés Muñoz 2006.
8. Distribuciones continuas
Repaso del capítulo Primer Paso
50 principios La Agenda 1.- Presentar un único interlocutor a los clientes. 2.- Tratar de modo distinto a las diferentes clases de clientes. 3.- Saber.
03 Estudio del mercado El estudio del mercado trata de averiguar la respuesta del mercado ante un producto o servicio, con el fin de plantear la estrategia.
INFORME USDA NOVIEMBRE TRIGO 2 MERCADO INTERNACIONAL (Millones de Toneladas) 3.
Sistemas de Ecuaciones
EL OSO APRENDIZ Y SUS AMIGOS
Las NIC MARCO CONCEPTUAL NIC 1: PRESENTACIÓN ESTADOS FINANCIEROS
1 SEGUNDO FORO REGIONAL HERMOSILLO, SON Sistema Nacional de Transparencia Fiscalización y Rendición de Cuentas:
50 principios 1. Los clientes asumen el mando.
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Proyecto para Centros que trabajan una vez por semana.
Capítulo: 9 Inventarios.
Ecuaciones Cuadráticas
3 Enero 2010 PERÚ: IV CENSO NACIONAL ECONÓMICO, APURÍMAC.
3 Enero 2010 IV CENSO NACIONAL ECONÓMICO, 2008 PROVINCIA CONSTITUCIONAL DEL CALLAO.
Kpmg. El comercio electrónico y sus incertidumbres Resultado de la encuesta sobre
Tema 6 La demanda del mercado.
Facultad de Ciencias Sociales Universidad de la República Curso: Análisis Económico Edición 2010.
¡Primero mira fijo a la bruja!
Mecanismos 3º ESO Soluciones cuestiones teóricas Curso
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
Business Proccess Management (BPM)
MINIMO COMÚN MÚLTIPLO DE DOS NÚMEROS a y b
CULENDARIO 2007 Para los Patanes.
Números enteros.
MACROECONOMIA.
BEATRIZ LAFONT VILLODRE
ESTADOS FINANCIEROS A DICIEMBRE DE 2013.
* Fuente: Sondeo del Consumidor de la Comisión de la UE, GfK. Expectativas sobre la situación.
Los números. Del 0 al 100.
MSc. Lucía Osuna Wendehake
Calendario 2009 “Imágenes variadas” Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2009.
Realimentacion de la salida
Manual de Procedimientos Procedimiento de ejecución del programa de
ESTADIGRAFOS DE DISPERSION
Herramienta FRAX Expositor: Boris Inturias.
Estadística Administrativa I

Transcripción de la presentación:

Análisis de asociación Parte teórica Tema 8 Minería de datos Dr. Francisco J. Mata

Análisis de asociación Encuentra reglas de asociación las cuales especifican cuáles eventos pueden ocurrir simultáneamente Análisis de canasta de supermercado Objetos que se consumen simultáneamente Análisis de patrones secuenciales Orden en que las cosas ocurren Minería de datos Dr. Francisco J. Mata

Análisis de canasta de supermercado Minería de datos Dr. Francisco J. Mata

Aplicaciones de análisis de canasta de supermercado Elementos comprados simultáneamente Compras hechas con una misma tarjeta de crédito (ej., hotel y carro de alquiler) Servicios optativos u opcionales Combinaciones inusuales en reclamos de seguros (pueden ser un indicador de fraude) Combinaciones de tratamiento e historia de pacientes (pueden indicar complicaciones) Minería de datos Dr. Francisco J. Mata

Asociación Útil para Minería indirecta Utilizada como punto de arranque Puede servir para plantear hipótesis de asociaciones en minería directa Diferencia entre almacenes nuevos y viejos Minería de datos Dr. Francisco J. Mata

Tipos de reglas Útiles Triviales Inexplicables Los días jueves los compradores de supermercados frecuentemente compran pañales desechables y cerveza Triviales Consumidores que compran contratos de mantenimiento son más propensos a comprar electrodomésticos grandes Inexplicables Al abrir un almacén de ferretería nuevo, uno de los productos más vendidos son sillas de inodoro Minería de datos Dr. Francisco J. Mata

Datos para el análisis de canasta de supermercado Minería de datos Dr. Francisco J. Mata

Preparación de datos para análisis de canasta de supermercado Minería de datos Dr. Francisco J. Mata

Análisis de canasta de supermercado Cliente Productos adquiridos 1 jugo, soda 2 leche, jugo, limpiador ventanas 3 jugo, detergente 4 jugo, detergente, soda 5 limpiador ventanas, soda Transacciones Tabla de co-ocurrencia de ítems Jugo Limpiador ventanas Leche Soda Detergente 4 1 2 Limpiador ventanas 3 Minería de datos Dr. Francisco J. Mata

Análisis de canasta de supermercado Extensión de una tabla de co-ocurrencia a 3 dimensiones Minería de datos Dr. Francisco J. Mata

Reglas de asociación Patrones que se pueden observar Jugo Limpiador ventanas Leche Soda Detergente 4 1 2 Lecha 3 Patrones que se pueden observar Jugo y soda al igual que jugo y detergente son más propensos a comprarse juntos que cualquiera otros dos productos 2. Detergente nunca se compra con limpiador de ventanas o leche 3. Leche nunca se compra con soda o detergente Minería de datos Dr. Francisco J. Mata

¿Qué tan buena es una regla de asociación? Confianza Número de transacciones con todos los ítemes mencionados en la regla dividido por el número de transacciones con los ítemes que aparecen en la parte si de la regla Proporción de transacciones en las cuales la regla es verdadera p(condición y resultado)/p(condición) Minería de datos Dr. Francisco J. Mata

¿Qué tan buena es una regla de asociación? Cliente Productos adquiridos 1 jugo, soda 2 leche, jugo, limpiador ventanas 3 jugo, detergente 4 jugo, detergente, soda 5 limpiador ventanas, soda Transacciones ¿Cuál es la confianza para la regla si un cliente compra soda entonces también compra jugo?: 2 de 3 compras de soda también incluyen jugo, por lo tanto 67% p(soda y jugo)/p(soda)= 0.4/0.6=67% ¿Cuál es la confianza de la regla reversa: si un cliente compra jugo entonces también compra soda? 2 de 4 compras de jugo también incluyen soda, por lo tanto 50% p(jugo y soda)/p(jugo)=0.4/0.8=50% Minería de datos Dr. Francisco J. Mata

¿Qué tan buena es una regla de asociación? Apoyo Número de transacciones que contienen todos los ítemes que aparecen en la regla dividido entre el número total de transacciones Porcentaje de transacciones que contienen todos los ítemes que aparecen en la regla p(condición y resultado) Minería de datos Dr. Francisco J. Mata

¿Qué tan buena es una regla de asociación? Cliente Productos adquiridos 1 jugo, soda 2 leche, JN, limpiador ventanas 3 jugo, detergente 4 jugo, detergente, soda 5 limpiador ventanas, soda Transacciones ¿Cuál es la apoyo para la regla si un cliente compra soda entonces también compra jugo?: 2 de 5 compras contienen de soda y jugo, por lo tanto 40% p(soda y jugo)=2/5=40% ¿Cuál es el apoyo de la regla reversa: si un cliente compra jugo entonces también compra soda? La misma de la regla anterior, 40% p(soda y jugo)=p(jugo y soda) Minería de datos Dr. Francisco J. Mata

¿Qué tan buena es una regla de asociación? “Lift” o mejoría Mide cuánto mejor es una regla para predicción que una estimación hecha tomando un cliente al azar Número de transacciones que soportan la regla dividido entre número de transacciones esperado asumiendo que no existe relación entre los ítemes p(condición y resultado)/(p(condición) * p(resultado)) Cuando el lift < 1 la regla es peor que una estimación educada y la negación de la regla produce una mejor regla que una estimación al azar Minería de datos Dr. Francisco J. Mata

¿Qué tan buena es una regla de asociación? Cliente Productos adquiridos 1 jugo, soda 2 leche, jugo, limpiador ventanas 3 jugo, detergente 4 jugo, detergente, soda 5 limpiador ventanas, soda Transacciones ¿Cuál es el “lift” para la regla si un cliente compra soda entonces también compra jugo?: p(soda y jugo)/(p(soda) * p(jugo))=0.4/(0.6 * 0.8)=0.83 ¿Cuál es el “lift” de la regla negada: si un cliente compra soda entonces no compra jugo? p(soda y no jugo)/(p(soda) * p(no jugo))= 0.2/(0.6 * 0.2)=1.66 Minería de datos Dr. Francisco J. Mata

Ejercicio Ítemes Probabilidad A 45% B 42.5% C 40% A y B 25% A y C 20% B y C 15% B y C y no A ????? A y B y C 5% Calcular apoyo, confianza y “lift” para reglas si A y B entonces C, si A y C entonces B, si B y C entonces A, y si A entonces B Minería de datos Dr. Francisco J. Mata

Respuesta Regla Apoyo Confianza “Lift” Si A y B entonces C 5% 20% 0.50 Si A y C entonces B 25% 0.59 Si B y C entonces A 33% 0.74 Si A entonces B 59% 1.31 Minería de datos Dr. Francisco J. Mata

Pasos básicos para obtener reglas de asociacíón Minería de datos Dr. Francisco J. Mata

Seleccionar conjunto adecuado de ítemes Debe considerarse necesidades del negocio Nivel de detalle debe ser adecuado Minería de datos Dr. Francisco J. Mata

Seleccionar conjunto adecuado de ítemes Minería de datos Dr. Francisco J. Mata

Seleccionar conjunto adecuado de ítemes Minería de datos Dr. Francisco J. Mata

Seleccionar conjunto adecuado de ítemes Taxonomías de productos son de utilidad Análisis de asociación produce mejores resultados cuando los productos aparecen aproximadamente en el mismo número de transacciones (reglas no están dominadas por los productos más comunes) Productos raros pueden ser subidos en la taxonomía para que aparezcan más frecuentemente Minería de datos Dr. Francisco J. Mata

Ítemes virtuales Ítemes virtuales no aparecen en la taxonomía Pueden ser agregados para identificar Localización Tiempo (día, mes) Almacenes nuevos vrs. viejos Marcas Minería de datos Dr. Francisco J. Mata

Ítemes virtuales Deben ser escogidos cuidadosamente para evitar reglas redundantes Minería de datos Dr. Francisco J. Mata

Ítemes virtuales Si reglas redundates aparecen entonces utilice elementos generalizados Minería de datos Dr. Francisco J. Mata

Cálculo de probabilidades Minería de datos Dr. Francisco J. Mata

Determinar reglas Minería de datos Dr. Francisco J. Mata

Determinar reglas Entre más “accionable” sea la regla mejor En la práctica las reglas más accionables tienen un ítem como resultado Mejor: Si pañales desechables y jueves entonces cerveza Peor: Si jueves entonces pañales desechables y cerveza Minería de datos Dr. Francisco J. Mata

Determinar reglas Cuando el “lift” para una regla es menor que 1, negar el resultado produce una mejor regla Minería de datos Dr. Francisco J. Mata

El problema de reglas con muchos ítemes Generar reglas de asociación requiere múltiples pasos: Generar matriz de co-ocurrencias para un ítem Generar matriz de co-ocurrencia para dos ítemes (sirve para generar reglas con dos productos) Generar matriz de co-ocurrencia para tres ítemes (sirve para generar reglas con tres productos) Se puede continuar hasta el número total de ítemes Cada paso incrementa exponencialmente el tiempo Minería de datos Dr. Francisco J. Mata

El problema de muchos ítemes Número de combinaciones para 100 ítemes Fórmula binomial ¡Un supermercado puede tener entre 10,000 y 30,000 productos! Minería de datos Dr. Francisco J. Mata

El problema de muchas transacciones El número de transacciones por lo general es muy grande En el transcurso de un año una cadena de supermecados de tamaño mediano puede generar millones de transacciones Minería de datos Dr. Francisco J. Mata

Superación de limitaciones prácticas Soluciónes: Utilizar “prunning” considerando un apoyo mínimo (mínimo número de transacciones conteniendo la combinación) Si existe 1 millón de transacciones y se utiliza unapoyo mínimo del 1% entonces sólo las reglas apoyadas por 10,000 transacciones serán consideradas Apoyo mínimo tiene un efecto de cascada Si utilizamos el apoyo mínimo de 1% y la regla es si A, B y C entonces D para que la combinación A, B, C y D aparezca por lo menos un 1% todos los elementos en la combinación deben aparecer por lo menos 1% y todas las combinaciones de dos y tres elementos deben aparecer por lo menos un 1% Minería de datos Dr. Francisco J. Mata

Superación de limitaciones prácticas Solución: Limitar el número de ítemes en una regla Uso de taxonomías para reducir el número de ítemes Minería de datos Dr. Francisco J. Mata

Algoritmo apriori Mejora el rendimiento utilizando conocimiento a priori Utiliza “prunning” Todos los subconjuntos de un conjunto frecuente de elementos deben ser frecuentes apoyo (I) < min_apoyo entonces apoyo (I unión {a}) < min_apoyo para todo elemento a Minería de datos Dr. Francisco J. Mata

Algoritmo apriori Pasos: Sea L-1 el conjunto de k-1 elementos que satisfacen el criterio de apoyo mínimo Join para k elementos: añadir un ítem diferente a cada uno de los elementos en L-1 Prune para k: eliminar todos los conjuntos de L con k ítemes que no satisfacen el criterio de apoyo mínimo Minería de datos Dr. Francisco J. Mata

Ejemplo algoritmo apriori Apoyo 2 o 2/9=22% Minería de datos Dr. Francisco J. Mata

Ejemplo algoritmo apriori Apoyo 2 o 2/9=22% Minería de datos Dr. Francisco J. Mata

Fortalezas del análisis de canasta de supermercado Resultados se pueden entender claramente De gran utilidad para minería indirecta Computacionalmente simple aunque con crecimiento exponencial en tiempo Minería de datos Dr. Francisco J. Mata

Debilidades del análisis de canasta de supermecado Complejidad crece exponencialmente conforme crece el tamaño del problema Difícil determinar los elementos apropiados Elementos raros pueden producir problemas Minería de datos Dr. Francisco J. Mata

Cuando aplicar análisis de asociación Problemas de minería indirecta que consisten en elementos bien definidos los cuales se agrupan de maneras interesantes Estos problemas ocurren usualmente en el comercio, donde transacciones de punto de venta son las bases del análisis Minería de datos Dr. Francisco J. Mata

Cuando aplicar análisis de asociación Se puede aplicar también en problemas de minería directa Comparar ventas en almacenes nuevos y viejos El algoritmo se puede modificar para considerar reglas que contienen un producto en particular (comprender sus patrones de venta) Minería de datos Dr. Francisco J. Mata