Slides:



Advertisements
Presentaciones similares
SISTEMAS DE INFORMACIÓN I
Advertisements

Diseño y análisis de algoritmos
Introducción a la minería de datos
Análisis de asociación
También conocido como Diseño Lógico Rodrigo Salvatierra Alberú.
TECNICATURA UNIVERSITARIA EN INFORMATICA
Modelo Entidad Relación
Reglas de asociación w Similares a las reglas de clasificación w Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.
DSOO - María Eugenia Valencia
PRODUCTO NO CONFORME.
DERIVADA DE UNA FUNCION REAL
U NIDAD 2 L ENGUAJE DE DEFINICIÓN DE DATOS (DDL) 1.
Programación Lineal Entera Antonio H. Escobar Z Universidad Tecnológica de Pereira – Colombia Posgrado en Ingeniería – Maestría/Doctorado.
Unidad 4. Estructuras de selección
El proceso de extracción de conocimiento
KRIGING.
UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
Teoría de Bases de Datos
MODELO RELACIONAL.
MODELOS DE ECUACIONES SIMULTÁNEAS
Tema 3. Optimización de Código
INVESTIGACIÓN CUANTITATIVA Y CUALITATIVA
Answering Queries Using Views (Levy, Mendelzon, Sagiv, Srivastava) Javier López C.
Taller de Base de Datos Búsqueda de Reglas de Asociación Agrawal, Imielinski, Swami. “Mining Association Rules Between Sets for items in Large Databases”,
Representación del Conocimiento
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Teoria de grafos.-clase 4
BASE DE DATOS I Clase # 1.
Población y Muestra.
Diseño y análisis de algoritmos
Programación Lineal Entera Antonio H. Escobar Z Universidad Tecnológica de Pereira – Colombia Posgrado en Ingeniería – Maestría/Doctorado.
Business Intelligence y Data Mining
(Organización y Manejo de Archivos)
Descomposición Factorial Unidad 5
Análisis y Diseño Orientado a Objetos utilizando UML
Combinación de Clasificadores
Tema 7: EL MERCADO DE FACTORES
Chapter 13 Normalization Transparencies © Pearson Education Limited 1995, 2005.
Backtracking 1. Método general. 2. Análisis de tiempos de ejecución.
Primas: Costos. Prima Una prima es simplemente el precio de una cobertura de seguro (pero no expresamos por unidad – normalmente) Esto implica que los.
Métodos de calibración: regresión y correlación
Ecuaciones diferenciales de orden superior

Inferencia Estadística
Taller de Base de Datos Reglas de Asociación a Múltiples Niveles “Mining Generalized Association Rules”. Srikant, Agrawal VLDV En muchas aplicaciones.
1 Problemas de decisión Tipo particular de problemas de optimización Sistemas que evolucionan con el tiempo Se toman decisiones en momentos sucesivos de.

UCLA – DAC M. Sc. Jorge E. Hernández H.
Términos algoritmo diseñar algoritmo implementar algoritmo
Para pasar a tablas todos los datos sin dejar nada y que las tablas tengan sentido por si solas se tiene que seguir unos pasos: 1.Toda entidad se transforma.
Ilustra: E L M ODELO C ONCEPTUAL Conceptos (Objetos) en el dominio del problema. Es el instrumento (artefacto) más importante de crear en el AOO. Es la.
Base de Datos.
Dirección General de Educación Superior Tecnológica Instituto Tecnológico de Salina Cruz CARRERA INGENIERÍA EN TECNOLOGÍAS DE LA INFORMACIÓN Y LAS COMUNICACIONES.
RIESGO, RENDIMIENTO Y VALOR
Control Estadístico de Procesos
NORMAS INTERNACIONALES DE INFORMACIÓN FINANCIERA

“Análisis y Diseño de Algoritmos” 2a Entrega, Programa 6 Centro de Investigación y Estudios Avanzados del IPN Samuel Garrido Daniel 15-Abril-2004 México,
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
SOLUCIONES EMPRESARIALES
INFERENCIA ESTADÍSTICA
PROGRAMACIÓN Grupo de Modelamiento de Sistemas
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
Tipos de Datos abstractos
Benemérita Universidad Autónoma de Puebla Facultad de Ciencias de la Computación ENSAMBLADOR MC BEATRIZ BELTRÁN MARTÍNEZ.
M ODELO DE DATOS DE ENTIDAD - VÍNCULO El modelo de entidad-vínculo es un modelo de datos conceptual de uso muy extendido. Este modelo, y sus variantes,

LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia METODOS ALEATORIOS.
Transcripción de la presentación:

MC Beatriz Beltrán Martínez Reglas de Asociación MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Definición El objetivo de las reglas de asociación es encontrar asociaciones o correlaciones entre los elementos u objetos de bases de datos transaccionales, relacionales o data warehouse. Las reglas de asociación tienen diversas aplicaciones como: Soporte para la toma de decisiones. Diagnóstico y predicción de alarmas en telecomunicaciones. Análisis de información de ventas Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Procedimiento Se encuentran usando un procedimiento de covering. Sin embargo, en el lado derecho de las reglas, puede aparecer cualquier par o pares atributo-valor. Para encontrar ese tipo de reglas se debe de considerar cada posible combinación de pares atributo-valor del lado derecho. Para posteriormente podarlas usando cobertura (número de instancias predichas correctamente) y precisión (proporción de número de instancias a las cuales aplica la regla). Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Ejemplo Encontrar las reglas de asociación X ⇒ Z de la tabla con la restricción de cumplir con un mínimo de cobertura y de precisión. Las reglas con: Cobertura mínima de 50% Precisión mínima de 50% Transacción Elementos Comprados 1 A, B, C 2 A, C 3 A, D 4 B, E, F Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Ejemplo A ⇒ C (50%, 66.6%) C ⇒ A (50%, 100%) Una regla de asociación es una expresión de la forma X ⇒ Z donde X y Z son conjuntos de elementos. El significado intuitivo: Las transacciones de la base de datos que contienen X tienden a contener Z. Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Definiciones I = {i1, i2, i3, . . . , im} conjunto de literales, atributos D conjunto de transacciones T, T ⊆ I TID identificador asociado a cada transacción X conjunto de elementos X ∈ I Una regla de asociación es una implicación: X ⇒ Z, X ∈ I, Z ∈ I y X ∩ Z = ∅ Soporte (o cobertura), s, es la probabilidad de que una transacción contenga {X, Z} Confianza (o eficiencia), c, es la probabilidad condicional de que una transacción que contenga {X} también contenga {Z}. Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Evaluación En reglas de asociación, la cobertura se llama soporte (support) y la precisión se llama confianza (confidence). Se pueden leer como: soporte(X ⇒ Z) = P(X ∪ Z) confianza(X ⇒ Z) = P(Z|X) = soporte(X ∪ Z) soporte(X) Primavera 2016 MC Beatriz Beltrán Martínez

Problema Dado un conjunto de transacciones, encontrar reglas que describen tendencias en los datos: Detectar cuándo la ocurrencia de un artículo está asociada a la ocurrencia de otros artículos en la misma transacción. TID Artículos 1 Pan, leche, huevos 2 Pan, pañales, cerveza 3 Leche, pañales, cerveza 4 Pan, leche, pañales, cerveza 5 Pan, leche, huevos, cerveza Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Problema Reglas de asociación: {cerveza}  {pañales} (60%, 75%) {leche, pan}  {huevos} (40%, 66%) {cerveza, pan}  {leche, huevos} (20%, 33%) Objetivo: Identificar artículos que muchos clientes compran conjuntamente. Solución: Procesar los datos de los terminales de punto de venta proporcionados por los escáneres de códigos de barras. Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Aplicaciones Promociones y ofertas Si se identifica una regla del tipo: {impresora} → {tóner} Tóner en el consecuente => Puede determinarse cómo incrementar sus ventas. Impresora en el antecedente => Puede determinarse qué productos se verían afectados si dejamos de vender impresoras. Impresora en el antecedente y tóner en el consecuente => Puede utilizarse para ver qué productos deberían venderse con impresoras para promocionar las ventas de tóner. Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Extracción de Reglas Dado un Dado un conjunto de transacciones T, encontrar todas las reglas de asociación cuyo soporte sea mayor o sea mayor o igual que un umbral mínimo de soporte: supp (X → Y) ≥ MinSupp cuya confianza sea mayor o sea mayor o igual que un umbral mínimo de confianza: conf (X → Y) ≥ MinConf Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Extracción de Reglas Solución por fuerza bruta Enumerar todas las reglas de asociación posibles. Calcular el soporte y la confianza de cada regla. Eliminar las reglas que no superen los umbrales de soporte y confianza (soporte y confianza (MinSupp y MinConf). Demasiado costoso!! Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Fuerza bruta… Ejemplo Reglas derivadas de {pan, pañales, cerveza} {pan} → {pañales, cerveza}, supp=0.4, conf=2/4=0.5 {pañales} → {pan, cerveza}, supp=0.4, conf=2/3=0.66 {cerveza} → {pan, pañales}, supp=0.4, conf=2/4=0.5 {pan, pañales} → {cerveza}, supp=0.4, conf=2/2=1 {pan, cerveza} → {pañales}, supp=0.4, conf=2/3=0.66 {pañales, cerveza} → {pan}, supp=0.4, conf=2/3=0.66 Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Observaciones Todas las reglas anteriores son particiones binarias del mismo grupo de productos ({pan, pañales, cerveza}). Todas las reglas que provienen del mismo grupo tienen el mismo soporte, aunque su confianza pueda variar. Por tanto, podemos separar la parte la parte que depende del soporte de la que depende de la confianza. Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Solución Generación de grupos frecuentes: Identificar los grupos con soporte ≥ MinSupp. Generación de reglas de asociación: Obtener reglas de asociación con una confianza elevada a partir de cada grupo frecuente, donde cada regla es una partición binaria del grupo. Todavía es costosa!! Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Estrategias Reducir el número de candidatos (M) Uso de técnicas de poda. Ejemplo: Algoritmos Apriori y DHP [Direct Hashing and Pruning] Reducir el número de transacciones (N) Reducir N conforme aumenta el tamaño del grupo. Ejemplo: Algoritmo AprioriTID Reducir el número de comparaciones (NM) Uso de estructuras de datos eficientes para almacenar los candidatos o las transacciones, de forma , de forma que no haya que comparar cada candidato con todas las transacciones. Primavera 2016 MC Beatriz Beltrán Martínez

Reducción del número de candidatos La propiedad Apriori Si un grupo es frecuente, también lo son todos sus subconjuntos ¿Por qué? Porque el soporte de un grupo nunca puede ser mayor que el de cualquiera de sus subconjuntos: ∀X,Y (: X ⊆ Y) ⇒ s(X ) ≥ s(Y) Formalmente, esta propiedad se conoce con el nombre de anti-monotonía del soporte. Primavera 2016 MC Beatriz Beltrán Martínez

MC Beatriz Beltrán Martínez Algoritmo Apriori Tablas L[k] = Conjunto de k-grupos frecuentes C[k] = Conjunto de k-grupos potencialmente frecuentes. Algoritmo Generar L[1] (patrones frecuentes de tamaño 1) Repetir mientras se descubran nuevos grupos frecuentes: Generar los candidatos C[k+1] a partir de los patrones frecuentes L[k]. Contabilizar el soporte de cada candidato de C[k+1] recorriendo la base de datos secuencialmente. Eliminar candidatos no frecuentes, dejando en L[k+1] sólo aquéllos que son frecuentes. Primavera 2016 MC Beatriz Beltrán Martínez