Taller de Base de Datos Búsqueda de Reglas de Asociación Agrawal, Imielinski, Swami. “Mining Association Rules Between Sets for items in Large Databases”,

Slides:



Advertisements
Presentaciones similares
Capítulo I Gestión de E/S 1.- Gestión de E/S 2.- Hardware de E/S 3.- Software de E/S.
Advertisements

AGENTE ASPIRADOR INTELIGENCIA ARTIFICIAL Y ROBÓTICA Alumnos
Diseño y análisis de algoritmos
Análisis de asociación
Reglas de asociación w Similares a las reglas de clasificación w Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.
Unidad 1 DISEÑO DE ALGORITMOS ING. Nelwi Baez. MSC
MERCADO DE DINERO UNIDAD 6: Agosto 2013
Ordenamiento Interno y Búsqueda Binaria
Concepto de programa. Directorio Concepto de programa. Analisis del problema. Resolucion del problema. Desarroollo de un programa. Partes constitutivas.
Santiago González Tortosa
Windows XP sp3.
Algorítmo de Mapeo Directo
INTEGRANTES MEDINA ORTIZ MISSAEL MARTIN GONZALEZ MADRIGAL OMAR
INTRUCCIÓN TECNICA COPIAS DE SEGURIDAD TALLERES ALMERIA S.A.U
FUNDAMENTOS DE CONTROL
Direcciones físicas y direcciones virtuales (lógicas)
Taller de Base de Datos Profesor: Claudio Gutiérrez Soto página: Fono: Minería.
Bases de datos Distribuidas ITES de la región carbonífera 1 Bases de datos distribuidas.
Proceso de información en la computadora
Análisis de Algoritmos
ESTRUCTURAS DE DATOS I Conocer, comprender y analizar algunos de los principales tipos de estructuras de datos.
Organización del Computador I Verano MIPS (1 de 2) Basado en el capítulo 3 del libro de Patterson y Hennessy Verano 2004 Profesora Borensztejn.
ESTRUCTURAS DO-WHILE Y FOR.
Procesador Introducción - Funcionamiento - Memoria caché
Estructura de Datos II Equipo 4 Equipo 7 Acosta Montiel Miguel A.
Administración de Memoria Memoria Virtual
JERARQUIA DE LA MEMORIA
Sistema de archivos Sistemas operativos.
Overview Sistemas Computacionales
MEMORIA ROM Y MEMORIA RAM. PROFESORA: ANDRY SAAVEDRA SAN CARLOS,
Resolución de Problemas y Algoritmos Uso de iteración con secuencias
Diseño de algoritmos La computadora puede realizar procesos y darnos resultados, sin que tengamos la noción exacta de las operaciones que realiza. Con.
Material de apoyo Unidad 4 Estructura de datos
Sistema de Archivos Hernández Martinez Sonia Lizbeth
XQuery. 2 Introducción De acuerdo al incremento en la cantidad de información que es almacenada, intercambiada y presentada usando XML, la habilidad para.
Disco rígido presentación. INDICE (HISTORIA) (HISTORIA) Que son los Discos Rígidos ? Tamaños, Interfaces, todo lo que necesitas saber!!! Que son los Discos.
Tipos de Datos. Entrada-Salida.. La entrada-salida (I/O) le permite a un programa comunicarse con el mundo exterior. Esta comunicación puede realizarse.
Taller de Base de Datos Reglas de Asociación a Múltiples Niveles “Mining Generalized Association Rules”. Srikant, Agrawal VLDV En muchas aplicaciones.
MEDIOS DE ALMACENAMIENTO
Teoría de Sistemas Operativos I/O
Taller de Base de Datos Procesamiento Analítico en Línea ¿Qué es OLAP? Imaginemos el siguiente escenario: Una cadena de supermercados posee una (o varias)
Teoría de Probabilidad Dr. Salvador García Lumbreras
Estructura de los Sistemas Operativos
Tecnología SCSI.
Sistemas de Archivo Universidad Interamericana de PR. Recinto Guayama Ciencias Aplicadas en Redes, Reparacion e Instalacion de Sistemas Computarizados.
PRESENTADO: Hernan Dario Delgado murcia. son las siglas de random access memory, un tipo de memoria de ordenador a la que se puede acceder aleatoriamente;
UNIVERSIDAD TECNOLÓGICA ECOTEC. ISO 9001:2008 FUNDAMENTOS TECNOLOGICOS DE INFORMACION Clase No 1 I Ing. Manuel Ramírez Pírez.
Sistemas de Archivos Sistemas Operativos.  Se debe proporcionar un almacenamiento secundario que respalda a la memoria principal  El Sistema de archivos.
Diseño y análisis de algoritmos Análisis de Algoritmos II.
Emanuel Gómez Yáñez Cenobio Ochoa Luis Gerardo DISPOSITIVOS DE ALMACENAMIENTO SECUNDARIO.
Presente un cuestionario con los aspectos mas importantes sobre los
Tema: Dispositivos de almacenamiento secundario. Tema: Dispositivos de almacenamiento secundario ¿Cuál es la unidad base en el sistema de medición para.
GENERADOR DE CÓDIGO FUENTE COBOL
Compiladores Análisis de Flujo de Datos. 2 Resumen Overview de análisis de control de flujo Expresiones disponibles Algoritmo para calcular expresiones.
TurfView Power El Dashboard Instrucciones Actualización – Noviembre 2012.
Algoritmos y Desarrollo de Programas I
* Cuando nos permite desarrollar un programa que necesitamos para tomar un conjunto de buenas prácticas para hacer eso. Esto se debe a que podemos ahorrar.
DISCOS RAID (Redundant Array of Independent Disks)
 Se describe como la unidad basica de almacenamiento de informacion, generalmente equivale a ocho bits ( ), pero el tamaño del byte depende.
QUE ES UNA RED Una red es un grupo de equipos de sobremesa o portátiles (y otros dispositivos de red, como impresoras) conectados entre sí El propósito.
Universidad Metropolitana Introducción a la Computación Universidad Metropolitana Introducción a la Computación Septiembre, 2007 Arquitectura Von Newman.
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
¿Cuál especificación hace referencia a la velocidad del microprocesador del equipo? 12 GB 2.0 GHz 24 X 12 GB 2.0 GHz 56 K V x 600 ppp 56 K V.90.

Gestión de Memoria – Parte 2
Prof. Jonathan Silva Ingeniería Civil – Informática I Ingeniería Civil Informática I Clase 3 – Diseño de Programas.
UNIDADES DE ALMACENAMIENTO. La unidad básica en Informática es el bitInformática.
Algoritmos voraces Códigos de Huffman. Descripción del problema Tenemos un archivo de entrada. Asumiremos que el archivo está compuesto de bytes (enteros.
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ Facultad de Ingeniería de Sistemas Computacionales Programa de Lic. en Informática Educativa Computación.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

Taller de Base de Datos Búsqueda de Reglas de Asociación Agrawal, Imielinski, Swami. “Mining Association Rules Between Sets for items in Large Databases”, Agrawal, Srikant. “Fast Algorithms for Mining Association Rules”, VLDB 1994.

Taller de Base de Datos Motivación Progreso en tecnologías de código de barra y POS, ha hecho habitual la captura de “basket data” (conjunto de ítemes adquiridos en una misma transacción). Una transacción puede involucrar un punto o periodo de tiempo. El análisis de esta información puede mejorar decisiones como: diseño de cupones, ubicación de mercadería, diseño de ofertas, etc.

Taller de Base de Datos Definiciones Básicas Dado un conjunto de itemes y un conjunto de transacciones Una regla de asociación es una expresión de la forma: Ejemplo: {Leche, Perfume} {LapizLabial}

Soporte y Confianza de una Regla Confianza: Conf(X Y)=c en D ssi un c% de las transacciones en D que contieen X también contienen Y. Soporte: Sop(X Y)=s en D ssi un s%de las transacciones en D contienen a X U Y. El soporte es una medida (muy simplista ) de la significancia de la regla, y la confianza una medida de correlación. Taller de Base de Datos

Reglas Interesantes (Definición) Dados un soporte y confianza mínimos, minSop y minConf, una regla X Y es interesante en un conjunto de Problema: Encontrar las reglas interesantes en un conjunto de transacciones D Taller de Base de Datos

Limitaciones de Noción de “Reglas Interesantes” Si la confianza de X Y es alto, podemos concluir que existe un enlace causal entre X e Y. Resp. No necesariamente, si X e Y son independientes Pr(X|Y) = Pr(X), por lo que basta que Pr(X) sea alto para que la confianza sea alta. Ejemplo :{Leche, Perfume} {LapizLabila} Podría ser alto sólo porque se compra mucho LapizLabial Un medida más precisa es la corrrelación, la cual estudiaremos más adelante. Taller de Base de Datos

Limitaciones de Noción de “Reglas Interesantes” Otras Limitaciones: No captura correlación negativa (ej. Tipos de clableado eléctrico y ocurrencia de incendios). No aseguran significancia estadística. Más adelante discutiremos la extensión en: S. Brin, R Motwan, C. Silverstein. “Beyond Markets: Generalizing Association Rules to Correlations”. Taller de Base de Datos

Itemsets Un itemset es un conjunto de itemes. Un k-itemset es un conjunto de k ítemes El soporte de un itemset A en D es el % de ocurrencias de A en D. Un itemset es frecuente si su soporte es al menos minSop. Taller de Base de Datos

Algoritmo Básico INPUT: D, minSop, minConf OUTPUT: Reglas interesantes en D 1.- Encontrar los itemset frecuentes. 2.- Generar las reglas de asociación interesabtes a partir de los itemset frecuentes. Taller de Base de Datos

Descubrimiento de Itemsets Frecuentes Crear un buffer (variable en memoria RAM) que guarde un contador Count(A) para cada subconjunto de A en I. En una única lectura de D, poe cada transacción de T en D y por cada subconjutno A’ de T hacer Count(A’)++. Problema: Tamaño del buffer Taller de Base de Datos

Problema:Complejidad de los Datos Si contamos la frecuencia de cada itemser en una única lectura de la base de datos necesitamos 2 n contadores. Para n=10000, a 1 Byte por cada contador, se requiere 10GB. Taller de Base de Datos

Otra Estrategia Hacer varias lecturas de D. En la kava lectura, computar el soporte de los k-itensets. Esto funciona, pero significa demasiadas lecturas de D. Taller de Base de Datos

Problema: Volumen de los Datos Escenario común: Dos años de transacciones en una cadena de 50 supermercados. Cada supermercado tiene un promedio de ventas diarias, donde cada venta consiste de 20 ítemes en promedio. Estructura de las transacciones: Tamaño del archivo: Num. De Transacciones: 50x365x10000=365 millones. Num. De bytes por transacción: 4x21 Total 3066 millones, aporx. 30GB Usando un disco duro de 10MB/seg de velocidad, necesitamos 50 minutos para una sola lectura de la base de datos. Taller de Base de Datos

Otros Ejemplos Wallmart maneja aprox. 20 millones de transacciones diarias. Su base de datos de transacciones de ventas pesa 11 terabyte AT&T tiene más de 100 millones de clientes y almacena más de 300 millones de llamados diarios. Taller de Base de Datos

Algoritmo A priori Muchos de los itemset van a tener un soporte pequeño. Podemos evitar contar estos itemsets? Principio de monotonicidad: Si S es un itemser frecuente, entonces todo subconjutno de S es un itemset frecuente. Ejemplo: Si {x,y,z} es frecuente entonces {x,y} es frecuente. Taller de Base de Datos

Algoritmo A priori Leer D y contar el soporte de los 1-itemset candidatos C 1. Obtener los 1-itemset frecuentes L 1. En la siguiente lectura de D, contar el soporte de los 2-itemset Obtener los 2-itemset frecuentes L 2 En la siguiente lectura de D, contar el soporte de los 3-itemset Obtener los 3-itemset frecuentes Seguir con cada k-itemset hasta que (donde n es el número de itemset)

Taller de Base de Datos Generación de los k-itemsets Candidatos Objetivo: dado L k-1 generar C k Dos pasos: (1) Generamos C (contiene superconjuntos de los ítemes en L k- 1 ); (2) Podamos C para obtener C k Paso (1): (Asumir que las transacciones y los itemes están ordenados lexicograficamente) Generamos C usnado el operador join

Taller de Base de Datos Generación de los k-itemsets Candidatos

Taller de Base de Datos Algoritmo Apriori

Taller de Base de Datos Variante Contar ítemsets candidatos de múltiples tamaños en cada lectura de D. Además de contar sólo soporte de los ítemesets en C k, contar el soporte de C k y C’ k+1 = aprioriGen(C k ). Esto puede ser útil en las últimas iteraciones ¿Por qué? ¡Desventajas?

Taller de Base de Datos Manejo de Buffer En la primera línea del loop principal necesitamos guardar L k- 1 y C k en memoria RAM. En el loop interno guardamos en RAM la tupla t y C k. Si L k-1 cabe en RAM pero C k no: generamos C k por partes, por cada parte contamos el soporte y computamos el L k asociado. Si L k-1 no cabe en RAM: se ordena L k-1 lexicográficamente, luego se lee el bloque de L k-1 con los primeros k-2 elementos igulaes. Generamos su C k y lo contamos. Repetimos hasta contar todo C k.

Taller de Base de Datos Generación de Reglas a Partir de Itemsets Frecuentes

Taller de Base de Datos Generación de Reglas a Partir de Itemsets Frecuentes