Maestría en Data Mining Reglas de Asociación Algoritmo Apriori March 23, 2017 Maestría en Data Mining
Maestría en Data Mining Reglas de Asociación Ejemplo. “Antecedente ® Consecuente [soporte, confianza]”. pañales® cerveza [0.5%, 60%] Soporte = porcentaje de transacciones que contienen pañales y cerveza Confianza: porcentaje de las transacciones que tienen pañales que también tienen cerveza March 23, 2017 Maestría en Data Mining
Maestría en Data Mining Apriori ¿Cómo encontrar las reglas?Hacer todos las combinaciones posibles es muy costoso. Dos grandes pasos Descubrimientos de los itemsets frecuentes Descubrimiento de las reglas contenidas en esos itemsets Maneja 2 conjuntos de itemsets Candidatos ( Ck) y Frecuentes ( Lk) Usa una propiedad muy importante Un itemset no puede ser frecuente si tiene algún itemset contenido en él que no lo es. March 23, 2017 Maestría en Data Mining
Maestría en Data Mining El algoritmo Join Step: Ck is generated by joining Lk-1with itself Prune Step: Any (k-1)-itemset that is not frequent cannot be a subset of a frequent k-itemset Pseudo-code: Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=; k++) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk; March 23, 2017 Maestría en Data Mining
Ejemplo de Generación de Candidatos L3={abc, abd, acd, ace, bcd} Unir: L3*L3 abcd de abc y abd acde de acd yace Pruning: Como ade no está en L3 se elimina acde C4={abcd} March 23, 2017 Maestría en Data Mining
Obtención de las reglas For each frequent itemset X, For each proper nonempty subset A of X, Let B = X - A A B is an association rule if Confidence (A B) ≥ minConf, where support (A B) = support (AB), and confidence (A B) = support (AB) / support (A)
Maestría en Data Mining Ejercicio Propuesto T1 = { A B C D E F } T2 = {B D E F } T3 = { D E F} T4 = { C D} T5 = { A F} T6 = { A C E F} Minsup= 0.5; confidence = 0.75 March 23, 2017 Maestría en Data Mining
Association Rule Mining: A Road Map Boolean vs. quantitative associations (Based on the types of values handled) buys(x, “SQLServer”) ^ buys(x, “DMBook”) ® buys(x, “DBMiner”) [0.2%, 60%] age(x, “30..39”) ^ income(x, “42..48K”) ® buys(x, “PC”) [1%, 75%] Single dimension vs. multiple dimensional associations (see ex. Above) Single level vs. multiple-level analysis What brands of beers are associated with what brands of diapers? Various extensions Correlation, causality analysis Association does not necessarily imply correlation or causality Maxpatterns and closed itemsets Constraints enforced E.g., small sales (sum < 100) trigger big buys (sum > 1,000)? March 23, 2017 Maestría en Data Mining
Maestría en Data Mining Reglas de Asociación Muchas Gracias ! March 23, 2017 Maestría en Data Mining