Software Association Rules

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ARCHIVOS MATRIZ EN UN LEVANTAMIENTO
EBSCO Discovery Service Detalle de Estadísticas
Reglas de asociación w Similares a las reglas de clasificación w Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.
PRESENTACIÓN DEL SOFTWARE
Marzo de 2010Dos Ideas - La visión de Sistemas desde el Desarrollo Introducción a PL/SQL Conceptos básicos.
Introducción a los Algoritmos
Aprendizaje de Microsoft® Access® 2010
¿ Que es la complejidad de un algoritmo ?
Santiago González Tortosa
R. Introducción R es una versión del lenguaje de programación S desarrollado por John Chambers en los laboratorios Bell en R fue escrito inicialmente.
METODO SIMPLEX El método Simplex es un procedimiento iterativo que permite ir mejorando la solución a cada paso. El proceso concluye cuando no es posible.
Programación por capas: Capa de Clases
Academia: Informática Tema: Validación de datos Profesor (a): Baños García Yesenia, Lic. Comp. Periodo: Julio – Diciembre 2014.
ECONOMÍA DE LA INFORMACIÓN
Excel y 15 de julio de 2014.
Tema 2: Métodos de ajuste
Taller de Base de Datos Búsqueda de Reglas de Asociación Agrawal, Imielinski, Swami. “Mining Association Rules Between Sets for items in Large Databases”,
 La resolución de problemas algorítmicos no solamente implica que los informáticos sepan programar sino necesitan de otras habilidades como tener una.
INFOMATICA EMPRESARIAL Principales Contenidos: Clase 26 de Mayo de 2012 Alejandra Meliza Caro Profesor.
Bases de Datos Relacionales
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Como empezar en Access 2000 Abrir Access 2000 Pulsamos INICIO
Técnicas estadísticas paramétricas univariantes: regresión
Biograma Introducir datos en una matriz. Elegir método para máximos y mínimos. Calcular los máximos y mínimos observados. Límites.
Programación en Matlab
Matrices Es una estructura homogénea, compuesta por varios elementos, todos del mismo tipo y almacenados consecutivamente en memoria A cada elemento se.
Clases 4 Pruebas de Hipótesis
EL PODER DE SOLVER.
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
Programación Lineal Unidad 1 Parte 3.
1 Lenguaje y entorno de programación Claudio Quezada 1/21.
Visualizador de imágenes remotas Alumno: Juan Pablo García Ortíz Director: Vicente Gonzalez Ruiz.
EProcurement.
ANALISIS DE DATOS CATEGORICOS
Business Intelligence y Data Mining
Mt. Martín Moreyra Navarrete.
Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2008 M. Barreiro – M. Bidegain – A. Díaz Verificación y valor de.
Material de apoyo Unidad 4 Estructura de datos
Manuales de capacitación Cómo Ganar eficiencia y tiempo? Personalizar los botones de acceso rápido Este material es de libre difusión y utilización.
Alcance Dinámico La Asociación Actual para un Nombre dado es el encontrado recientemente durante la ejecución, y no a sido destruido aun por el retornado.
Estimación e intervalos de confianza
Medianas y Estadísticas de Orden
Estadística bidimensional
Taller de Base de Datos Reglas de Asociación a Múltiples Niveles “Mining Generalized Association Rules”. Srikant, Agrawal VLDV En muchas aplicaciones.
Microsoft Office Excel
Comenzando con Excel 2000 Abrir Excel 2000 Pulsamos INICIO Elegimos PROGRAMAS Pulsamos en MICROSOFT EXCEL 2000 Elementos de la ventana de Excel 2000 Barra.
Teoría de Trafico en Redes
TAMAÑO MINIMO DE MUESTRA PARA COMPARACIONES DE PROMEDIOS Mario Briones L. MV, MSc 2005.
Resumen Ejecutivo Somos Arpa Tigre, una agencia de mercadotecnia dedicada al desarrollo e investigación de la ciencia mercadológica. Generando productos.
COMPARACION DE MEDIAS Para comparar media utilizando la prueba T hay Ttres opciones diferentes utilizando contrastes de hipotesis sobre : PARA UNA MUESTRA.
CONTENIDO: Estadística Descriptiva e inferencial Muestreo estadístico
Microsoft Office Excel
Como usar Google Finance Jorge Cerdas. Ingrese a la página web de google finance
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ INF-252.
Solver complemento de excel
Luis Villalta Márquez Servicios SFTP/SCP. SFTP SSH File Transfer Protocol (también conocido como SFTP o Secure File Transfer Protocol) es un protocolo.
“Instalación de TuneUp Utilities” Para empezar la instalación de TuneUp Utilities, haga doble clic en el ejecutable del programa: Se le abrirá el asistente.
Support.ebsco.com Tutorial Holdings Management (Administración de Recursos)
Paralelización de Análisis de Reglas de Asociación Andrés Villavicencio T.
Aplicación JAVA implementando Arboles de Decisión
Detalles de contacto: Nombre del autor que presenta, dirección postal completa e . Agradecimientos Agradezca la ayuda de personas individuales e Instituciones.
AYUDANTÍA DE SIMULACIÓN
Capítulo 4 Análisis de la Entrada
QUÉ ES UNA BASE DE DATOS? Es un Conjunto de Información, que está clasificada de distintas maneras; pero que comparten entre sí algún tipo de vínculo,
Estrategias Mixtas En teoría de juegos una estrategia mixta, a veces también llamada estrategia mezclada (del nombre en inglés mixed strategy), es una.
BARRA DE ARCHIVO DE WORD. NUEVO Esta es un apartado donde nos muestra que podemos cambiar una nueva hoja Word, donde nos aparecen diferentes plantillas.
Ciclos condicionales y exactos Estructura de control de ciclos
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Software Association Rules
Transcripción de la presentación:

Software Association Rules 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Agenda Weka R Apriori 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Weka Tiene implementados 3 algoritmos vinculados a Association Rules Apriori Tertius Predictive Apriori Los dos últimos son de tipo “predictivo” 3/24/2017 Maestria en Data Mining

Weka –Parámetros Apriori Car: indica que se trata de “clasification association rule”, funciona en conjunto con classindex que indica cual es la variable a predecir Tiene un rango para el min support y el parámetro ”Delta” indica en cuanto se baja el min support en una iteración si no se alcanza el numero deseado de reglas significance level : Apriori usa un test de chi-cuadrado para determinar si la relación entre X e Y es estadisticamente significativa. Se rechazan aquellos casos en los que la probabilidad de chi-cuadrado sea menor que la establecida en este parámetro 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Weka –Metric Type Indica la métrica que se va a utilizar para ordenar los resultados. Además de la confianza están leverage (L -> R) Pr(L,R) - Pr(L).Pr(R). Mide la diferencia que hay entre los casos cubiertos por el itemset y la que se debería haber esperado si los sucesos eran independientes Lift (L -> R) (P(LR)/(P(L)*P(R)) Conviction (L -> R) (1 − sup(R))/(1 − confidence(L -> R)) Mide las veces que A ocurre sin B 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Weka –Varios Para poder procesar los datos referidos a las clásicas compras del supermercado es necesario que los datos tengan el formato de una matriz, donde las filas representan las compras y las columnas los productos. En las columnas correspondientes a los productos que se encuentran en una transaccion debe aparecer un 1 (TRUE) y si bien la documentacion dice que en los demás debe haber un 0 ( FALSE) la heurísitca demuestra que es necesario colocar un “?” En la versión 3.5.6 no permite utilizar atributos numéricos para reglas de asociación generalizadas , pero eso esta resuelto en al versión 3.5.7 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Agenda Weka R Apriori 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Es necesario instalar los packages Arules Matrix ( necesario para ejecutar el anterior) En el servidor de ftp estan las versiones que se pueden usar con el software del laboratorio. Sino pueden instalarlo directamente desde internet En el archivo arules.pdf está el help correspondiente al package Una vez instalados antes de usarlos hay que cargarlos 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Tiene implementados 2 algoritmos de association rules Apriori Eclat 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Pueden encontrar detalles sobre la implementación de estos algoritmos en R en : “Introduction to arules Mining Association Rules and Frequent Item Sets”, Michael Hahsler and Bettina Grün and Kurt Hornik ( arules_paper.pdf) “Efficient Implementations of Apriori and Eclat”, Christian Borgelt ( fimi_03.pdf) El algoritmo ECLAT está descripto en : “Scalable Algorithms for Association Mining”, Mohammed J. Zaki ( k0372.pdf) 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Parámetros Apriori recibe 4 parámetros : Datos Parámetros de ejecución del algoritmo ( confianza, y muchos más) Apariencia: restricciones en las reglas que son generadas por apriori ( por ejemplo que atributos quiero que aparezcan del lado izquierdo, derecho., etc.) Control : impactan sobre la forma de ejecución del algoritmo ( por ejemplo maximizar memoria o velocidad, etc) Eclat recibe 3 parámetros : Parámetros de ejecución del algoritmo Control 3/24/2017 Maestria en Data Mining

Parámetros de ejecución Comunes a ambos algoritmos Support: minlen: mínimo número de items por itemset maxlen: máximo número de items por itemset target: Tipo de asociación a buscar "frequent itemsets" "maximally frequent itemsets" "closed frequent itemsets" "rules" (Sólo Apriori) ext: variable boolena indicando si se va a dar informacion adicional sobre las medidas de calidad 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Parámetros Apriori Confidence smax: valor para el máximo soporte ( default 1) arem: indicador de medidas adicionales de calidad a utilizar (default: "none“) "none“: "diff": absolute confidence difference "quot": difference of confidence quotient to 1 "aimp": absolute difference of improvement to 1 "info": information difference to prior "chi2": normalized chi^2 measure aval: indicador boolenao para establecer si se desea mostrar las medidas adicionales de calidad. arem. minval: mínimo valor para la medida adicional establecida(default: 0.1) originalSupport: indicador boolenao para establecer si se desea calcular el soporte de la forma tradicional o sólo utilizando la parte izquierda de las reglas 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Parámetros Eclat tidLists: indicador booleano para establecer si se desea mostrar el conjunto de transacciones en las que aparece cada itemset(transaction IDs) (default: FALSE) 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Parámetros de Control Son parámetros referidos a la forma de ejecución del algoritmo. Por ejemplo tree: a logical indicating whether to organize transactions as a prefix tree (default: TRUE) heap: a logical indicating whether to use heapsort instead of quicksort to sort the transactions (default: TRUE) memopt: a logical indicating whether to minimize memory usage instead of maximize speed (default: FALSE) load: a logical indicating whether to load transactions into memory (default: TRUE) 3/24/2017 Maestria en Data Mining

Parámetros de Apariencia Aplican sólo al a priori Se refieren a los criterios que deben cumplir las reglas que están buscando. Por ejemplo appearance = list(rhs = c("income=small", "income=large"), default="lhs“), indica que para la parte derecha de la regla tiene que aparecer la variable income con los valores small o large y que para la parte izquierda no hay restricciones. 3/24/2017 Maestria en Data Mining

Algunos Comandos útiles Para ver las transacciones inspect(basket) Para obtener información de resumen de las transacciones ( cuantas son, cuantos items, etc) Summary(basket) Para convertir del formato de transacciones a un formato de matriz j <- as(basket, "matrix") 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Agenda Weka R Apriori 3/24/2017 Maestria en Data Mining

Maestria en Data Mining Apriori Es un ejecutable que se corre desde línea de comandos El autor es Christian Borgelt ( que es el mismo que hizo la implementación del apriori en el R) La página es http://www.borgelt.net//apriori.html De ahí se puede bajar y está el help 3/24/2017 Maestria en Data Mining

Software Association Rules Muchas gracias! 3/24/2017 Maestria en Data Mining