Software Association Rules

Slides:



Advertisements
Presentaciones similares
Software Association Rules
Advertisements

Santiago González Tortosa
Taller de Base de Datos Búsqueda de Reglas de Asociación Agrawal, Imielinski, Swami. “Mining Association Rules Between Sets for items in Large Databases”,
Graficos ¿Còmo aplicamos los gràficos?. Reto: 7 En muchas ocasiones la información proporcionada en una tabla es tan singulares o importante que se decide.
RECONOCES Y REALIZAS OPERACIONES CON DISTINTO TIPO DE FUNCIONES PROFESORA: XÓCHITL ARIANDA RUIZ ARMENTA MATEMÁTICAS 4 4TO SEMESTRE ENERO 2015 MULTIVERSIDAD.
T – Student teoria de las muestras pequeñas Paola Andrea Palacio Montero Estadística.
TEMA 3. ESTADÍSTICA BIDIMENSIONAL. INDICE 1.- Relación estadística: correlación 2.- Diagramas de dispersión o nube de puntos 3.- Tablas de frecuencia.
ESCUELA DE CIENCIAS BÁSICAS TECNOLOGÍA E INGENIERÍAS Creación de un Modelo lógico de datos Tecnología En Desarrollo De Software - UNAD Matriz de Relación.
El estadístico Chi- cuadrado ING. RAÚL ALVAREZ GUALE, MPC.
Cuestiones problemáticas del análisis de regresión  Causalidad  Tamaño de la muestra  Colinealidad  Medición del error Miles, J. & Shevlin, M. (2011).Applying.
Introducción a las No-Paramétricas Chi-Cuadrada χ 2 Maestría de Salud Pública Universidad de Xochicalco 2º Semestre 5 de Junio del 2009 Dr Burgos Dra.
Partes de ventana de Access Carolina Pozo. Sexto “B”
Tutorial Full Text Finder Buscador de Publicaciones support.ebsco.com.
Opciones del Package Manager. - Create new package: Me permite crear un nuevo paquete - Write new specification files for all installed, locally generated.
Cambia de lugar 1 de los 12 palillos para que la igualdad sea verdadera. (Porque 4+3 no son 5) 8 DE 8 Colocar 8 fichas en el tablero de ajedrez de forma.
República Bolivariana de Venezuela Instituto Universitario Politécnico “Santiago Mariño" Estadísticas I - OV Estadística Profesor : Bachiller: Pedro Beltrán.
Programación Lineal SOLUCIÓN MEDIANTE SOFTWARE POM FOR WINDOWS.
Indicadores.
PRUEBAS DE BONDAD DE AJUSTE estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.
PRUEBA DE SIGNIFICANCIA
Stored Procedures Firebird.
Modelos estadísticos de los procesos II
Metodologías para Riesgo de Crédito
M.Sc. Pablo Alejandro Quezada Sarmiento
INFORMÁTICA II (ALGORITMOS)
NORMA INTERNACIONAL DE AUDITORÍA 330
Metabúsqueda en .Q Metabúsqueda en .Q COMENZAR.
Tema 4 Elementos para el Desarrollo de Algoritmos
Correo Electrónico *Es un servicio gratuito en el que puedes enviar y recibir mensajes de manera instantánea a través de Internet, incluyendo fotografías.
Autofiltro en Excel.
Geometría Analítica.
MANEJO DE ARCHIVOS DIGITALES
Tutorial Holdings Management (Administración de Colecciones)
MATLAB 6.5 Clase 3: Funciones básicas e Introducción a la Programación
COMPUTER DATA SYSTEMS CDS.
Administrador de Tareas
2da clase ofimatica.
Simulador modular secuencial basado en ecuaciones
Conceptos y protocolos de enrutamiento. Capítulo 5
Pruebas Proyector BENQ
PROGRAMACIÓN 1 INTRODUCCIÓN
ARRAYS Y COLECCIONES DE DATOS
Herramientas Entorno Web
ESTADÍSTICA BÁSICA.
TRABAJO ESPECAL DE GRADO
DISEÑO Y ANALISIS DE EXPERIMENTOS
LA MATRIZ DE CONSISTENCIA
LA ESCALA.
Tutorial Holdings Management (Administración de Recursos)
Maestría en Ciencias de la Computación
SOFTWARE DE APLICACIÓN EJECUTIVA
QFD.
Dr. Alejandro Salazar – El Colegio de Sonora
Quadratic Assignment Problem
Presentan:. Presentan: Estadística Historia y Conceptos Básicos.
Optimización de Procesos.
Unidad 3: Libre Office Calc
Ejercicio: dada la cadena «AUGAAAAUUUAGUUAGUUAGU»
LOS RESULTADOS DE MENDEL Y LA PROBABILIDAD
Jornada Nacional para fortalecer las competencias del referente técnico de los informes Trimestrales de Dotación de Personal para DIPRES Matriz C (Ceses.
MATRIZ DE CHEQUEO DE PARIDAD
Regresión Logística App4stats © Todos los derechos reservados.
Full Text Finder Buscador de Publicaciones
Funcionalidad de Búsqueda
Diagrama de componentes
PROBABILIDAD Y TÉCNICAS DE CONTEO
Taller de R para estadísticas Fundamentos del Lenguaje, tipo y estructura de datos Mgter. Danny Murillo.
DISEÑO Y ANALISIS DE EXPERIMENTOS
REGRESION LINEAL SIMPLE
VARIABLE Y TIPO DE DATOS. ¡Que Es Variable? Un lugar para almacenar información en un espacio de memoria de la computadora.
Transcripción de la presentación:

Software Association Rules 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Agenda Weka R Apriori 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Weka Tiene implementados 3 algoritmos vinculados a Association Rules Apriori Tertius Predictive Apriori Los dos últimos son de tipo “predictivo” 9/9/2018 Maestria en Data Mining

Weka –Parámetros Apriori Car: indica que se trata de “clasification association rule”, funciona en conjunto con classindex que indica cual es la variable a predecir Tiene un rango para el min support y el parámetro ”Delta” indica en cuanto se baja el min support en una iteración si no se alcanza el numero deseado de reglas significance level : Apriori usa un test de chi-cuadrado para determinar si la relación entre X e Y es estadisticamente significativa. Se rechazan aquellos casos en los que la probabilidad de chi-cuadrado sea menor que la establecida en este parámetro 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Weka –Metric Type Indica la métrica que se va a utilizar para ordenar los resultados. Además de la confianza están leverage (L -> R) Pr(L,R) - Pr(L).Pr(R). Mide la diferencia que hay entre los casos cubiertos por el itemset y la que se debería haber esperado si los sucesos eran independientes Lift (L -> R) (P(LR)/(P(L)*P(R)) Conviction (L -> R) (1 − sup(R))/(1 − confidence(L -> R)) Mide las veces que A ocurre sin B 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Weka –Varios Para poder procesar los datos referidos a las clásicas compras del supermercado es necesario que los datos tengan el formato de una matriz, donde las filas representan las compras y las columnas los productos. En las columnas correspondientes a los productos que se encuentran en una transaccion debe aparecer un 1 (TRUE) y si bien la documentacion dice que en los demás debe haber un 0 ( FALSE) la heurísitca demuestra que es necesario colocar un “?” En la versión 3.5.6 no permite utilizar atributos numéricos para reglas de asociación generalizadas , pero eso esta resuelto en al versión 3.5.7 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Agenda Weka R Apriori 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Es necesario instalar los packages Arules Matrix ( necesario para ejecutar el anterior) En el servidor de ftp estan las versiones que se pueden usar con el software del laboratorio. Sino pueden instalarlo directamente desde internet En el archivo arules.pdf está el help correspondiente al package Una vez instalados antes de usarlos hay que cargarlos 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Tiene implementados 2 algoritmos de association rules Apriori Eclat 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Pueden encontrar detalles sobre la implementación de estos algoritmos en R en : “Introduction to arules Mining Association Rules and Frequent Item Sets”, Michael Hahsler and Bettina Grün and Kurt Hornik ( arules_paper.pdf) “Efficient Implementations of Apriori and Eclat”, Christian Borgelt ( fimi_03.pdf) El algoritmo ECLAT está descripto en : “Scalable Algorithms for Association Mining”, Mohammed J. Zaki ( k0372.pdf) 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Parámetros Apriori recibe 4 parámetros : Datos Parámetros de ejecución del algoritmo ( confianza, y muchos más) Apariencia: restricciones en las reglas que son generadas por apriori ( por ejemplo que atributos quiero que aparezcan del lado izquierdo, derecho., etc.) Control : impactan sobre la forma de ejecución del algoritmo ( por ejemplo maximizar memoria o velocidad, etc) Eclat recibe 3 parámetros : Parámetros de ejecución del algoritmo Control 9/9/2018 Maestria en Data Mining

Parámetros de ejecución Comunes a ambos algoritmos Support: minlen: mínimo número de items por itemset maxlen: máximo número de items por itemset target: Tipo de asociación a buscar "frequent itemsets" "maximally frequent itemsets" "closed frequent itemsets" "rules" (Sólo Apriori) ext: variable boolena indicando si se va a dar informacion adicional sobre las medidas de calidad 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Parámetros Apriori Confidence smax: valor para el máximo soporte ( default 1) arem: indicador de medidas adicionales de calidad a utilizar (default: "none“) "none“: "diff": absolute confidence difference "quot": difference of confidence quotient to 1 "aimp": absolute difference of improvement to 1 "info": information difference to prior "chi2": normalized chi^2 measure aval: indicador boolenao para establecer si se desea mostrar las medidas adicionales de calidad. arem. minval: mínimo valor para la medida adicional establecida(default: 0.1) originalSupport: indicador boolenao para establecer si se desea calcular el soporte de la forma tradicional o sólo utilizando la parte izquierda de las reglas 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Parámetros Eclat tidLists: indicador booleano para establecer si se desea mostrar el conjunto de transacciones en las que aparece cada itemset(transaction IDs) (default: FALSE) 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Parámetros de Control Son parámetros referidos a la forma de ejecución del algoritmo. Por ejemplo tree: a logical indicating whether to organize transactions as a prefix tree (default: TRUE) heap: a logical indicating whether to use heapsort instead of quicksort to sort the transactions (default: TRUE) memopt: a logical indicating whether to minimize memory usage instead of maximize speed (default: FALSE) load: a logical indicating whether to load transactions into memory (default: TRUE) 9/9/2018 Maestria en Data Mining

Parámetros de Apariencia Aplican sólo al a priori Se refieren a los criterios que deben cumplir las reglas que están buscando. Por ejemplo appearance = list(rhs = c("income=small", "income=large"), default="lhs“), indica que para la parte derecha de la regla tiene que aparecer la variable income con los valores small o large y que para la parte izquierda no hay restricciones. 9/9/2018 Maestria en Data Mining

Algunos Comandos útiles Para ver las transacciones inspect(basket) Para obtener información de resumen de las transacciones ( cuantas son, cuantos items, etc) Summary(basket) Para convertir del formato de transacciones a un formato de matriz j <- as(basket, "matrix") 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Agenda Weka R Apriori 9/9/2018 Maestria en Data Mining

Maestria en Data Mining Apriori Es un ejecutable que se corre desde línea de comandos El autor es Christian Borgelt ( que es el mismo que hizo la implementación del apriori en el R) La página es http://www.borgelt.net//apriori.html De ahí se puede bajar y está el help 9/9/2018 Maestria en Data Mining

Software Association Rules Muchas gracias! 9/9/2018 Maestria en Data Mining