Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Maestría en Ciencias de la Computación
Centro Universitario Valle de México Maestría en Ciencias de la Computación Minería de Datos Reglas de Asociación Dra. Maricela Quintana López Elaborado por: Agosto 2017
3
Unidad de competencia III: Proceso de Análisis No Supervisado
Objetivo: Presentar los algoritmos de análisis de datos no supervisado, específicamente de reglas de asociación. Conocimientos: Algoritmo a priori para reglas de asociación.
4
Minería de Datos Dependiendo de la meta que se persigue en la minería de datos, se requiere la aplicación de una técnica diferente. Metas: Prescriptiva: automatizar el proceso de toma de decisiones (clasificación, predicción). Descriptiva: Incrementar el entendimiento de lo que sucede en los datos y del mundo que reflejan. (asociación, agrupamiento).
5
Aprendizaje Supervisado
La meta es predecir, estimar, clasificar o caracterizar el comportamiento de algún atributo, en términos de un conjunto de variables de entrada. Los datos de entrada se separan en dos conjuntos: Entrenamiento Prueba
6
Aprendizaje Supervisado
Entrenamiento Este conjunto contiene ejemplos del concepto a aprender. Se utiliza para generar el clasificador o predictor Prueba Este conjunto contiene ejemplos que no se han utilizado para generar el clasificador, pero que tienen como variable la salida correcta. Se utiliza para estimar el error del clasificador o predictor.
7
Aprendizaje NO Supervisado
La meta es aumentar el entendimiento de lo que sucede en los datos y del mundo que reflejan. Se utiliza todo el conjunto de datos para obtener las relaciones, asociaciones o grupos que existen entre los datos, y que ayudan a explicar el mundo contenido en ellos.
8
antecedente consecuente
Reglas de asociación Expresan diferentes regularidades que yacen en el conjunto de datos. Las reglas tienen un antecedente y un consecuente. antecedente consecuente La principal diferencia es que en el consecuente puede estar cualquier atributo, o combinaciones de atributos.
9
Ejemplos de reglas Si el ambiente es soleado entonces
la humedad es alta Si el ambiente es nublado entonces jugar es si Si la humedad es normal entonces la temperatura es fria
10
Reglas de asociación La cobertura de una regla de asociación es el número de instancias para las cuales ella predice correctamente (soporte). La precisión (confianza) es el número de instancias que predice correctamente, expresado como una proporción de todas las instancias a las que se aplica.
11
Ejemplos de reglas Si ambiente=soleado entonces humedad=alta
cobertura= 3 precisión 3/5 Si humedad=normal entonces temperatura=fría cobertura= 4 precisión 4/7
12
Algoritmo Apriori El proceso de inducción de reglas de asociación consiste de dos pasos: Generación de conjuntos, de acuerdo a la cobertura especificada. Generación de reglas, conservando solo las que cumplen la precisión especificada.
13
Generación de conjuntos
Cada conjunto lleva una numeración que representa el número de pares de atributo - valor considerados. Los elementos del conjunto deben cumplir con la cobertura mínima especificada. Los candidatos del n-conjunto se obtienen del (n-1)-conjunto. Los conjuntos se generan hasta que ya no se puedan generar más.
14
Datos originales
15
Generación de conjuntos con cobertura 2
Los elementos del primer conjunto consideran únicamente un par atributo- valor. Se obtienen las frecuencia de los diferentes pares atributo-valor Solo se conservan los elementos que cumplen con la cobertura
16
1-Conjunto Se conservan los 12 elementos ya que cumplen la cobertura
17
2- Conjunto En este conjunto se incluirán dos pares atributo-valor.
Los atributos deben ser diferentes, ya que no se podría solicitar que, por ejemplo, un día fuera soleado y lluvioso al mismo tiempo. Ambiente=soleado, Ambiente = lluvioso NO Ambiente=soleado, Temperatura = fría SI
18
2-Conjunto Los candidatos de los 2-itemset se obtienen del 1-itemset.
Se buscan pares de valores de atributos diferentes. Valores Atr 1: A, B, C Valores Atri 2: D, E Posibles: (A,D), (A, E), (B, D), (B, E), (C,D), (C,E) Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son valores del mismo atributo.
19
Candidatos al 2-Conjunto
20
Candidatos al 2-Conjunto
21
Candidatos al 2-Conjunto
Total de candidatos: 57 ( )
22
2- Conjunto De los 57 candidatos, únicamente 47 cumplen con la cobertura
23
Candidatos al 3-Conjunto
Los candidatos del n-Conjunto se obtienen del (n-1)-Conjunto, coincidiendo en los (n- 2) elementos. Los candidatos de los 3-itemset se obtienen del 2-itemset y deben coincidir en 1 elemento. Los candidatos generados pueden eliminarse si sus componentes no se encuentran en el conjunto anterior
24
Candidatos al 3-Conjunto
Elemento en el 2-Conjunto (A, B), (A, C), (B,C), (B, D) Potencial: (A, B), (A, C) coinciden en el primer elemento (A, B, C) Componentes: (A,B), (A, C), (B,C) El candidato se queda y se revisa frecuencia
25
Candidatos al 3-Conjunto
Elemento en el 2-Conjunto (A, B), (A, C), (B,C), (B, D) Potencial: (B, C), (B, D) coinciden en el primer elemento (B, C, D) Componentes: (B,C), (B,D), (C,D) El candidato se elimina porque (C,D) no está en el 2-Conjunto
26
3-Conjunto 10 cumplen la cobertura
27
3-conjunto 8 cumplen la cobertura
28
3-Conjunto Cumplen la cobertura 8 instancias
29
3-Conjunto Cumplen la cobertura 6 instancias
30
3-Conjunto Cumplen la cobertura 7 instancias
31
3-Conjunto De las 47 instancias del 2-Conjunto, se generaron 89 candidatos al 3-Conjunto, de los cuales cumplen la cobertura 39 elementos
32
Candidatos al 4-Conjunto
Los candidatos del n-Conjunto se obtienen del (n-1)-Conjunto, coincidiendo en los (n- 2) elementos. Los candidatos de los 4-itemset se obtienen del 3-itemset y deben coincidir en 2 elementos. Los candidatos generados pueden eliminarse si sus componentes no se encuentran en el conjunto anterior
33
Candidatos al 4-Conjunto
Elementos en el 3-Conjunto (A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D), (C,D,E) Potencial 4-conjunto: (A, B, C), (A, B, D) coinciden en los 2 primeros elementos (A, B, C, D) Componentes: (A,B,C), (A,B,D), (A,C,D), (B,C,D) El candidato se queda y se revisa frecuencia
34
Candidatos al 4-Conjunto
Elementos en el 3-Conjunto (A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D), (C,D,E) Potencial 4-conjunto: (A, C, D), (A, C, E) coinciden en los 2 primeros elementos (A, C, D, E) Componentes: (A, C, D), (A, C, E), (A, D, E), (C, D, E) El candidato se elimina ya que (A,D,E) no existe en el 3- Conjunto
35
Candidatos al 4-Conjunto
De las 39 instancias, se generan 14 candidatos
36
4-Conjunto Solo 6 instancias logran la cobertura
37
Candidatos al 5-Conjunto
Los candidatos del n-Conjunto se obtienen del (n-1)-Conjunto, coincidiendo en los (n- 2) elementos. Los candidatos de los 5-itemset se obtienen del 4-itemset y deben coincidir en 3 elementos. Los candidatos generados pueden eliminarse si sus componentes no se encuentran en el conjunto anterior
38
Candidatos al 5-Conjunto
Elementos en el 3-Conjunto (A,B,C,D), (A,B,D,E), (A,B,C,E), (A,C,D,E), (B,C,D,E), (B,C,D,F) Potencial 4-conjunto: (A, B, C, D), (A, B, C, E) (A, B, C, D, E) coinciden los 3 primeros elementos Componentes: (A,B,C,D), (A,B,C,E), (A,B,D,E), (A,C,D,E), (B,C,D,E) El candidato se queda y se revisa frecuencia
39
Candidatos al 5-Conjunto
Elementos en el 3-Conjunto (A,B,C,D), (A,B,D,E), (A,B,C,E), (A,C,D,E), (B,C,D,E), (B,C,D,F) Potencial 4-conjunto: (B, C, D, E), (B, C, D, F) (B, C, D, E, F) coinciden los 3 primeros elementos Componentes: (B,C,D,E), (B,C,D,F), (B,C,E,F), (B,D,E,F), (C,D,E,F) El candidato se elimina ya que faltan 3 componentes en el 3-Conjunto
40
Candidatos al 5-Conjunto
Ningún par de elementos del 4-conjunto coinciden en sus primeros 3 elementos, por lo que ya no se pueden generar más conjuntos. Hasta aquí termina la fase de generación de conjuntos, y se procede a la generación de reglas.
41
Conjuntos Generados La cantidad de elementos por conjuntos son:
42
Generación de Reglas Para cada elemento de los conjuntos se genera un serie de reglas. Se coloca cada atributo como conclusión, luego cada par, cada tercia, hasta tener a todos los atributos en la conclusión
43
Reglas de los 1-Conjunto y 2-Conjuntos
1-Conjunto (1 regla) (A) Si - A 2-Conjunto (3 reglas) (A, B) Si A B Si B A Si - A, B
44
Reglas de los 3-Conjunto
(A, B, C) Si A, B C Si B, C A Si A, C B Si A B, C Si B A, C Si C A, B Si - A, B, C
45
Reglas de los 4-Conjunto
(A, B, C, D) Si A, B, C D Si B, C, D A Si A, C, D B Si A, B, D C Si A, B C, D Si A, D B, C Si A, C B, D Si B, C A, D (A, B, C) Si B, D A, C Si C, D A, B Si A B, C, D Si B A, C, D Si C A, B, D Si D A, B, C Si - A, B, C,D
46
Ejemplo Esto nos lleva a las 7 reglas potenciales:
Si Humedad=normal Y Viento = falso Jugar = si Si Viento = falso Y Jugar = si Humedad = normal Si Humedad=normal Y Jugar = si Viento = falso Si Humedad=normal Viento = falso Y Jugar = si Si Viento = falso Humedad = normal Y Jugar = si Si Jugar = si Humedad = normal Y Viento = falso Si - Humedad = normal Y Viento=falso Y Jugar=si
47
Precisión Para cada regla obtener la precisión
48
Reglas de Asociación Las reglas generadas por conjuntos son:
1-Conjunto reglas 2-Conjunto reglas 3-Conjunto reglas 4-Conjunto reglas Total 516 reglas de asociación. 58 reglas con 100% de precisión (3 reglas con cobertura 4, 5 reglas con cobertura 2 y 50 reglas con cobertura 2).
49
Referencias Witten I, & Frank E. Data Mining: Practical Machine Learning Tools and Technical with Java implementations. Morgan Kaufmann 2005. Orallo Hernández J; Ramírez Quintana M; Ferri Ramírez C. Introducción a la Minería de Datos. Pearson 2008.
50
Referencias Pawet Cichosz; Data Mining Algorithms explained using R. Wiley 2015. Richard J. Roiger and Michael W. Geatz. Data Mining: A tutorial – based primer. Addison Wesley 2003.
51
Guion Explicativo Este Material sirve para:
Explicar en qué consiste el aprendizaje no supervisado, particularmente la tarea de reglas de asociación. Se presentan el algoritmo A priori, desde la generación de conjuntos hasta la generación de las reglas y el cálculo de su precisión. Las diapositivas deben verse en orden, y deben revisarse aproximadamente en 6 horas.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.