La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Maestría en Ciencias de la Computación

Presentaciones similares


Presentación del tema: "Maestría en Ciencias de la Computación"— Transcripción de la presentación:

1 Maestría en Ciencias de la Computación
Centro Universitario Valle de México Maestría en Ciencias de la Computación Minería de Datos Reglas de Asociación Dra. Maricela Quintana López Elaborado por: Agosto 2017

2

3 Unidad de competencia III: Proceso de Análisis No Supervisado
Objetivo: Presentar los algoritmos de análisis de datos no supervisado, específicamente de reglas de asociación. Conocimientos: Algoritmo a priori para reglas de asociación.

4 Minería de Datos Dependiendo de la meta que se persigue en la minería de datos, se requiere la aplicación de una técnica diferente. Metas: Prescriptiva: automatizar el proceso de toma de decisiones (clasificación, predicción). Descriptiva: Incrementar el entendimiento de lo que sucede en los datos y del mundo que reflejan. (asociación, agrupamiento).

5 Aprendizaje Supervisado
La meta es predecir, estimar, clasificar o caracterizar el comportamiento de algún atributo, en términos de un conjunto de variables de entrada. Los datos de entrada se separan en dos conjuntos: Entrenamiento Prueba

6 Aprendizaje Supervisado
Entrenamiento Este conjunto contiene ejemplos del concepto a aprender. Se utiliza para generar el clasificador o predictor Prueba Este conjunto contiene ejemplos que no se han utilizado para generar el clasificador, pero que tienen como variable la salida correcta. Se utiliza para estimar el error del clasificador o predictor.

7 Aprendizaje NO Supervisado
La meta es aumentar el entendimiento de lo que sucede en los datos y del mundo que reflejan. Se utiliza todo el conjunto de datos para obtener las relaciones, asociaciones o grupos que existen entre los datos, y que ayudan a explicar el mundo contenido en ellos.

8 antecedente  consecuente
Reglas de asociación Expresan diferentes regularidades que yacen en el conjunto de datos. Las reglas tienen un antecedente y un consecuente. antecedente  consecuente La principal diferencia es que en el consecuente puede estar cualquier atributo, o combinaciones de atributos.

9 Ejemplos de reglas Si el ambiente es soleado entonces
la humedad es alta Si el ambiente es nublado entonces jugar es si Si la humedad es normal entonces la temperatura es fria

10 Reglas de asociación La cobertura de una regla de asociación es el número de instancias para las cuales ella predice correctamente (soporte). La precisión (confianza) es el número de instancias que predice correctamente, expresado como una proporción de todas las instancias a las que se aplica.

11 Ejemplos de reglas Si ambiente=soleado entonces humedad=alta
cobertura= 3 precisión 3/5 Si humedad=normal entonces temperatura=fría cobertura= 4 precisión 4/7

12 Algoritmo Apriori El proceso de inducción de reglas de asociación consiste de dos pasos: Generación de conjuntos, de acuerdo a la cobertura especificada. Generación de reglas, conservando solo las que cumplen la precisión especificada.

13 Generación de conjuntos
Cada conjunto lleva una numeración que representa el número de pares de atributo - valor considerados. Los elementos del conjunto deben cumplir con la cobertura mínima especificada. Los candidatos del n-conjunto se obtienen del (n-1)-conjunto. Los conjuntos se generan hasta que ya no se puedan generar más.

14 Datos originales

15 Generación de conjuntos con cobertura 2
Los elementos del primer conjunto consideran únicamente un par atributo- valor. Se obtienen las frecuencia de los diferentes pares atributo-valor Solo se conservan los elementos que cumplen con la cobertura

16 1-Conjunto Se conservan los 12 elementos ya que cumplen la cobertura

17 2- Conjunto En este conjunto se incluirán dos pares atributo-valor.
Los atributos deben ser diferentes, ya que no se podría solicitar que, por ejemplo, un día fuera soleado y lluvioso al mismo tiempo. Ambiente=soleado, Ambiente = lluvioso NO Ambiente=soleado, Temperatura = fría SI

18 2-Conjunto Los candidatos de los 2-itemset se obtienen del 1-itemset.
Se buscan pares de valores de atributos diferentes. Valores Atr 1: A, B, C Valores Atri 2: D, E Posibles: (A,D), (A, E), (B, D), (B, E), (C,D), (C,E) Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son valores del mismo atributo.

19 Candidatos al 2-Conjunto

20 Candidatos al 2-Conjunto

21 Candidatos al 2-Conjunto
Total de candidatos: 57 ( )

22 2- Conjunto De los 57 candidatos, únicamente 47 cumplen con la cobertura

23 Candidatos al 3-Conjunto
Los candidatos del n-Conjunto se obtienen del (n-1)-Conjunto, coincidiendo en los (n- 2) elementos. Los candidatos de los 3-itemset se obtienen del 2-itemset y deben coincidir en 1 elemento. Los candidatos generados pueden eliminarse si sus componentes no se encuentran en el conjunto anterior

24 Candidatos al 3-Conjunto
Elemento en el 2-Conjunto (A, B), (A, C), (B,C), (B, D) Potencial: (A, B), (A, C) coinciden en el primer elemento (A, B, C) Componentes: (A,B), (A, C), (B,C) El candidato se queda y se revisa frecuencia

25 Candidatos al 3-Conjunto
Elemento en el 2-Conjunto (A, B), (A, C), (B,C), (B, D) Potencial: (B, C), (B, D) coinciden en el primer elemento (B, C, D) Componentes: (B,C), (B,D), (C,D) El candidato se elimina porque (C,D) no está en el 2-Conjunto

26 3-Conjunto 10 cumplen la cobertura

27 3-conjunto 8 cumplen la cobertura

28 3-Conjunto Cumplen la cobertura 8 instancias

29 3-Conjunto Cumplen la cobertura 6 instancias

30 3-Conjunto Cumplen la cobertura 7 instancias

31 3-Conjunto De las 47 instancias del 2-Conjunto, se generaron 89 candidatos al 3-Conjunto, de los cuales cumplen la cobertura 39 elementos

32 Candidatos al 4-Conjunto
Los candidatos del n-Conjunto se obtienen del (n-1)-Conjunto, coincidiendo en los (n- 2) elementos. Los candidatos de los 4-itemset se obtienen del 3-itemset y deben coincidir en 2 elementos. Los candidatos generados pueden eliminarse si sus componentes no se encuentran en el conjunto anterior

33 Candidatos al 4-Conjunto
Elementos en el 3-Conjunto (A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D), (C,D,E) Potencial 4-conjunto: (A, B, C), (A, B, D) coinciden en los 2 primeros elementos (A, B, C, D) Componentes: (A,B,C), (A,B,D), (A,C,D), (B,C,D) El candidato se queda y se revisa frecuencia

34 Candidatos al 4-Conjunto
Elementos en el 3-Conjunto (A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D), (C,D,E) Potencial 4-conjunto: (A, C, D), (A, C, E) coinciden en los 2 primeros elementos (A, C, D, E) Componentes: (A, C, D), (A, C, E), (A, D, E), (C, D, E) El candidato se elimina ya que (A,D,E) no existe en el 3- Conjunto

35 Candidatos al 4-Conjunto
De las 39 instancias, se generan 14 candidatos

36 4-Conjunto Solo 6 instancias logran la cobertura

37 Candidatos al 5-Conjunto
Los candidatos del n-Conjunto se obtienen del (n-1)-Conjunto, coincidiendo en los (n- 2) elementos. Los candidatos de los 5-itemset se obtienen del 4-itemset y deben coincidir en 3 elementos. Los candidatos generados pueden eliminarse si sus componentes no se encuentran en el conjunto anterior

38 Candidatos al 5-Conjunto
Elementos en el 3-Conjunto (A,B,C,D), (A,B,D,E), (A,B,C,E), (A,C,D,E), (B,C,D,E), (B,C,D,F) Potencial 4-conjunto: (A, B, C, D), (A, B, C, E) (A, B, C, D, E) coinciden los 3 primeros elementos Componentes: (A,B,C,D), (A,B,C,E), (A,B,D,E), (A,C,D,E), (B,C,D,E) El candidato se queda y se revisa frecuencia

39 Candidatos al 5-Conjunto
Elementos en el 3-Conjunto (A,B,C,D), (A,B,D,E), (A,B,C,E), (A,C,D,E), (B,C,D,E), (B,C,D,F) Potencial 4-conjunto: (B, C, D, E), (B, C, D, F) (B, C, D, E, F) coinciden los 3 primeros elementos Componentes: (B,C,D,E), (B,C,D,F), (B,C,E,F), (B,D,E,F), (C,D,E,F) El candidato se elimina ya que faltan 3 componentes en el 3-Conjunto

40 Candidatos al 5-Conjunto
Ningún par de elementos del 4-conjunto coinciden en sus primeros 3 elementos, por lo que ya no se pueden generar más conjuntos. Hasta aquí termina la fase de generación de conjuntos, y se procede a la generación de reglas.

41 Conjuntos Generados La cantidad de elementos por conjuntos son:

42 Generación de Reglas Para cada elemento de los conjuntos se genera un serie de reglas. Se coloca cada atributo como conclusión, luego cada par, cada tercia, hasta tener a todos los atributos en la conclusión

43 Reglas de los 1-Conjunto y 2-Conjuntos
1-Conjunto (1 regla) (A) Si -  A 2-Conjunto (3 reglas) (A, B) Si A  B Si B  A Si -  A, B

44 Reglas de los 3-Conjunto
(A, B, C) Si A, B  C Si B, C  A Si A, C  B Si A  B, C Si B  A, C Si C  A, B Si -  A, B, C

45 Reglas de los 4-Conjunto
(A, B, C, D) Si A, B, C  D Si B, C, D  A Si A, C, D  B Si A, B, D  C Si A, B  C, D Si A, D  B, C Si A, C  B, D Si B, C  A, D (A, B, C) Si B, D  A, C Si C, D  A, B Si A  B, C, D Si B  A, C, D Si C  A, B, D Si D  A, B, C Si -  A, B, C,D

46 Ejemplo Esto nos lleva a las 7 reglas potenciales:
Si Humedad=normal Y Viento = falso  Jugar = si Si Viento = falso Y Jugar = si  Humedad = normal Si Humedad=normal Y Jugar = si  Viento = falso Si Humedad=normal  Viento = falso Y Jugar = si Si Viento = falso  Humedad = normal Y Jugar = si Si Jugar = si  Humedad = normal Y Viento = falso Si -  Humedad = normal Y Viento=falso Y Jugar=si

47 Precisión Para cada regla obtener la precisión

48 Reglas de Asociación Las reglas generadas por conjuntos son:
1-Conjunto reglas 2-Conjunto reglas 3-Conjunto reglas 4-Conjunto reglas Total 516 reglas de asociación. 58 reglas con 100% de precisión (3 reglas con cobertura 4, 5 reglas con cobertura 2 y 50 reglas con cobertura 2).

49 Referencias Witten I, & Frank E. Data Mining: Practical Machine Learning Tools and Technical with Java implementations. Morgan Kaufmann 2005. Orallo Hernández J; Ramírez Quintana M; Ferri Ramírez C. Introducción a la Minería de Datos. Pearson 2008.

50 Referencias Pawet Cichosz; Data Mining Algorithms explained using R. Wiley 2015. Richard J. Roiger and Michael W. Geatz. Data Mining: A tutorial – based primer. Addison Wesley 2003.

51 Guion Explicativo Este Material sirve para:
Explicar en qué consiste el aprendizaje no supervisado, particularmente la tarea de reglas de asociación. Se presentan el algoritmo A priori, desde la generación de conjuntos hasta la generación de las reglas y el cálculo de su precisión. Las diapositivas deben verse en orden, y deben revisarse aproximadamente en 6 horas.


Descargar ppt "Maestría en Ciencias de la Computación"

Presentaciones similares


Anuncios Google