Maestría en Ciencias de la Computación

Slides:



Advertisements
Presentaciones similares
Reglas de asociación w Similares a las reglas de clasificación w Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.
Advertisements

Capitulo 19 2 Fractional Factorial Designs
DISEÑOS FACTORIALES FRACCIONADOS 2K-2
Juegos con transferencia de utilidad
EMPLEAR COMO DISEÑO UNA FRACCION FACTORIAL
Determinantes cálculo de determinantes
DISEÑO FRACCION UN MEDIO
Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:
Introducción Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:
Maestría en Ciencias de la Computación Arquitectura de Computadoras

1 Introducción a la minería de datos. 2 Temario ¿Qué es minería de datos? ¿Qué es minería de datos? ¿Quién usa minería de datos? ¿Quién usa minería de.
LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261.
Aprendiendo de las observaciones Capítulo 18. Contenido Agentes aprendices Aprendizaje inductivo Aprendizaje de árboles de decisión.
Análisis de Ventas Presentado por: Nilza Yuliana Galvis Mario Alejandro Duque Jhoan Sebastián Maya Presentado a: Maritza Marín Dir. de ventas 4.
LA NATURALEZA DE LAS ESTADÍSTICAS Estadísticas Descriptivas Psic. Gerardo A Valderrama M.
ESTADÍSTICA II Ing. Danmelys Perozo MSc. Blog:
El método científico.
Investigación de Operaciones II. Objetivo Complementar los conocimientos adquiridos en Investigación de Operaciones I presentando modelos no determinísticos.
TUTORIA 1 Lógica para la Computación TUTORIA 1 Facultad de Ciencias Naturales y Matemáticas.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Escala de Medición. Profesor: Bachiller: Ramón Aray Parababire Claribel C.I.: Barcelona, Agosto del 2017 Instituto Universitario Politécnico.
Manuel Maldonado López
Ingreso , proceso y salida de datos
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO
ESTRATEGIAS DE ENSEÑANZA
Dependencias Funcionales
En torno a la investigación Capítulo 3
Universidad Autónoma del Estado de México.
De alguna forma, toda organización por más pequeña que sea, necesita saber su pasado y su presente, la situación actual en la que se encuentra y con que.
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
Filtros FIR e IIR EQUIPO. Un filtro es un sistema o una red que cambia selectivamente la forma de onda, o las características amplitud-frecuencia o fase-
Inteligencia Computacional
Estados Financieros Clase 2.
EXPERIMENTO FACTORIAL 23
MATEMÁTICA DISCRETA Y LÓGICA 1
INTRODUCCION La teoría de sistemas (TS) es un ramo específico de la teoría general de sistemas (TGS). La TGS surgió con los trabajos del alemán Ludwig.
LINEAS DE ESPERA.
INVESTIGACION DE MECADOS
Álgebra II ACOMPAÑAMIENTO ANUAL MT 21 PPTCADMTTEA05008V3
MUESTREO DE ACEPTACIÓN Control de Calidad UMSA. Objetivos de un muestreo de aceptación Aceptar o rechazar un lote (sentenciar un lote): –No es una herramienta.
EXPERIMENTO FACTORIAL 23
Maestría en Ciencias de la Computación
GICI-Grupo de Investigación en control Industrial 1 1.DESARROLLO DE UN MODELO MATEMÁTICO Para investigar como varía el comportamiento de un proceso químico.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
FORMULACIÓN DE HIPÓTESIS 1. HIPÓTESIS  Explicaciones tentativas del fenómeno investigado que se formulan como proposiciones.  Indican lo que tratamos.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
LIGAMIENTO, ALELOS MÚLTIPLES, CODOMINANCIA. CLASE Nº 23
ESTADÍSTICA. ESTADÍSTICA La estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos, ya sea para ayudar en.
Charla Nº 3 Índices Operacionales: Aplicación y Uso
i=2I.
Arquitectura de Computadoras Conferencia 2 Circuitos Combinacionales
MUESTREO DE ACEPTACION
Sistemas y Comunicaciones
Listas ligadas Dra. María de Lourdes López García
Examen parcial el próximo lunes 9 de marzo Próximo tutorial 4-5
M. en TI. Omar Téllez Barrientos DOCENTE DE INFORMÁTICA GENERACIÓN DE PSEUDOCÓDIGOS Y ALGORITMOS
Modelo Instruccional Dick & Carey
SERIES DE TIEMPO. Concepto Una serie de tiempo es un conjunto de observaciones de un fenómeno tomadas en tiempos específicos, generalmente a intervalos.
Lingüística computacional
Base de datos simples, relaciones Cardinalidad Claves.
Universidad del Istmo Campus Tehuantepec Ingeniería en Computación “Construcción de Sistemas de Computación” M.I.A Daniel Alejandro García
 Es básicamente un proceso automático en el que se combinan descubrimiento y análisis.  El proceso consiste en extraer patrones en forma de reglas o.
UNIVERSIDAD ESTATAL PENINSULA DE SANTA ELENA YACIMIENTOS I JOHANNA DEL PEZO, FABIAN OSORIO, MANUEL RODRIGUEZ TEMA: ECUACION DE BALANCE DE MATERIA EN LA.
Introducción. Antecedentes De acuerdo a la ISO 14040, el análisis de ciclo de vida (LCA por sus siglas en inglés) se define como: “La compilación y caracterización.
Modelo Edumétrico de evaluación del aprendizaje Evaluación diagnóstica Evaluación formativa Evaluación sumativa Para conocer al alumno Para orientar el.
ESTADÍSTICA DESCRIPTIVA Mg. JHON FREDY SABI ROJAS.
DISEÑOS FACTORIALES 2K PGG.
Econometría financiera Retorno y riesgo. ¿Qué es la econometría financiera? La econometría consiste en dar un contenido empírico a un razonamiento económico.
TIPOS DE ALGORITMO DE APRENDIZAJE Aprendizaje Supervisado Aprendizaje no Supervisado Aprendizaje por Refuerzo.
Transcripción de la presentación:

Maestría en Ciencias de la Computación Centro Universitario Valle de México Maestría en Ciencias de la Computación Minería de Datos Reglas de Asociación Dra. Maricela Quintana López Elaborado por: Agosto 2017

Unidad de competencia III: Proceso de Análisis No Supervisado Objetivo: Presentar los algoritmos de análisis de datos no supervisado, específicamente de reglas de asociación. Conocimientos: Algoritmo a priori para reglas de asociación.

Minería de Datos Dependiendo de la meta que se persigue en la minería de datos, se requiere la aplicación de una técnica diferente. Metas: Prescriptiva: automatizar el proceso de toma de decisiones (clasificación, predicción). Descriptiva: Incrementar el entendimiento de lo que sucede en los datos y del mundo que reflejan. (asociación, agrupamiento).

Aprendizaje Supervisado La meta es predecir, estimar, clasificar o caracterizar el comportamiento de algún atributo, en términos de un conjunto de variables de entrada. Los datos de entrada se separan en dos conjuntos: Entrenamiento Prueba

Aprendizaje Supervisado Entrenamiento Este conjunto contiene ejemplos del concepto a aprender. Se utiliza para generar el clasificador o predictor Prueba Este conjunto contiene ejemplos que no se han utilizado para generar el clasificador, pero que tienen como variable la salida correcta. Se utiliza para estimar el error del clasificador o predictor.

Aprendizaje NO Supervisado La meta es aumentar el entendimiento de lo que sucede en los datos y del mundo que reflejan. Se utiliza todo el conjunto de datos para obtener las relaciones, asociaciones o grupos que existen entre los datos, y que ayudan a explicar el mundo contenido en ellos.

antecedente  consecuente Reglas de asociación Expresan diferentes regularidades que yacen en el conjunto de datos. Las reglas tienen un antecedente y un consecuente. antecedente  consecuente La principal diferencia es que en el consecuente puede estar cualquier atributo, o combinaciones de atributos.

Ejemplos de reglas Si el ambiente es soleado entonces la humedad es alta Si el ambiente es nublado entonces jugar es si Si la humedad es normal entonces la temperatura es fria

Reglas de asociación La cobertura de una regla de asociación es el número de instancias para las cuales ella predice correctamente (soporte). La precisión (confianza) es el número de instancias que predice correctamente, expresado como una proporción de todas las instancias a las que se aplica.

Ejemplos de reglas Si ambiente=soleado entonces humedad=alta cobertura= 3 precisión 3/5 Si humedad=normal entonces temperatura=fría cobertura= 4 precisión 4/7

Algoritmo Apriori El proceso de inducción de reglas de asociación consiste de dos pasos: Generación de conjuntos, de acuerdo a la cobertura especificada. Generación de reglas, conservando solo las que cumplen la precisión especificada.

Generación de conjuntos Cada conjunto lleva una numeración que representa el número de pares de atributo - valor considerados. Los elementos del conjunto deben cumplir con la cobertura mínima especificada. Los candidatos del n-conjunto se obtienen del (n-1)-conjunto. Los conjuntos se generan hasta que ya no se puedan generar más.

Datos originales

Generación de conjuntos con cobertura 2 Los elementos del primer conjunto consideran únicamente un par atributo- valor. Se obtienen las frecuencia de los diferentes pares atributo-valor Solo se conservan los elementos que cumplen con la cobertura

1-Conjunto Se conservan los 12 elementos ya que cumplen la cobertura

2- Conjunto En este conjunto se incluirán dos pares atributo-valor. Los atributos deben ser diferentes, ya que no se podría solicitar que, por ejemplo, un día fuera soleado y lluvioso al mismo tiempo. Ambiente=soleado, Ambiente = lluvioso NO Ambiente=soleado, Temperatura = fría SI

2-Conjunto Los candidatos de los 2-itemset se obtienen del 1-itemset. Se buscan pares de valores de atributos diferentes. Valores Atr 1: A, B, C Valores Atri 2: D, E Posibles: (A,D), (A, E), (B, D), (B, E), (C,D), (C,E) Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son valores del mismo atributo.

Candidatos al 2-Conjunto

Candidatos al 2-Conjunto

Candidatos al 2-Conjunto Total de candidatos: 57 (12 + 18 + 27)

2- Conjunto De los 57 candidatos, únicamente 47 cumplen con la cobertura

Candidatos al 3-Conjunto Los candidatos del n-Conjunto se obtienen del (n-1)-Conjunto, coincidiendo en los (n- 2) elementos. Los candidatos de los 3-itemset se obtienen del 2-itemset y deben coincidir en 1 elemento. Los candidatos generados pueden eliminarse si sus componentes no se encuentran en el conjunto anterior

Candidatos al 3-Conjunto Elemento en el 2-Conjunto (A, B), (A, C), (B,C), (B, D) Potencial: (A, B), (A, C) coinciden en el primer elemento (A, B, C) Componentes: (A,B), (A, C), (B,C) El candidato se queda y se revisa frecuencia

Candidatos al 3-Conjunto Elemento en el 2-Conjunto (A, B), (A, C), (B,C), (B, D) Potencial: (B, C), (B, D) coinciden en el primer elemento (B, C, D) Componentes: (B,C), (B,D), (C,D) El candidato se elimina porque (C,D) no está en el 2-Conjunto

3-Conjunto 10 cumplen la cobertura

3-conjunto 8 cumplen la cobertura

3-Conjunto Cumplen la cobertura 8 instancias

3-Conjunto Cumplen la cobertura 6 instancias

3-Conjunto Cumplen la cobertura 7 instancias

3-Conjunto De las 47 instancias del 2-Conjunto, se generaron 89 candidatos al 3-Conjunto, de los cuales cumplen la cobertura 39 elementos

Candidatos al 4-Conjunto Los candidatos del n-Conjunto se obtienen del (n-1)-Conjunto, coincidiendo en los (n- 2) elementos. Los candidatos de los 4-itemset se obtienen del 3-itemset y deben coincidir en 2 elementos. Los candidatos generados pueden eliminarse si sus componentes no se encuentran en el conjunto anterior

Candidatos al 4-Conjunto Elementos en el 3-Conjunto (A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D), (C,D,E) Potencial 4-conjunto: (A, B, C), (A, B, D) coinciden en los 2 primeros elementos (A, B, C, D) Componentes: (A,B,C), (A,B,D), (A,C,D), (B,C,D) El candidato se queda y se revisa frecuencia

Candidatos al 4-Conjunto Elementos en el 3-Conjunto (A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D), (C,D,E) Potencial 4-conjunto: (A, C, D), (A, C, E) coinciden en los 2 primeros elementos (A, C, D, E) Componentes: (A, C, D), (A, C, E), (A, D, E), (C, D, E) El candidato se elimina ya que (A,D,E) no existe en el 3- Conjunto

Candidatos al 4-Conjunto De las 39 instancias, se generan 14 candidatos

4-Conjunto Solo 6 instancias logran la cobertura

Candidatos al 5-Conjunto Los candidatos del n-Conjunto se obtienen del (n-1)-Conjunto, coincidiendo en los (n- 2) elementos. Los candidatos de los 5-itemset se obtienen del 4-itemset y deben coincidir en 3 elementos. Los candidatos generados pueden eliminarse si sus componentes no se encuentran en el conjunto anterior

Candidatos al 5-Conjunto Elementos en el 3-Conjunto (A,B,C,D), (A,B,D,E), (A,B,C,E), (A,C,D,E), (B,C,D,E), (B,C,D,F) Potencial 4-conjunto: (A, B, C, D), (A, B, C, E) (A, B, C, D, E) coinciden los 3 primeros elementos Componentes: (A,B,C,D), (A,B,C,E), (A,B,D,E), (A,C,D,E), (B,C,D,E) El candidato se queda y se revisa frecuencia

Candidatos al 5-Conjunto Elementos en el 3-Conjunto (A,B,C,D), (A,B,D,E), (A,B,C,E), (A,C,D,E), (B,C,D,E), (B,C,D,F) Potencial 4-conjunto: (B, C, D, E), (B, C, D, F) (B, C, D, E, F) coinciden los 3 primeros elementos Componentes: (B,C,D,E), (B,C,D,F), (B,C,E,F), (B,D,E,F), (C,D,E,F) El candidato se elimina ya que faltan 3 componentes en el 3-Conjunto

Candidatos al 5-Conjunto Ningún par de elementos del 4-conjunto coinciden en sus primeros 3 elementos, por lo que ya no se pueden generar más conjuntos. Hasta aquí termina la fase de generación de conjuntos, y se procede a la generación de reglas.

Conjuntos Generados La cantidad de elementos por conjuntos son:

Generación de Reglas Para cada elemento de los conjuntos se genera un serie de reglas. Se coloca cada atributo como conclusión, luego cada par, cada tercia, hasta tener a todos los atributos en la conclusión

Reglas de los 1-Conjunto y 2-Conjuntos 1-Conjunto (1 regla) (A) Si -  A 2-Conjunto (3 reglas) (A, B) Si A  B Si B  A Si -  A, B

Reglas de los 3-Conjunto (A, B, C) Si A, B  C Si B, C  A Si A, C  B Si A  B, C Si B  A, C Si C  A, B Si -  A, B, C

Reglas de los 4-Conjunto (A, B, C, D) Si A, B, C  D Si B, C, D  A Si A, C, D  B Si A, B, D  C Si A, B  C, D Si A, D  B, C Si A, C  B, D Si B, C  A, D (A, B, C) Si B, D  A, C Si C, D  A, B Si A  B, C, D Si B  A, C, D Si C  A, B, D Si D  A, B, C Si -  A, B, C,D

Ejemplo Esto nos lleva a las 7 reglas potenciales: Si Humedad=normal Y Viento = falso  Jugar = si Si Viento = falso Y Jugar = si  Humedad = normal Si Humedad=normal Y Jugar = si  Viento = falso Si Humedad=normal  Viento = falso Y Jugar = si Si Viento = falso  Humedad = normal Y Jugar = si Si Jugar = si  Humedad = normal Y Viento = falso Si -  Humedad = normal Y Viento=falso Y Jugar=si

Precisión Para cada regla obtener la precisión

Reglas de Asociación Las reglas generadas por conjuntos son: 1-Conjunto 12 12 reglas 2-Conjunto 47 141 reglas 3-Conjunto 39 273 reglas 4-Conjunto 6 90 reglas Total 516 reglas de asociación. 58 reglas con 100% de precisión (3 reglas con cobertura 4, 5 reglas con cobertura 2 y 50 reglas con cobertura 2).

Referencias Witten I, & Frank E. Data Mining: Practical Machine Learning Tools and Technical with Java implementations. Morgan Kaufmann 2005. Orallo Hernández J; Ramírez Quintana M; Ferri Ramírez C. Introducción a la Minería de Datos. Pearson 2008.

Referencias Pawet Cichosz; Data Mining Algorithms explained using R. Wiley 2015. Richard J. Roiger and Michael W. Geatz. Data Mining: A tutorial – based primer. Addison Wesley 2003.

Guion Explicativo Este Material sirve para: Explicar en qué consiste el aprendizaje no supervisado, particularmente la tarea de reglas de asociación. Se presentan el algoritmo A priori, desde la generación de conjuntos hasta la generación de las reglas y el cálculo de su precisión. Las diapositivas deben verse en orden, y deben revisarse aproximadamente en 6 horas.