Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Slides:



Advertisements
Presentaciones similares
Unidad I. Conceptos Básicos y Estadística Descriptiva
Advertisements

Diseño y análisis de algoritmos
Árboles de decisión Tema 9 Parte teórica Minería de datos
Algoritmos de Minería Los métodos básicos.
Reglas de asociación w Similares a las reglas de clasificación w Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.
Algoritmos de Minería w Las ideas sencillas, frecuentemente funcionan bien w Un atributo hace todo (1-Rule) w Estructura lógica capturada en un árbol de.
REGRESION LINEAL SIMPLE
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Grupo 4 Matías Melgar Pablo Carbonell
La prueba U DE MANN-WHITNEY
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
Inteligencia Artificial Adquisición automática del conocimiento
Conceptos básicos de inferencia
MUESTREO DE ACEPTACIÓN DE LOTES POR VARIABLES
ANOVA Modelo I: Comparación entre medias
RECONOCIMIETO DE PATRONES
Aprendizaje Automatizado
Algoritmo ID3.
Sesión 2: Métodos Probabilísticos Básicos
Clases 4 Pruebas de Hipótesis
UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO
Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 4: Inducción de árboles de decisión Curso de doctorado impartido por.
Diseño de la investigación
Representando para Aprender
áRBOL DE DECISIONES CASTILLO ORTIZ LESLY ULLANIC
DISEÑO DE SOFTWARE 1ª. Parte
Probabilidad y estadística
Técnicas Supervisadas Aproximación no paramétrica
Aprendizaje Automatizado Ár boles de Clasificación.
Reconocimiento de Formas en Data Mining
Reconocimiento de Patrones
(Organización y Manejo de Archivos)
Ejercicio 1.7 Pregunta 1: Complete la tabla siguiente con cada uno de los términos faltantes. DividendoDivisorCocienteResiduo
Investigación Experimental
MÉTODO DE PIXELES DE BORDE
Unidad V: Estimación de
ESTADISTICA TEMA y 223.
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Aprendizaje en Árboles de Decisión
Inferencia Estadística
Unidad V: Estimación de
Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay.
Capítulo 1. Conceptos básicos de la Estadística
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Alexander Aristizabal Ángelo flores herrera
MÉTODOS DE ANÁLISIS EN LA TOMA DE DECISIONES EXISTEN PROCEDIMIENTOS DE ORDEN MATEMÁTICO, FINANCIERO, ECONÓMICO, ESTADÍSTICO ENTRE OTROS, PARA LA TOMA DE.
Diseños Generales. 2 Propósito implícito del diseño experimental El propósito implícito de todo diseño experimental consiste en imponer restricciones.
Aplicaciones Estadísticas a las Finanzas Clase 1
MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)
Control Estadístico de Procesos
Aplicación JAVA implementando Arboles de Decisión

NORMA INTERNACIONAL DE AUDITORÍA 530
Aspectos generales de la investigación educativa en el SNIT
Sistemas de Calificaciones Como transformamos la evaluación en una calificación.
INFERENCIA ESTADÍSTICA
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Estadística Historia y Conceptos Básicos.
Introducción Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:
Maestría en Ciencias de la Computación Arquitectura de Computadoras
REPUBLICA DE VENEZUELA UNIVERSIDAD ALONSO DE OJEDA VICERRECTORADO ACÁDEMICO FACULTAD DE INGENIERIA ESTADISTICA I DISTRIBUCIÓN DE FRECUENCIAS Y GRÁFICOS.
Aplicaciones Estadísticas a las Finanzas Clase 1
REGRESIÓN LINEAL SIMPLE
Análisis de tablas y gráficos IV medio
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Estimación estadística
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Maestría en Ciencias de la Computación
Transcripción de la presentación:

Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Objetivo:  Presentar los algoritmos de análisis supervisado, específicamente de clasificación. Conocimientos:  One rule, Inductive Decision Tree ID3, índice Gini.

 Árboles de decisión ◦ 1-Rule ◦ ID3 ◦ GINI  Reglas de Clasificación ◦ 1-Rule ◦ Naive Bayes ◦ PRISM

 “Las ideas sencillas, frecuentemente funcionan bien”  Un atributo hace todo  Todos los atributos contribuyen  Estructura lógica capturada en un árbol de decisión  Reglas independientes  etc...

 El método más simple es llamado “1-rule”  Genera un árbol de decisión de un nivel  Conjunto de reglas que prueban un atributo en particular  Cada rama corresponde a un valor distinto del atributo

 La asignación de la clase para la rama será la más frecuente en el conjunto de entrenamiento (clase mayoritaria)  La tasa de error se calcula contando las instancias que no tienen la clase mayoritaria  Cada atributo genera un conjunto distinto de reglas, una regla por cada valor del atributo  Es necesario calcular la tasa de error para elegir el mejor conjunto de reglas

Para cada atributo Para cada valor del atributo: Calcular la frecuencia de cada clase Determinar la clase mayoritaria CM Construye el árbol ó la regla: si valor de atributo entonces CM Calcular la tasa de error de las reglas Escoger las reglas con la menor tasa de error

¿Error total? Play Don’t Play

¿Error total?

 Elegir el mejor atributo

 Árboles de decisión  Reglas if (outlook == sunny) then don’t play if (outlook == rainy) then play if (outlook == overcast) then play Outlook Don’t Play Play sunnyovercast rainy

 Valores faltantes ◦ Es tratado como otro valor del atributo  if outlook = missing then yes  Atributos numéricos ◦ Convertirlos

If temperature <=77.5 then Play=yes else Play = No

If (humidity 95.5) then play else don’t play

 Utiliza la técnica de Divide y Conquista  Procedimiento inductivo  La salida es un árbol de decisión  Top-Down induction of decision trees  Desarrollada y refinada por Ross Quinlan de la universidad de Sydney, Australia  Conocido como ID3

 Clasifica patrones con atributos no numéricos  Mejorado con el uso del radio de ganancia  Variaciones ◦ C4.5, ◦ C5

 Puede expresarse recursivamente 1.Seleccionar un atributo 2.Colocar una rama para cada valor del atributo 3.Dividir las instancias en subconjuntos uno por cada valor 4.Repetir el proceso para cada rama utilizando el subconjunto apropiado 5.Si las instancias de una rama son de la misma clase, el proceso termina para esa rama.

 Intuitivamente, cualquier hoja con instancias de solo una clase no tendrá que dividirse después  Se desea que quede un árbol pequeño  Medida de la pureza de cada nodo  Escoger el atributo que produzca los nodos hijos mas puros

 Información  Se mide en fracciones de bit, y frecuentemente es menor a 1  Se asocia a cada nodo y se calcula con base al número de instancias de cada clase en él  Representa la cantidad de información esperada que sería necesaria para clasificar una instancia dada

 Propiedades esperadas ◦ Cuando queda una sola clase, la información debe ser cero ◦ Cuando el número de instancias de cada clase es igual, la información alcanza su máximo valor  La función que satisface estas propiedades es conocida como entropía

n Pi proporción de elementos en la clase n Información del Sistema n Información del atributo n Información de cada rama n Ganancia del atributo n Se busca el atributo que provee la mayor ganancia en información.

n La entropía del sistema es:

 Información de Cabello

 Entropía sistema:  Entropía de la rama negro: 0  Entropía de la rama rojo: 0  Entropía de la rama rubio:1  Entropía de cabello:  Ganancia de cabello:  Entropía del sistema – Entropía de Cabello  G(cabello) = = 0.454

 Ganancia al evaluar ojos

n Entropía sistema: n Entropía de la rama café: 0 n Entropía de la rama azul: n Entropía de ojos: n Ganancia de ojos: = 0.347

EstaturaClase altoa a a o o bajoa a o

n Entropía sistema: bit n Entropía de la rama bajo: n Entropía de la rama alto: n Entropía de estatura: n Ganancia de estatura: =

CabelloClaseEstaturaCabelloClaseOjos negroaaltonegroaazul negroaaltonegroaazul negroabajonegroacafé rojooaltorojooazul rubioaaltorubiooazul rubiooaltorubiooazul rubioabajorubioacafé rubioobajorubioacafé

rainy outlook yes no yes no yes sunnyovercast temperature yes no yes no yes no hotmild cool

humidity yes no yes no high normal windy yes no yes no falsetrue

 No se considera ningún atributo. IS([9,5]) = -(9/14) lg (9/14) - (5/14) lg (5/14) = = 0.940

 De cada rama ◦ ISunny ([2,3]) =  ◦ IOvercast ([4,0]) = 0 ◦ IRainy ([3,2]) =   Del atributo ◦ IOutlook =

 GOutlook = IS - IOutlook = =  GTemperature = IS - ITemperature = =  GHumidity = IS - IHumidity = =  GWindy = IS - IWindy = = 0.048

outlook temperature no yes no yes hotmildcool... sunny humidity no yes highnormal... outlook sunny... outlook sunny windy yes no yes no falsetrue

 ISOutlook =  ITemperature = 0.4  GTemperature =  IHumidity = 0  GHumidity =  IWindy =  GWindy = 0.020

 ISOutlook =  ITemperature =  GTemperature = 0.20  IHumidity =  GHumidity = 0.20  IWindy = 0  GWindy = 0.971

outlook windy humidity yes no yes no sunny overcast rainy high normal false true

 Atributos altamente ramificados  Atributo identificador = información 0  No es bueno para predecir la clase de instancias desconocidas  La medida de ganancia de información tiende a preferir atributos con dominios grandes

ID code no yes no a b m n c...

 Se obtiene considerando el número y tamaño de los nodos hijos en los cuales el atributo divide al conjunto sin tomar en cuenta cualquier información acerca de la clase  Se realiza la información de la partición

 El índice Gini es una medida para determinar el grado al que una población comparte un recurso.  El índice Gini básicamente nos indica la equidad en la distribución de un recurso.  Los valores del índice Gini van de 0 a 1, siendo 0 la mayor equidad en la distribución y 1 representa el mayor grado de desigualdad posible.

 Para calcular el índice Gini se utiliza la siguiente fórmula:  Nota: p(j|t) es la frecuencia relativa de la clase j en el nodo t.  La medida de información en un nodo es máximo 1-1/nc que es cuando existe una distribución uniforme y esto realmente no nos resulta interesante. El caso es interesante cuando el resultado es 0 ya que todos los registros pertenecen a una misma clase.

 Un ejemplo de esta medida es:  Para poder hacer una separación, necesitamos del índice Gini de separación:  Esto se calcula cuando dividimos un nodo p en k particiones o hijos.  Donde ni es el número de registros en el hijo i y n es el número de registros en el nodo que se esta investigando.

 Basados en el criterio anterior, calculamos el índice Gini de separación para todas las posibles particiones y la que tenga el valor menor será la elegida para dividir el nodo.  Este criterio es utilizado en software como CART, SLIQ y SPRINT.

 Para hacer algunos experimentos y comprobar resultados, pueden acudir a la siguiente dirección:  ng/DecisionTrees/Applet/DecisionTreeAppl et.html ng/DecisionTrees/Applet/DecisionTreeAppl et.html

 Witten I, & Frank E. Data Mining: Practical Machine Learning Tools and Technical with Java implementations. Morgan Kaufmann  Orallo Hernández J; Ramírez Quintana M; Ferri Ramírez C. Introducción a la Minería de Datos. Pearson 2008.

 Pawet Cichosz; Data Mining Algorithms explained using R. Wiley  Richard J. Roiger and Michael W. Geatz. Data Mining: A tutorial – based primer. Addison Wesley 2003.

 Este Material sirve para : ◦ Explicar en qué consiste el aprendizaje supervisado, particularmente la tarea de clasificación. ◦ Se presentan 3 algoritmos:  One-Rule  ID3  ID3 con Radio de Ganancia  Índice GINI

 Las diapositivas deben verse en orden, y deben revisarse aproximadamente en 6 horas.  A continuación se presenta una tabla para relacionar las dispositivas con los contenidos del curso.