Árboles de decisión Tema 9 Parte teórica Minería de datos

Slides:



Advertisements
Presentaciones similares
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities scuola.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.
el 1, el 4 y el 9 tres cuadrados perfectos autosuficientes
ESTIMACIÓN DE DENSIDAD
JUAN JOSÉ VENEGAS MORENO
Medición de La Utilidad: El proceso de Ajuste
Jacqueline Chávez Cuzcano
1 PRINCIPALES INDICADORES DEL DESARROLLO DE LA SOCIEDAD DE LA INFORMACIÓN EN GALICIA CUADRO DE MANDO Apartado: Empresas Septiembre de 2004.
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Respuestas Buscando a Nemo.
SIMULACIÓN DE MONTECARLO
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Introducción a la minería de datos
Razonamiento basado en memoria
FRANCISCO MARÍN HERRADA
JUAN JOSÉ VENEGAS MORENO
Descripción de los datos: medidas de ubicación
Descripción de los datos: medidas de dispersión
Ejemplo A continuación aparecen las tasas de retorno de dos fondos de inversión durante los últimos 10 años. 1. ¿Cuál es más riesgoso? 2. ¿En cuál invertiría.
Los Objetos de la Clase Escriban la palabra (the word) en español para los objetos de la clase (#1-20).
Unidad de competencia II Estadística descriptiva:
Unidad de competencia II Estadística descriptiva:
Objetivos: Al terminar este capítulo podrá:
Capítulo 3 Descripción de datos, medidas de tendencia central
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities alimentazione.
CONTROL ESTADÍSTICO DE PROCESOS
1. Apoyo exterior sobre ala inferior de viga de acero
Distribuciones de probabilidad bidimensionales o conjuntas
-17 Expectativas sobre la situación económica (Europa) Septiembre 2013 Indicador > +20 Indicador 0 a +20 Indicador 0 a -20 Indicador < -20 Total Unión.
8. Distribuciones continuas
INFORME USDA NOVIEMBRE TRIGO 2 MERCADO INTERNACIONAL (Millones de Toneladas) 3.
Sistemas de Ecuaciones
Introducción a los Números Fraccionarios
EL OSO APRENDIZ Y SUS AMIGOS
1 SEGUNDO FORO REGIONAL HERMOSILLO, SON Sistema Nacional de Transparencia Fiscalización y Rendición de Cuentas:
50 principios 1. Los clientes asumen el mando.
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Proyecto para Centros que trabajan una vez por semana.
Capítulo: 9 Inventarios.
Ecuaciones Cuadráticas
Ecuaciones y Resolución de Ecuaciones Lineales
3 Enero 2010 PERÚ: IV CENSO NACIONAL ECONÓMICO, APURÍMAC.
3 Enero 2010 IV CENSO NACIONAL ECONÓMICO, 2008 PROVINCIA CONSTITUCIONAL DEL CALLAO.
Tema 6 La demanda del mercado.
MEDIDAS DE DISPERSIÓN.
Introducción a las Señales Aleatorias ISAL
ESTRUCTURAS DE DATOS AVANZADAS
Curso de Hidrología Caudales Máximos II
Inteligencia Artificial Adquisición automática del conocimiento
CULENDARIO 2007 Para los Patanes.
BEATRIZ LAFONT VILLODRE
POLÍTICAS MACROECONÓMICAS Econ. SEGUNDO A. CALLE RUIZ Ms. Sc. C. D.
¿Quién? ¿Qué? ¿Dónde? ¿Cuándo? ¿Cómo? ¿Por qué?
MSc. Lucía Osuna Wendehake
Manual de Procedimientos Procedimiento de ejecución del programa de
ESTADIGRAFOS DE DISPERSION
Direccionamiento de la red: IPv4
Estadística Administrativa II
FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA
Estadística Administrativa I
Aplicación JAVA implementando Arboles de Decisión
Transcripción de la presentación:

Árboles de decisión Tema 9 Parte teórica Minería de datos Dr. Francisco J. Mata

Árboles de decisión Conjunto de reglas representadas en forma de una estructura de árbol Minería de datos Dr. Francisco J. Mata

Árboles de decisión Son muy útiles cuando hay más de una manera para convertirse en miembro de una clase meta Modelo para encontrar tarjeta habientes rentables puede identificar tres tipos de clientes: Tarjeta habientes que mantienen saldos altos Tarjeta habientes que compran mucho Tarjeta habientes que ocasionalmente hacen compras grandes y pagan sus balances a tiempo Cada uno de estos representa un paso diferente a través del árbol. Minería de datos Dr. Francisco J. Mata

Árboles de decisión El paso a través del árbol de decisión explica la clasificación Envía hijos a escuela pública Minería de datos Dr. Francisco J. Mata

Árboles de decisión Cada hoja contiene información sobre el número de observaciones que caen en ella y la proporción para cada clase La clase más densa se selecciona como la clasificación para el nodo Minería de datos Dr. Francisco J. Mata

Árboles de decisión Se utilizan para Asignar “scores” a los datos Explorar datos Hacer clasificaciones y predicciones Comprender que variables son más importantes Minería de datos Dr. Francisco J. Mata

Árboles de decisión y “scoring” Se puede asignar un “score” a los datos de acuerdo a la hoja a la que fueron clasificados Minería de datos Dr. Francisco J. Mata

Árboles de decisión y “scoring” Minería de datos Dr. Francisco J. Mata

Árboles de decisión y “scoring” Problemas Usualmente hay muy pocas hojas por lo que hay pocos valores de “scoring” Minería de datos Dr. Francisco J. Mata

Árboles de decisión y exploración Árboles de decisión son útiles para explorar un conjunto de datos y entender cómo ciertas variables (“input”) inciden sobre otra (“target”) Minería de datos Dr. Francisco J. Mata

Árboles de decisión y exploración Penetración de un producto en ciudades Ciudades producto no está bien Ciudades producto está bien Minería de datos Dr. Francisco J. Mata

Árboles de decisión y clasificaciones/predicciones Aplicación más común Minería de datos Dr. Francisco J. Mata

Árboles de decisión y clasificaciones/predicciones Predecir clientes que pondrían órdenes si se les envía catálogo de Navidad, basado en aquellos que pusieron órdenes el año pasado Minería de datos Dr. Francisco J. Mata

Árboles de decisión y variables más importantes Ayuda a eliminar variables para otros modelos, por ejemplo regresión Minería de datos Dr. Francisco J. Mata

Árboles de decisión y variables más importantes Minería de datos Dr. Francisco J. Mata

Proceso para crear un árbol de decisión Se utiliza un conjunto de datos de entrenamiento (“training”) para crear el árbol Se utiliza un conjunto de datos de validación para reducir la complejidad del árbol y generalizarlo (proceso de poda o “pruning”) Eliminar el problema del “overfitting” Minería de datos Dr. Francisco J. Mata

Proceso para crear un árbol de decisión Tres conjuntos de datos obtenidos de particionar el conjunto de datos original Entrenamiento: 40% Validación: 30% Prueba: 30% Minería de datos Dr. Francisco J. Mata

Algoritmos más comunes para árboles de decisión CART (“classification and regression trees”) C4.5 CHAID (“chi square automatic induction”) Varían en Medida de pureza utilizada para los grupos Forma de poda Minería de datos Dr. Francisco J. Mata

Creación de árboles de decisión Proceso recursivo Se inicia con todos los datos del conjunto de adiestramiento en la raíz Para cada variable “input” se decide la mejor forma para separar los valores de la variable “target” Se selecciona la variable “input” y criterio de mejor separación mediante ésta para los valores de la variable “target” Se divide el nodo en cuestión en dos o más hijos de acuerdo con aquella variable que “mejor divide” la variable “target” Se repite proceso con los otros nodos hasta que no sea posible más divisiones Minería de datos Dr. Francisco J. Mata

Divisiones Minería de datos Dr. Francisco J. Mata

Divisiones Medida para evaluar la calidad de una división en un árbol de decisión se denomina pureza Minería de datos Dr. Francisco J. Mata

Medidas de pureza Depende de la variable “target” no de las variables “input” Variable “target” categórica Gini (diversidad de población) Entropía (ganancia de información) Radio de ganancia de información Prueba chi cuadrado Variable “target” intervalo o radio Reducción en varianza Prueba F Minería de datos Dr. Francisco J. Mata

Pureza Índice de Gini Utilizado en las ciencias sociales y la economía Probabilidad de que dos cosas escogidas al azar de una población sean la misma Una población pura tiene un índice de Gini de 1 Si hay dos grupos igualmente representados en una población el índice de Gini es 0.5 El índice de Gini es la suma de los cuadrados de las proporciones de las poblaciones p12+ p22 El objetivo es maximizar el índice de Gini Minería de datos Dr. Francisco J. Mata

Gini Minería de datos Dr. Francisco J. Mata

Gini Minería de datos Dr. Francisco J. Mata

Gini Minería de datos Dr. Francisco J. Mata

Pureza Entropía Utilizada en la teoría de la información para medir la cantidad de información almacenada en un número de bits Una población pura tiene una entropía de 0 Si existen dos grupos igualmente representados la entropía es 1 Cálculo de entropía -(p1 log p1 + p2 log p2) El objetivo es minimizar entropía Minería de datos Dr. Francisco J. Mata

Entropía Minería de datos Dr. Francisco J. Mata

Entropía Minería de datos Dr. Francisco J. Mata

Entropía Minería de datos Dr. Francisco J. Mata

Gini versus entropía Entropía tiene preferencia por grupos más pequeños y puros Gini tiene preferencia por grupos similares en tamaño Minería de datos Dr. Francisco J. Mata

Pureza Chi cuadrado Prueba importante en estadística para medir la probabilidad de que la frecuencia observada de una muestra sea debida sólo a la variación de la muestra Es relativa a la proporción en la población original (nodo padre) Si las proporciones en los hijos son las mismas que en el padre entonces el valor de chi cuadrado es 0 Si los hijos son puros, el valor de chi cuadrado es alto Para una población dividida 50%-50%, el valor es igual al tamaño de la población Minería de datos Dr. Francisco J. Mata

Pureza Chi cuadrado Cálculo para el chi cuadrado para cada hijo: (observado (c1) – esperado (c1))2 / esperado (c1) + (observado (c2) –esperado (c2))2/ esperado (c2) ci número de instancias de clase i en el hijo obsevado (ci ): número de instancias observadas de clase i en el hijo esperado (ci ): número de instancias esperadas de clase i en el hijo tamaño del hijo multiplicado por la proporción de la clase en el padre El objetivo es maximizar chi cuadrado Minería de datos Dr. Francisco J. Mata

Chi cuadrado Minería de datos Dr. Francisco J. Mata

Chi cuadrado Coinciden en este caso Minería de datos Dr. Francisco J. Mata

Algoritmos y pureza CART: Gini C4.5: entropía CHAID: chi cuadrado Minería de datos Dr. Francisco J. Mata

Valores perdidos Tratamiento Ignorar registros con valores perdidos (puede introducir sesgo) Tratar los valores perdidos como legítimos y asignarlos a un nodo del árbol Minería de datos Dr. Francisco J. Mata

Error en un árbol de decisión Para una hoja: 1-probabilidad de clase dominante para la hoja Para un árbol: Suma ponderada de error de hoja i multiplicada por probabilidad de que un registro pertenezca a esta hoja Minería de datos Dr. Francisco J. Mata

Poda de árboles de decisión Incrementa la estabilidad del modelo al reducir su complejidad Minería de datos Dr. Francisco J. Mata

Poda Minería de datos Dr. Francisco J. Mata

Poda Con el conjunto de entrenamiento, cada división del árbol reduce el error Pero al aumentar el número de hojas, éstas contienen menos registros o tuples y se reduce la posibilidad de que la distribución de resultados en una hoja sea similar de un conjunto de datos a otros (“overfitting”) Los datos de prueba son utilizados para encontrar el punto donde la complejidad adicional empieza a dañar en lugar de ayudar Minería de datos Dr. Francisco J. Mata

Poda Minería de datos Dr. Francisco J. Mata

Algoritmo típico de poda Identificar sub-árboles candidatos para poda Tasa de error ajustada: AE(T) = E(T) + α leaf_count (T) Se inicia considerando todos los subárboles que contienen la raíz α se incrementa Si AE(Ti) <= E(T completo), Ti es un árbol candidato para conservar y aquellas ramas que no pertenecen a él son podadas El proceso se repite de nuevo para los subárboles en Ti Minería de datos Dr. Francisco J. Mata

Poda Varía de acuerdo con los diferentes algoritmos CART C4.5 CHAID Minería de datos Dr. Francisco J. Mata

Resultados clasificación Minería de datos Dr. Francisco J. Mata

Resultados clasificación Error clasificar solicitud como buena siendo mala: 140/453= 31% Error clasificar solicitud como mala siendo buena: 122/1931= 6% Error de mala clasificación: (140+122)/2384=11% Minería de datos Dr. Francisco J. Mata

Resultados clasificación Clasificado 1 Clasificado 0 Realmente 1 Verdadero positivo Falso negativo Realmente 0 Falso positivo Verdadero negativo Minería de datos Dr. Francisco J. Mata

Resultados clasificación Minería de datos Dr. Francisco J. Mata

Resultados de clasificación Variable Adiestramiento Validación respuesta 1=malo 0=bueno Minería de datos Dr. Francisco J. Mata

Resultado clasificación Regla: IF 492238.5 <= VALUE AND DEBTINC < 45.43897 THEN NODE : 5 N : 12 1 : 83.3% 0 : 16.7% Interpretación: Minería de datos Dr. Francisco J. Mata

Ventajas de los árboles de decisiones Fácil de entender Resultados se adaptan bien a reglas de negocios No se requieren suposiciones acerca de los datos Variables “input” pueden ser continuas y categóricas Minería de datos Dr. Francisco J. Mata

Desventajas de los árboles de decisiones Algunos algoritmos sólo pueden tratar variables “target” binarias Otros algoritmos pueden tratar variables “target” con más de dos valores pero no funcionan bien cuando el número de casos de entrenamiento es pequeño por clase Son costosos en términos computacionales Minería de datos Dr. Francisco J. Mata