Modelado – Árbol de Decisión Mg. Samuel Oporto Díaz

Slides:

Advertisements

Presentaciones similares

Modelado – Árbol de Decisión

Advertisements

Introducción a la Minería de Datos

1 Introducción a la minería de datos. 2 Temario ¿Qué es minería de datos? ¿Qué es minería de datos? ¿Quién usa minería de datos? ¿Quién usa minería de.

Aprendiendo de las observaciones Capítulo 18. Contenido Agentes aprendices Aprendizaje inductivo Aprendizaje de árboles de decisión.

Introducción a la estadística. ¿Qué es la estadística? La Estadística es la parte de las Matemáticas que se encarga del estudio de una determinada característica.

IIIº Medio  Comprender conceptos de estadística y construir e interpretar tablas de frecuencia, valorando su utilidad en diversos contextos de.

LA NATURALEZA DE LAS ESTADÍSTICAS Estadísticas Descriptivas Psic. Gerardo A Valderrama M.

INVESTIGACION CIENTIFICA EN CONTADURIA PUBLICA TECNICAS DE ESTUDIO CONTADURIA PUBLICA UNIVERSIDAD SALESIANA DE BOLIVIA Dr. Abel CORDERO CALDERON.

Fundamentos para el Cálculo Unidad 3: FUNCIONES Y SUS GRAFICAS : Clase 3.1: Funciones Definición: Dominio y rango 1 FUNDAMENTOS PARA EL CÁLCULO La teoría,

Presentan: Estadística Liceo Nobelius Con la colaboración de: Y Rubí Arrizaga.

Diseños de investigación.  Arnau (1995a) define el diseño de investigación como un plan estructurado de acción que, en función de unos objetivos básicos,

Bioestadística Elementos de Probabilidad para la Inferencia Estadística.

TUTORIA 1 Lógica para la Computación TUTORIA 1 Facultad de Ciencias Naturales y Matemáticas.

REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.

LISTA DE EXPOSITORES Juan Luis Fernández Marco Quenta Sergio Touchard.

Estándares para Matemáticas

Metodología de la investigación

Ingreso , proceso y salida de datos

Métodos de compresión sin pérdida de información

Implementación de algoritmos de Procesamiento Digital de Señales

ESTADÍSTICAS INFERENCIALES

Curso de Elaboración de Pruebas Prof. Gerardo A. Valderrama M

ESTRUCTURAS CONDICIONALES

El conjunto de los números naturales

INFORMÁTICA II (METODOLOGÍA PARA LA SOLUCIÓN DE PROBLEMAS)

simulacion Resumen unidad 1 Equipo Baldor Huerta Ocejo Ivan de Jesus

Unidad de aprendizaje: Algoritmos de clasificación

UNIDAD 4: ESTADÍSTICA Y PROBABILIDAD

ESTADÍSTICA II Ing. Danmelys Perozo MSc.

INTRODUCCIÓN AL ESTUDIO DE LA ESTADÍSTICA

Clase 8: Contraste de Hipótesis

CONCEPTOS BASICOS ESTADISTICA.-Conjunto de métodos que nos permiten tomar decisiones en momentos de incertidumbre (duda). Tiene como objetivo que la información.

Inteligencia Computacional

Metodología de la Investigación

MATEMÁTICA DISCRETA Y LÓGICA 1

Tema 3 Fundamentos y diseño de algoritmos

Probabilidad Condicional

REGRESÍON LINEAL SIMPLE

Etapas de la simulación de procesos

INVESTIGACION DE MECADOS

ALGORITMOS es un conjunto preescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permite realizar una actividad mediante pasos.

TEMA Nº 1 Conjuntos numéricos. Aprendizajes esperados: Utilizar y clasificar los distintos conjuntos numéricos en sus diversas formas de expresión, tanto.

Investigación de mercados

ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza

 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.

POBLACIÓN MUESTRA MUESTRA ESTADISTICA ESTADISTICA ENCUESTA ENCUESTA.

INFORMÁTICA II (PSEUDOCODIGO Y METODOLOGÍA PARA LA SOLUCIÓN DE PROBLEMAS) Ing. José David Ortiz Salas.

Maestría en Ciencias de la Computación

METODOLOGIA DE LA INVESTIGACION. OPERACIONALIZACION DE LAS VARIABLES.

FUNDAMENTOS DE PROGRAMACIÓN. INTRODUCCIÓN  Conceptos: Informática, Ordenador, Programa, Dato, Bit, Byte, Hardware, Software, Lenguaje de Programación,

Guía General del Modelo ASÍ de Medición de Indicadores

Lingüística computacional

URBINA GUADARRAMA GILBERTO MORENO CONTRERAS TANGANXOAN ZUANGUA

1 TEMA 2. INTRODUCCION A LA ESTADISTICA DESCRIPTIVA E INFERENCIAL 2.1 DEFINIICION 2.2. AZAR Y PROBABILIDAD 2.3 MUESTREO 2.4 ESTIMACION DE PARAMETROS

INSTITUTO TECNOLOGICO DE VERACRUZ

TEMA Nº 1 Conjuntos numéricos. Aprendizajes esperados: Utilizar y clasificar los distintos conjuntos numéricos en sus diversas formas de expresión, tanto.

Tamaño de muestra.

Interpolación. Dados n + 1 puntos, hay uno y sólo un polinomio de grado* n que pasa a través de todos los puntos. Por ejemplo, hay sólo una línea recta.

MODELADO Y SIMULACIÓN Introducción al Modelado y Simulación.

Capitulo 1 Introducción y recolección de datos 1.

Dr. Edwin Alfonso Sosa1 Aritmética: Propiedades y operaciones con números reales Fundamentos de álgebra Dr. Alfonso-Sosa.

Estrategia algorítmica

“UN MODELO ESTOCASTICO PARA PREDECIR INUNDACIONES PARA COATZACOALCOS”

ESTADÍSTICA APLICADA  ZEUS DE JESÚS RODRÍGUEZ BUDA  GABRIELA MÁRQUEZ TORRES  MARÍA ENRIQUETA GIL CÓRDOVA  ELIÁN ANTONIO GONZALEZ GARCÍA  CRISTELL.

ESTADÍSTICA Y SU CLASIFICACIÓN 1. 2 La estadística es la ciencia encargada de recoger, clasificar, describir, analizar datos numéricos para deducir conclusiones.

Econometría financiera Retorno y riesgo. ¿Qué es la econometría financiera? La econometría consiste en dar un contenido empírico a un razonamiento económico.

TIPOS DE ALGORITMO DE APRENDIZAJE Aprendizaje Supervisado Aprendizaje no Supervisado Aprendizaje por Refuerzo.

Transcripción de la presentación:

Modelado – Árbol de Decisión Mg. Samuel Oporto Díaz

Mapa del Curso Inteligencia de Negocios Metodología Kimball Planeamiento del Proyecto Modelo del Negocio Modelado Dimensional Modelado Físico ETL Reportes Minería de Datos

Tabla de Contenido Inducción. Aprendizaje Automático. Clasificación Procedimiento de Trabajo. Información, entropía y energía Árboles de decisión –Construcción del árbol –Condición de parada –Poda del árbol

INDUCCIÓN

Inducción La inducción permite obtener la escencia de los objetos que nos rodean, la escencia es lo que define el objeto. La observación de la realidad proporciona un conjunto de relaciones. La inducción busca la generalización de los conceptos dados por estas relaciones. Va de lo particular a lo general.

Razonamiento Inductivo El razonamiento inductivo permite obtener conclusiones generales a partir de premisas de datos particulares. Se obtienen conclusiones probables, más no absolutas.

Ejercicio 1 Cuál es el siguiente número de la secuencia:

Ejercicio 2 Sea la siguiente secuencia de números: 10, 7, 9, 6, 8, 5, 7,... Diga cuales son los siguientes tres números de la serie. Resolver por inducción.

Ejercicio 2 Observando la forma en que los números cambian de término a término. El primer término de la secuencia es 10. Le restas 3 para obtener el 2o término. Después le sumas 2 para obtener el 3er término. Continúas alternando entre restar 3 y sumar 2 para generar los términos restantes. Los siguientes tres términos son:

Inducción Formalmente la observación de la realidad se configura como un conjunto de pares, que definen una relación. [x, f(x)] Este par se denomina un par de entrenamiento (x, f(x)), donde x es la entrada y f(x) es la salida de la función aplicada a x.

Inducción La inducción es un proceso mediante el cual, dado un conjunto de ejemplos del par (x, f(x), se intenta encontrar una hipótesis que se aproxime a f. Se entiende que una hipótesis es una función que se debe validar mediante alguna prueba. La preferencia por alguna hipótesis es un desvio (bias). Todos los algoritmos tienen un grado de desvío dado que e hay un gran número de hipótesis consistentes posibles. El aprendizaje se logrará cuando se encuentre la función f que mejor explique los datos

Inducción El proceso de aprendizaje es un compromiso entre: Inducción ¿la función deseada es representable en el lenguaje de representación usado? ¿será el problema de aprendizaje tratable para una elección dada del lenguaje de representación? expresividad eficiencia

Ejercicio 3 Para el ejercicio 1 encuentre una fórmula para expresar el número de la posición i ?. x i = g(i) En caso que no se pueda exprese la función recursivamente: x i = h(x i-1 ).

Ejercicio 4 En la clase de física, el grupo de Rumi soltó una pelota desde diferentes alturas, se midió la altura del primer rebote y se registraron los siguientes datos: Se pide: –Preparar al menos dos hipótesis (conjeturas) acerca de estos hallazgos. –Aplicar una prueba para determinar cuál de las dos hipótesis es mejor. –Calcular la altura del primer rebote para una caída de 280 cm.

Ejercicio 4 Preparando el gráfico de dispersión de los datos y calculando el R 2. Se observa comportamiento línea de los datos: R = f(A)

Ejercicio 4 Se necesita plantear algunas hipótesis para f, asumiendo que el comportamiento es lineal. f1: k 1 = R/A R = A*k 1 f2: k 2 = (A - R) / A R = A*(1-k 2 ) f3: k 3 = (A - R) / R R = A*(1+k 3 ) Intentando probar las hipótesis analíticamente: ARA-R(A-R)/A(A-R)/RR/A %33.33%75.00% %35.14%74.00% %31.15%76.25% %33.33%75.00% %31.58%76.00% %35.59%73.75% STD =1.01%1.80%1.01%

APRENDIZAJE AUTOMÁTICO

Aprendizaje Automático El aprendizaje automático es una disciplina de la Inteligencia Artificial que pretende desarrollar algoritmos para que aprendan desde la experiencia, mediante un proceso de inducción. Intenta crear algoritmos capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. Los ejemplos (la experiencia) se presenta como n-tuplas. Es un proceso de inducción del conocimiento.

Se solapa con la estadística, ya que se basan en el análisis de datos. Se centra en el estudio de la Complejidad Computacional de los problemas Muchos problemas de aprendizaje son intratables (NP-completo), por lo que el esfuerzo se centra en el diseño de soluciones factibles. La complejidad computacional es un indicador del tiempo necesario para que un algoritmo entregue una respuesta. Problema Indecible. No solucionables en forma algorítmica, se pueden describir, pero no se pueden representar o resolver. Problemas Decibles: Problemas intratables: Tiempo no polinómico O(k n ) Problemas tratables. Tiempo polinómicos O(n k ) Aprendizaje Automático

Tipos de Algoritmos de Aprendizaje Aprendizaje Supervisado Establece una correspondencia entre la entrada y la salida deseada (Clasificación, Regresión) [x, f(x)] Aprendizaje No-supervisado Todo el proceso de modelado se realiza sobre un conjunto de ejemplos donde se tiene solo las entradas [x] Aprendizaje por refuerzo El algoritmo re-aprende constantemente, en función a sus experiencias, refuerza el aprendizaje si tiene éxito (Feedback) [x, f(x)]

Modelos de Aprendizaje Supervisado Una especie de profesor sugiere una categoría para cada conjunto de entrenamiento. Se busca reducir el error de entrenamiento. No Supervisado No existe el profesor, el sistema realiza agrupamientos en forma natural sobre los patrones de entrada, para determinar la clase a la que pertenece.

CLASIFICACIÓN

Clasificación Intenta clasificar algunos objetos en un número finito de clases, en función a sus propiedades (características) Se intenta buscar un función de mapeo que permita separar la clase 1 de la clase 2 y esta de la clase 3… Las variables (atributos) pueden ser categóricas o numéricas. El modelo se construye con datos completos, cada registro tiene una clase predefinida. Busca formas de separar la data en clases pre-definidas Árboles de decisión. Redes Neuronales. Clasificador Bayesiano. Razonamiento basado en casos

Clasificación Atraer los clientes mas rentables. Clasificar a los clientes según la respuesta que se obtiene ente una campaña de mailing Gráfico de elevación: % clientes % ingresos Mail a 30% de los clientes para recibir el 60% de los ingresos

Regresión Intenta determinar la función que mapea un conjunto de variables de entrada X (independiente), en una (o más) variables de salida Y (dependiente),. Es básicamente numérica. Está basada en supuestos estadísticos. Árboles de decisión. Redes Neuronales. Regresión Logística

Regresión Detectar efectivamente fraudes en el uso de servicios. Valor de reclamo Valor de reclamo predecido

Clasificación Vs. Predicción Clasificación: Intenta predecir las etiquetas de clases categóricas. Los datos se dividen en atributos y en una clase la que se pretende clasificar (categórica). Se clasifica los datos (construye un modelo) basado en un conjunto de entrenamiento y la clase a la que pertenece cada ocurrencia. Pronóstico: Intenta predecir funciones continuas. La entrada puede tener atributos continuos o categóricos.

PROCEDIMIENTO DE TRABAJO

Procedimiento de solución Recolección de datos Train Test Pre- procesamiento Inducción Entrenamiento Reglas Definir la arquitectura Pruebaerror Parámetros

Procedimiento de solución Recolección de datos: Recolectar los datos tanto de entrada como de salida en el número de muestras suficientes. Pre-procesamiento: Preparar los datos, para el proceso de aprendizaje (inductivo) Definir la arquitectura Definir el número de nivéles del árbol, el mínimo de ocurrencias por hoja, el error máximo de entrenamiento.

Procedimiento de solución Entrenamiento: El conjunto de tuplas es el conjunto de entrenamiento. Cada ocurrencia (tupla) pertenece a una clase. El modelo es representado como reglas de clasificación, árboles de decisión, o fórmulas matemáticas. Uso de modelo: Para clasificar nuevos casos Estimando la exactitud del modelo. La etiqueta conocida del conjunto de entrenamiento es comparada con el resultado del clasificador La tasa de exactitud es el % correctamente clasificadas. Los datos de prueba independientes de los datos de entrenamiento.

Construcción de modelo Data de Entrenamiento Algoritmo de Clasificación SI rango = ‘professor‘ o años > 6 entonces contratado = ‘yes‘ Clasificador (Model)

Uso del modelo Classificador Data de Prueba Datos no usados (Godofredo, profesor, 4) ¿Contratado?

INFORMACIÓN, ENTROPÍA Y ENERGÍA

Información La información se mide en bits. Un bit de información es suficiente para responder Verdadero/Falso a una pregunta cuya respuesta no se sabe (basado en la teoría de Shanon). La cantidad de información recibida respecto a la ocurrencia de un evento es inversamente proporcional a la probabilidad de ocurrencia de dicho evento. –Alta probabilidad  Mínima información –Baja probabilidad  Máxima información

Entropía La entropía mide el grado de incertidumbre asociado a una distribución de probabilidad. La entropía es la inversa de la cantidad de información. Se basa en la medida de la cantidad de información que da el atributo (basado en la teoría de Shanon).

Entropía Para calcular la entropía de una variable se usa la siguiente fórmula. Donde S es un conjunto que se puede dividir en |C| clases, p i es la proporción de ocurrencias de la clase C i en el conjunto S.

Ejercicio 10 Calcular la entropía para las siguientes variables discretas. E(1/2, 1/2) = E(1/3, 2/3) = E(1/5, 4/5) = E(1/9, 8/9) =

Ejercicio 11 Calcular la entropía para las siguientes variables discretas. E(1/3, 1/3, 1/3) = E(1/7, 2/7, 4/7) = E(1/13, 4/13, 8/13) = E(1/25, 8/25, 16/25) =

Función de Entropía

Entropía En una distribución con un solo pico en la que p i = 1 y p j =0, para i ≠ j la entropía es mínima lo cual indica mínima incertidumbre o máxima información. En una distribución uniforme, todos los valores son igualmente probables p i = 1/N y por tanto la entropía es máxima, lo cual indica máxima incertidumbre o mínima información.

Ganancia de Información La ganancia de información (GI), permite decidir qué característica adicionar al árbol actual. Es una medida de cuánto ayuda el conocer el valor de cierta característica para conocer el verdadero valor de la clase a la que pertenece la clase asociada. Una ganancia de información alta implica que una característica permite reducir la incertidumbre de la clase a la que pertenece. La ganancia de información debe de tener su valor: –máximo cuando el atributo sea perfecto (discrimine perfectamente ejemplos) –mínimo cuando el atributo no sea relevante.

Ganancia de Información La ganancia de información se puede calcular restando a la entropía global, la media ponderada de las entropías asociadas a los valores que puede tomar una característica. Donde S v, es el subconjunto de S, donde el atributo A toma el valor de v.

ÁRBOLES DE DECISIÓN

Árboles de decisión Un árbol de decisión es un conjunto de condicione (reglas) organizadas en una estructura jerárquica, de tal manera que la decisión final se puede determinar siguiendo las condiciones que se cumplen desde la raíz hasta alguna de sus hojas. Representación del conocimiento: –Nodo internos  Preguntas –Nodos hoja  Decisiones

Ciclo de un árbol de decisión

Ejemplo 20 age? overcast student?credit rating? noyes fair excellent <=30 >40 no yes Árbol de decisión para la compra de un computador

Construcción de árboles de decisión Consiste de tres etapas: 1.Construir el árbol Al inicio todos los ejemplos de entrenamiento están a la raíz Partir los ejemplos en forma recursiva basado en los atributos seleccionados 2.Detener la construcción. 3.Podar de árbol Identificar y eliminar ramas que reflejen ruido o valores atípicos

Ejemplo Visual de Construcción de un DT

Ejemplo Visual de Construcción de un DT

Construcción de árboles de decisión Algoritmos TDIDT [Top-Down Induction on Decision Trees] Estrategia “divide y vencerás” para la construcción recursiva del árbol de decisión de forma descendente. n Construcción del árbol.  Reglas de división n Detener la construcción.  Reglas de parada n Podar el árbol.  Reglas de poda

1. Construcción del árbol Algoritmo básico (un algoritmo codicioso) –Los atributos deben ser categóricos (si son continuos ellos deben ser discretizados) –El árbol es construido recursivamente de arriba hacia abajo con una visión de divide y conquista. –Al inicio, todos los ejemplos de entrenamiento están en la raíz. –Los ejemplos son particionados en forma recursiva basado en los atributos seleccionados –Los atributos son seleccionados basado en una medida heurística o estadística (ganancia de información) –La ganancia de información se calcula desde el nivel de entropía de los datos.

Ejemplo 21 Construir un árbol de decisión para los siguientes datos:

Ejemplo 21

saa Árbol de decisión para jugar Golf.

Otros Algoritmos Criterio de proporción de ganancia (C4.5) Índice de diversidad de Gini (CART) Todos los atributos son continuos Se Asume que existen varias posibilidades de partir cada atributo Puede requerir otras herramientas para partir los datos (clustering) Puede ser modificado para datos categóricos

2. Condiciones de parada Condiciones para detener partición –Todas las muestras para un nodo dado pertenecen a la misma clase. –No existe ningunos atributos restantes para ser particionados – el voto de la mayoría es empleada para clasificar la hoja. –No existe más ejemplos para la hoja

3. Poda del árbol Identificar y eliminar ramas que reflejen ruido o valores atípicos

Bibliografía Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp. Data Mining with SQL Server ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004). Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp. Introducción a la minería de datos. J. Hernández, J. Ramírez.

PREGUNTAS

Mg. Samuel Oporto Díaz