Aprendizaje en Árboles de Decisión

Slides:

Advertisements

Presentaciones similares

Unidad I. Conceptos Básicos y Estadística Descriptiva

Advertisements

INTELIGENCIA ARTIFICIAL

Jacqueline Chávez Cuzcano

Relaciones y diferencias entre minería de datos y estadística

Árboles de decisión Tema 9 Parte teórica Minería de datos

Algoritmos de Minería Los métodos básicos.

Algoritmos de Minería w Las ideas sencillas, frecuentemente funcionan bien w Un atributo hace todo (1-Rule) w Estructura lógica capturada en un árbol de.

CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?

Capítulo 10 Test de Hipótesis.

Aprendizaje Automatizado

Aprendizaje a partir de observaciones

Algoritmo C4.5 Equipo # 6 José Antonio Espino López

Sistemas de Razonamiento Lógico

FRANCISCO JAVIER RODRÍGUEZ

Inteligencia Artificial Adquisición automática del conocimiento

Unidad I. Conceptos Básicos y Estadística Descriptiva

Tests de permutaciones y tests de aleatorización

Clustering (Agrupamiento)

Estadística Descriptiva Tema I. Conceptos Básicos

Unidad III. Conceptos Básicos de Estadística

RECONOCIMIETO DE PATRONES

Mapping the forest types and landcover of Puerto Rico. Comenzaremos a discutirlo el lunes.

Representación del Conocimiento

Aprendizaje Automatizado

REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA

Universidad Técnica de Ambato.

Clase 2, Parte 2: Métodos Tradicionales de Optimización y Búesqueda

Sesión 2: Métodos Probabilísticos Básicos

UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO

Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 4: Inducción de árboles de decisión Curso de doctorado impartido por.

Diseño de la investigación

MEDIDA Y MÉTODO CIENTÍFICO

Estadística Administrativa II

Diseño y análisis de algoritmos

Representando para Aprender

COMPUTACION 2009 Clase 6 Clase 7.

áRBOL DE DECISIONES CASTILLO ORTIZ LESLY ULLANIC

Técnicas Supervisadas Aproximación no paramétrica

Aprendizaje Automatizado Ár boles de Clasificación.

Reconocimiento de Formas en Data Mining

Reconocimiento de Patrones

Diseño y análisis de algoritmos

Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.

Combinación de Clasificadores

complejidad de un problema.

Redes Competitivas.

INVESTIGACION DE OPERACIONES

Diseño y análisis de algoritmos

Matemáticas Discretas

1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.

Introducción a la Inferencia Estadística

Algoritmos Genéticos en Aprendizaje Clase 3 de Computación Evolutiva.

Sesión 3: Teoría de Grafos

Capítulo 1. Conceptos básicos de la Estadística

INTRODUCCIÓN A JUEGOS (BÚSQUEDA CON ADVERSARIOS)

Identificación de Sistemas El problema de la Identificación de Sistemas.

Teoría de lenguajes y compiladores

Tomando decisiones sobre las unidades de análisis

Toribio Sarmiento Miguel Sesarego Cruz Rosmery. BUSQUEDA DE LA SOLUCION EN UN ESPACIO ESTADO BUSQUEDA SISTEMATICA O CIEGA EN PROFUNDIDAD EN AMPLITUD NO.

Taller: Inteligencia Computacional

Metodología de la programación

Aplicación JAVA implementando Arboles de Decisión

Conceptos Básicos y Estadística Descriptiva

Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.

TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.

Transcripción de la presentación:

Aprendizaje en Árboles de Decisión Semana 2, Clase 3 Gabriela Ochoa

Contenido Características de los Arboles de Decisión Problemas adecuados Representación Entropía y Ganancia de Información Búsqueda en el espacio de Hipotesis

Árboles de Decisión Robustos a datos ruidosos, con errores Capaz de aprender expresiones disyuntivas Método para aproximar funciones objetivos con valores discretos ( booleanas, o mas) Método mas utilizado y practico para inferencia inductiva

Problemas Adecuados para Árboles de Decisión Instancias son representadas por pares atributo-valor Instancias descritas por un conjunto fijo de atributos (Ej.., temperatura) y sus valores (Ej.., hot). Preferiblemente un numero pequeño de posibles valores (Ej., hot, mild, cold). Extensiones al algoritmo básico permiten manejar atributos con valores reales (Ej., a floating point temperatura).

Función objetivo tiene valores de salida discretos Caso mas sencillo, función booleana Puede extenderse para aprender funciones con mas de dos valores de salida Se requieren descripciones disyuntivas Datos de entrenamiento pueden tener errores Errores en el valor o ausencia de algún atributo Errores en la clasificación

Representación Árboles de Decisión Ordenamiento de preguntas, que determina la pregunta o test adecuado para cada paso Representan una disyunción de conjunciones de restricciones sobre valores de los atributos Clasifican instancias recorriendo el árbol hacia abajo de la raíz a las hojas La hoja provee la clasificación de la instancia Cada Nodo representa una pregunta sobre cada atributo. Las ramas descendentes de un nodo atributo corresponden a los valores de dicho atributo

Arbol se construye a partir de los Datos de Entrenamiento Árbol de Decisión Predicciones en datos no observados Reglas de Decisión

Algoritmo Básico ID3 Construye árboles top-down Pregunta: Cual atributo debe ser chequeado en la raíz del árbol? El “mejor” atributo es seleccionado y colocado como test en la raiz Se crea una rama para cada valor del atributo Se repite el proceso utilizando ejemplos de entrenamiento asociados con cada rama para seleccionar mejor atributo en cada paso Algoritmo Greedy, sin backtracking

Como seleccionar el mejor atributo? Medida para evaluar que tan bueno es un atributo. Propiedad estadistica: information gain Mide que tan bien un atributo dado separa a los ejemplos de entrenamiento Entropía: medida de teoria de la informacion, caracteriza la (im)pureza u homogeneidad en una colección arbitraria de ejemplos

Ejemplo Calculo de Entropía S colección de 14 ejemplos de un concepto booleano, 9 ejemplos + y 5 – [9+,5-] E([9+,5-]) = -(9/14)log(9/14) - (5/14)log(5/14)= 0.940 La entropía es = 0 si todos los miembros de S pertenecen a la misma clase. Si p+ = 1, p- = 0, E(S) = -1*log(1) – 0*log(0) = -1*0 – 0*log(0) = 0 La entropía es = 1 cuando S contiene el mismo numero de ejemplos positivos y negativos. Si p+ = 1/2, p- = 1/2, E(S) = -1/2*log(1/2) – 1/2*log(1/2) = -1/2*-1 – 1/2*-1 = 1

Búsqueda en el espacio de Hipótesis En cada paso del algoritmo mantiene un solo árbol o hipótesis (diferente al algoritmo del capitulo dos que mantiene un conjunto) ID3: Busca en el espacio de posibles árboles de decisión desde el mas simple hacia incrementalmente mas complejos, guiado por la heurística de la ganancia de información