Aprendizaje en Árboles de Decisión

Slides:



Advertisements
Presentaciones similares
Unidad I. Conceptos Básicos y Estadística Descriptiva
Advertisements

INTELIGENCIA ARTIFICIAL
Jacqueline Chávez Cuzcano
Relaciones y diferencias entre minería de datos y estadística
Árboles de decisión Tema 9 Parte teórica Minería de datos
Algoritmos de Minería Los métodos básicos.
Algoritmos de Minería w Las ideas sencillas, frecuentemente funcionan bien w Un atributo hace todo (1-Rule) w Estructura lógica capturada en un árbol de.
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Capítulo 10 Test de Hipótesis.
Aprendizaje Automatizado
Aprendizaje a partir de observaciones
Algoritmo C4.5 Equipo # 6 José Antonio Espino López
Sistemas de Razonamiento Lógico
FRANCISCO JAVIER RODRÍGUEZ
Inteligencia Artificial Adquisición automática del conocimiento
Unidad I. Conceptos Básicos y Estadística Descriptiva
Tests de permutaciones y tests de aleatorización
TEMA III.
Clustering (Agrupamiento)
Estadística Descriptiva Tema I. Conceptos Básicos
Unidad III. Conceptos Básicos de Estadística
RECONOCIMIETO DE PATRONES
Mapping the forest types and landcover of Puerto Rico. Comenzaremos a discutirlo el lunes.
Representación del Conocimiento
Aprendizaje Automatizado
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Universidad Técnica de Ambato.
Algoritmo ID3.
Clase 2, Parte 2: Métodos Tradicionales de Optimización y Búesqueda
Sesión 2: Métodos Probabilísticos Básicos
UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO
Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 4: Inducción de árboles de decisión Curso de doctorado impartido por.
Diseño de la investigación
MEDIDA Y MÉTODO CIENTÍFICO
Estadística Administrativa II
Diseño y análisis de algoritmos
Representando para Aprender
COMPUTACION 2009 Clase 6 Clase 7.
áRBOL DE DECISIONES CASTILLO ORTIZ LESLY ULLANIC
Técnicas Supervisadas Aproximación no paramétrica
Aprendizaje Automatizado Ár boles de Clasificación.
Reconocimiento de Formas en Data Mining
Reconocimiento de Patrones
Diseño y análisis de algoritmos
Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.
Combinación de Clasificadores
complejidad de un problema.
Redes Competitivas.
INVESTIGACION DE OPERACIONES
Diseño y análisis de algoritmos
Matemáticas Discretas
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Introducción a la Inferencia Estadística
Algoritmos Genéticos en Aprendizaje Clase 3 de Computación Evolutiva.
Sesión 3: Teoría de Grafos
Capítulo 1. Conceptos básicos de la Estadística
INTRODUCCIÓN A JUEGOS (BÚSQUEDA CON ADVERSARIOS)
Identificación de Sistemas El problema de la Identificación de Sistemas.
Teoría de lenguajes y compiladores
Tomando decisiones sobre las unidades de análisis
Toribio Sarmiento Miguel Sesarego Cruz Rosmery. BUSQUEDA DE LA SOLUCION EN UN ESPACIO ESTADO BUSQUEDA SISTEMATICA O CIEGA EN PROFUNDIDAD EN AMPLITUD NO.
Taller: Inteligencia Computacional
Metodología de la programación
Aplicación JAVA implementando Arboles de Decisión

Conceptos Básicos y Estadística Descriptiva
Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Aprendizaje en Árboles de Decisión Semana 2, Clase 3 Gabriela Ochoa

Contenido Características de los Arboles de Decisión Problemas adecuados Representación Entropía y Ganancia de Información Búsqueda en el espacio de Hipotesis

Árboles de Decisión Robustos a datos ruidosos, con errores Capaz de aprender expresiones disyuntivas Método para aproximar funciones objetivos con valores discretos ( booleanas, o mas) Método mas utilizado y practico para inferencia inductiva

Problemas Adecuados para Árboles de Decisión Instancias son representadas por pares atributo-valor Instancias descritas por un conjunto fijo de atributos (Ej.., temperatura) y sus valores (Ej.., hot). Preferiblemente un numero pequeño de posibles valores (Ej., hot, mild, cold). Extensiones al algoritmo básico permiten manejar atributos con valores reales (Ej., a floating point temperatura).

Función objetivo tiene valores de salida discretos Caso mas sencillo, función booleana Puede extenderse para aprender funciones con mas de dos valores de salida Se requieren descripciones disyuntivas Datos de entrenamiento pueden tener errores Errores en el valor o ausencia de algún atributo Errores en la clasificación

Representación Árboles de Decisión Ordenamiento de preguntas, que determina la pregunta o test adecuado para cada paso Representan una disyunción de conjunciones de restricciones sobre valores de los atributos Clasifican instancias recorriendo el árbol hacia abajo de la raíz a las hojas La hoja provee la clasificación de la instancia Cada Nodo representa una pregunta sobre cada atributo. Las ramas descendentes de un nodo atributo corresponden a los valores de dicho atributo

Arbol se construye a partir de los Datos de Entrenamiento Árbol de Decisión Predicciones en datos no observados Reglas de Decisión

Algoritmo Básico ID3 Construye árboles top-down Pregunta: Cual atributo debe ser chequeado en la raíz del árbol? El “mejor” atributo es seleccionado y colocado como test en la raiz Se crea una rama para cada valor del atributo Se repite el proceso utilizando ejemplos de entrenamiento asociados con cada rama para seleccionar mejor atributo en cada paso Algoritmo Greedy, sin backtracking

Como seleccionar el mejor atributo? Medida para evaluar que tan bueno es un atributo. Propiedad estadistica: information gain Mide que tan bien un atributo dado separa a los ejemplos de entrenamiento Entropía: medida de teoria de la informacion, caracteriza la (im)pureza u homogeneidad en una colección arbitraria de ejemplos

Ejemplo Calculo de Entropía S colección de 14 ejemplos de un concepto booleano, 9 ejemplos + y 5 – [9+,5-] E([9+,5-]) = -(9/14)log(9/14) - (5/14)log(5/14)= 0.940 La entropía es = 0 si todos los miembros de S pertenecen a la misma clase. Si p+ = 1, p- = 0, E(S) = -1*log(1) – 0*log(0) = -1*0 – 0*log(0) = 0 La entropía es = 1 cuando S contiene el mismo numero de ejemplos positivos y negativos. Si p+ = 1/2, p- = 1/2, E(S) = -1/2*log(1/2) – 1/2*log(1/2) = -1/2*-1 – 1/2*-1 = 1

Búsqueda en el espacio de Hipótesis En cada paso del algoritmo mantiene un solo árbol o hipótesis (diferente al algoritmo del capitulo dos que mantiene un conjunto) ID3: Busca en el espacio de posibles árboles de decisión desde el mas simple hacia incrementalmente mas complejos, guiado por la heurística de la ganancia de información