Aprendizaje Automatizado Ár boles de Clasificación.

Slides:

Advertisements

Presentaciones similares

Unidad I. Conceptos Básicos y Estadística Descriptiva

Advertisements

Representación del conocimiento

Jacqueline Chávez Cuzcano

Modelado – Árbol de Decisión

Clasificación de los compiladores

Árboles de decisión Tema 9 Parte teórica Minería de datos

DATA MINING MINERIA DE DATOS Gersom Costas.

Algoritmos de Minería Los métodos básicos.

Reglas de asociación w Similares a las reglas de clasificación w Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.

Algoritmos de Minería w Las ideas sencillas, frecuentemente funcionan bien w Un atributo hace todo (1-Rule) w Estructura lógica capturada en un árbol de.

CI-2413 Desarrollo de Aplicaciones para Internet

1.Introducción a la Estadística 2.Descripción de los conjuntos de datos 3.Uso de la Estadística para sintetizar conjuntos de datos 4.Probabilidad 5.Variables.

Aprendizaje Automatizado

Aprendizaje a partir de observaciones

Variables Aleatorias Continuas

Algoritmo de Regresión Logística

Razonamiento Explícito y Experimentación en la Algoritmia

• SQL Server Analysis Services Data Mining

Algoritmo C4.5 Equipo # 6 José Antonio Espino López

Clasificación Supervisada

Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 7: Máquinas de Vectores Soporte Curso de doctorado impartido por Dr.

Métodos clasificación

Inteligencia Artificial Adquisición automática del conocimiento

Unidad I. Conceptos Básicos y Estadística Descriptiva

Cont. Arbol Binario de Búsqueda

Clustering (Agrupamiento)

Evaluación y Optimización de Consultas Láminas seleccionadas de las láminas de la Prof. María Esther Vidal.

WinQSB Yih-Long Chang Area Coordinator of Operations Management Dupree College of Management Georgia Institute of Technology.

APRENDIZAJE WIDROW- HOFF

El Perceptrón  El psicólogo Frank Ronsenblant desarrolló un modelo simple de neurona basado en el modelo de McCulloch y Pitts que utilizaba.

Diciembre 2001Fundamentos lógicos de la Ingeniería del Software 1. Introducción: Aprendizaje inductivo de conceptos Inducción –Razonamiento desde propiedades.

Representación del Conocimiento

Aprendizaje Automatizado

REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA

Sesión 2: Métodos Probabilísticos Básicos

Inteligencia Artificial

Análisis sintáctico LR: SLR (LR simple)

Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

FUNCIONES LOGICAS SI(PL;V_V;V_F)

Sesión 4: Métodos Probabilísticos Básicos “... tenemos razones para creer que hay en la constutución de las cosas leyes de acuerdo a las cuales suceden.

UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO

Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción

Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 4: Inducción de árboles de decisión Curso de doctorado impartido por.

1 Problema no separable linealmente Se busca obtener un algoritmo más general que permita integrar el aprendizaje entre las dos capas.

Representando para Aprender

áRBOL DE DECISIONES CASTILLO ORTIZ LESLY ULLANIC

Business Intelligence y Data Mining

Técnicas Supervisadas Aproximación no paramétrica

Reconocimiento de Formas en Data Mining

Reconocimiento de Patrones

Combinación de Clasificadores

INGENIERIA DE REQUERIMIENTOS Taxonomía de Aplicaciones

Aprendizaje en Árboles de Decisión

BOOSTING REGRESSION TREES CON STATISTICA TÉCNICAS AVANZADAS DE REGRESIÓN EN CIENCIAS NATURALES Y SU APLICACIÓN CON R Luis M. Carrascal & Javier Seoane.

Inteligencia Artificial

Algoritmos Genéticos en Aprendizaje Clase 3 de Computación Evolutiva.

Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay.

INTRODUCCIÓN A JUEGOS (BÚSQUEDA CON ADVERSARIOS)

Aprendizaje Automatizado Caso de Estudio. Problema a resolver (I)

Taller: Inteligencia Computacional

1.Introducción a la Estadística 2.Descripción de los conjuntos de datos 3.Uso de la Estadística para sintetizar conjuntos de datos 4.Probabilidad 5.Variables.

Aplicación JAVA implementando Arboles de Decisión

Conceptos Básicos y Estadística Descriptiva

Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.

Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.

Redes Bayesianas Título Francisco Roche Beltrán Huelva, 20 de Abril de 2007.

Free and Quick Translation of Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 4. Mas Aspectos de este Modelo.

Transcripción de la presentación:

Aprendizaje Automatizado Ár boles de Clasificación

Entrada: Objetos caracterizables mediante propiedades. Salida: – En árboles de decisión: una decisión (sí o no). – En árboles de clasificación: una clase. Conjunto de reglas.

Árboles de Clasificación Se clasifican las instancias desde la raíz hacia las hojas, las cuales proveen la clasificación. Cada nodo especifica el test de algún atributo. Ejemplo: Si (Outlook = Sunny, Temperature = Hot, Humedity = High, Wind = Strong) Juego al tenis?

Play Tennis

Disyunción de conjunciones: (Outlook = Sunny And Humidity = Normal) Or(Outlook = Overcast) Or(Outlook = Rain And Wind = Weak)

Play Tennis

Problemas Apropiados Las instancias pueden ser representadas por pares (atributo, valor). La función objetivo tiene valores discretos (o pueden ser discretizados). Pueden ser requeridas descripciones en forma de disjunción. Posiblemente existen errores en los datos de entrenamiento (robustos al ruido). Posiblemente falta información en algunos de los datos de entrenamiento.

Algoritmo básico para obtener un árbol de decisión Búsqueda exhaustiva, en profundidad (de arriba hacia abajo), a través del espacio de posibles árboles de decisión (ID3 y C4.5). Raíz: el atributo que mejor clasifica los datos Cuál atributo es el mejor clasificador?  respuesta basada en la ganancia de información.

Algoritmos: ID3 (Interactive Dichotomizer Version 3) Entropía Entropía(S)  - p  log 2 p  - p  log 2 p  p  = proporción de ejemplos positivos. p  = proporción de ejemplos negativos. S: conjunto de datos actual. Por ejemplo, en el conjunto de datos Play Tennis p  = 9/14, p  = 5/14 y E(S) = En general: Entropía(S) = -  i=1, c p i log 2 p i

Algoritmos: ID3 (Interactive Dichotomizer Version 3) Por ejemplo: Si S 1 es el subconjunto de S en el cual Humedity = High Entonces: – p  = 3/7 – p  = 4/7 – Entropía(S 1 ) = -3/7 log 2 3/7 - 4/7 log 2 4/7 = 0.985

Entropía y proporción de positivos

Ganancia de información Mide la reducción esperada de entro pí a sabiendo el valor del atributo A Gain(S,A)  Entropía(S) -  v  Valores(A) (|S v |/|S|)Entropía(S v ) Valores(A): Conjunto de posibles valores del atributo A S v : Subconjunto de S en el cual el atributo A tiene el valor v Ej: Gain(S, Humedad) = (7/14) (7/14)0.592 proporción de humedad alta prop. de humedad normal

Play Tennis

Gain(S,Outlook) =0.246 Gain(S,Humidity) =0.151 Gain(S,Wind) =0.048 Gain(S,Temperature) =0.029  Outlook es el atributo del nodo raíz.

Play Tennis

Algoritmo: CART (Classification and Regression Trees) Árboles de clasificación: predicen categorías de objetos. Árboles de regresión: predicen valores continuos. Partición binaria recursiva. En cada iteración se selecciona la variable predictiva y el punto de separación que mejor reduzcan la ‘impureza’.

Í ndice de diversidad de Gini

A i es el atributo para ramificar el árbol. M i es el número de valores diferentes del atributo A i. p(A ij ) es la probabilidad de que A i tome su j - ésimo valor (1 <= j <= M i ).

Í ndice de diversidad de Gini p(C k |A ij ) es la probabilidad de que un ejemplo pertenezca a la clase C k cuando su atributo A i toma su j -ésimo valor. p( ¬ C k |A ij ) es 1 - p(C k |A ij ). Este índice es utilizado como una medida de impureza de la información al igual que la entropía.

Sobreentrenamiento Se debe evitar el sobreentrenamiento – Parar de crecer el árbol temprano. – Postprocesamiento del árbol (poda) Cómo? – Usar un conjunto de ejemplos de validación – Usar estadísticas

Matlab - Statistics Toolbox La está diseñada para manipular árboles de regresión y árboles de decisión (CART). Ejemplo: >> load fisheriris; >> t = classregtree(meas, species, 'names', {'SL' 'SW' 'PL' 'PW'})

Matlab - Statistics Toolbox t = Decision tree for classification 1 if PL<2.45 then node 2 else node 3 2 class = setosa 3 if PW<1.75 then node 4 else node 5 4 if PL<4.95 then node 6 else node 7 5 class = virginica 6 if PW<1.65 then node 8 else node 9 7 class = virginica 8 class = versicolor 9 class = virginica

Matlab - Statistics Toolbox >> view(t)

Matlab - Statistics Toolbox Clasificar datos: sfit = eval(t,meas); Computar la proporción de clasificados correctamente: pct = mean(strcmp(sfit,species)) pct =

Matlab - Statistics Toolbox Calcular el promedio de errores al cuadrado: mse = mean((sfit - species).^2) Podar el árbol: t2 = prune(t, 'level', 1)