Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay.

Slides:



Advertisements
Presentaciones similares
Unidad I. Conceptos Básicos y Estadística Descriptiva
Advertisements

IfTrue- ifFalse Sea el mensaje: ifTrue: bloque1 ifFalse: bloque2 enviado tanto para true como para false, donde las variables bloque1 y bloque2 son bloques.
PRUEBAS DE HIPÓTESIS.
TEMA 6: CONTRASTES NO PARAMÉTRICOS
Introducción a la minería de datos
Árboles de decisión Tema 9 Parte teórica Minería de datos
DATA MINING MINERIA DE DATOS Gersom Costas.
Algoritmos de Minería Los métodos básicos.
Reglas de asociación w Similares a las reglas de clasificación w Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.
Algoritmos de Minería w Las ideas sencillas, frecuentemente funcionan bien w Un atributo hace todo (1-Rule) w Estructura lógica capturada en un árbol de.
y de Distribución de frecuencias
Programación Orientada a Objetos (P.O.O.)
Algoritmo C4.5 Equipo # 6 José Antonio Espino López
IBD Plan 2003 Clase 4. UNLP - Facultad de InformáticaIBD - CLASE 4 2 Archivos - Búsqueda Búsqueda de información (costo) # de comparaciones (operaciones.
PRUEBAS DE HIPOTESIS HIPOTESIS
Inteligencia Artificial Adquisición automática del conocimiento
Unidad I. Conceptos Básicos y Estadística Descriptiva
DISTRIBUCION BINOMIAL
Clustering (Agrupamiento)
Maestría en Tecnologías de la Información
ESTUDIO DEL MERCADO DE MEDICAMENTOS VETERINARIOS Y PRODUCTOS BIOLÓGICOS DE USO PECUARIO EN EL PRIMER NIVEL DE LA CADENA DE DISTRIBUCIÓN (PRODUCTOR — IMPORTADOR)
Representación del Conocimiento
Aprendizaje Automatizado
Algoritmos Bayesianos Karina Figueroa. Preliminares Aprendizaje ◦ cuál es la mejor hipótesis (más probable) dados los dato? Red Bayesiana (RB) ◦ Red de.
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
P Y E 2012 Clase 17Gonzalo Perera1 Repaso de clase anterior En la clase pasada observamos en un primer ejemplo particular de test de hipótesis que: Cuando.
Algoritmo ID3.
Sesión 2: Métodos Probabilísticos Básicos
BASE DE DATOS I Clase # 1.
Sesión 13: Lógica y Probabilidad. Incertidumbre - LD y LP, L.E. Sucar2 Contenido Lógica probabilista Redes bayesianas con nodos lógico Modelos relacionales.
Clases 4 Pruebas de Hipótesis
Sesión 4: Métodos Probabilísticos Básicos “... tenemos razones para creer que hay en la constutución de las cosas leyes de acuerdo a las cuales suceden.
UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO
Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 4: Inducción de árboles de decisión Curso de doctorado impartido por.
Análisis y Diseño de Algoritmos. Propiedades : f ( n )  O ( f ( n ) ) a ) O ( f ( n ) )  O ( g ( n ) )  f ( n )  g ( n )
Diseño y análisis de algoritmos
Representando para Aprender
3. Funciones discriminantes para la f.d.p normal.
Técnicas Supervisadas Aproximación no paramétrica
Aprendizaje Automatizado Ár boles de Clasificación.
Reconocimiento de Formas en Data Mining
Reconocimiento de Patrones
Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.
Diseños, diagramas y tablas
Combinación de Clasificadores
Inferencias con datos categóricos
(false and (74 >= 34)) xor 45 < 78 ; El análisis semántico en CUP se hace de forma ascendente, por ello se parte del árbol completo para su explicación.
Valor - p. VARIABLES NUMÉRICAS No. vasos con agua f% TOTAL100.
Clasificación Guía Ramírez Sandra Paola.
Aprendizaje en Árboles de Decisión
Algoritmos Genéticos en Aprendizaje Clase 3 de Computación Evolutiva.
ANÁLISIS DE DATOS PROBABILIDAD Aplicación : Prueba diagnóstica Deseamos estudiar una prueba o test para diagnosticar una enfermedad (ej. Elisa): Sea los.
Capítulo 1. Conceptos básicos de la Estadística
P1. La medida en Psicología
Clasificación visual con fotos aéreas
Primer examen: martes 5 de marzo. Procesamiento de imágenes digitales para generar mapas temáticos Páginas del Manual de Idrisi.
Tomando decisiones sobre las unidades de análisis
Aplicación JAVA implementando Arboles de Decisión
INTRODUCCIÓN A LA PROGRAMACIÓN ORIENTADA A OBJETOS Caso.
CLASE 71 ECUACIONES FRACCIONARIAS.
Factores Críticos de Éxito
Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:
Procesamiento de imágenes digitales para generar mapas temáticos Páginas del Manual de Idrisi.
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
Procesamiento de imágenes digitales para generar mapas temáticos.
PROBABILIDAD CONDICIONAL Y TEOREMA DE BAYES
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Clase 1. Clase 7 Clase 8.
Clase
Transcripción de la presentación:

Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay rain7096falsePlay rain6870truePlay rain6570trueDon’t Play overcast6465truePlay sunny7295falseDon’t Play sunny6970falsePlay rain7580falsePlay sunny7570truePlay ?7290truePlay overcast8175falsePlay rain7180trueDon’t Play

Tres preguntas a responder 1.Si dos posibles tests difieren en la cantidad de valores desconocidos, ¿cómo se toma este dato en cuenta para el cálculo de la ganancia de información? 2.Una vez que se seleccionó un test, aquellas instancias de entrenamiento que posean valores desconocidos en el atributo relevante no puede ser asociada a un resultado del test. ¿Cómo se tratan estos casos al realizar el particionado? 3.Cuando el árbol es utilizado para clasificar un caso nuevo, ¿cómo debe proceder el algoritmo si la instancia tiene un valor desconocido para el atributo a testear?

C4.5 (pregunta 1) Ganancia(T, X) = Info(T) – Info X (T) Ganancia(T, X) = probabilidad A sea conocido * (Info(T) – Info X (T)) (Info(T) – Info X (T))

Ejemplo (pregunta 1) OutlookPlayDon’t PlayTotal sunny235 overcast303 rain325 Total Info(S) = -8/13 x log 2 (8/13) - 5/13 x log 2 (5/13) = Info(S, Outlook) = 5/13 x (-2/5 x log 2 (2/5) - 3/5 x log 2 (3/5)) + 3/13 x (-3/3 x log 2 (4/3) - 0/3 x log 2 (0/3)) + 5/13 x (-3/5 x log 2 (3/5) - 2/5 x log 2 (2/5)) = 0.747

Ejemplo (pregunta 1) OutlookPlayDon’t PlayTotal sunny235 overcast303 rain325 Total Ganancia-razón(S, X) = / = Ganancia(S, Outlook) = 13/14 x ( ) = Div-Info(S) = -5/14 x log 2 (5/14) - 3/14 x log 2 (3/14) – /14 x log 2 (5/14) - 1/14 x log 2 (1/14) =  0.156

C4.5 (pregunta 2) OutlookTemp (ºF)HumidityWindyClass ?7290truePlay Es asignado a todos sunny, overcast y rain Ej: sunny OutlookTemp (ºF)HumidityWindyClassPesos sunny7570truePlay1 sunny8090trueDon't Play1 sunny85 falseDon't Play1 sunny7295falseDon't Play1 sunny6970falsePlay1 ?7290truePlay5/13 = 0.4

Outlook = sunny Humidity  75 : Play (2.0) Humidity > 75 : Don't Play (3.4 / 0.4) Outlook = overcast : Play (3.2) Outlook = rain Windy = true : Don't Play (2.4 / 0.4) Windy = false : Play (3.0) Ejemplo (pregunta 2)

C4.5 (pregunta 3) La clasificación ya no es más una clase sino una distribución de clases. La clase con mayor probabilidad es la clase asignada. Ejemplo: sunny, 70, ?, false  ? Play: 2.0/5.4 x 100% + 3.4/5.4 x 12% = 44% Don't Play: 3.4/5.4 x 88% = 56%