Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay.

Slides:

Advertisements

Presentaciones similares

Unidad I. Conceptos Básicos y Estadística Descriptiva

Advertisements

IfTrue- ifFalse Sea el mensaje: ifTrue: bloque1 ifFalse: bloque2 enviado tanto para true como para false, donde las variables bloque1 y bloque2 son bloques.

PRUEBAS DE HIPÓTESIS.

TEMA 6: CONTRASTES NO PARAMÉTRICOS

Introducción a la minería de datos

Árboles de decisión Tema 9 Parte teórica Minería de datos

DATA MINING MINERIA DE DATOS Gersom Costas.

Algoritmos de Minería Los métodos básicos.

Reglas de asociación w Similares a las reglas de clasificación w Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.

Algoritmos de Minería w Las ideas sencillas, frecuentemente funcionan bien w Un atributo hace todo (1-Rule) w Estructura lógica capturada en un árbol de.

y de Distribución de frecuencias

Programación Orientada a Objetos (P.O.O.)

Algoritmo C4.5 Equipo # 6 José Antonio Espino López

IBD Plan 2003 Clase 4. UNLP - Facultad de InformáticaIBD - CLASE 4 2 Archivos - Búsqueda Búsqueda de información (costo) # de comparaciones (operaciones.

PRUEBAS DE HIPOTESIS HIPOTESIS

Inteligencia Artificial Adquisición automática del conocimiento

Unidad I. Conceptos Básicos y Estadística Descriptiva

DISTRIBUCION BINOMIAL

Clustering (Agrupamiento)

Maestría en Tecnologías de la Información

ESTUDIO DEL MERCADO DE MEDICAMENTOS VETERINARIOS Y PRODUCTOS BIOLÓGICOS DE USO PECUARIO EN EL PRIMER NIVEL DE LA CADENA DE DISTRIBUCIÓN (PRODUCTOR — IMPORTADOR)

Representación del Conocimiento

Aprendizaje Automatizado

Algoritmos Bayesianos Karina Figueroa. Preliminares Aprendizaje ◦ cuál es la mejor hipótesis (más probable) dados los dato? Red Bayesiana (RB) ◦ Red de.

REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA

Tests de hipótesis Los tres pasos básicos para testear hipótesis son

P Y E 2012 Clase 17Gonzalo Perera1 Repaso de clase anterior En la clase pasada observamos en un primer ejemplo particular de test de hipótesis que: Cuando.

Sesión 2: Métodos Probabilísticos Básicos

BASE DE DATOS I Clase # 1.

Sesión 13: Lógica y Probabilidad. Incertidumbre - LD y LP, L.E. Sucar2 Contenido Lógica probabilista Redes bayesianas con nodos lógico Modelos relacionales.

Clases 4 Pruebas de Hipótesis

Sesión 4: Métodos Probabilísticos Básicos “... tenemos razones para creer que hay en la constutución de las cosas leyes de acuerdo a las cuales suceden.

UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO

Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 4: Inducción de árboles de decisión Curso de doctorado impartido por.

Análisis y Diseño de Algoritmos. Propiedades : f ( n )  O ( f ( n ) ) a ) O ( f ( n ) )  O ( g ( n ) )  f ( n )  g ( n )

Diseño y análisis de algoritmos

Representando para Aprender

3. Funciones discriminantes para la f.d.p normal.

Técnicas Supervisadas Aproximación no paramétrica

Aprendizaje Automatizado Ár boles de Clasificación.

Reconocimiento de Formas en Data Mining

Reconocimiento de Patrones

Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.

Diseños, diagramas y tablas

Combinación de Clasificadores

Inferencias con datos categóricos

(false and (74 >= 34)) xor 45 < 78 ; El análisis semántico en CUP se hace de forma ascendente, por ello se parte del árbol completo para su explicación.

Valor - p. VARIABLES NUMÉRICAS No. vasos con agua f% TOTAL100.

Clasificación Guía Ramírez Sandra Paola.

Aprendizaje en Árboles de Decisión

Algoritmos Genéticos en Aprendizaje Clase 3 de Computación Evolutiva.

ANÁLISIS DE DATOS PROBABILIDAD Aplicación : Prueba diagnóstica Deseamos estudiar una prueba o test para diagnosticar una enfermedad (ej. Elisa): Sea los.

Capítulo 1. Conceptos básicos de la Estadística

P1. La medida en Psicología

Clasificación visual con fotos aéreas

Primer examen: martes 5 de marzo. Procesamiento de imágenes digitales para generar mapas temáticos Páginas del Manual de Idrisi.

Tomando decisiones sobre las unidades de análisis

Aplicación JAVA implementando Arboles de Decisión

INTRODUCCIÓN A LA PROGRAMACIÓN ORIENTADA A OBJETOS Caso.

CLASE 71 ECUACIONES FRACCIONARIAS.

Factores Críticos de Éxito

Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Procesamiento de imágenes digitales para generar mapas temáticos Páginas del Manual de Idrisi.

Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.

Procesamiento de imágenes digitales para generar mapas temáticos.

PROBABILIDAD CONDICIONAL Y TEOREMA DE BAYES

Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.

Clase 1. Clase 7 Clase 8.

Transcripción de la presentación:

Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay rain7096falsePlay rain6870truePlay rain6570trueDon’t Play overcast6465truePlay sunny7295falseDon’t Play sunny6970falsePlay rain7580falsePlay sunny7570truePlay ?7290truePlay overcast8175falsePlay rain7180trueDon’t Play

Tres preguntas a responder 1.Si dos posibles tests difieren en la cantidad de valores desconocidos, ¿cómo se toma este dato en cuenta para el cálculo de la ganancia de información? 2.Una vez que se seleccionó un test, aquellas instancias de entrenamiento que posean valores desconocidos en el atributo relevante no puede ser asociada a un resultado del test. ¿Cómo se tratan estos casos al realizar el particionado? 3.Cuando el árbol es utilizado para clasificar un caso nuevo, ¿cómo debe proceder el algoritmo si la instancia tiene un valor desconocido para el atributo a testear?

C4.5 (pregunta 1) Ganancia(T, X) = Info(T) – Info X (T) Ganancia(T, X) = probabilidad A sea conocido * (Info(T) – Info X (T)) (Info(T) – Info X (T))

Ejemplo (pregunta 1) OutlookPlayDon’t PlayTotal sunny235 overcast303 rain325 Total Info(S) = -8/13 x log 2 (8/13) - 5/13 x log 2 (5/13) = Info(S, Outlook) = 5/13 x (-2/5 x log 2 (2/5) - 3/5 x log 2 (3/5)) + 3/13 x (-3/3 x log 2 (4/3) - 0/3 x log 2 (0/3)) + 5/13 x (-3/5 x log 2 (3/5) - 2/5 x log 2 (2/5)) = 0.747

Ejemplo (pregunta 1) OutlookPlayDon’t PlayTotal sunny235 overcast303 rain325 Total Ganancia-razón(S, X) = / = Ganancia(S, Outlook) = 13/14 x ( ) = Div-Info(S) = -5/14 x log 2 (5/14) - 3/14 x log 2 (3/14) – /14 x log 2 (5/14) - 1/14 x log 2 (1/14) =  0.156

C4.5 (pregunta 2) OutlookTemp (ºF)HumidityWindyClass ?7290truePlay Es asignado a todos sunny, overcast y rain Ej: sunny OutlookTemp (ºF)HumidityWindyClassPesos sunny7570truePlay1 sunny8090trueDon't Play1 sunny85 falseDon't Play1 sunny7295falseDon't Play1 sunny6970falsePlay1 ?7290truePlay5/13 = 0.4

Outlook = sunny Humidity  75 : Play (2.0) Humidity > 75 : Don't Play (3.4 / 0.4) Outlook = overcast : Play (3.2) Outlook = rain Windy = true : Don't Play (2.4 / 0.4) Windy = false : Play (3.0) Ejemplo (pregunta 2)

C4.5 (pregunta 3) La clasificación ya no es más una clase sino una distribución de clases. La clase con mayor probabilidad es la clase asignada. Ejemplo: sunny, 70, ?, false  ? Play: 2.0/5.4 x 100% + 3.4/5.4 x 12% = 44% Don't Play: 3.4/5.4 x 88% = 56%