La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay.

Presentaciones similares


Presentación del tema: "Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay."— Transcripción de la presentación:

1 Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay rain7096falsePlay rain6870truePlay rain6570trueDon’t Play overcast6465truePlay sunny7295falseDon’t Play sunny6970falsePlay rain7580falsePlay sunny7570truePlay ?7290truePlay overcast8175falsePlay rain7180trueDon’t Play

2 Tres preguntas a responder 1.Si dos posibles tests difieren en la cantidad de valores desconocidos, ¿cómo se toma este dato en cuenta para el cálculo de la ganancia de información? 2.Una vez que se seleccionó un test, aquellas instancias de entrenamiento que posean valores desconocidos en el atributo relevante no puede ser asociada a un resultado del test. ¿Cómo se tratan estos casos al realizar el particionado? 3.Cuando el árbol es utilizado para clasificar un caso nuevo, ¿cómo debe proceder el algoritmo si la instancia tiene un valor desconocido para el atributo a testear?

3 C4.5 (pregunta 1) Ganancia(T, X) = Info(T) – Info X (T) Ganancia(T, X) = probabilidad A sea conocido * (Info(T) – Info X (T)) (Info(T) – Info X (T))

4 Ejemplo (pregunta 1) OutlookPlayDon’t PlayTotal sunny235 overcast303 rain325 Total8513 0.961 Info(S) = -8/13 x log 2 (8/13) - 5/13 x log 2 (5/13) = 0.961 Info(S, Outlook) = 5/13 x (-2/5 x log 2 (2/5) - 3/5 x log 2 (3/5)) + 3/13 x (-3/3 x log 2 (4/3) - 0/3 x log 2 (0/3)) + 5/13 x (-3/5 x log 2 (3/5) - 2/5 x log 2 (2/5)) = 0.747

5 Ejemplo (pregunta 1) OutlookPlayDon’t PlayTotal sunny235 overcast303 rain325 Total8513 0.110 Ganancia-razón(S, X) = 0.199 / 1.809 = 0.110 0.199 Ganancia(S, Outlook) = 13/14 x (0.961 - 0.747) = 0.199 Div-Info(S) = -5/14 x log 2 (5/14) - 3/14 x log 2 (3/14) – 1.809 5/14 x log 2 (5/14) - 1/14 x log 2 (1/14) = 1.809 0.156  0.156

6 C4.5 (pregunta 2) OutlookTemp (ºF)HumidityWindyClass ?7290truePlay Es asignado a todos sunny, overcast y rain Ej: sunny OutlookTemp (ºF)HumidityWindyClassPesos sunny7570truePlay1 sunny8090trueDon't Play1 sunny85 falseDon't Play1 sunny7295falseDon't Play1 sunny6970falsePlay1 ?7290truePlay5/13 = 0.4

7 Outlook = sunny Humidity  75 : Play (2.0) Humidity > 75 : Don't Play (3.4 / 0.4) Outlook = overcast : Play (3.2) Outlook = rain Windy = true : Don't Play (2.4 / 0.4) Windy = false : Play (3.0) Ejemplo (pregunta 2)

8 C4.5 (pregunta 3) La clasificación ya no es más una clase sino una distribución de clases. La clase con mayor probabilidad es la clase asignada. Ejemplo: sunny, 70, ?, false  ? Play: 2.0/5.4 x 100% + 3.4/5.4 x 12% = 44% Don't Play: 3.4/5.4 x 88% = 56%


Descargar ppt "Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay."

Presentaciones similares


Anuncios Google