Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay rain7096falsePlay rain6870truePlay rain6570trueDon’t Play overcast6465truePlay sunny7295falseDon’t Play sunny6970falsePlay rain7580falsePlay sunny7570truePlay ?7290truePlay overcast8175falsePlay rain7180trueDon’t Play
Tres preguntas a responder 1.Si dos posibles tests difieren en la cantidad de valores desconocidos, ¿cómo se toma este dato en cuenta para el cálculo de la ganancia de información? 2.Una vez que se seleccionó un test, aquellas instancias de entrenamiento que posean valores desconocidos en el atributo relevante no puede ser asociada a un resultado del test. ¿Cómo se tratan estos casos al realizar el particionado? 3.Cuando el árbol es utilizado para clasificar un caso nuevo, ¿cómo debe proceder el algoritmo si la instancia tiene un valor desconocido para el atributo a testear?
C4.5 (pregunta 1) Ganancia(T, X) = Info(T) – Info X (T) Ganancia(T, X) = probabilidad A sea conocido * (Info(T) – Info X (T)) (Info(T) – Info X (T))
Ejemplo (pregunta 1) OutlookPlayDon’t PlayTotal sunny235 overcast303 rain325 Total Info(S) = -8/13 x log 2 (8/13) - 5/13 x log 2 (5/13) = Info(S, Outlook) = 5/13 x (-2/5 x log 2 (2/5) - 3/5 x log 2 (3/5)) + 3/13 x (-3/3 x log 2 (4/3) - 0/3 x log 2 (0/3)) + 5/13 x (-3/5 x log 2 (3/5) - 2/5 x log 2 (2/5)) = 0.747
Ejemplo (pregunta 1) OutlookPlayDon’t PlayTotal sunny235 overcast303 rain325 Total Ganancia-razón(S, X) = / = Ganancia(S, Outlook) = 13/14 x ( ) = Div-Info(S) = -5/14 x log 2 (5/14) - 3/14 x log 2 (3/14) – /14 x log 2 (5/14) - 1/14 x log 2 (1/14) = 0.156
C4.5 (pregunta 2) OutlookTemp (ºF)HumidityWindyClass ?7290truePlay Es asignado a todos sunny, overcast y rain Ej: sunny OutlookTemp (ºF)HumidityWindyClassPesos sunny7570truePlay1 sunny8090trueDon't Play1 sunny85 falseDon't Play1 sunny7295falseDon't Play1 sunny6970falsePlay1 ?7290truePlay5/13 = 0.4
Outlook = sunny Humidity 75 : Play (2.0) Humidity > 75 : Don't Play (3.4 / 0.4) Outlook = overcast : Play (3.2) Outlook = rain Windy = true : Don't Play (2.4 / 0.4) Windy = false : Play (3.0) Ejemplo (pregunta 2)
C4.5 (pregunta 3) La clasificación ya no es más una clase sino una distribución de clases. La clase con mayor probabilidad es la clase asignada. Ejemplo: sunny, 70, ?, false ? Play: 2.0/5.4 x 100% + 3.4/5.4 x 12% = 44% Don't Play: 3.4/5.4 x 88% = 56%