Robust parameter estimation for mixture model Sladju Tadjudin, David A Landgrebe IEEE Geos. Rem. Sens. 38,1, p.439
Resumen Modelo: mezcla de gausianas Estimación : Expectación/maximización Inconveniente: influencia de los outliers Solución: rechazar los outliers en función d e un umbral de distancia. Peligro: rechazar pixels válidos
Expectación/Maximización Método iterativo para aproximar los estimadores Maximo Verosimiles de los parametros en un modelo de mezcla de densidades
EM En la formulación incompleta, cada muestra no etiquetada se considera como una mustra etiquetada cuya etiqueta se ha perdido
EM g(x|F) es la pdf de los datos incompletos f(y|F) es la pdf de los datos completos La estimación ML involucra maximizar L(F)=log g(x|F) EM itera una fase de estimación de las asignaciones de etiquetas con otra de estimación de los parámetros
F es el vector de parametros Expectation/ Maximization “+” denota proximo “c” denota actual F es el vector de parametros -prior prob -Medias -varianzas y muestras etiquetadas x muestras no etiq.
EM EM converge localmente al estimador ML del vector de parámetros Suelen realizarse varios intentos con condiciones iniciales distintas. Los elementos de la muestra (etiquetados) son buenas condiciones iniciales
EM Los outliers pueden tener probabilidades a posteriori significativas para algunos de los componentes Identificación de los outliers: umbral ji-cuadrado antes de comenzar
EM Problemas Pixels válidos pueden ser declarados outliers Conforme crecen las dimensiones, todos tienden a ser outliers Solución: asignar a cada pixel una medida de su tipicidad.
Estimación robusta La medida de la tipicidad se basa en que todas las densidades componente son elipticamente simétricas y exponenciales
w función peso Estimador de la covarianza modificado
Robust estimation La constante de ajuste está escogida de forma que Las muestras de entrenamiento tienen peso unitario Las muestras no etiquetadas tienen pesos inversamente proporicionales a la distancia respecto de la media
Experimentos Compara ML, EM y REM ML solo utiliza datos etiquetados exp 1 a 4 AVIRIS Cuatro clases 20 canales extraidos, 200 canales se usan Las reducciones del numero de canales se hace muestreando uniformemente
Exp 1 Compara EM y REM sin outliers (generando los datos) 5 repeticiones de los experimentos
EXP 2 Reduce el numero de muestras de entrenamiento No outliers
Exp 3 Reduce el numero de muestras test (no etiquetadas) No outliers EM y REM comparables
Exp 4 Datos reales 200 muestras de entrenamiento REM mejora a EM, indica la existencia de outliers
Exp 5 Datos multiespectrales 12 bandas Se tiene ground truth EM con dos valores de umbral 1% y 5%
Conclusiones REM funciona mejor que ML y EM en presencia de outliers Cuando hay pocas muestras EM y REM mitigan el fenomeno Hughes Limitaciones de REM Función de peso dependiente de las estadisticas de las clases Con un numero de muestras cercano a la dimensionalidad el estimador de covarianza es inestable