Combinación de Clasificadores

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

MÉTODOS Y DISEÑOS DE INVESTIGACIÓN METODOLOGÍAS DE INVESTIGACIÓN
DISEÑO DE EXPERIMENTOS
Metodología de la Investigación Científica
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
ESTADISTICA INFERENCIAL
Investigación de Operaciones
Contraste de Hipótesis
Pruebas Orientadas a Objeto
} LISSET BÁRCENAS MONTERROZA
Diseño orientado al flujo de datos
KRIGING.
GEOESTADISTICA MULTIVARIADA
Muestreo para la inspección por atributos
MODELO DE REGRESIÓN MÚLTIPLE
DISEÑO METODOLÓGICO También denominada “material y métodos” o “procedimientos” El diseño metodológico es la descripción de cómo se va a realizar la investigación,
PROCESO ANALITICO JERARQUICO (AHP)
RECONOCIMIENTO DE OBJETOS
Seleccionar una muestra
Cómo modelar la incertidumbre?
ANOVA Modelo I: Comparación entre medias
Tema 2: Métodos de ajuste
FUNCIONES DE DENSIDAD DE PROBABILIDAD
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Sesión 2: Métodos Probabilísticos Básicos
Población y Muestra.
Optimización, Búsqueda Heurística
DISEÑO DE SOFTWARE 1ª. Parte
3. Funciones discriminantes para la f.d.p normal.
(Organización y Manejo de Archivos)
INTERVALO DE CONFIANZA
Investigación Experimental
DISTRIBUCIONES DE MUESTREO
Tema : Introducción a los contrastes de hipótesis
Unidad V: Estimación de
Datos: Estadística.
Técnicas Supervisadas Aproximación no paramétrica Reconocimiento de Patrones 2003 Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ.
Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica.
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Capítulo 7 Estimación de Parámetros Estadística Computacional
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
ESTIMACION POR INTERVALOS
Inferencia Estadística
1 Problemas de decisión Tipo particular de problemas de optimización Sistemas que evolucionan con el tiempo Se toman decisiones en momentos sucesivos de.
MÉTODOS DE EVALUACIÓN DEL DESEMPEÑO
“Introducción a las Ciencias de la Informática”
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Sesión 6: Redes Bayesianas - Inferencia
INTERVALOS DE CONFIANZA
Estadística para la gestión educativa Conceptos básicos Mtra. Ing. Rosa María Lamadrid Velazco T.
MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)
INTERVALO DE CONFIANZA
RIESGO, RENDIMIENTO Y VALOR
MUESTREO : Generalidades
Estadística para administradores
Aspectos generales de la investigación educativa en el SNIT
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
Clase N°11 Métodos de reducción de varianza
INFERENCIA ESTADÍSTICA
UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE CIENCIAS ECONOMICAS INFERENCIA ESTADISTICA TEMA: ESTIMACION PUNTUAL, PROPIEDADES DE LAS ESTIMACIONES;
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
(niveles o categorías)
MUESTREO Parte 1: Generalidades Una vez definido el problema a investigar, formulados los objetivos y delimitadas las variables se hace necesario determinar.
Estimación Estadística Tares # 3. Estimación Estadística Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Estimación estadística
Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)
ANALISIS DE VARIANZA.
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

Combinación de Clasificadores Reconocimiento de Patrones 2003 Basado en notas de curso del Prof. Josef Kittler

Contenido: Introducción Diferentes enfoques o aproximaciones a la combinación de clasificadores Estratégias de combinación Comparación experimental Conclusiones

Introducción Algunas razones de porque combinar clasificadores: Disponemos de clasificadores distintos trabajando en distintos contexto y con representaciones o descripciones distintas del mismo problema. Ej: Identificación de una persona a través de su voz, cara, firma. Disponemos de conjuntos de entrenamiento distintos tomados en tiempos distintos o con atributos distintos.

Introducción Clasificadores distintos entrenados con los mismos datos pueden tener diferente performance global y local. Cada clasificador tiene su región del espacio de caracteristicas donde es el “mejor”. Algunos clasificadores como las redes neuronales muestran resultados distintos con las distintas inicializaciones debido a lo aleatorio del procedimiento de entrenamiento.

Introducción Resumiendo: existe una diversidad de diseños de clasificadores Objetivo: En el pasado: encontrar el “mejor” clasificador. En el presente: sacar provecho de la diversidad utilizar distintos clasificadores para obtener mayor eficiencia y precisión. Clasificadores distintos se equivocan en muestras distintas. Especialmente útiles si los clasificadores individuales son independientes.

Esquemas de combinación De acuerdo a su arquitectura: Paralela: Se seleccionan las salidas de los clasificadores individuales o se pesan antes de ser combinados. Cascada o combinación serie: se invocan los distintos clasificadores en forma secuencial. Primero se pasa por los más baratos y menos costosos y luego se refina. Jerárquica: se combinan los clasificadores en una forma estructurada como la de los árboles de decisión. Cada nodo se asocia con un clasificador complejo (muy eficiente y flexible)

Estrategías de combinación o fusión Existe consenso entre los investigadores que la combinación de clasificadores mejora la precisión. Esta mejora depende fundamentalmente de la diversidad de los clasificadores y en segundo término de la estrategia de fusión. De todas formas la elección apropiada de la estrategia puede mejorar el desempeño del conjunto.

Estrategías de combinación Promedio mediana Mínimo máximo Mayoría de Votos: Se asigna la clase que obtuvo más votos de acuerdo a la decisión de los clasificadores individuales. Reglas de combinación basadas en la suma y el producto

Enfoques Multiples clasificadores que utilizan la misma representación. Por ejemplo todos estiman la p.d.f. Multiples clasificadores cada uno usando una representación distinta. Multiples clasificadores, cada uno especializado en una región del espacio de características. Clasificadores en varias etapas. Se usa la salida de un clasificador como características para la próxima etapa.

Igual representación Ej: batería de clasificadores k-NN cada uno con distinto k. Redes neuronales con distinta inicialización, conjuntos de entrenamiento. Supongamos:

Cada uno de los N clasificadores estima la probabilidad a posteriori como: j : es el error de estimación del clasificador j-esimo ¿Que pasa con la probabilidad de error si clasificamos utilizando la salida de N clasificadores?

Supongamos: Promediamos la salida de los N clasificadores. El error de estimación es insesgado, con media nula y varianza e2 . Este estimador es insesgado y su varianza se reduce en N.

¿Que pasa con la Pe? La reducción de la varianza impacta la probabilidad de error. Para saber cuanto, tenemos que conocer cual es la probabilidad de que el sistema de RP realice un error que exceda el error de bayes. Esto ocurre cuando una clase wi  ws al ser estimada tiene mayor probabilidad a posteriori.

Asumirimos que el error de estimación tiene distribución gaussiana con media nula y varianza 2. La diferencia tiene distribución gaussiana media nula y varianza 2 2

Solo las clases wk cuya probabilidad a posteriori es comparable a P(ws/x) contribuyen con probabilidad no despreciable.

Ps,k>0 pequeño Pj,k>0 jk,s Qjk1 El término determinante es Qsk El error promedio adicional al de Bayes va a ser:

Cada probabilidad Qij depende fuertemente de la varianza del error. Si trabajamos con N clasificadores (expertos) la varianza se reduce en un factor de N.

Las mejoras solo se logran en la cercanía de las fronteras de decisión (donde la probabilidad de error es mayor). Las mejoras locales se ven diluidas por el promediado en regiones grandes. Toda mejora es bienvenida especialmente cuando se está trabajando cerca del 100%

Otras reglas de combinación Se obtienen reduciones similares en la varianza del error utilizando reglas del tipo: max, min y mediana. Se puede ver que la ganancia depende del número de expertos, la función distribución del error y del orden de la función de ordenamiento. Aunque las ganancias no son tan importantes comparadas con la del promediador estas reglas de combinación son más robustas a outliers.

Si los estimadores tienen diferente varianza la regla de combinación tiene que tenerlo en cuenta, Por Ej:

Representaciones diferentes Si Suponemos: Independencia: Las probabilidades a posteriori no se desvian substancialmente de las probabilidades a priori:

Comentarios sobre las hipótesis En algunos casos estas hipótesis son válidas En otros, son una buena aproximación de trabajo Estan implicitas en todos los esquemas de combinación de clasificadores existentes.

Estrategías de combinación Regla del máximo: Regla del mínimo: Regla de la mediana:

Ejemplo-Aplicación Problema de test: reconocimiento de caracteres Se usan 4 clasificadores: Gaussiano Red neuronal HMM (Hidden Markov Model) Clasificador estructural

Desempeño individual Clasificador Desempeño Estructural 90.85% Gaussiano 93.93% Red Neuronal 93.2% HMM 94.77%

Desempeño combinación Regla de combinación Desempeño Voto por mayoria 97.96% Regla de la suma 98.05% Regla del máximo 93.93% Regla del minimo 86.00% Regla del producto 84.69% Regla de la mediana 98.19%

Comentarios Las reglas del producto y el mínimo tienen desempeño similar y son peores que el mejor clasificador individual. Los mejores resultados se obtienen con el promedio y la mediana El de voto por mayoria tiene un desempeño cercano a estos últimos. La regla del maximo tiene un comportamiento mejor que cualquiera de los clasificadores individuales.

Conclusiones Se puede reducir el error de cada clasificador individual utilizando combinación de clasificadores Los esquemas basados en un regla de suma tienen mejor desempeño que su contraparte de producto. Esto es consecuencia directa de la menor sensibilidad frente a los errores de esta regla. (Demostración Kittler)