3. Funciones discriminantes para la f.d.p normal.

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

Estimación de la media poblacional
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
ESTADISTICA INFERENCIAL
Capítulo 10 Test de Hipótesis.
Bivariadas y Multivariadas
} LISSET BÁRCENAS MONTERROZA
KRIGING.
MODELO DE REGRESIÓN MÚLTIPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Taller 2. Medición de distancia entre variables y sujetos
RECONOCIMIENTO DE OBJETOS
Estimación por Intervalos de confianza
Uso de pruebas estadísticas paramétricas y no paramétricas
ANÁLISIS DISCRIMINANTE
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
CONTRASTE Y VALIDACIÓN DE UN MODELO
División de Estudios Políticos, CIDE
Tema 2: Métodos de ajuste
FUNCIONES DE DENSIDAD DE PROBABILIDAD
Universidad Técnica de Ambato.
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Inferencia Estadística
Unidad VI: PRUEBAS DE HIPOTESIS
Población y Muestra.
Pronósticos, Series de Tiempo y Regresión
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Reconocimiento de Formas en Data Mining
Reconocimiento de Patrones
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
Distribuciones derivadas del muestreo
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
Combinación de Clasificadores
Modelo de regresión con dos variables: Estimación
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
1 M. en C. Gal Vargas Neri. 2 Planeación del curso TEMACAP.TITULODÍASSEMFEC FIN TEMA 00MOTIVACION Y PLANEACION1111/01 TEMA I1-2ESTADISTICA Y MEDICION2115/01.
Técnicas Supervisadas Aproximación no paramétrica Reconocimiento de Patrones 2003 Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ.
Curso de Bioestadística. ANOVA
Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica.
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Inferencia Estadística
Capítulo 7 Estimación de Parámetros Estadística Computacional
Titular: Agustín Salvia
Clase 4a Significancia Estadística y Prueba Z
Inferencia Estadística
Herramientas básicas.
Estimador de Efectos Fijos
Capítulo 1. Conceptos básicos de la Estadística
Analisis de datos en imagenes hiperespectrales: intro 1 Analisis de datos hiperespectrales: otra revisión Hyperespectral image data analysis, D. Landgrebe,
6. ANÁLISIS DISCRIMINANTE
Pruebas de hipótesis.
Estimación Diferencia de dos medias
Análisis de los Datos Cuantitativos
Capitulo 4 Análisis descriptivo inferencial: comparaciones múltiples
Septiembre  Responde a quienes y cuantas personas se aplicará el instrumento de recolección de datos.
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
LA SELECCIÓN DE LAS MUESTRAS EN EL PROCESO DE INVESTIGACIÓN
ESTIMACIÓN DE PARÁMETROS
Aspectos generales de la investigación educativa en el SNIT
INFERENCIA ESTADÍSTICA
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
DISTRIBUCIÓN “t” DE STUDENT
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
Estimación estadística
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
Free and Quick translation of Prof. Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 1. Estimacion.
 Clara Espino. Pruebas de Hipótesis.. En esta estadística clásica el promedio poblacional es un parámetro fijo y por lo tanto no tienes ningún tipo de.
ANALISIS DE VARIANZA.
DISTRIBUCION “T” DE STUDENT
Transcripción de la presentación:

3. Funciones discriminantes para la f.d.p normal. El clasificador de mínimo error (Bayes) se puede expresar en términos de funciones discriminantes: Forma general de las funciones discriminantes asumiendo f.d.p. normales Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Casos particulares: - Caso 1. i = 2 I (Clasificador . Lineal) - Caso 2. i =  ( Clasificador Lineal) - Caso 3. i arbitrarias ( Clasificador Cuadrático) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. 3.1 Clasificadores lineales 3.1.1 Caso 1: i = 2 I Variables estadísticamente independientes (no correlacionadas) y todas tienen la misma varianza, 2(Homocedasticas) Las matrices de covarianza son diagonales con valor 2 i = Diagonal(2 ,,,2) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Clasificador lineal con i = 2 I Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Simplificaciones de las funciones discriminantes. - En este caso Sustituyendo en (10): - Considerando que ||  || es la norma Euclídiana Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. - Si i son iguales, no son significativas para : Alternativamente, Regla de mínima distancia Euclídiana Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Funciones discriminantes lineales: Superficies de decisión: donde: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Front. de dec. Para un clasificador de mín. distancia Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. 3.1.2 Caso 2: i =  Las variables no son estadísticamente independientes (cor- relacionadas) y las varianzas individuales son diferentes. Geométricamente: patrones distribuidos en agrupamientos hiperelipsoidales de igual tamaño y forma. Cada agrupamiento centrado en su media correspondiente, i Clasif. Lineal con i= (120,12) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Clasif. Lineal con i= (12=0,12) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Simplificación de las funciones discriminantes. Si i son iguales, no son significativas para : Alternativamente, Regla de mínima distancia Mahalanobis. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Funciones discriminantes lineales: Superficies de decisión. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. 3.2 Clasificadores cuadráticos 3.2.1 Caso 3: i arbitrarias Fronteras de decisión expresadas como una función cuadrática (círculos, elipses, parábolas, hipérbolas). Este es el caso más general (i arbitrarias ), del cual se derivan como casos particulares los dos estudiados anteriormente. i = 2 I i =  Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Clasificadores Cuadráticos Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Simplificación de las funciones discriminantes. Si i son iguales, no son significativas para : Funciones discriminantes cuadráticas: donde: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Fronteras de decisión (en dos dimensiones) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia Motivación: ¿Porqué no usar el caso i arbitrarias siempre? Rpta: Dimensión del espacio de parámetros 1. Considerar los costes computacionales de calcular: Caso 3: Caso 2: Caso1: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia 2. Estabilidad de los estimadores (Representatividad ; sesgo,variancia, eficiencia robustez) Etapas: 1. Análisis del conjunto de aprendizaje. ( Consistencia Número de prototipos ) 2. Aprendizaje. ( Estimación de Parámetros) 3. Clasificación. ( Regla de decisión) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia 1. Análisis del conjunto de aprendizaje. Estudiar y sacar conclusiones sobre los conjuntos de aprendizaje: test de normalidad, comprobación de la suficiencia del número de muestras de entrenamiento para estimaciones y estudio de la estructura y propiedades estadísticas estadísticas de las clases. En resumen: Decidir el clasificador (casos 1,2 ó 3). Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia 2. Aprendizaje. Estimación de los parámetros de cada clase 1.- Caso 1 : Estimar i (i = 1,2, ..., J) y 2  2.- Si acaso 2 ó 3, Estimar i y i para (i = 1,2, ..., J) Si i =  Calcular  = 3. Clasificación. Calcular para i=1,2,...,J (según el caso) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia Casos particulares de los clasificadores estudiados como los casos 1 y 2 cuando no se consideran las probabilidades a priori (todas son iguales) 1. Distancia Euclídea: - Variables estadísticamente independientes - Variables igualmente escaladas en todas las direcciones 2= cte 2. Distancia de Mahalanobis: - Variables correlacionadas. - Variables escaladas de forma diferente (2 distinto) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia 4.2.1 Clasif. de mínima distancia Euclídea. Cálculo de la distancia Euclídiana Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia Regla óptima de clasificación donde Clasificador de mínima distancia Euclídiana Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia Estamos “resumiendo” una clase por su valor medio: toda la información de interés de una clase (para la clasificación) está concentrada en su media Un clasificador Euclídiana para tres clases Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia Derivación de funciones discriminantes lineales para el clasificador de mínima distancia Euclídiana Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia Expresado en forma de funciones discriminantes: De manera aún más compacta: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia Demostración: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia 4.2.2 Clasif. de mínima distancia de Mahalanobis. Distancia de Mahalanobis. Regla óptima de clasificación: donde Clasificador de mínima distancia Euclídiana Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia Dist. de Mahalanobis frente a dist. Euclídiana Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia Dist. de Mahalanobis frente a dist. Euclídiana(2) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. El problema de la estimación de parámetros En teoría, el error de Bayes decrece conforme la dimensionalidad de los datos se incrementa. En la práctica, se usa un número fijo de muestras, N, para construir el clasificador: los estimadores están sesgados por las muestras disponibles. Si suponemos distribuciones normales se requiere: - Clasificador. Cuadrático: estimaciones - Clasificador. Lineal: estimaciones Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. El problema de la estimación de parámetros Fenómeno de Hughes. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. El problema de la estimación de parámetros Interpretación: Existe un valor óptimo de dimensionalidad que es función del tamaño del conjunto de entrenamiento. Si el número de muestras de entrenamiento es suficiente y la dimensionalidad de los datos es alta el fenómeno de Hughes se manifiesta debido a que los estimadores obtenidos son inestables y segados. Este fenómeno es más acusado cuanto mayor sea la dimensionalidad. Diferencia entre las curvas: - Clasificador cuadrático: proporcional a d2/N - Clasificador lineal: proporcional a d/N Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. El problema de la estimación de parámetros Conclusiones: Aunque la decisión de adoptar un clasificador cuadrático o un clasificador lineal depende fundamentalmente de la forma de las matrices de covarianza de las clases, el clasificador cuadrático requiere muchas más muestras de entrenamiento que un clasificador lineal para conseguir resultados similares. Soluciones: 1. Obtener más muestras de entrenamiento 2. Utilizar las variables más relevantes (selección y/o extracción de características) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos Motivación: Algunos patrones deben descartarse (asignarse a w0) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos Técnica: Umbralización Sea wc tal que P(x | wc) = Cálculo del umbral para el clasificador cuadrático. Sea wc tal que = Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos La clasificación es aceptable (d(X) = wc) si Sigue una distribución 2 con d grados de libertad si X está normalmente distribuida. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos - Procedimiento: 1.- Consultar la tabla 2 para determinar el valor de (X- c)Tc-1(X-  c) por debajo del cual hay un determinado porcentaje de puntos. En esta figura, indicamos el valor de la 2 que tiene la probabilidad P de ser sobrepasada (la proporción de la población con un valor 2 mayor que un valor determinado) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos 2.- Una vez consultado el valor, , 3.- El valor exacto de Tc se calcula directamente, conociendo las probabilidades a priori y las matrices de covarianza de esa clase. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Reconocimiento de Formas en Data Mining Prof: Héctor Allende