6. ANÁLISIS DISCRIMINANTE

Slides:



Advertisements
Presentaciones similares
Estimación de la media poblacional
Advertisements

Estadística I. Finanzas Y Contabilidad
4. ANÁLISIS FACTORIAL Introducción Modelo factorial ortogonal
UNIVERSIDAD AUTÓNOMA DEL CARIBE
KRIGING.
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
INFERENCIA ESTADISTICA
Estadísticos de Prueba en el Modelo de Regresión Múltiple
PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES
MODELO DE REGRESIÓN MÚLTIPLE
DISTRIBUCIONES MUESTRALES, DE LAS MUESTRAS O DE MUESTREO
II.2 DISTRIBUCIONES CONTINUAS DISTRIBUCIÓN UNIFORME O RECTANGULAR
Estadística 2009 Maestría en Finanzas Universidad del CEMA
ANÁLISIS DISCRIMINANTE
Transformaciones de variables aleatorias
Distribución muestral de la Media
MEDIDAS DE CORRELACIÓN
FUNCIONES DE DENSIDAD DE PROBABILIDAD
PROBABILIDAD Y ESTADISTICA
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Análisis Discriminante
Sesión 2: Métodos Probabilísticos Básicos
Polinomios Álgebra Superior.
Clases 4 Pruebas de Hipótesis
Unidad V: Estimación de
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
3. Funciones discriminantes para la f.d.p normal.
Diseño y análisis de algoritmos
Distribuciones derivadas del muestreo
Estadística Descriptiva continuación
MÉTODO DE PIXELES DE BORDE
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Modelo de regresión con dos variables: Estimación
Unidad V: Estimación de
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Estimación Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra. Sea un estadístico ( función.
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Capítulo 7 Estimación de Parámetros Estadística Computacional
Introducción a la Inferencia Estadística
Inferencia Estadística
3- PROGRAMACION LINEAL PARAMETRICA
Programación lineal La programación lineal es una técnica matemática relativamente reciente, del siglo XX, que consiste en una serie de métodos y procedimientos.
Unidad II: Variables Aleatorias Concepto Discreta y Continua Fun. de densidad Fun. de probabilidad F. de distribución Esperanza y Varianza Propiedades.
Unidad V: Estimación de
ANÁLISIS MULTIVARIANTE
Estimación de modelos ARMA
Capítulo 1. Conceptos básicos de la Estadística
Analisis de datos en imagenes hiperespectrales: intro 1 Analisis de datos hiperespectrales: otra revisión Hyperespectral image data analysis, D. Landgrebe,
 Introducción  Modelo factorial ortogonal  Construcción del modelo factorial: método de componentes principales  Construcción del modelo factorial:
2. DISTRIBUCIÓN NORMAL MULTIVARIANTE Introducción Normal bivariante
Tema 7: Introducción a la inferencia estadística
3. COMPONENTES PRINCIPALES
5. CORRELACIONES CANÓNICAS
Tema 7: Introducción a la inferencia estadística
Tema 8. LA CIRCUNFERENCIA
Sesión 13: Distribuciones Muestrales y Tamaño de Muestra
DISTRIBUCIONES MUESTRALES
Ecuaciones cuadráticas
Estimación Diferencia de dos medias
Maestría en Transporte Regresamos... (el problema de la regresión lineal) Clase 5.
ESTIMACIÓN DE PARÁMETROS
1.Introducción a la Estadística 2.Descripción de los conjuntos de datos 3.Uso de la Estadística para sintetizar conjuntos de datos 4.Probabilidad 5.Variables.
Prof. Juan José Bravo B., M.Sc. ©
Aspectos generales de la investigación educativa en el SNIT
INFERENCIA ESTADÍSTICA
Guayaquil, 18 de Septiembre del 2015 Tema : Programación Lineal (Función Objetivo) Destreza: Identificar la función objetivo y escribir una expresión.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Estimación Estadística Tares # 3. Estimación Estadística Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Transcripción de la presentación:

6. ANÁLISIS DISCRIMINANTE Introducción Regla discriminante lineal de Fisher Versión poblacional Versión muestral El problema general de clasificación para dos poblaciones Probabilidad a priori Costes de clasificación Coste esperado por mala clasificación Regiones óptimas 1

6. ANÁLISIS DISCRIMINANTE Clasificación para dos poblaciones normales Versión poblacional Versión muestral Clasificación general para g poblaciones Costes de clasificación Coste esperado por mala clasificación Regiones óptimas 2

6. ANÁLISIS DISCRIMINANTE Clasificación para g poblaciones normales Score cuadrático de clasificación Versión muestral Clasificación para g poblaciones normales con matrices de covarianzas iguales Score lineal de clasificación 3

Supervisada: Análisis discriminante Clasificación Introducción Supervisada: Análisis discriminante Clasificación No supervisada: Análisis de conglo- merados (clustering) El análisis discriminante es una técnica de clasificación para asignar nuevas observaciones a grupos ya conocidos. 4 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher Sea la variable y dos poblaciones y Sean y Se busca una combinación lineal de la forma que sea óptima para clasificar una observación en alguna de las dos poblaciones. 5 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher Se tiene que 6 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher Hay que buscar l que optimice la separación entre las dos poblaciones: se maximiza la separación entre las medias: 7 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher Si se maximiza sin restricciones, el máximo puede no ser finito: se maximiza dividiendo por la varianza La solución que se obtiene es: Nota: es común. Función discriminante lineal de Fisher 8 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher En el caso en que , se tiene: π2 π1 2 1 Proyección de 1 Proyección de 2 Y (mejor recta) l1 y l2 determinan la recta 9 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher El punto medio es: 2 1 Y=l’X Y1 m Y2 x0 l’x0 Dada una nueva observación x0: Asignar x0 a π1 si Asignar x0 a π2 si 10 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher Proposición 11 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher: Versión muestral Dadas dos poblaciones y , se tienen las siguientes matrices de datos: y sean Nota: no es necesario n1=n2 12 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher: Versión muestral La regla lineal es: Función discriminante lineal muestral de Fisher que es óptima para clasificar entre las dos poblaciones. El punto medio es: 13 ANÁLISIS DISCRIMINANTE

Regla discriminante lineal de Fisher: Versión muestral Y=l’X Y2 x0 m l’x0 Y1 Dada una nueva observación x0 , la regla de clasificación sería: Asignar x0 a π1 si Asignar x0 a π2 si 14 ANÁLISIS DISCRIMINANTE

Calcular la función de discriminación lineal. Clasificación Ejemplo Calcular la función de discriminación lineal. Clasificar la observación 15 ANÁLISIS DISCRIMINANTE

El problema general de clasificación para dos poblaciones Dada la variable y dos poblaciones y siendo f1 la función de densidad de y f2 la función de densidad de 16 ANÁLISIS DISCRIMINANTE

El problema general de clasificación para dos poblaciones El problema es separar el espacio muestral  en dos regiones R1 y R2 disjuntas tales que: f2 f1 R1 R2 En 17 ANÁLISIS DISCRIMINANTE

El problema general de clasificación para dos poblaciones Probabilidad de clasificar en si viene de 18 ANÁLISIS DISCRIMINANTE

El problema general de clasificación para dos poblaciones p1 : probabilidad de que venga de p2 : probabilidad de que venga de P(clasificar correctamente en ) = P(clasificar incorrectamente en ) = 19 ANÁLISIS DISCRIMINANTE

El problema general de clasificación para dos poblaciones El objetivo es encontrar la mejor regla de clasificación, que proporcionará las regiones que minimicen el coste esperado por mala clasificación. VIENE DE CLASIFICAR EN C(1&2) C(2&1) 20 ANÁLISIS DISCRIMINANTE

El problema general de clasificación para dos poblaciones El coste esperado por mala clasificación para dos regiones es: El objetivo es hallar dos regiones que minimicen el CEMC. 21 ANÁLISIS DISCRIMINANTE

El problema general de clasificación para dos poblaciones Teorema Las regiones R1 y R2 que minimizan el coste esperado por mala clasificación son: 22 ANÁLISIS DISCRIMINANTE

El problema general de clasificación para dos poblaciones Corolario p1 = p2  C(1&2) = C(2&1)  23 ANÁLISIS DISCRIMINANTE

El problema general de clasificación para dos poblaciones p1= p2 y C(1&2) = C(2&1)  24 ANÁLISIS DISCRIMINANTE

Clasificación para dos poblaciones normales En este caso se conoce la función de densidad para Dada la variable y las dos poblaciones con , respectivamente, el objetivo es hallar las dos regiones R1 y R2 que minimizan el CEMC. 25 ANÁLISIS DISCRIMINANTE

Clasificación para dos poblaciones normales Teorema Las regiones R1 y R2 que minimizan el CEMC son: siendo 26 ANÁLISIS DISCRIMINANTE

Clasificación para dos poblaciones normales Observación Si la regla de clasificación es cuadrática. Si se obtienen las regiones: 27 ANÁLISIS DISCRIMINANTE

Clasificación para dos poblaciones normales Si se considera , entonces se llega a la regla discriminante lineal de Fisher. 28 ANÁLISIS DISCRIMINANTE

Clasificación para dos poblaciones normales Versión muestral Dadas dos poblaciones y las matrices de datos Nota: no es necesario n1= n2 29 ANÁLISIS DISCRIMINANTE

Clasificación para dos poblaciones normales: Versión muestral estimando y , se tiene: 30 ANÁLISIS DISCRIMINANTE

Clasificación general para g poblaciones Sea la variable y las g poblaciones siendo sus respectivas funciones de densidad y las probabilidades a priori. 31 ANÁLISIS DISCRIMINANTE

Clasificación general para g poblaciones El coste de clasificar en viniendo de es C(i&k), siendo C(i&i) = 0, Las g regiones en las se puede clasificar vienen dadas por: 32 ANÁLISIS DISCRIMINANTE

Clasificación general para g poblaciones La probabilidad de clasificar en si viene de es La probabilidad de clasificar en si viene de es 33 ANÁLISIS DISCRIMINANTE

Clasificación general para g poblaciones El objetivo es encontrar la mejor regla de clasificación, que dará lugar a las regiones que hacen mínimo el coste por mala clasificación. VIENE DE CLASIFICAR EN C(1&2) C(1&g) C(2&g) C(2&1) C(g&1) C(g&2) 34 ANÁLISIS DISCRIMINANTE

Clasificación general para g poblaciones El coste esperado por mala clasificación dado que la observación viene de es: En general, el coste esperado por mala clasificación es: 35 ANÁLISIS DISCRIMINANTE

Clasificación general para g poblaciones El CEMC también se puede escribir como: 36 ANÁLISIS DISCRIMINANTE

Clasificación general para g poblaciones Teorema El CEMC se minimiza asignando la observación x a la población para la cual Corolario Si todos los costes de clasificación son iguales, el CEMC se minimiza cuando es mínima, es decir, cuando se clasifica x en la población donde es máxima. 37 ANÁLISIS DISCRIMINANTE

Clasificación general para g poblaciones La región de puntos que se clasifican en la población i es 38 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales En este caso se conoce la función de densidad para Dada la variable y las g poblaciones con respectivamente, el objetivo es hallar las g regiones R1,R2 ,...,Rg que minimizan el CEMC. 39 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales La función de densidad en el caso normal para las poblaciones es: Si los costes son iguales, hay que maximizar . 40 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales Se clasifica x en si , es decir, si: 41 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales Como las matrices de covarianzas son distintas, se tiene una expresión cuadrática: Score cuadrático de clasificación Se clasifica x en si Nota: Si no hay probabilidades a priori, log pi = 0. 42 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales Versión muestral Sea y sean g poblaciones conocidas . g matrices de datos, de tamaños n1, n2,...,ng, no necesariamente iguales: 43 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales Versión muestral Sean 44 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales Versión muestral La función de densidad estimada es: El score cuadrático de clasificación es: Se clasifica x en si , es decir, si 45 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales con matrices de covarianzas iguales Score lineal de clasificación Nota: si las matrices de covarianzas son: Iguales: caso lineal Distintas: caso cuadrático Sean Si todas las poblaciones tienen distribución normal, el score cuadrático sería: 46 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales con matrices de covarianzas iguales: Score lineal de clasificación Si desarrollando la forma cuadrática se llega al score lineal de clasificación. 47 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales con matrices de covarianzas iguales Score lineal de clasificación Para clasificar, hay que maximizar Score lineal de clasificación La regla de clasificación por tanto, es clasificar x en si 48 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales con matrices de covarianzas iguales Versión muestral Sea la variable y las g poblaciones con distribuciones estimadas respectivamente. Si se estima con Si=S, el score lineal de clasificación queda Score lineal muestral de clasificación 49 ANÁLISIS DISCRIMINANTE

Clasificación para g poblaciones normales con matrices de covarianzas iguales Versión muestral La regla de clasificación es asignar x a si es el estimador de la media y S es el estimador de : 50 ANÁLISIS DISCRIMINANTE