La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

6. ANÁLISIS DISCRIMINANTE

Presentaciones similares


Presentación del tema: "6. ANÁLISIS DISCRIMINANTE"— Transcripción de la presentación:

1 6. ANÁLISIS DISCRIMINANTE
Introducción Regla discriminante lineal de Fisher Versión poblacional Versión muestral El problema general de clasificación para dos poblaciones Probabilidad a priori Costes de clasificación Coste esperado por mala clasificación Regiones óptimas 1

2 6. ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales Versión poblacional Versión muestral Clasificación general para g poblaciones Costes de clasificación Coste esperado por mala clasificación Regiones óptimas 2

3 6. ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales Score cuadrático de clasificación Versión muestral Clasificación para g poblaciones normales con matrices de covarianzas iguales Score lineal de clasificación 3

4 Supervisada: Análisis discriminante Clasificación
Introducción Supervisada: Análisis discriminante Clasificación No supervisada: Análisis de conglo- merados (clustering) El análisis discriminante es una técnica de clasificación para asignar nuevas observaciones a grupos ya conocidos. 4 ANÁLISIS DISCRIMINANTE

5 Regla discriminante lineal de Fisher
Sea la variable y dos poblaciones y Sean y Se busca una combinación lineal de la forma que sea óptima para clasificar una observación en alguna de las dos poblaciones. 5 ANÁLISIS DISCRIMINANTE

6 Regla discriminante lineal de Fisher
Se tiene que 6 ANÁLISIS DISCRIMINANTE

7 Regla discriminante lineal de Fisher
Hay que buscar l que optimice la separación entre las dos poblaciones: se maximiza la separación entre las medias: 7 ANÁLISIS DISCRIMINANTE

8 Regla discriminante lineal de Fisher
Si se maximiza sin restricciones, el máximo puede no ser finito: se maximiza dividiendo por la varianza La solución que se obtiene es: Nota: es común. Función discriminante lineal de Fisher 8 ANÁLISIS DISCRIMINANTE

9 Regla discriminante lineal de Fisher
En el caso en que , se tiene: π2 π1 2 1 Proyección de 1 Proyección de 2 Y (mejor recta) l1 y l2 determinan la recta 9 ANÁLISIS DISCRIMINANTE

10 Regla discriminante lineal de Fisher
El punto medio es: 2 1 Y=l’X Y1 m Y2 x0 l’x0 Dada una nueva observación x0: Asignar x0 a π1 si Asignar x0 a π2 si 10 ANÁLISIS DISCRIMINANTE

11 Regla discriminante lineal de Fisher
Proposición 11 ANÁLISIS DISCRIMINANTE

12 Regla discriminante lineal de Fisher: Versión muestral
Dadas dos poblaciones y , se tienen las siguientes matrices de datos: y sean Nota: no es necesario n1=n2 12 ANÁLISIS DISCRIMINANTE

13 Regla discriminante lineal de Fisher: Versión muestral
La regla lineal es: Función discriminante lineal muestral de Fisher que es óptima para clasificar entre las dos poblaciones. El punto medio es: 13 ANÁLISIS DISCRIMINANTE

14 Regla discriminante lineal de Fisher: Versión muestral
Y=l’X Y2 x0 m l’x0 Y1 Dada una nueva observación x0 , la regla de clasificación sería: Asignar x0 a π1 si Asignar x0 a π2 si 14 ANÁLISIS DISCRIMINANTE

15 Calcular la función de discriminación lineal.
Clasificación Ejemplo Calcular la función de discriminación lineal. Clasificar la observación 15 ANÁLISIS DISCRIMINANTE

16 El problema general de clasificación para dos poblaciones
Dada la variable y dos poblaciones y siendo f1 la función de densidad de y f2 la función de densidad de 16 ANÁLISIS DISCRIMINANTE

17 El problema general de clasificación para dos poblaciones
El problema es separar el espacio muestral  en dos regiones R1 y R2 disjuntas tales que: f2 f1 R1 R2 En 17 ANÁLISIS DISCRIMINANTE

18 El problema general de clasificación para dos poblaciones
Probabilidad de clasificar en si viene de 18 ANÁLISIS DISCRIMINANTE

19 El problema general de clasificación para dos poblaciones
p1 : probabilidad de que venga de p2 : probabilidad de que venga de P(clasificar correctamente en ) = P(clasificar incorrectamente en ) = 19 ANÁLISIS DISCRIMINANTE

20 El problema general de clasificación para dos poblaciones
El objetivo es encontrar la mejor regla de clasificación, que proporcionará las regiones que minimicen el coste esperado por mala clasificación. VIENE DE CLASIFICAR EN C(1&2) C(2&1) 20 ANÁLISIS DISCRIMINANTE

21 El problema general de clasificación para dos poblaciones
El coste esperado por mala clasificación para dos regiones es: El objetivo es hallar dos regiones que minimicen el CEMC. 21 ANÁLISIS DISCRIMINANTE

22 El problema general de clasificación para dos poblaciones
Teorema Las regiones R1 y R2 que minimizan el coste esperado por mala clasificación son: 22 ANÁLISIS DISCRIMINANTE

23 El problema general de clasificación para dos poblaciones
Corolario p1 = p  C(1&2) = C(2&1)  23 ANÁLISIS DISCRIMINANTE

24 El problema general de clasificación para dos poblaciones
p1= p2 y C(1&2) = C(2&1)  24 ANÁLISIS DISCRIMINANTE

25 Clasificación para dos poblaciones normales
En este caso se conoce la función de densidad para Dada la variable y las dos poblaciones con , respectivamente, el objetivo es hallar las dos regiones R1 y R2 que minimizan el CEMC. 25 ANÁLISIS DISCRIMINANTE

26 Clasificación para dos poblaciones normales
Teorema Las regiones R1 y R2 que minimizan el CEMC son: siendo 26 ANÁLISIS DISCRIMINANTE

27 Clasificación para dos poblaciones normales
Observación Si la regla de clasificación es cuadrática. Si se obtienen las regiones: 27 ANÁLISIS DISCRIMINANTE

28 Clasificación para dos poblaciones normales
Si se considera , entonces se llega a la regla discriminante lineal de Fisher. 28 ANÁLISIS DISCRIMINANTE

29 Clasificación para dos poblaciones normales Versión muestral
Dadas dos poblaciones y las matrices de datos Nota: no es necesario n1= n2 29 ANÁLISIS DISCRIMINANTE

30 Clasificación para dos poblaciones normales: Versión muestral
estimando y , se tiene: 30 ANÁLISIS DISCRIMINANTE

31 Clasificación general para g poblaciones
Sea la variable y las g poblaciones siendo sus respectivas funciones de densidad y las probabilidades a priori. 31 ANÁLISIS DISCRIMINANTE

32 Clasificación general para g poblaciones
El coste de clasificar en viniendo de es C(i&k), siendo C(i&i) = 0, Las g regiones en las se puede clasificar vienen dadas por: 32 ANÁLISIS DISCRIMINANTE

33 Clasificación general para g poblaciones
La probabilidad de clasificar en si viene de es La probabilidad de clasificar en si viene de es 33 ANÁLISIS DISCRIMINANTE

34 Clasificación general para g poblaciones
El objetivo es encontrar la mejor regla de clasificación, que dará lugar a las regiones que hacen mínimo el coste por mala clasificación. VIENE DE CLASIFICAR EN C(1&2) C(1&g) C(2&g) C(2&1) C(g&1) C(g&2) 34 ANÁLISIS DISCRIMINANTE

35 Clasificación general para g poblaciones
El coste esperado por mala clasificación dado que la observación viene de es: En general, el coste esperado por mala clasificación es: 35 ANÁLISIS DISCRIMINANTE

36 Clasificación general para g poblaciones
El CEMC también se puede escribir como: 36 ANÁLISIS DISCRIMINANTE

37 Clasificación general para g poblaciones
Teorema El CEMC se minimiza asignando la observación x a la población para la cual Corolario Si todos los costes de clasificación son iguales, el CEMC se minimiza cuando es mínima, es decir, cuando se clasifica x en la población donde es máxima. 37 ANÁLISIS DISCRIMINANTE

38 Clasificación general para g poblaciones
La región de puntos que se clasifican en la población i es 38 ANÁLISIS DISCRIMINANTE

39 Clasificación para g poblaciones normales
En este caso se conoce la función de densidad para Dada la variable y las g poblaciones con respectivamente, el objetivo es hallar las g regiones R1,R2 ,...,Rg que minimizan el CEMC. 39 ANÁLISIS DISCRIMINANTE

40 Clasificación para g poblaciones normales
La función de densidad en el caso normal para las poblaciones es: Si los costes son iguales, hay que maximizar 40 ANÁLISIS DISCRIMINANTE

41 Clasificación para g poblaciones normales
Se clasifica x en si , es decir, si: 41 ANÁLISIS DISCRIMINANTE

42 Clasificación para g poblaciones normales
Como las matrices de covarianzas son distintas, se tiene una expresión cuadrática: Score cuadrático de clasificación Se clasifica x en si Nota: Si no hay probabilidades a priori, log pi = 0. 42 ANÁLISIS DISCRIMINANTE

43 Clasificación para g poblaciones normales Versión muestral
Sea y sean g poblaciones conocidas g matrices de datos, de tamaños n1, n2,...,ng, no necesariamente iguales: 43 ANÁLISIS DISCRIMINANTE

44 Clasificación para g poblaciones normales Versión muestral
Sean 44 ANÁLISIS DISCRIMINANTE

45 Clasificación para g poblaciones normales Versión muestral
La función de densidad estimada es: El score cuadrático de clasificación es: Se clasifica x en si , es decir, si 45 ANÁLISIS DISCRIMINANTE

46 Clasificación para g poblaciones normales con
matrices de covarianzas iguales Score lineal de clasificación Nota: si las matrices de covarianzas son: Iguales: caso lineal Distintas: caso cuadrático Sean Si todas las poblaciones tienen distribución normal, el score cuadrático sería: 46 ANÁLISIS DISCRIMINANTE

47 Clasificación para g poblaciones normales con
matrices de covarianzas iguales: Score lineal de clasificación Si desarrollando la forma cuadrática se llega al score lineal de clasificación. 47 ANÁLISIS DISCRIMINANTE

48 Clasificación para g poblaciones normales con
matrices de covarianzas iguales Score lineal de clasificación Para clasificar, hay que maximizar Score lineal de clasificación La regla de clasificación por tanto, es clasificar x en si 48 ANÁLISIS DISCRIMINANTE

49 Clasificación para g poblaciones normales con
matrices de covarianzas iguales Versión muestral Sea la variable y las g poblaciones con distribuciones estimadas respectivamente. Si se estima con Si=S, el score lineal de clasificación queda Score lineal muestral de clasificación 49 ANÁLISIS DISCRIMINANTE

50 Clasificación para g poblaciones normales con
matrices de covarianzas iguales Versión muestral La regla de clasificación es asignar x a si es el estimador de la media y S es el estimador de : 50 ANÁLISIS DISCRIMINANTE


Descargar ppt "6. ANÁLISIS DISCRIMINANTE"

Presentaciones similares


Anuncios Google