Descargar la presentación
La descarga está en progreso. Por favor, espere
1
6. ANÁLISIS DISCRIMINANTE
Introducción Regla discriminante lineal de Fisher Versión poblacional Versión muestral El problema general de clasificación para dos poblaciones Probabilidad a priori Costes de clasificación Coste esperado por mala clasificación Regiones óptimas 1
2
6. ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales Versión poblacional Versión muestral Clasificación general para g poblaciones Costes de clasificación Coste esperado por mala clasificación Regiones óptimas 2
3
6. ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales Score cuadrático de clasificación Versión muestral Clasificación para g poblaciones normales con matrices de covarianzas iguales Score lineal de clasificación 3
4
Supervisada: Análisis discriminante Clasificación
Introducción Supervisada: Análisis discriminante Clasificación No supervisada: Análisis de conglo- merados (clustering) El análisis discriminante es una técnica de clasificación para asignar nuevas observaciones a grupos ya conocidos. 4 ANÁLISIS DISCRIMINANTE
5
Regla discriminante lineal de Fisher
Sea la variable y dos poblaciones y Sean y Se busca una combinación lineal de la forma que sea óptima para clasificar una observación en alguna de las dos poblaciones. 5 ANÁLISIS DISCRIMINANTE
6
Regla discriminante lineal de Fisher
Se tiene que 6 ANÁLISIS DISCRIMINANTE
7
Regla discriminante lineal de Fisher
Hay que buscar l que optimice la separación entre las dos poblaciones: se maximiza la separación entre las medias: 7 ANÁLISIS DISCRIMINANTE
8
Regla discriminante lineal de Fisher
Si se maximiza sin restricciones, el máximo puede no ser finito: se maximiza dividiendo por la varianza La solución que se obtiene es: Nota: es común. Función discriminante lineal de Fisher 8 ANÁLISIS DISCRIMINANTE
9
Regla discriminante lineal de Fisher
En el caso en que , se tiene: π2 π1 2 1 Proyección de 1 Proyección de 2 Y (mejor recta) l1 y l2 determinan la recta 9 ANÁLISIS DISCRIMINANTE
10
Regla discriminante lineal de Fisher
El punto medio es: 2 1 Y=l’X Y1 m Y2 x0 l’x0 Dada una nueva observación x0: Asignar x0 a π1 si Asignar x0 a π2 si 10 ANÁLISIS DISCRIMINANTE
11
Regla discriminante lineal de Fisher
Proposición 11 ANÁLISIS DISCRIMINANTE
12
Regla discriminante lineal de Fisher: Versión muestral
Dadas dos poblaciones y , se tienen las siguientes matrices de datos: y sean Nota: no es necesario n1=n2 12 ANÁLISIS DISCRIMINANTE
13
Regla discriminante lineal de Fisher: Versión muestral
La regla lineal es: Función discriminante lineal muestral de Fisher que es óptima para clasificar entre las dos poblaciones. El punto medio es: 13 ANÁLISIS DISCRIMINANTE
14
Regla discriminante lineal de Fisher: Versión muestral
Y=l’X Y2 x0 m l’x0 Y1 Dada una nueva observación x0 , la regla de clasificación sería: Asignar x0 a π1 si Asignar x0 a π2 si 14 ANÁLISIS DISCRIMINANTE
15
Calcular la función de discriminación lineal.
Clasificación Ejemplo Calcular la función de discriminación lineal. Clasificar la observación 15 ANÁLISIS DISCRIMINANTE
16
El problema general de clasificación para dos poblaciones
Dada la variable y dos poblaciones y siendo f1 la función de densidad de y f2 la función de densidad de 16 ANÁLISIS DISCRIMINANTE
17
El problema general de clasificación para dos poblaciones
El problema es separar el espacio muestral en dos regiones R1 y R2 disjuntas tales que: f2 f1 R1 R2 En 17 ANÁLISIS DISCRIMINANTE
18
El problema general de clasificación para dos poblaciones
Probabilidad de clasificar en si viene de 18 ANÁLISIS DISCRIMINANTE
19
El problema general de clasificación para dos poblaciones
p1 : probabilidad de que venga de p2 : probabilidad de que venga de P(clasificar correctamente en ) = P(clasificar incorrectamente en ) = 19 ANÁLISIS DISCRIMINANTE
20
El problema general de clasificación para dos poblaciones
El objetivo es encontrar la mejor regla de clasificación, que proporcionará las regiones que minimicen el coste esperado por mala clasificación. VIENE DE CLASIFICAR EN C(1&2) C(2&1) 20 ANÁLISIS DISCRIMINANTE
21
El problema general de clasificación para dos poblaciones
El coste esperado por mala clasificación para dos regiones es: El objetivo es hallar dos regiones que minimicen el CEMC. 21 ANÁLISIS DISCRIMINANTE
22
El problema general de clasificación para dos poblaciones
Teorema Las regiones R1 y R2 que minimizan el coste esperado por mala clasificación son: 22 ANÁLISIS DISCRIMINANTE
23
El problema general de clasificación para dos poblaciones
Corolario p1 = p C(1&2) = C(2&1) 23 ANÁLISIS DISCRIMINANTE
24
El problema general de clasificación para dos poblaciones
p1= p2 y C(1&2) = C(2&1) 24 ANÁLISIS DISCRIMINANTE
25
Clasificación para dos poblaciones normales
En este caso se conoce la función de densidad para Dada la variable y las dos poblaciones con , respectivamente, el objetivo es hallar las dos regiones R1 y R2 que minimizan el CEMC. 25 ANÁLISIS DISCRIMINANTE
26
Clasificación para dos poblaciones normales
Teorema Las regiones R1 y R2 que minimizan el CEMC son: siendo 26 ANÁLISIS DISCRIMINANTE
27
Clasificación para dos poblaciones normales
Observación Si la regla de clasificación es cuadrática. Si se obtienen las regiones: 27 ANÁLISIS DISCRIMINANTE
28
Clasificación para dos poblaciones normales
Si se considera , entonces se llega a la regla discriminante lineal de Fisher. 28 ANÁLISIS DISCRIMINANTE
29
Clasificación para dos poblaciones normales Versión muestral
Dadas dos poblaciones y las matrices de datos Nota: no es necesario n1= n2 29 ANÁLISIS DISCRIMINANTE
30
Clasificación para dos poblaciones normales: Versión muestral
estimando y , se tiene: 30 ANÁLISIS DISCRIMINANTE
31
Clasificación general para g poblaciones
Sea la variable y las g poblaciones siendo sus respectivas funciones de densidad y las probabilidades a priori. 31 ANÁLISIS DISCRIMINANTE
32
Clasificación general para g poblaciones
El coste de clasificar en viniendo de es C(i&k), siendo C(i&i) = 0, Las g regiones en las se puede clasificar vienen dadas por: 32 ANÁLISIS DISCRIMINANTE
33
Clasificación general para g poblaciones
La probabilidad de clasificar en si viene de es La probabilidad de clasificar en si viene de es 33 ANÁLISIS DISCRIMINANTE
34
Clasificación general para g poblaciones
El objetivo es encontrar la mejor regla de clasificación, que dará lugar a las regiones que hacen mínimo el coste por mala clasificación. VIENE DE CLASIFICAR EN C(1&2) C(1&g) C(2&g) C(2&1) C(g&1) C(g&2) 34 ANÁLISIS DISCRIMINANTE
35
Clasificación general para g poblaciones
El coste esperado por mala clasificación dado que la observación viene de es: En general, el coste esperado por mala clasificación es: 35 ANÁLISIS DISCRIMINANTE
36
Clasificación general para g poblaciones
El CEMC también se puede escribir como: 36 ANÁLISIS DISCRIMINANTE
37
Clasificación general para g poblaciones
Teorema El CEMC se minimiza asignando la observación x a la población para la cual Corolario Si todos los costes de clasificación son iguales, el CEMC se minimiza cuando es mínima, es decir, cuando se clasifica x en la población donde es máxima. 37 ANÁLISIS DISCRIMINANTE
38
Clasificación general para g poblaciones
La región de puntos que se clasifican en la población i es 38 ANÁLISIS DISCRIMINANTE
39
Clasificación para g poblaciones normales
En este caso se conoce la función de densidad para Dada la variable y las g poblaciones con respectivamente, el objetivo es hallar las g regiones R1,R2 ,...,Rg que minimizan el CEMC. 39 ANÁLISIS DISCRIMINANTE
40
Clasificación para g poblaciones normales
La función de densidad en el caso normal para las poblaciones es: Si los costes son iguales, hay que maximizar 40 ANÁLISIS DISCRIMINANTE
41
Clasificación para g poblaciones normales
Se clasifica x en si , es decir, si: 41 ANÁLISIS DISCRIMINANTE
42
Clasificación para g poblaciones normales
Como las matrices de covarianzas son distintas, se tiene una expresión cuadrática: Score cuadrático de clasificación Se clasifica x en si Nota: Si no hay probabilidades a priori, log pi = 0. 42 ANÁLISIS DISCRIMINANTE
43
Clasificación para g poblaciones normales Versión muestral
Sea y sean g poblaciones conocidas g matrices de datos, de tamaños n1, n2,...,ng, no necesariamente iguales: 43 ANÁLISIS DISCRIMINANTE
44
Clasificación para g poblaciones normales Versión muestral
Sean 44 ANÁLISIS DISCRIMINANTE
45
Clasificación para g poblaciones normales Versión muestral
La función de densidad estimada es: El score cuadrático de clasificación es: Se clasifica x en si , es decir, si 45 ANÁLISIS DISCRIMINANTE
46
Clasificación para g poblaciones normales con
matrices de covarianzas iguales Score lineal de clasificación Nota: si las matrices de covarianzas son: Iguales: caso lineal Distintas: caso cuadrático Sean Si todas las poblaciones tienen distribución normal, el score cuadrático sería: 46 ANÁLISIS DISCRIMINANTE
47
Clasificación para g poblaciones normales con
matrices de covarianzas iguales: Score lineal de clasificación Si desarrollando la forma cuadrática se llega al score lineal de clasificación. 47 ANÁLISIS DISCRIMINANTE
48
Clasificación para g poblaciones normales con
matrices de covarianzas iguales Score lineal de clasificación Para clasificar, hay que maximizar Score lineal de clasificación La regla de clasificación por tanto, es clasificar x en si 48 ANÁLISIS DISCRIMINANTE
49
Clasificación para g poblaciones normales con
matrices de covarianzas iguales Versión muestral Sea la variable y las g poblaciones con distribuciones estimadas respectivamente. Si se estima con Si=S, el score lineal de clasificación queda Score lineal muestral de clasificación 49 ANÁLISIS DISCRIMINANTE
50
Clasificación para g poblaciones normales con
matrices de covarianzas iguales Versión muestral La regla de clasificación es asignar x a si es el estimador de la media y S es el estimador de : 50 ANÁLISIS DISCRIMINANTE
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.