ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE
Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o más grupos de objetos o individuos, de los que conocemos los valores de p variables. Objetivo: Explicar la pertenencia de cada individuo a un grupo (variable categórica) según la variable aleatoria p-dimensional del objeto (variable explicativa). Predecir a qué grupo pertenece un individuo nuevo, del que conocemos el valor de la variable p dimensional clasificadora o explicativa. Puede aplicarse para: Describir: Explicar la diferencia entre los distintos tipos de objetos. Hacer Inferencia: Contrastar diferencias significativas entre poblaciones. Tomar de decisiones: Decidir donde clasificar un objeto.

SUPUESTOS Existen K poblaciones o grupos G1, G2,....Gk.
Cada grupo está formado por n1, n2,...nk objetos: . Sobre cada objeto han sido medidas p variables x1, x2,.xp, Se quiere buscar una regla de decisión que permita asignar un objeto a uno de los grupos partiendo de la información anterior. Los datos se presentan en matriz de n objetos pertenecientes a K grupos, medidos por una variable aleatoria p dimensional y una variable discreta que indica el grupo al que pertenece cada objeto. ANÁLISIS DISCRIMINANTE

CLASIFICACIÓN Funciones discriminantes lineales de Fisher:
Permiten diferenciar los grupos para el proceso de clasificación. Son combinación lineal de las P variables, interviniendo cada una con un peso diferente que indica las que más discriminan. Problema descriptivo. Funciones discriminantes canónicas: Sirven para la predicción óptima del grupo a que pertenece un individuo. Problema de inferencia. ANÁLISIS DISCRIMINANTE

CLASIFICACIÓN CON DOS GRUPOS Y UNA VARIABLE CLASIFICADORA, X
Problema: Clasificar a cada individuo en el grupo correcto, según la variable clasificadora. Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la varianza son iguales en los dos grupos, coincidiendo en todo menos en su media. Se pueden solapar: pueden haber errores de clasificación. ANÁLISIS DISCRIMINANTE

Criterios de clasificación
Si Xi < C, se clasifica al individuo i en el grupo I. Xi > C, se clasifica la individuo i en el grupo II Los errores de clasificación se encuentran en : Área a la derecha de C : Casos del grupo I en los que Xi > C, es decir, son casos del grupo I mal clasificados en el grupo II. Área a la izquierda de C : Casos del grupo II en los que Xi < C, es decir, son casos del grupo II mal clasificados en el grupo I. ANÁLISIS DISCRIMINANTE

CLASIFICACIÓN CON DOS O MÁS GRUPOS Y DOS O MÁS VARIABLES CLASIFICADORAS
Para dos grupos, desde el punto de vista factorial el objetivo es obtener una función lineal que separe lo mejor posible a los dos grupos. Criterio: Buscar el eje que separe lo más posible los centros de los grupos, de forma que los individuos de cada grupo sean lo más homogéneos posibles. Hay que maximizar la dispersión entre grupos respecto a la dispersión dentro de los grupos. Generalizar a K grupos: Habrá más de un eje discriminante. El objetivo es representar a los n individuos de K grupos predefinidos, en un espacio de dimensión reducida (ejes discriminantes) de forma que los grupos proyectados en ese espacio estén bien diferenciados. ANÁLISIS DISCRIMINANTE

Obtención de las funciones discriminantes
Criterio: Maximizar variabilidad entre grupos respecto a la de dentro de ellos. Sea un eje definido por el vector unitario U, de dimensión p*1. La proyección del individuo i-ésimo sobre él es el peso zi: Proyección de los n individuos: Vector Z (nx1), (Z=XU), función discriminante de Fisher. Es una combinación lineal de las k variables explicativas originales. Problema:Obtener los coeficientes de ponderación uj. Hay que tener en cuenta que : 1. La matriz a diagonalizar no es simétrica: los vectores propios no son necesariamente ortogonales. 2. El número de variables o ejes discriminantes, F es como máximo el mínimo de [(K-1), p]. ANÁLISIS DISCRIMINANTE

Métodos iterativos de selección de variables
Método de inclusión iterativa En cada paso se selecciona la variable que más contribuye a la separación de los grupos. El proceso se detiene si ninguna variable separa los grupos significativamente más de lo que ya estaban. Método de exclusión iterativa Se incluyen todas las variables y en cada paso se elimina la que menos contribuye a la separación de los grupos. El proceso se detiene cuando la exclusión de cualquiera de las variables hace disminuir significativamente la separación entre los grupos. Método mixto de inclusión-exclusión: Stepwise En cada etapa se evalúa la posibilidad de incluir una nueva variable como la de excluir alguna de las presentes según criterios prefijados. Su aplicación requiere definir previamente una regla de decisión, Landa de Wilks, cociente entre el determinante de la matriz de variación dentro de los grupos y el de la matriz de variación total. ANÁLISIS DISCRIMINANTE

Stepwise Con el landa de Wilks se calcula un estadístico F. Cuanto mayor sea F, más significativa será la variable para la que se calcula. Hay que fijar: F mínimo para entrar (F-min-to-enter). F máximo para salir (Fmax-to-go) (F to enter > F de salida). Nivel de tolerancia: Medida del grado de asociación lineal entre las variables clasificadoras. Si la tolerancia de la variable i es muy pequeña, significa que dicha variable está muy correlacionada con el resto, lo que puede provocar problemas en la estimación. Generalmente, se fija un nivel mínimo de tolerancia. ANÁLISIS DISCRIMINANTE

Asignación de los individuos a cada grupo
La distancia de Mahalanobis D² es una medida generalizada de distancia entre dos grupos que tiene en cuenta la posición central (centro de gravedad) y las dispersiones (matrices de productos cruzados o de covarianzas intragrupos) de los grupos. DI,II: matriz de productos cruzados (matriz de covarianzas intragrupos). Se asignará cada individuo al grupo para el que D² es menor. Función discriminante de Fisher. La diferencia es que la distancia de Mahalanobis se calcula en el espacio de las variables originales, y en el criterio de Fisher se sintetizan todas las variables en la función discriminante, que es la que realiza la clasificación. ANÁLISIS DISCRIMINANTE

Cómo saber si los datos son apropiados
Si las poblaciones son normales, pero con matrices de covarianzas distintas, la regla de clasificación óptima se obtiene con funciones lineales cuadráticas. Excepto en el caso de dos variables, las funciones cuadráticas son difíciles de obtener, por su complejidad analítica. Sin embargo, los resultados prácticos no suelen diferir sustancialmente. Conviene, no obstante, contrastar la igualdad de matrices de covarianzas. Si Si las distribuciones de probabilidad poblacionales de los grupos son normales multivariantes con matrices de covarianzas iguales, y se fijan probabilidades a priori y costes idénticos para todos los grupos, la predicción con todas las funciones lineales discriminantes coincide con la clasificación óptima obtenida con la regla de decisión. Cuando las poblaciones no son normales, las probabilidades o verosimilitud de la muestra no se conocen, al no conocer la forma de la distribución probabilística de cada grupo. En este caso, puede sustituirse el cociente de verosimilitudes por el de distancias de Mahalanobis. Si las poblaciones son normales, ambos coinciden. ANÁLISIS DISCRIMINANTE

Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar
En el periódico “El País” del día 17 de enero de 2002 se publicó un resumen de un estudio incluido en el Anuario social de España 2001 de la Caixa, elaborado por la Universidad Autónoma de Madrid, sobre el mapa de bienestar de las provincias españolas para el año 2001, clasificándolas a partir de las 12 variables siguientes: El estudio establece una clasificación según el bienestar de las provincias. Queremos hacer un estudio similar, pero considerando el mapa de las autonomías, para lo cual, obtuvimos los valores medios por Autonomía de las variables, incluido el bienestar. Con esta variable agrupamos las Autonomías en cuatro grupos según la puntuación obtenida de bienestar: Grupo 1: 1-4,99 Grupo 2: 5-6,99 Grupo 3: 7-8,99 Grupo 4: 9-10

Objetivo y metodología del estudio
Contrastar si la clasificación que realizamos de las Comunidades Autónomas españolas es correcta, dependiendo de las 12 variables consideradas. Metodología: La técnica adecuada es el Análisis Discriminante. En él, la variable grupo de bienestar es la variable dependiente, mientras que el resto son las variables independientes que, previsiblemente, discriminan.

Caso. Resultados

Caso. Resultados Pruebas de igualdad de las medias de los grupos Matrices intra-grupo combinadas Matriz de covarianzas y, por tanto, de dispersiones. En ella, aunque no podemos medir el nivel de correlación existente entre las variables, podremos saber si existe dicha correlación y si es positiva o negativa.

Caso. Resultados Matriz de correlaciones

Caso. Resultados. Análisis discriminante
Variables introducidas/eliminadas en el análisis

Lambda de Wilks Sirve como medida de la potencia discriminante ganada o perdida al introducir o eliminar una variable de la función discriminante. Atendiendo al estadístico F y su nivel de significación, comprobaremos si cada una de las variables aporta información relevante al proceso de discriminación entre los distintos grupos. Es un contraste de hipótesis de igualdad de medias entre los grupos para cada uno de los pasos.

Comparaciones de grupos por pares Resultados de los contrastes de hipótesis de igualdad de medias entre los pares de grupos para cada uno de los pasos del análisis:

Autovalores La discriminación entre los 4 grupos se realiza mediante el cálculo de las funciones discriminantes. Uno de los procedimientos más utilizados es el procedimiento de discriminación de Fisher. El nº máximo de funciones discriminantes es el mínimo de (nº grupos menos 1; nº de variables originales). No obstante, el número máximo de funciones discriminantes no tiene por qué coincidir con el número de funciones significativas. Autovalores o valores propios: Miden el poder discriminante de cada función discriminante. % de varianza explicada por cada una de las funciones discriminantes. Acumulado del % de varianza. Correlación canónica de cada función discriminante considerada significativa. Indice del poder discriminante de la función al ser el % de la varianza total en dicha función explicada por las diferencias entre grupos. Es el coeficiente de determinación en la regresión entre la variable de pertenencia al grupo, y las puntuaciones discriminantes.

Contraste de significación individual de las funciones Es posible que no queramos retener los F factores o funciones extraídos, sino sólo los que contribuyan significativamente a la discriminación entre los grupos. El contraste de significación del factor h (h=1,2,...F) se basa en la distribución chi-cuadrado, siendo el estadístico de contraste la Lambda () de Wilks.

ANÁLISIS DISCRIMINANTE

Presentaciones similares

Presentación del tema: "ANÁLISIS DISCRIMINANTE"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

ANÁLISIS DISCRIMINANTE

Presentaciones similares

Presentación del tema: "ANÁLISIS DISCRIMINANTE"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback