7. Análisis Discriminante

7. Análisis Discriminante
Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o más grupos de objetos o individuos, de los que conocemos los valores de p variables. Objetivo: Explicar la pertenencia de cada individuo a un grupo (variable categórica) según la variable aleatoria p-dimensional del objeto (variable explicativa). Predecir a qué grupo pertenece un individuo nuevo, del que conocemos el valor de la variable p dimensional clasificadora o explicativa. Puede aplicarse para: Describir: Explicar la diferencia entre los distintos tipos de objetos. Hacer Inferencia: Contrastar diferencias significativas entre poblaciones. Tomar de decisiones: Decidir donde clasificar un objeto.

SUPUESTOS Existen K poblaciones o grupos G1, G2,....Gk.
Cada grupo está formado por n1, n2,...nk objetos: . Sobre cada objeto han sido medidas p variables x1, x2,.xp, Se quiere buscar una regla de decisión que permita asignar un objeto a uno de los grupos partiendo de la información anterior. Los datos se presentan en matriz de n objetos pertenecientes a K grupos, medidos por una variable aleatoria p dimensional y una variable discreta que indica el grupo al que pertenece cada objeto.

CLASIFICACIÓN Funciones discriminantes lineales de Fisher:
Permiten diferenciar los grupos para el proceso de clasificación. Son combinación lineal de las P variables, interviniendo cada una con un peso diferente que indica las que más discriminan. Problema descriptivo. Funciones discriminantes canónicas: Sirven para la predicción óptima del grupo a que pertenece un individuo. Problema de inferencia.

CLASIFICACIÓN CON DOS GRUPOS Y UNA VARIABLE CLASIFICADORA, X
Problema: Clasificar a cada individuo en el grupo correcto, según la variable clasificadora. Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar: pueden haber errores de clasificación. Xi<C, clasificar al individuo i en grupo I. Xi>C, clasificar al individuo i en grupo II Los errores de clasificación están en : Área a la derecha de C : Casos del grupo I donde Xi>C: casos del grupo I mal clasificados en el grupo II. Área a la izquierda de C : Casos del grupo II donde Xi<C,: casos del grupo II mal clasificados en el grupo I.

Caso: Situación de las Comunidades Autónomas españolas en cuanto a indicadores de bienestar
En el periódico “El País” del día 17 de enero de 2002 se publicó un resumen de un estudio incluido en el Anuario social de España 2001 de la Caixa, elaborado por la Universidad Autónoma de Madrid, sobre el mapa de bienestar de las provincias españolas para el año 2001, clasificándolas a partir de las 12 variables siguientes: El estudio establece una clasificación según el bienestar de las provincias. Queremos hacer un estudio similar, pero considerando el mapa de las autonomías y los datos correspondientes al Anuario social de España de Tras la aplicación de un análisis cluster jerárquico a los indicadores según autonomía, conseguimos formar cuatro grupos.

DATOS CC.AA Grupo p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 Andalucía 1 2
Castilla-La Mancha 7 8 Extremadura Murcia 9 Aragón Castilla-León La Rioja Asturias Canarias Cantabria Galicia Valencia Baleares 10 Cataluña Madrid Navarra Euskadi

Objetivo y metodología del estudio
Contrastar si la clasificación que realizamos de las Comunidades Autónomas españolas es correcta, dependiendo de las 12 variables consideradas. Metodología: La técnica adecuada es el Análisis Discriminante. En él, la variable grupo de bienestar es la variable dependiente, mientras que el resto son las variables independientes que, previsiblemente, discriminan.

Obtención de las funciones discriminantes
Criterio: Maximizar variabilidad entre grupos respecto a la de dentro de ellos. Sea un eje definido por el vector unitario U, de dimensión p*1. La proyección del individuo i-ésimo sobre él es el peso zi: Proyección de los n individuos: Vector Z (nx1), (Z=XU), función discriminante de Fisher. Es una combinación lineal de las k variables explicativas originales. Problema:Obtener los coeficientes de ponderación uj. Hay que tener en cuenta que : 1. La matriz a diagonalizar no es simétrica: los vectores propios no son necesariamente ortogonales. 2. El número de ejes discriminantes, F es como máximo el mínimo de [(K-1), p].

Métodos iterativos de selección de variables
Método de inclusión iterativa En cada paso se selecciona la variable que más contribuye a la separación de los grupos. El proceso se detiene si ninguna variable separa los grupos significativamente más de lo que ya estaban. Método de exclusión iterativa Se incluyen todas las variables y en cada paso se elimina la que menos contribuye a la separación de los grupos. El proceso se detiene cuando la exclusión de cualquiera de las variables hace disminuir significativamente la separación entre los grupos. Método mixto de inclusión-exclusión: Stepwise En cada etapa se evalúa la posibilidad de incluir o excluir una variable, según criterios prefijados. Su aplicación requiere definir previamente una regla de decisión, Landa de Wilks, cociente entre el determinante de la matriz de variación dentro de los grupos y el de la matriz de variación total.

Stepwise Con el landa de Wilks se calcula un estadístico F. Cuanto mayor sea F, más significativa será la variable para la que se calcula. Hay que fijar: F mínimo para entrar (F-min-to-enter). F máximo para salir (Fmax-to-go) (F to enter > F de salida). Nivel de tolerancia: Medida del grado de asociación lineal entre las variables clasificadoras. Si la tolerancia de la variable i es muy pequeña, significa que dicha variable está muy correlacionada con el resto, lo que puede provocar problemas en la estimación. Generalmente, se fija un nivel mínimo de tolerancia.

Cómo saber si los datos son apropiados
Si las poblaciones son normales, pero con matrices de covarianzas distintas, la regla de clasificación óptima se obtiene con funciones lineales cuadráticas. Excepto en el caso de dos variables, las funciones cuadráticas son difíciles de obtener, por su complejidad analítica. Sin embargo, los resultados prácticos no suelen diferir sustancialmente. Conviene, no obstante, contrastar la igualdad de matrices de covarianzas. Si las distribuciones de probabilidad poblacionales de los grupos son normales multivariantes con matrices de covarianzas iguales, y se fijan probabilidades a priori y costes idénticos para todos los grupos, la predicción con todas las funciones lineales discriminantes coincide con la clasificación óptima obtenida con la regla de decisión. Cuando las poblaciones no son normales, las probabilidades o verosimilitud de la muestra no se conocen, al no conocer la forma de la distribución probabilística de cada grupo. En este caso, puede sustituirse el cociente de verosimilitudes por el de distancias de Mahalanobis. Si las poblaciones son normales, ambos coinciden.

Ventanas SPSS 1 Analizar Clasificar Análisis discriminante
En la variable de agrupación pondremos la variable categórica que es la que indica el grupo de pertenencia de cada individuo en la matriz inicial. En nuestro caso se han considerado cuatro grupos. De 1 a 4 Pediremos las medias y los ANOVAS univariados. Además, pediremos los coeficientes de la función de Fisher, la correlación y la covarianza intra-grupos.

Ventanas SPSS 2 Si elegimos usar método de inclusión por pasos, debemos definir el que deseamos y los criterios. Utilizaremos la distancia de Mahalanobis. Además, indicaremos que el resultado muestre un resumen de los pasos y el valor de la F de Snedecor para las distancias por parejas. La distancia de Mahalanobis D² es una medida generalizada de distancia entre dos grupos que tiene en cuenta la posición central (centro de gravedad) y las dispersiones (matrices de productos cruzados o de covarianzas intragrupos) de los grupos. DI,II: matriz de productos cruzados (matriz de covarianzas intragrupos). Se asignará cada individuo al grupo para el que D² es menor.

Ventanas SPSS 3 Probabilidades previas:
Se puede elegir todos los grupos iguales o calcular según tamaño de grupos. Mostrar: Resultados para cada grupo y tabla resumen. Usar matriz de covarianzas intragrupos. Gráficos de los grupos combinados.

Resultados: Estadísticos descriptivos
Índice GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTAL Media Desv. típ. CVP Renta 2,25 0,957 0,426 5,5 1,512 0,275 8 9,25 0,104 5,765 2,796 0,485 Salud 5,75 1,893 0,329 4,75 1,669 0,351 3 6,25 1,708 0,273 5,235 1,786 0,341 Ss.sanitarios 3,75 0,255 6,625 1,847 0,279 7 0,500 0,054 6,588 2,347 0,356 N.educativo y cultural 3,25 0,295 6,5 1,309 0,201 5 6,294 2,365 0,376 Of.educativa, cultural/ocio 3,5 0,577 0,165 1,414 0,257 10 0,105 5,294 1,795 0,339 Empleo 4,5 1,915 1,282 0,223 0,177 6,118 1,900 0,311 Condiciones trabajo 2,754 0,441 1,035 0,218 2,517 0,387 5,529 1,940 Vivienda 0,167 5,125 1,553 0,303 6 2,054 0,326 Acces.ec.y seguridad vial 2,160 0,360 1,832 0,319 8,25 1,258 0,153 6,412 1,938 0,302 Conv.y partic.social 1,291 0,199 5,25 0,197 4,941 1,600 0,324 Seguridad ciudadana 6,375 1,408 0,221 4 1,826 0,609 1,929 0,364 Entorno natural y clima 1,155 0,289 2,446 0,369 2,582 0,430 6,059 2,512 0,415 Nº CASOS 1 17

Pruebas de igualdad de medias de los grupos
Lambda de Wilks F gl1 gl2 Sig. Índice de renta ,172 20,872 3 13 ,000 Índice de salud ,764 1,340 ,304 Índice de servicios sanitarios ,311 9,615 ,001 Índice de nivel educativo y cultural ,173 20,696 Índice de oferta educativa, cultural y de ocio 9,623 Índice de empleo ,493 4,450 ,023 Índice decondiciones trabajo (calidad del empleo) ,818 ,967 ,438 Índice de vivienda y equipamiento del hogar ,302 10,029 Índice de accesibilidad económica y seguridad vial ,703 1,833 ,191 Índice de convivencia y participación social ,372 7,300 ,004 Índice de seguridad ciudadana ,447 5,355 ,013 Índice de entorno natural y clima ,653 2,307 ,125 La lambda de Wilk oscila entre 0 y 1. Valores pequeños indican fuertes diferencias de grupo y los cercanos a 1 no diferencias de grupo. F es una proporción de variabilidad entre-grupos y variabilidad intra-grupos. Variables con los menores valores de lambda: Nivel de instrucción, vivienda, riqueza, servicios sanitarios y educación, cultura y ocio, Empleo y accesibilidad económico-comercial con F significativos a menos de un 10%. Variables con niveles superiores de lambda: Condiciones de trabajo, sanidad, convivencia y participación social, entorno y clima y seguridad y medio ambiente, que no muestran diferencias significativas entre los grupos de bienestar, con niveles de significación de la F superiores al 10%.

Matriz de correlaciones
Las matrices intra-grupos combinadas muestran una matriz de covarianzas y una matriz de correlaciones. Son diferentes de las matrices usuales donde todos los casos son tratados como una muestra individual. Las covarianzas intra-grupos combinadas se obtienen promediando las matrices de covarianzas separadas para todos los grupos. Las correlaciones intra-grupos combinadas se calculan a partir de las covarianzas y varianzas.

Variables introducidas/eliminadas en el análisis
Paso Introducidas Eliminadas Mín. D cuadrado Estadístico Entre grupos F exacta gl1 gl2 Sig. 1 N.Educativo 1,887 2 y 3 1,677 13 0,218 2 Renta 10,223 2 y 4 12,582 12 0,001 3 Of.Educativa 10,530 1 y 2 7,920 11 0,004 4 7,905 9,729 0,003 5 Vivienda 15,903 11,961 6 Conv.y Part.Social 16,958 8,697 10 Distancia de Mahalanobis grande: Casos con valores extremos en una o más variables independientes. En cada paso se introduce la variable que maximiza la distancia de Mahalanobis entre los grupos más cercanos. Paso 1: la variable que maximiza la distancia de Mahalanobis entre los dos grupos más cercanos (2 y 3) es el Nivel educativo y cultural. Paso 2: Renta entre los grupos 2 y 4. Paso 3: Oferta educativa entre los grupos 1 y 2. Paso 4: Se elimina la variable Renta, puesto el estadístico desciende respecto a los anteriores entre los grupos 2 y 4. Paso 5: Se introduce la variable Vivienda puesto que maximinza la distancia entre los grupos 2 y 4 que son los más cercanos. Paso 6: Convivencia y participación social entre los grupos 2 y 4.

Estadísticos para las variables en el análisis
Tolerancia: Proporción de la varianza de la variable que no es explicada por las otras variables independientes. Se utiliza para determinar cuantas variables independientes están linealmente relacionadas con las otras (multicolinealidad). Una variable con muy baja tolerancia contribuye con poca información al modelo y puede causar problemas de cálculo. F para eliminar: Útil para describir qué ocurre si la variable es eliminada del modelo presente. Es la misma que la F para entrar en la etapa anterior. Dependiendo del método por pasos elegido, podemos ver otros estadísticos tales como la lambda de Wilks.

Número de variables en cada etapa
Lambda: Contraste multivariante de significación. Contraste de hipótesis de igualdad de medias entre los grupos para cada uno de los pasos. Oscila entre 0 y 1. Valores cercanos a 0: las medias de los grupos son diferentes. Valores cercanos a 1: las medias de los grupos no son diferentes. Lambda y sus grados de libertad son transformados en un estadístico F. Si el valor de significación es pequeño (menor que 0,10) indica que las medias de los grupos difieren. Si el valor de significación es grande (mayor que 0,10) indica que las medias de los grupos no difieren. Como el nivel de significación o área que deja a la derecha el estadístico es, como máximo 0,012, a un nivel de significación del 5%, no se puede concluir que las medias de los grupos sean iguales. Es decir, se rechaza la igualdad de medias entre grupos de cada una de las variables incluidas en el análisis.

Comparaciones de grupos por pares: Última etapa
Los dos grupos con mayores F y menores niveles de significación son los que difieren más. Los dos grupos con menores F y mayores niveles de significación son los que difieren menos. Si el valor de significación es pequeño, la diferencia entre los grupos es significativa. Si el valor de significación es grande (mayor que el 5%) entonces la diferencia entre los grupos no es significativa.

Funciones canónicas discriminantes
Valor propio: Cociente entre la suma de cuadrados intra-grupos e Inter.-grupos. El mayor valor propio corresponde al vector propio en la dirección de la máxima dispersión de las medias de los grupos. El segundo, al vector propio en la dirección que tiene la siguiente mayor dispersión, y así sucesivamente. La raíz cuadrada de cada valor propio proporciona un índice de la longitud del correspondiente vector propio. Valores propios pequeños explican muy poco de la dispersión total. % de varianza: Evalúa la dispersión de cada variable canónica. % acumulado: Porcentaje de la dispersión total explicada por las variables canónicas. Las dos primeras variables canónicas explican el 100% de la dispersión total. Correlación canónica: mide la asociación entre las puntuaciones discriminantes y los grupos. Valores cercanos a 1 indican una fuerte correlación entre las puntuaciones discriminantes y los grupos. Número de variables canónicas: Cuando hay más de dos grupos, es k-1 (donde k es el número de grupos) o p (el número de variables), el que sea menor de los dos.

Prueba de hipótesis igualdad de medias entre grupos de las funciones
La lambda de Wilks varía entre 0 y 1. Valores cercanos a 0 indican que las medias de los grupos son diferentes. Valores cercanos a 1 indican que las medias de los grupos no son diferentes (igual a 1 indica que todas las medias son la misma). Chi-cuadrado de la lambda de Wilks determina la significación. Si es pequeña (menor que el 10%) indica que las medias de grupo difieren. Si es grande, indica que las medias de los grupos no difieren.

Matriz de estructura Correlaciones intra-grupos de cada variable predictora con la función canónica. Proporciona otra forma de estudiar la utilidad de cada variable en la función discriminante. Para cada variable, en negrilla se marca su mayor correlación absoluta con una de las funciones canónicas, ordenándose luego por tamaño de correlación. Función 1: Oferta educativa, Empleo, Servicios sanitarios y Condiciones de trabajo. Función 2: Nivel educativo, Convivencia y participación social y Renta. Función 3: Vivienda, Seguridad ciudadana, Salud, Entorno y clima y Accesibilidad económica y seguridad vial.

Coeficientes de funciones canónicas
Se utilizan para calcular las puntuaciones de la variable canónica en cada caso. Si las variables son medidas en unidades diferentes, la magnitud de un coeficiente no estandarizado proporciona poca indicación de la contribución relativa de la variable a la discriminación global. Los coeficientes no tipificados de las funciones canónicas discriminantes son estrictamente proporcionales a los coeficientes tipificados de dichas funciones para cada una de las variables. Si sustituimos los valores de las variables para cada una de las Autonomías, obtendremos las puntuaciones discriminantes. Medias de las variables canónicas por grupos. Las medias intra-grupos se calculan para cada variable canónica. Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos. La estimación de la función de clasificación para las Comunidades Autónomas del grupo 1 es

Estimación del grupo con los coeficientes de las Funciones discriminantes lineales de Fisher
El programa SPSS no ofrece la función discriminante de Fisher, sino tantas funciones como grupos se hayan considerado para los casos. A partir de estas funciones se podría obtener la Función discriminante lineal de Fisher. Con ellas se podrá predecir en qué grupo debe estar un individuo. Para ello, habrá que sustituir en cada una de las funciones los valores originales de las tres variables para cada una de las Comunidades Autónomas. En nuestro caso, se clasificará la Comunidad Autónoma en aquel grupo cuyo valor sea mayor en una de las cuatro funciones discriminantes anteriores.

Resultados Con la función discriminante de Fisher todas las C.A. se clasifican en el mismo grupo inicial, salvo Valencia, que se estaba en el segundo grupo y, según la función discriminante de Fisher, hay que incluirla en el primer grupo.

Estadísticos de clasificación por casos
· Grupo real: el que se asignó a cada caso en la clasificación inicial. · Grupo mayor: En el que debe estar incluido cada caso, según las funciones discriminantes y con probabilidad a posteriori de pertenencia a él, P(G=g/ D=d), mayor, (teorema de Bayes), utilizando la Distancia de Mahalanobis, D2, y la probabilidad condicionada P(D>d/ G=g) · Segundo grupo mayor: en cuanto al valor de la probabilidad a posteriori. · Puntuaciones discriminantes: las obtenidas al sustituir los valores en las funciones discriminantes canónicas.

Gráfico Grupo 1: Andalucía, Castilla-La Mancha, Extremadura, Valencia y Murcia. Grupo 2: Canarias, Aragón, Castilla-León, Asturias, Cantabria, Galicia y La Rioja. Grupo 3: Baleares Grupo 4: Cataluña, Madrid, Euskadi y Navarra. La única Comunidad Autónoma reclasificada, pasándola del grupo 2 al 1 Valencia.

Conclusiones Las variables independientes que más discriminan entre los cuatro grupos iniciales referidos al bienestar de las autonomías son: Nivel educativo Oferta educativa Vivienda Convivencia y participación social Con las funciones discriminantes obtenidas, todas las comunidades autónomas se encuentran clasificadas en los mismos grupos inicialmente considerados, salvo Valencia que se había incluido en el grupo 2 y, a partir del Análisis Discriminante, parece mejor situada en el grupo 1.

7. Análisis Discriminante

Presentaciones similares

Presentación del tema: "7. Análisis Discriminante"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

7. Análisis Discriminante

Presentaciones similares

Presentación del tema: "7. Análisis Discriminante"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback