Curso de posgrado: ANÁLISIS DE REGRESIÓN Universidad Nacional del Sur Nélida Winzer y Ricardo Camina 2012
EJEMPLO: Cladophora X = Velocidad de la corriente (m/seg) en el lugar de extracción Y = Nro. de ramificaciones por mm 2 del alga filamentosa Cladophora sp. n = 20 ; N = 80 - Levene = 0.99 ( p = 0.40 ) - Homocedasticidad U = Raíz de X =
Residuales vs Predichos q-q plot
F. de V.SCg.l.CMFp Reg. Lineal en X 33497, , ,000,0000 Desv. Mod. Lineal en X 1034, , ,560,0000 Reg. Lineal en raíz de X 34522, , ,120,0000 Desv. Modelo en raíz(X) 8, ,4721 0,580,5648 Dentro 590, ,7697 Total 35122, Mal ajuste del Modelo Lineal en X (p < 0.001) No hay evidencias en contra del Modelo Lineal en U (p>0.50) EJEMPLO 8 X = Velocidad de la corriente (m/seg) en el lugar de extracción U = Raíz cuadrada de X Y = Nro. de ramificaciones por mm 2 del alga filamentosa Cladophora sp.
Residuales del Modelo en X Residuales del Modelo en U
Ecuación del Modelo en X : Y = X Ecuación del Modelo en U : Y = U R 2 (Modelo X) = R 2 (Modelo U) = 0.983
q-q plot del Modelo en X q-q plot del Modelo en raiz(X)
EJEMPLO: Peisos X: Edad (días) Y:Largo de Antenas (micras) de larvas Elaphocaris del Crustáceo Peisos petrunkevitchi F. de V.SCg.l.CMFp Regresión , ,30,0000 Desviac. 4605, ,20 5,260,0060 Dentro 7300, ,00 Total ,00 29 Conclusiones??? R 2 = Resumen de la información
Peisos El gráfico muestra una ligera falta de ajuste. El q-q plot no muestra fallas evidentes!!! Exploremos un poco más....
EJEMPLO 6 El gráfico muestra una evidente falta de ajuste y una ligera falta de homocedasticidad. Sigamos explorando....
Y ahora.... Qué hacemos??? Aceptamos??? Rechazamos??? EJEMPLO 6 Veamos cómo andan los supuestos. Transformación sugerida : W=ln (Y)
EJEMPLO 6 bis X: Edad (días) W: Ln(Largo de Antenas) Ecuación: W = X Levene = 0,35 (p =0.84).
EJEMPLO 6 bis X: Edad (días) W: Ln(Largo de Antenas) F. de V.SCg.l.CMFp Regresión2, ,80,0000 Desviac.0, ,004461,090,3709 Dentro0, ,00408 Total2, R 2 = CMresi = g.l.(resi) = 28 No hay evidencia de falta de ajuste (p > 0.30). La regresión es altamente significativa.
X: Edad (días) W: Ln(Largo de Antenas) q-q plot e i vs predichos Homocedasticidad Los residuales muestran una ligera falta de ajuste. Hay homocedasticidad
EJEMPLO 6 bis X: Edad (días) W: Ln(Largo de Antenas) - Ecuación: W = X Bandas de Predicción del 95% para el Largo de Antenas Ecuación: W = X Ecuación retransformada: Y = e e X = e X
ES(b) = ES(a) = Int.Conf. 95% [k] retr : ( ; ) Int.Conf. 95% [ ] : ( ; ) -Int.Conf. 95% [ ] : ( ; ) EJEMPLO 6 bis X: Edad (días) W: Ln(Largo de Antenas)
EJEMPLO 7 X: Peso total (g) de un ejemplar de una especie de pez marino. Y: Peso del hígado (g) Heterocedasticidad R 2 = Ecuación: Y = X
Gráfico de Residuales Probemos con una transformación logarítmica
EJEMPLO 7 X: Peso total (g) del pez. W: ln(Peso del hígado (g) ). Ajuste a un Modelo Exponencial R 2 = F. de V.SCg.l.CMF Regresión19, , ,1* Residual3, ,1078 Total22, Ecuación: W = X
W: Ln[Peso del hígado] U: Ln[Peso total del pez] Ecuación sin Retransformar W = U Int. de Conf. del 95% : (1,1086, 1,4002) : (-5,4990, -3,7928) K: ( 0,0041, 0,0225) F. de V.SCg.l.CMF Regresión 20,779120, ,7 ** Residual 1,873280,0669 Total 22,62529 R 2 = Ecuación Retransformada Y = X Modelo Potencial
W: Ln[Peso del hígado] U: Ln[Peso total del pez ]
Pocos residuales cercanos a 0!! Razón: DATOS CORREGIDOS!!
EJEMPLO 7 bis W: Ln[Peso del hígado] U: Ln[Peso total del pez] Bandas de Predicción del 95% sin Retransformar Bandas de Predicción del 95% Retransformadas
Más Medidas de diagnóstico Puntos Influyentes y su detección Un punto se dice Influyente si su eliminación modifica fuertemente los parámetros del modelo. Distancia de Cook: Es la distancia estadística entre el punto (a, b) y (a (i), b (i) ), parámetros calculados eliminando el punto (x i, y i ).
Distancia de Cook: Elipsoide de confianza Cuándo es grande? Poner atención cuando la confianza supera el 60%
Outliers y su detección Estadísticamente un outlier es un punto con un residual excesivamente grande. Dificultad en la detección: Se necesita una “buena” estimación de la varianza: Un residual alto se enmascara a sí mismo!!!
Prueba de Outliers Residual externamente estudentizado: Estadístico: Valor crítico: se elimina el punto “i” y se calcula el CM Res. El residual e i y el leverage v i son del modelo completo.
EJEMPLO VARIABLE INDEPENDIENTE (X) : Tiempo (hs) a partir de la ingesta de una determinada dieta. VARIABLE DEPENDIENTE (Y) : N-NH3 Ruminal (%) Ecuación: Y = X
EJEMPLO 9 N= 8 Ecuación: Y = X R 2 =
EJEMPLO 9 - El primer dato influye mucho en la estimación de la pendiente El Modelo Lineal no ajusta bien los datos
EJEMPLO X: % de Materia Orgánica en el suelo (fracción ) Y:Umbral Hídrico a la compactación (% de humedad del suelo a la cual se obtiene la mayor compactación) zona semiáridaYX 13,20,49 14,20,52 15,10,57 Campos que15,70,70 desarrollan14,50,76 Actividad16,71,10 Agrícola11,51,12 13,01,18 18,11,38 14,21,76 19,03,68 18,64,05 Campos21,54,40 Vírgenes21,24,48 22,14,60 29,06,33 Medias:17,352,32 Ecuación: Y = X
N = 16 R 2 = Ecuación: Y = X F. de V.SCg.l.CMF Regresión248, ,064,63 ** Residual53,72 143,837 Total301,72 15 EJEMPLO 10 X: % de Materia Orgánica en el suelo (fracción ) Y:Umbral Hídrico a la compactación (% de humedad del suelo a la cual se obtiene la mayor compactación)
Ecuación: Y = X - Mal diseño. Hay un leverage muy alto. - Es muy riesgoso opinar sobre el ajuste lineal - Hay un dato relativamente influyente. EJEMPLO X: % de Materia Orgánica en el suelo (fracción ) Y:Umbral Hídrico a la compactación (% de humedad del suelo a la cual se obtiene la mayor compactación)
X = Profundidad (cm) en muestras de suelo de una región. Y = pH de la muestra.
Y éste de dónde salió??!!
Dato sospechoso!!!
Resultados sin Dato nº 7 N = 24 R 2 = Ecuación: Y = X YX Medias:9,37536,25 F. de V.SCg.l.CMF Regresión6, ,49** Residual5, , Total12,
Resultados sin Dato nº 7 Máximo Vi : 0,157 Dato nº : 24 Límite = 0,1667 Máximo qi : -1,745 Dato nº : 14 q(i): -1,836 Outlier : p = > 0.50 Máximo i : 0,1356 Dato nº : 5 elipsoide % 12,61 b(i) = 0,026 a(i) = 8,47
Resultados sin Dato nº 7 - No se encuentran problemas de diseño. - Se puede considerar un buen ajuste al Modelo Lineal. - La pendiente es estadísticamente distinta de CERO (p < 0.01). - Para esta población, se ha estimado un aumento promedio de en el pH porc/cm de aumento en la profundidad. -El pH está explicado en un 56% por la profundidad. - No se hallaron en este Modelo datos anómalos o influyentes.