Técnicas estadísticas paramétricas univariantes: regresión Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. www.fernandotuya.org
Regresión Contrastar el efecto de una(s) variable(s) independientes continuas (numéricas) sobre una variable(s) respuesta también continuas. Predecir (pronosticar) cómo Y depende de X (presumo una relación causa-efecto entre X e Y) Réplica Y X 1 … 2 3 n Muy intuitiva…p.e. Y=f(X)
Tipo de regresión Simple vs. múltiple: una o más variables independientes (X) Réplica Y X1 X2 Xn 1 … 2 3 n Ejemplo: quiero saber si la presión arterial baja en función de la duración en tiempo del masaje…(regresión simple)….si además quiero saber la influencia de la altura, el peso, etc…regresión múltiple
Univariante vs. multivariante: Mido respuesta (Y) en una o más variables dependientes Y1 + Y2 + …Yn = aX1 + bX2 +…iXi +…nXn + error Univariante vs. multivariante Réplica Y1 Yn X1 Xn 1 … 2 3 n
Lineal o no lineal: según el modelo que aplico: y=f(x) Y=a + blog(x) Y=a + bx X Y=a + bx + cx 2 Y=a + be Muchas veces aplicamos relación lineal por sencillez (“parsimonia”) aún cuando podríamos obtener un mejor ajuste no lineal
Regresión: dos principios fundamentales (I) (1) Incluye todo el rango de X que afecta a Y (evito error tipo II) Y X Digo que no hay relación cuando la hay¡
Regresión: dos principios fundamentales (II) (2) Cuidado con “outliers” (valores atípicos): evita tomando los valores de X de manera uniforme Digo que hay relación cuando no la hay (error tipo I)
(i) Regresión lineal simple univariante (caso más sencillo nos sirve para ilustrar los principios de la regresión) Obj: predecir el valor de la variable dependiente Y en función de la independiente (causa-efecto) mediante una línea (recta); obtengo ecuación: Matemáticamente: buscamos una línea que minimiza la suma de los cuadrados de las diferencias entre los puntos observados y la recta (ajuste mínimos cuadrados)
Modelo matemático Tasa o pendiente: cuánto varía Y al cambiar una unidad de X Intersección: valor de Y cuando X = 0 Datos = Modelo + Residual Y Modelo Intersección pendiente X
¿Qué cantidad/proporción de variabilidad de Y explicada por X? La “calidad” de ajuste se describe mediante un atributo clave: R2 : coeficiente de determinación, medida de la bondad de ajuste; 0 = no hay ajuste, =1 ajuste perfecto ; R2 nos indica la proporción de la variación en Y está explicada por X
Distintos valores de X dan distintos valores de Y; pendiente distinta de 0 Hay relación lineal entre Y y X Distintos valores de X dan los mismos valores de Y; pendiente ~ 0 NO Hay relación lineal entre Y y X ojo….no te dejes “seducir” por R2
Necesito un test¡¡¡ Para contrastar objetivamente la significancia de la pendiente Ho: la pendiente = 0 Ha: la pendiente ≠ 0 (esto nos permitirá evitar “ser seducidos” por R2 elevados) Todos aquellos que usen SPSS, sigma-plot, STATISTICA, etc., verán que toda regresión tiene asociado un p-valor, que nos informa si el efecto de X sobre Y es significativo o no
(ii) Regresión lineal múltiple (= principios q regresión simple, pero) Variación de Y= variación explicada por X1 + X2 +…Xi +Xn + residual Cada Xi tiene un coeficiente regresión (“pendiente” en regresión simple) y un “p-valor” (comprobar su significancia), además de R2 Y = aX1 + bX2 +…iXi +…nXn + error (residual) Xi Coeficiente P-valor R2 X1 a … X2 b Xn n
Variabilidad no explicada Regresión lineal múltiple univariante Requisito importante: X1, X2, Xn deben ser independientes una de las otras¡¡ Difícil – nos encontramos con colinealidad entre variables: variables están correlacionadas. Esto hace q sea complejo conocer cuanta variación en la variable respuesta Y es debido a cada variable predictora Variabilidad explicada por X1 Solapamiento Variabilidad no explicada Variabilidad explicada por X2
Diagnóstico de colinealidad Matriz de correlaciones entre cada par de variables rij ¿Cómo proceder a seleccionar sólo las relevantes? Xn X2 Xi Xi X3 X1 1er paso; todas (modelo completo) 2º paso; selecciono las más importantes (modelo reducido) Criterio: AIC, BIC, R2, etc. Selección: forma de construir el modelo: “forward”, “backward”, “step-wise”, etc
¿Qué ocurre si en el modelo de variables predictoras (Xi) tengo variables cuantitativas (numéricas) y cualitativas (categóricas)? Variables tipo “Dummy” = variables categóricas que incorporo en modelos de regresión Ejemplo: quiero saber si la presión arterial baja en función de la duración en tiempo del masaje…en personas de 4 islas Número lesiones GC TF LP LZ N=1 1 N=2 N=3 Continúa…
Regresión logística Contrastar el efecto de una(s) variable(s) independientes continuas (numéricas) sobre una variable(s) respuesta categórica. Muy empleado en bio-medicina. Por ejemplo, encuestas. Respuesta es variable binaria (si/no). Nos genera “odds ratio” – probabilidades de que ocurran ciertas respuestas de la variable dependiente ante los distintos niveles de variables (factores) predictores.