Construcción de modelos con regresión y correlación Miles, J. & Shevlin, M. Applying regression & correlation: a guide for strudents and researchers. Los Angeles: Sage. Cap. 1
Temas 1. Modelos 2. Modelo de mínimos cuadrados 3. Error estándar de la media 4. Modelamiento de relaciones 5. Modelo de regresión lineal a) La línea del mejor ajuste b) Utilización del modelo estimado para predecir c) Intervalo de confianza para β d) β estandarizado 6. Correlación 7. Varianza explicada
Representación parsimoniosa o simple de un fenómeno. 1. Modelos MODELO Representación parsimoniosa o simple de un fenómeno. Comúnmente, no es una representación perfecta.
Modelos en estadística ENRIQUE PEÑA NIETO 1,72CM DATOS MODELO = 1.72 CON UN PARÁMETRO
Modelos DATOS = MODELO + ERROR = +
Modelos DATOS = MODELO + ERROR Perfecta representación de los datos o parámetros. “Modelo perfecto” que no resume los datos = Duplicado Modelo ≠ Los datos PARÁMETROS: Números que integran el modelo
2. Modelo de mínimos cuadrados MEDIA: Modelo simple Modelo de los datos en un parámetro. Con un solo número se obtiene una idea general del conjunto total de números.
Modelo de mínimos cuadrados MEDIA Modelo con la menor probabilidad de error. Puntaje de una persona = Media +(-) error Modelo de mínimos cuadrados
Modelo de mínimos cuadrados MEDIA Puntaje = Media +(-) error - X1 = e1 La diferencia entre el modelo y los datos es el error - X2 = e2 X3 = - e3 - ei Xi = i : la ecuación se repite para cada uno de los individuos. (Muchas veces se omite la i).
Modelo de mínimos cuadrados DATOS = MODELO + ERROR 14 20 -6 15 -5 16 -4 23 3 25 5 34 RESIDUALES: Error o diferencia entre el puntaje predicho por el modelo y el puntaje obtenido
Modelo de mínimos cuadrados 14 20 -6 36 15 -5 25 16 -4 23 3 9 5 34 196 ∑ 366 2 ( ) Cálculo del error total
Modelo de mínimos cuadrados = 36.60 Media del error al cuadrado por persona = 𝟑𝟔𝟔 𝟏𝟎 √ 36.60 = 6.05 Media del error Media de las desviaciones respecto de la media
Modelo de mínimos cuadrados Desviación estándar (de, ds, sd, s): Medida de error Medida de qué tanto varían los puntajes respecto de la media
Modelo de mínimos cuadrados ¿Por qué la media es un modelo de mínimos cuadrados? Error (DE) Media Media verdadera Archivo de Excel
Modelo de mínimos cuadrados DATOS = MODELO + ERROR Media Suma de los residuales al cuadrado Da el valor de error más bajo posible Estimador de mínimos cuadrados MEDIA: Método para modelar (resumir, describir) un conjunto de datos, que minimiza el error (desviación estándar).
3. Error estándar de la media De la media de la población Estimación para la población Valor de los parámetros del modelo para la muestra Qué tan cerca está la media de la muestra
Error estándar de la media Muchas muestras posibles, muchas medias posibles
Error estándar de la media Distribución muestral de medias 100 muestras de 50 pacientes cada una Nivel de apego al tratamiento
Error estándar de la media Sólo vemos una
Error estándar de la media Desviación estándar de la distribución muestral = Error estándar de la media ES( ) = o
Error estándar de la media IC: Intervalo de confianza 1 ES _ 68% 2 ES _ 95% 3 ES _ 99%
Error estándar de la media Intervalo de confianza
Error estándar de la media Intervalo de confianza Límite superior En tabla de puntajes Z: 90/2 = 45% Z para .4500 = 1.645 Límite inferior En tabla de puntajes Z: 99/2 = 49.5% Z para .4950 = 2.575
Error estándar de la media Intervalo de confianza al 95% Datos: = 2 libros leídos ES = 0.23 95%: Z = 1.96 CI 95% = 1.96 x ES ± CI 95% superior = 2 + (1.96 x 0.23) = 2.45 CI 95% inferior = 2 - (1.96 x 0.23) = 1.55 El número promedio de libros leídos por los estudiante en la siguiente muestra que tomemos de la población de la cual tomamos nuestra muestra (cuya media fue 2) será entre 1.45 a 2.55; sólo tendremos 5% de probabilidades de estar equivocados.
4. Modelamiento de relaciones Interés: Modelar la relación entre 2 o más variables. Técnica: Análisis de regresión. Objetivo: Estimar en cuánto aumenta la calificación con cada libro leído.
Modelamiento de relaciones x Inteligencia Y Actitud hacia el estudio 110 2.6 120 3.0 100 2.5 90 1.5 130 3.2 3.4 Actitud hacia el estudio Y Inteligencia X Estimar en cuánto se incrementa el puntaje de actitud con cada punto de inteligencia.
Modelamiento de relaciones y = mx + c x, y: variables m: pendiente de la línea c: intercepto de y valor de y cuando x = 0 punto donde la línea cruza el eje de las x
Modelamiento de relaciones Para representar una relación (lineal) entre dos variables se requieren dos parámetros y = mx + c y = a + bx m, c Permiten saber cómo es la línea que relaciona las dos variables a , b
5. Modelo de regresión lineal Para variables que posiblemente están asociadas (X y Y) asumimos el modelo: Y = α + β·X + ε α y β son coeficientes desconocidos. X y Y son las variables que observamos. ε es la parte de Y que X no explica. Es el error aleatorio que define los valores de la vida real.
Análisis de regresión: Encontrar la línea de mejor ajuste Regresión lineal Análisis de regresión: Encontrar la línea de mejor ajuste y = bx + c + e (x, y) ε Y = α + β·X + ε β α Y = α + βX c = b0 = a = α = intercepto y m = b = β = pendiente = línea de regresión
a) La línea del mejor ajuste Encontrar la línea de mejor ajuste Estimación de los mínimos cuadrados de la línea Con un parámetro: Con dos parámetros: a y b
La línea del mejor ajuste ¿Qué tan cercanamente se ajusta cada una de las posibles líneas a los datos observados? Consumo de tabaco y pérdida de fijación dental (28 fumadores) Pérdida media de fijación dental (mm) Número de cigarros fumados por día (autorreporte)
La línea del mejor ajuste Residuales: Distancias verticales de todos los puntos (x,y) a la línea. Error La línea de mejor ajuste se define como aquélla en la que la suma de los cuadrados de los residuales es mínima.
Ejemplo ¿Cuál es la asociación entre: Consumo de tabaco y Pérdida de fijación dental?
Ejemplo Línea de ajuste de la asociación entre el consumo de tabaco (número de cigarros fumados por día) y la pérdida de fijación dental (en mm). N = 28 fumadores. Pérdida media de fijación dental (mm) Número de cigarros fumados por día (autorreporte)
Ejemplo: Pérdida de fijación dental y cigarros fumados por día Consumo de tabaco y pérdida de fijación dental (28 fumadores) Pérdida media de fijación dental (mm) Número de cigarros fumados por día (autorreporte)
Ejemplo: Pérdida de fijación dental y cigarros fumados por día α β Este resultado de SPSS dice que: a = 2.319, b = 0.067 La línea de mejor ajuste es: Y = 2.319 + 0.067 × X Nivel promedio de fijación dental Cigarros fumados por día
Ejemplo: Pérdida de fijación dental y cigarros fumados por día Y = 2.319 + 0.067 × X puede interpretarse como: “Cada cigarro fumado extra por día se asocia con una pérdida adicional de 0.067 mm de fijación dental." También :“Cada paquete fumado al día (20 cigarros) se asocia con una pérdida adicional de 0.067 × 20 = 1.34 mm de fijación dental."
La línea del mejor ajuste α β Este resultado de SPSS dice que: a = 2.319, b = 0.067 La línea de mejor ajuste es: Y = 2.319 + 0.067 × X Donde Y = nivel promedio de fijación y X = cigarros fumados por día.
b) Utilización del modelo estimado para predecir ¿Qué nivel de fijación dental tendrá alguien que fuma 30 cigarros al día? La mejor estimación del nivel de pérdida de fijación dental promedio de las personas que fuman 30 cigarrillos / día es: Y = 2.319 + 0.067 × X Y = 2.319 + (0.067 x 30) = 4.329 mm
c) Intervalo de confianza para β Un intervalo de confianza de 1-α para β es: IC = b ± 1.96 X ES b: Pendiente de la línea de regresión % de confianza: 95% ES: Error estándar Rango de valores entre los cuales es probable encontrar el valor verdadero de β (el de la población).
Intervalo de confianza para β Ejemplo: Cigarros fumados por día y pérdida de fijación dental b = 0.067 IC Límite inferior: 0.001 SE = 0.032 IC Límite superior: 0.133 El intervalo de confianza de 95% para β es: 0.001 - 0.133
d) β estandarizado Problema!! La estimación de β depende de la métrica utilizada. No es posible comparar con otros estudios. Solución Estandarizar las métricas, utilizar puntaje z. Ya se pueden hacer comparaciones, independientemente de cómo se hayan medido la variables.* *Sólo en regresión múltiple, no en regresión múltiple.
Puntajes estandarizados Estandarización Puntajes originales o brutos X Puntajes estandarizados Z Puntaje Z: Número de desviaciones estándar en el que se encuentra ubicado un puntaje en relación con la media de la distribución. En SPSS: Analizar – Descriptivos – Guardar valores tipificados como variables
Distribución de puntajes Z β estandarizado Distribución de puntajes Z Distribución de puntajes estandarizados Z Distribución de puntajes originales o brutos X Media = 0 Desviación estándar = 1
β estandarizado Puntaje Z De X a Z De Z a X Puntaje X
β estandarizado % Z Z % % Z Tabla de Z Los estadísticos han construido tablas que indica el valor de estas proporciones para cada posible puntaje Z. % Z Z % % Z Calculadoras electrónicas de puntajes Z y áreas bajo la curva: http://davidmlane.com/hyperstat/normal_distribution.html http://psych.colorado.edu/~mcclella/java/normal/normz.html
β estandarizado Con variables estandarizadas: el intercepto (a) siempre será cero. Si se elimina, el modelo queda más sencillo. Lo que importa es la pendiente (b). Un incremento en una unidad en el eje de las X se asocia con un incremento de ___ en el eje de las Y. B estandarizado = .49
β estandarizado b estandarizado = r ¡¡¡Sorpresa!!! Casi todas las pruebas estadísticas se basan en principios similares y están muy relacionadas entre sí.
6. Correlación Cuantificación lineal de la relación entre dos variables. Cuantificación porque convierte la relación en un número. Mientras más fuerte sea la relación, mayor será el valor absoluto de la correlación. Lineal porque asume que la relación forma una línea recta. Entre dos variables porque describe qué tanto cambia una variable (X) dado un cambio en una segunda variable (Y). Un índice de correlación (r) es un número entre -1.00 y +1.00 que describe la relación entre dos variables.
DIRECCIÓN DE LA RELACIÓN Correlación negativa No correlación Correlación positiva Cuando una variable sube la otra baja Cuando un cambio en una de las variables no afecta a la otra Cuando una variable sube, la otra también sube y viceversa Número negativo - Cero Número positivo + Máxima posible: 1 (o -1)
Correlación
Correlación Dispersigramas Correlación lineal Correlación no lineal
Correlación El índice de correlación de Pearson es el coeficiente más utilizado para estudiar el grado de relación lineal existente entre dos variables cuantitativas. A finales del siglo XIX, Sir Francis Galton introdujo el concepto de correlación. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros científicos biométricos.
Como una medida de asociación, la r está basada en la covarianza. Correlación Como una medida de asociación, la r está basada en la covarianza. Covarianza Correlación 𝑟 𝑥𝑦 = 𝑆 𝑥𝑦 𝑆 𝑥 𝑆 𝑦 𝑟 𝑥𝑦 = Covarianza de la variable X con Y = Correlación de la variable x con y = Diferencia de cada uno de los puntajes de X en relación con su media 𝑆 𝑥𝑦 = Covarianza de la variable x con y 𝑆 𝑥 = Desviación estándar de la variable x = Diferencia de cada uno de los puntajes de Y en relación con su media 𝑆 𝑦 = Desviación estándar de la variable y
Correlación Con puntajes estandarizados (zx zy) r = N - 1 Ejemplo 9.27 r = = 0.71 14 - 1 a) Dirección de la relación: Positiva b) Magnitud de la relación: de moderada a fuerte c) Una variable no causa la otra
7. Varianza explicada s = de2 Varianza: medida de la variabilidad de una variable, qué tanto se desvían de la media. Varianza total: Promedio de las desviaciones cuadradas de los puntajes respecto de la línea. SCtotal:Suma de cuadrados total Media
Varianza explicada Desviación del modelo Línea de mejor ajuste de mínimos cuadrados (con a y b) Calificación real Residual Calificación predicha Desviación del modelo Residual = Valor real - Valor predicho Media Desviación estándar Varianza Valores predichos Valores residuales
Varianza explicada + = Varianza de los valores predichos Varianza de los residuales = Varianza total Varianza no explicada por el modelo Varianza explicada por el modelo
Varianza explicada = = r Varianza de los valores predichos Proporción de la varianza de Y explicada por X = Varianza de los valores reales Proporción de la varianza de Y explicada por X = r