La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Construcción de modelos con regresión y correlación

Presentaciones similares


Presentación del tema: "Construcción de modelos con regresión y correlación"— Transcripción de la presentación:

1 Construcción de modelos con regresión y correlación
Miles, J. & Shevlin, M. Applying regression & correlation: a guide for strudents and researchers. Los Angeles: Sage. Cap. 1

2  Temas 1. Modelos 2. Modelo de mínimos cuadrados
3. Error estándar de la media 4. Modelamiento de relaciones 5. Modelo de regresión lineal a) La línea del mejor ajuste b) Utilización del modelo estimado para predecir c) Intervalo de confianza para β d) β estandarizado 6. Correlación 7. Varianza explicada

3 Representación parsimoniosa o simple de un fenómeno.
1. Modelos MODELO Representación parsimoniosa o simple de un fenómeno. Comúnmente, no es una representación perfecta.

4 Modelos en estadística
ENRIQUE PEÑA NIETO 1,72CM DATOS MODELO = 1.72 CON UN PARÁMETRO

5 Modelos DATOS = MODELO + ERROR = +

6 Modelos DATOS = MODELO + ERROR
Perfecta representación de los datos o parámetros. “Modelo perfecto” que no resume los datos = Duplicado Modelo ≠ Los datos PARÁMETROS: Números que integran el modelo

7 2. Modelo de mínimos cuadrados
MEDIA: Modelo simple Modelo de los datos en un parámetro. Con un solo número se obtiene una idea general del conjunto total de números.

8 Modelo de mínimos cuadrados
MEDIA Modelo con la menor probabilidad de error. Puntaje de una persona = Media +(-) error Modelo de mínimos cuadrados

9 Modelo de mínimos cuadrados
MEDIA Puntaje = Media +(-) error - X1 = e1 La diferencia entre el modelo y los datos es el error - X2 = e2 X3 = - e3 - ei Xi = i : la ecuación se repite para cada uno de los individuos. (Muchas veces se omite la i).

10 Modelo de mínimos cuadrados
DATOS = MODELO + ERROR 14 20 -6 15 -5 16 -4 23 3 25 5 34 RESIDUALES: Error o diferencia entre el puntaje predicho por el modelo y el puntaje obtenido

11 Modelo de mínimos cuadrados
14 20 -6 36 15 -5 25 16 -4 23 3 9 5 34 196 366 2 ( ) Cálculo del error total

12 Modelo de mínimos cuadrados
= Media del error al cuadrado por persona = 𝟑𝟔𝟔 𝟏𝟎 √ = Media del error Media de las desviaciones respecto de la media

13 Modelo de mínimos cuadrados
Desviación estándar (de, ds, sd, s): Medida de error Medida de qué tanto varían los puntajes respecto de la media

14 Modelo de mínimos cuadrados
¿Por qué la media es un modelo de mínimos cuadrados? Error (DE) Media Media verdadera Archivo de Excel

15 Modelo de mínimos cuadrados
DATOS = MODELO + ERROR Media Suma de los residuales al cuadrado Da el valor de error más bajo posible Estimador de mínimos cuadrados MEDIA: Método para modelar (resumir, describir) un conjunto de datos, que minimiza el error (desviación estándar).

16 3. Error estándar de la media
De la media de la población Estimación para la población Valor de los parámetros del modelo para la muestra Qué tan cerca está la media de la muestra

17 Error estándar de la media
Muchas muestras posibles, muchas medias posibles

18 Error estándar de la media
Distribución muestral de medias 100 muestras de 50 pacientes cada una Nivel de apego al tratamiento

19 Error estándar de la media
Sólo vemos una

20 Error estándar de la media
Desviación estándar de la distribución muestral = Error estándar de la media ES( ) = o

21 Error estándar de la media
IC: Intervalo de confianza 1 ES _ 68% 2 ES _ 95% 3 ES _ 99%

22 Error estándar de la media
Intervalo de confianza

23 Error estándar de la media
Intervalo de confianza Límite superior En tabla de puntajes Z: 90/2 = 45% Z para = 1.645 Límite inferior En tabla de puntajes Z: 99/2 = 49.5% Z para = 2.575

24 Error estándar de la media
Intervalo de confianza al 95% Datos: = 2 libros leídos ES = 0.23 95%: Z = 1.96 CI 95% = x ES CI 95% superior = 2 + (1.96 x 0.23) = 2.45 CI 95% inferior = 2 - (1.96 x 0.23) = 1.55 El número promedio de libros leídos por los estudiante en la siguiente muestra que tomemos de la población de la cual tomamos nuestra muestra (cuya media fue 2) será entre 1.45 a 2.55; sólo tendremos 5% de probabilidades de estar equivocados.

25 4. Modelamiento de relaciones
Interés: Modelar la relación entre 2 o más variables. Técnica: Análisis de regresión. Objetivo: Estimar en cuánto aumenta la calificación con cada libro leído.

26 Modelamiento de relaciones
x Inteligencia Y Actitud hacia el estudio 110 2.6 120 3.0 100 2.5 90 1.5 130 3.2 3.4 Actitud hacia el estudio Y Inteligencia X Estimar en cuánto se incrementa el puntaje de actitud con cada punto de inteligencia.

27 Modelamiento de relaciones
y = mx + c x, y: variables m: pendiente de la línea c: intercepto de y valor de y cuando x = 0 punto donde la línea cruza el eje de las x

28 Modelamiento de relaciones
Para representar una relación (lineal) entre dos variables se requieren dos parámetros y = mx + c y = a + bx m, c Permiten saber cómo es la línea que relaciona las dos variables a , b

29 5. Modelo de regresión lineal
Para variables que posiblemente están asociadas (X y Y) asumimos el modelo: Y = α + β·X + ε α y β son coeficientes desconocidos. X y Y son las variables que observamos. ε es la parte de Y que X no explica. Es el error aleatorio que define los valores de la vida real.

30 Análisis de regresión: Encontrar la línea de mejor ajuste
Regresión lineal Análisis de regresión: Encontrar la línea de mejor ajuste y = bx + c + e (x, y) ε Y = α + β·X + ε β α Y = α + βX c = b0 = a = α = intercepto y m = b = β = pendiente = línea de regresión

31 a) La línea del mejor ajuste
Encontrar la línea de mejor ajuste Estimación de los mínimos cuadrados de la línea Con un parámetro: Con dos parámetros: a y b

32 La línea del mejor ajuste
¿Qué tan cercanamente se ajusta cada una de las posibles líneas a los datos observados? Consumo de tabaco y pérdida de fijación dental (28 fumadores) Pérdida media de fijación dental (mm) Número de cigarros fumados por día (autorreporte)

33 La línea del mejor ajuste
Residuales: Distancias verticales de todos los puntos (x,y) a la línea. Error La línea de mejor ajuste se define como aquélla en la que la suma de los cuadrados de los residuales es mínima.

34 Ejemplo ¿Cuál es la asociación entre: Consumo de tabaco y
Pérdida de fijación dental?

35 Ejemplo Línea de ajuste de la asociación entre el consumo de tabaco (número de cigarros fumados por día) y la pérdida de fijación dental (en mm). N = 28 fumadores. Pérdida media de fijación dental (mm) Número de cigarros fumados por día (autorreporte)

36 Ejemplo: Pérdida de fijación dental y cigarros fumados por día
Consumo de tabaco y pérdida de fijación dental (28 fumadores) Pérdida media de fijación dental (mm) Número de cigarros fumados por día (autorreporte)

37 Ejemplo: Pérdida de fijación dental y cigarros fumados por día
α β Este resultado de SPSS dice que: a = 2.319, b = La línea de mejor ajuste es: Y = × X Nivel promedio de fijación dental Cigarros fumados por día

38 Ejemplo: Pérdida de fijación dental y cigarros fumados por día
Y = × X puede interpretarse como: “Cada cigarro fumado extra por día se asocia con una pérdida adicional de mm de fijación dental." También :“Cada paquete fumado al día (20 cigarros) se asocia con una pérdida adicional de × 20 = 1.34 mm de fijación dental."

39 La línea del mejor ajuste
α β Este resultado de SPSS dice que: a = 2.319, b = La línea de mejor ajuste es: Y = × X Donde Y = nivel promedio de fijación y X = cigarros fumados por día.

40 b) Utilización del modelo estimado para predecir
¿Qué nivel de fijación dental tendrá alguien que fuma 30 cigarros al día? La mejor estimación del nivel de pérdida de fijación dental promedio de las personas que fuman 30 cigarrillos / día es: Y = × X Y = (0.067 x 30) = mm

41 c) Intervalo de confianza para β
Un intervalo de confianza de 1-α para β es: IC = b ± 1.96 X ES b: Pendiente de la línea de regresión % de confianza: 95% ES: Error estándar Rango de valores entre los cuales es probable encontrar el valor verdadero de β (el de la población).

42 Intervalo de confianza para β
Ejemplo: Cigarros fumados por día y pérdida de fijación dental b = 0.067 IC Límite inferior: 0.001 SE = 0.032 IC Límite superior: 0.133 El intervalo de confianza de 95% para β es:

43 d) β estandarizado Problema!!
La estimación de β depende de la métrica utilizada. No es posible comparar con otros estudios. Solución Estandarizar las métricas, utilizar puntaje z. Ya se pueden hacer comparaciones, independientemente de cómo se hayan medido la variables.* *Sólo en regresión múltiple, no en regresión múltiple.

44 Puntajes estandarizados
Estandarización Puntajes originales o brutos X Puntajes estandarizados Z Puntaje Z: Número de desviaciones estándar en el que se encuentra ubicado un puntaje en relación con la media de la distribución. En SPSS: Analizar – Descriptivos – Guardar valores tipificados como variables

45 Distribución de puntajes Z
β estandarizado Distribución de puntajes Z Distribución de puntajes estandarizados Z Distribución de puntajes originales o brutos X Media = 0 Desviación estándar = 1

46 β estandarizado Puntaje Z De X a Z De Z a X Puntaje X

47 β estandarizado % Z Z % % Z Tabla de Z
Los estadísticos han construido tablas que indica el valor de estas proporciones para cada posible puntaje Z. % Z Z % % Z Calculadoras electrónicas de puntajes Z y áreas bajo la curva:

48 β estandarizado Con variables estandarizadas: el intercepto (a) siempre será cero. Si se elimina, el modelo queda más sencillo. Lo que importa es la pendiente (b). Un incremento en una unidad en el eje de las X se asocia con un incremento de ___ en el eje de las Y. B estandarizado = .49

49 β estandarizado b estandarizado = r ¡¡¡Sorpresa!!!
Casi todas las pruebas estadísticas se basan en principios similares y están muy relacionadas entre sí.

50 6. Correlación Cuantificación lineal de la relación entre dos variables. Cuantificación porque convierte la relación en un número. Mientras más fuerte sea la relación, mayor será el valor absoluto de la correlación. Lineal porque asume que la relación forma una línea recta. Entre dos variables porque describe qué tanto cambia una variable (X) dado un cambio en una segunda variable (Y). Un índice de correlación (r) es un número entre y que describe la relación entre dos variables.

51 DIRECCIÓN DE LA RELACIÓN
Correlación negativa No correlación Correlación positiva Cuando una variable sube la otra baja Cuando un cambio en una de las variables no afecta a la otra Cuando una variable sube, la otra también sube y viceversa Número negativo - Cero Número positivo + Máxima posible: 1 (o -1)

52 Correlación

53 Correlación Dispersigramas Correlación lineal Correlación no lineal

54 Correlación El índice de correlación de Pearson es el coeficiente más utilizado para estudiar el grado de relación lineal existente entre dos variables cuantitativas. A finales del siglo XIX, Sir Francis Galton introdujo el concepto de correlación. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros científicos biométricos.

55 Como una medida de asociación, la r está basada en la covarianza.
Correlación Como una medida de asociación, la r está basada en la covarianza. Covarianza Correlación 𝑟 𝑥𝑦 = 𝑆 𝑥𝑦 𝑆 𝑥 𝑆 𝑦 𝑟 𝑥𝑦 = Covarianza de la variable X con Y = Correlación de la variable x con y = Diferencia de cada uno de los puntajes de X en relación con su media 𝑆 𝑥𝑦 = Covarianza de la variable x con y 𝑆 𝑥 = Desviación estándar de la variable x = Diferencia de cada uno de los puntajes de Y en relación con su media 𝑆 𝑦 = Desviación estándar de la variable y

56 Correlación Con puntajes estandarizados (zx zy) r = N - 1 Ejemplo
9.27 r = = 14 - 1 a) Dirección de la relación: Positiva b) Magnitud de la relación: de moderada a fuerte c) Una variable no causa la otra

57 7. Varianza explicada s = de2
Varianza: medida de la variabilidad de una variable, qué tanto se desvían de la media. Varianza total: Promedio de las desviaciones cuadradas de los puntajes respecto de la línea. SCtotal:Suma de cuadrados total Media

58 Varianza explicada Desviación del modelo
Línea de mejor ajuste de mínimos cuadrados (con a y b) Calificación real Residual Calificación predicha Desviación del modelo Residual = Valor real - Valor predicho Media Desviación estándar Varianza Valores predichos Valores residuales

59 Varianza explicada + = Varianza de los valores predichos
Varianza de los residuales = Varianza total Varianza no explicada por el modelo Varianza explicada por el modelo

60 Varianza explicada = = r Varianza de los valores predichos
Proporción de la varianza de Y explicada por X = Varianza de los valores reales Proporción de la varianza de Y explicada por X = r


Descargar ppt "Construcción de modelos con regresión y correlación"

Presentaciones similares


Anuncios Google