La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Master Intervención Psicosocial

Presentaciones similares


Presentación del tema: "Master Intervención Psicosocial"— Transcripción de la presentación:

1 Master Intervención Psicosocial

2 Análisis de la regresión

3 Modelos de análisis estadístico
I. Conceptos básicos. II. Regresión múltiple

4 Parte I. Conceptos básicos

5 Análisis estadístico En un sentido amplio, se refiere a todos los métodos que describen las relaciones que se dan entre diversas variables o dimensiones de variación.

6 Modelos de análisis estadístico y diseño de estudio

7 Conceptos básicos Datos: observaciones realizadas de los individuos o grupos de individuos Escalas de medida: no métricas (nominales y ordinales) y métricas (intervalos y de razón) Diseños: estrategias de recogida de datos Estrategia del diseño: transversal o longitudinal Modelos de análisis: sistemas o ecuaciones que permiten inferir el tipo de relación entre los datos Clases de relaciones: asociativas y causales

8 A propósito de los datos (1)

9 Elaboración de datos Observación Escala Dato científico
directa de medida o valor numérico La conversión de una observación directa en un dato científico se realiza mediante la aplicación de una adecuada escala de medida.

10 Reunión de datos Sistemas de reunión de datos Tablas Gráficos

11 Tablas Las tablas se usan en los informes científicos para resumir los datos u otra información que no puede ser presentada de forma conveniente en la narrativa del texto.

12 Acerca de las tablas Las tablas deben tener un título que informe claramente sobre su contenido como por ejemplo preferencias del partido político. Las tablas estadísticas deberían informar también sobre el número de observaciones que se incluyen (frecuencia). La parte superior de la columna del lado izquierdo de la tabla es referida como título de filas e informa sobre el contenido de las fila. El cuerpo de la tabla contiene los datos de interés. En el ejemplo propuesto se muestra el número de individuos que prefieren un partido político //..

13 Las tablas que se refieren a una sola variable son conocidas por representaciones univariadas y las que informan sobre dos variables, representaciones bivariadas. En la representaciones bivariadas una variables está asociada a las filas y la otra a las columnas y se conocen, también, por tablas de contingencia. Ejemplo de tabla bivariada que relaciona preferencia de un partido político y afiliación religiosa (en paréntesis están los porcentajes).

14 Ejemplos (tablas)

15 Ejemplos (tablas)

16 Gráficos Con los gráficos se consigue una representación visual de los datos, por lo que es un procedimiento útil a la investigación. Los gráficos captan mejor la atención del lector, permite clarificar los resultados y facilitar su interpretación

17 Histograma de frecuencias o gráfico de barras
El histograma de frecuencias es un gráfico que muestra la distribución de frecuencias de una variable de intervalo. El eje horizontal del histograma o gráfico de barras presenta los intervalos y el eje vertical la cantidad de puntuaciones de cada intervalo (frecuencia). La altura de la barra indica la frecuencia de casos de cada categoría. El gráfico siguiente muestra la cantidad de amigos reportados por estudiantes de un College americano //..

18 Cantidad de amigos reportados por estudiantes de un College

19 En el segundo ejemplo, se muestra un gráfico de barras sobre el efecto de dos drogas antiansiolíticas. Se trata de una escala nominal y la diferencia entre el primer y segundo panel estriba en la forma de representar las unidades en el eje vertical (unidades pequeñas en el primer panel y punto cero y unidades grandes en el segundo). Nótese que la gran diferencia entre las dos drogas que se observa en el primer panel y que desaparece en la segunda representación.

20 Efectos de dos psicofármacos sobre la ansiedad

21 Polígono de frecuencias
Es una forma alternativa de representa el histograma de frecuencias. Así, en lugar de barras se utilizan líneas que conectan las frecuencias de los intervalos de clase. En el ejemplo siguiente se muestra la misma información sobre la cantidad de amigos, pero utilizando el sistema de líneas y no de barras. De igual modo, se tiene el gráfico de la cantidad de divorcios al aprobarse correspondiente ley en el Estado de Nebraska.

22 Cantidad de amigos reportados por estudiantes de un College

23 Cantidad de divorcios antes y después de su promulgación en el Estado de Nebraska

24 Escalas de medida y datos (2)

25 Cuantificación de las variables
Las variables se cuantifican al asignar valores numéricos a los atributos o características de los individuos, objetos y hechos de acuerdo a reglas. El proceso de asignación de los números de acuerdo a reglas se denomina medida.

26 Escalas de medida Las reglas particulares de asignación de números a las variables se definen como escalas de medida. Clasificación: Nominal Ordinal débiles Escalas De intervalo De razón fuertes

27 Escalas de medida Nominal 1 = varón 2 = hembra Ordinal De intervalo
De intervalo De razón

28 Ejemplos de escalas Nominal los valores sólo representan categorías o nombres (género, raza, religión, etc.) Ordinal los valores representan el orden en función del grado como actitud, preferencia, etc. De intervalo la distancia entre los valores se mantiene constante como la temperatura, respuestas correctas, etc. De razón cuando además de la constancia del intervalo hay un valor cero que coincide con la ausencia del atributo.

29 Escalas y naturaleza de los datos
Escala Tipo Dato Nominal Cualitativa No-paramétrico Ordinal Cuantitativa No-paramétrico De intervalo Cuantitativa discreta Paramétrico De razón Cuantitativa continua Paramétrico

30 Naturaleza de los datos y prueba estadística
Datos de escala Prueba estadística Nominal Prueba Ordinal no paramétrica De intervalo Prueba no paramétrica y De razón paramétrica

31 Variable dependiente Datos métricos o gaussianos
Datos no métricos o no gaussianos

32 En torno a los diseños (3)

33 Concepto de diseño El diseño es una estrategia particular de recogida de datos y es función de los objetivos o hipótesis propuestos. Los diseños son transversales y longitudinales, según la no presencia o presencia de la dimensión temporal en el estudio.

34 A modo de resumen ¿Cuál es la relación entre diseño (estudio) matriz de datos y modelo de análisis? ¿Cuál es la estructura de cualquier investigación científica?

35 Estructura de la investigación en ciencias sociales
Diseño Datos Modelo análisis Problema Estadístico Hipótesis Estimación Variables Inferencia Modelo de escala

36 A modo de resumen Se ha visto la secuencia entre las tres fases o momentos de una investigación: diseño, datos y análisis. Es importante conocer la estructura del diseño, así como los distintos procedimientos o tipos de investigación

37 Estructura del diseño (4)

38 Tipología del diseño de investigación
Diseños observacionales Diseños correlaciones o predictivos (estudios de encuesta) Diseños cuasi-experimentales Diseños experimentales

39 Naturaleza de los datos (variable dependiente)
Datos métricos o cuantitativos (de distribución gaussiana o normal) Datos no métricos o categóricos (de distribución no-gaussiana)

40 Estrategia del diseño y modelo de análisis Diseños experimentales y cuasi-experimentales

41 Diseño Datos cuantitativos Estrategia Datos cualitativos ANOVA Transversal Longitudinal TC Grupos Medidas AR paralelos repetidas Modelo log-lineal Factorial Cross-over MANOVA Regresión Medidas Antes-después logística repetidas Cohortes Factorial mixto Split-plot

42 Diseños no experimentales
En el contexto no experimental (experimento verdadero y cuasi-experimentales) los diseños suelen ser observacionales y correlacionales. Los diseños correlacionales se basan en el análisis de múltiples variables con el propósito de estimar la magnitud de cambio entre ellas.

43 Sigue… El objetivo es poder predecir la variable dependiente a partir de la o las variables predictoras o independientes. También se pretende explicar la proporción de variación de la variable dependiente por la o las variables independientes.

44 Modelos de análisis estadísticos (5)

45 ¡Cuestión! Una vez recogidos los datos, ¿qué hacer con ellos?
A esta cuestión cabe responder lo siguiente: los datos se analizan de acuerdo con modelos estadísticos adecuados a fin de derivar consecuencias teóricamente interpretables; es decir, se obtienen resultados que han de ser interpretados.

46 El modelo lineal general

47 Modelo estadístico general
Y = f(X) + g(E) V.Dep Parte fija Parte aleatoria

48 Concepto El modelo estadístico, o ecuación de carácter lineal, asume que una observación Y es el resultado de la combinación aditiva de alguna función f de variables fijas y de alguna función g de componentes aleatorios, y que tanto f como g pueden tomar parámetros conocidos o desconocidos //..

49 continuación Considerada esta ecuación como un modelo estadístico general, se tiene que cualquier observación es la suma de dos partes o componentes: una parte fija o determinista, f(X), y una parte aleatoria desconocida, g(E).

50 Clases de relaciones entre variables o hipótesis (6)

51 Clases de hipótesis Asociativa Hipótesis Causal

52 Los valores de la variable X covarían con los valores de la variable Y
Hipótesis asociativa X Y Los valores de la variable X covarían con los valores de la variable Y

53 Ejemplos (hipótesis asociativas)
a) Hay una correlación entre el estilo de dirección y la moral de los empleados b) La visualización de los dibujos animados está asociado con el comportamiento agresivo de los niños. c) La percepción de culpabilidad o inocencia de los acusados está asociada a los argumentos legales //..

54 d) El consumo de heroína es función de la clase social.
e) El consumo de tabaco está positivamente relacionado con el nivel de alerta en sujetos humanos. g) Los niños sensibles al ritmo progresan más en el aprendizaje de lectura.

55 Hipótesis causal X Y Los valores de la variable X determinan los valores de la variable Y

56 Ejemplos (hipótesis causales)
a) Leer dos veces una lista de ítems favorece su recuerdo. b) La intensidad de un estímulo determina una respuesta de discriminación más rápida. c) A mayor incentivo más rápido es el aprendizaje de una actividad académica. ..//..

57 d) El castigo genera respuesta de evitación.
e) La frustración es causa de conductas agresivas. f) El nivel de alerta aumenta la efectividad del rendimiento escolar. g) El ejercicio aumenta el rendimiento en una actividad motora.

58 Contextos de las hipótesis
Hipótesis Contexto científico asociativas correlacional causales de manipulación

59 Universo de las hipótesis
Hipótesis de investigación Hipótesis estadística

60 Hipótesis de investigación
Se plantean por intereses teóricos o sustantivos Definen cómo se relacionan las variables Suelen ser asociativas y causales

61 Hipótesis estadísticas
Las hipótesis estadísticas se establecen mediante características de las poblaciones de origen. Las poblaciones de origen están definidas por parámetros, que son valores de la distribución fijos pero desconocidos. Los parámetros poblacionales se asemejan a los estadísticos de muestra y se estiman a partir de estos últimos.

62 continuación Mediante los datos de muestra podemos aceptar o rechazar, con cierto grado de confianza determinado numéricamente, una hipótesis hecha sobre una población determinada. Tal proceso se conoce como contraste de hipótesis estadísticas o prueba de significación estadística.

63 Prueba de hipótesis estadística
En investigación social, interesa más los parámetros asociados a la parte fija del modelo estadístico porque representan la magnitud de un cambio (grado de asociación entre las variables) o el efecto causal (el impacto de una variable sobre otra). De ahí, el propósito de cualquier prueba de hipótesis es determinar el nivel de significación de estos parámetros.

64 Hipótesis estadística sobre un parámetro individual
H0: parámetro = 0 H0: β = 0

65 O bien, sobre los parámetros del modelo
En el modelo de la regresión múltiple, se asume que los distintos coeficientes (pendientes) son cero: H0: b1 = b2 = … = p = 0

66 en consecuencia, Si se demuestra, como resultado de la prueba, que
H0: bi = 0, entonces no hay relación lineal entre la variable Xi e Y. En caso contrario, se tiene H1: bi ≠ 0, se infiere que hay una relación lineal entre ambas v ariables.

67 Hipótesis nula: H0 En teoría estadística se asume, inicialmente, la no significación de los parámetros, siendo este supuesto la hipótesis que se somete a prueba y es conocida por hipótesis nula (H0). Si se demuestra que este supuesto no es aceptable, se recurre a la hipótesis alternativa (H1) como la explicación más plausible de los datos.

68 Prueba de la hipótesis estadística o prueba de significación
La prueba de significación estadística contrasta la hipótesis de nulidad con los datos del estudio. A partir del resultado de la prueba de significación, se procede a la toma de decisiones estadísticas. El resultado de la prueba consiste, de forma sucinta, en la aceptación o no de la hipótesis de nulidad que asume la no-relación entre la variable independiente (predictora) y la variable dependiente (criterio) //..

69 Cabe matizar, no obstante, que entre la variable independiente y dependiente pueden darse relaciones de asociación o de causalidad, de modo que la posible implicación de una variable sobre otra depende del diseño utilizado (correlacional o experimental). La relación de asociación es la magnitud de cambio que se da entre dos variables, mientras que la relación de causalidad es el tamaño del impacto de una variable sobre otra.

70 Inferencia de la hipótesis de nulidad
La inferencia de la hipótesis nulidad nos lleva a aceptar que la variable independiente no está relacionada con la dependiente (inferir su efecto). En caso contrario, se toma la decisión en favor de un modelo alternativo asumiendo, como explicación más plausible (no exenta de riesgo), el modelo de una relación efectiva entre ambas variables //..

71 Al tomar esta decisión, se corre el riesgo de que sea falsa
Al tomar esta decisión, se corre el riesgo de que sea falsa. Este riesgo se define, en teoría estadística, en términos de probabilidad y es conocido por nivel de significación. El nivel de significación describe el grado de credibilidad que merece la hipótesis considerada.

72 Errores en el rechazo o aceptación de H0
Situación actual de la H0 Decisión Verdadera Falsa Rechazo H Error Tipo I No error Aceptación H No error Error Tipo II

73 Error Tipo I y error Tipo II
A) Error Tipo I o decisión positiva falsa se comete al rechazar la hipótesis de nulidad cuando es verdadera; es decir, cuando se toma una decisión positiva, en favor de la existencia de un efecto cuando en realidad no existe (falsa alarma). La probabilidad de cometer este error es el nivel de significación o valor α de la prueba estadística //..

74 B) Error Tipo II o decisión negativa falsa se comete cuando la prueba lleva a la aceptación de una hipótesis de nulidad falsa. Se trata de no aceptar el hecho de un efecto de la variable independiente cuando en realidad ocurre. El error de Tipo II se define por la probabilidad β y está asociado inversamente con la probabilidad α y directamente con la potencia de la prueba.

75 Decisión estadística y error
Resultado Probabilidad Decisión de la prueba de azar estadística α = 0.05 Significativo p < α NA(H0) H0 No significativo p > α A(H0)

76 Inferencia de H0 Probabilidad 1 Región de de azar decisión
Si p > A(H0) α = 0.05 Si p < NA(H0)

77 Sobre la discusión de los resultados

78 Concepto Las actividades propias de la discusión de los resultados son las siguientes: a) Inferir a partir de la prueba estadística las consecuencias de carácter teórico. b) Interpretar estas consecuencias a la luz de las hipótesis formuladas c) Establecer el alcance de los resultados mediante la generalización de los mismos

79 Inferencia teórica de la hipótesis
Supongamos que la prueba de la hipótesis estadística nos lleva a no aceptar la hipótesis de nulidad. En este caso, se suele inferir, como la más adecuada, la hipótesis alternativa que coincide con la hipótesis de trabajo o investigación. Está claro que esta inferencia está sujeta a un riesgo de error (definido en términos de probabilidad).

80 Interpretación de los resultados
Las actividades propias de la interpretación de los resultados son: a) Examinar y explicar los datos por la hipótesis de investigación. b) Extraer los contenidos científicamente significativos. c) Interpretar los resultados en términos de hipótesis alternativas o rivales.

81 Generalización de los resultados
En la generalización se evalúa el alcance de los resultados, es decir, para qué poblaciones son vigentes los supuestos teóricos probados. La generalización de los resultados suele realizarse, por lo común, con la población de sujetos.

82 Parte II. Modelos de la regresión múltiple y otros

83 Regresión múltiple Modelos de la Regresión múltiple Lineal No Lineal
V. Dummy Interac. Polinó-mica. Raíz Cuadrada Log-lineal Recípro-ca Expo-nencial

84 Modelo lineal de la regresión múltiple
El modelo lineal de la regresión es un caso especial Modelo Lineal General. De este modo, el componente determinista (parte fija del modelo) está formado por un conjunto de variables objeto de estudio en la investigación (predictores) y el componente aleatorio por un término de error (falta de ajuste) //..

85 El análisis de la regresión múltiple es utilizado cuando se pretende predecir una variable dependiente continua de un conjunto de variables independientes (predictores). Cuando la variable dependiente es dicotómica, se aplica, en este caso, la regresión logística . Las variables independientes usadas en la regresión pueden ser cuantitativas o cualitativas (dummy) //..

86 Por lo general, el análisis de la regresión múltiple utiliza variables que son propias de los contextos naturales, en oposición a variables que son manipuladas experimentalmente, aunque es posible utilizar la regresión con esta clase de variables //..

87 Cabe tener en cuenta, por último, que con el análisis de la regresión (en sentido estricto) no pueden inferirse relaciones causales entre las variables. Por lo general, la terminología es la siguiente: X predice a Y, y no puede decirse que X causa a Y.

88 Modelo de la regresión simple
Y = b0 + b1X1 + e Observación Parte fija Parte aleatoria (determinista) (error)

89 Descripción En el modelo de la regresión simple, Y denota la variable dependiente (criterio), X la variable explicativa, ‘b0’ es el intercepto, ‘b1’ (la pendiente) denota el parámetro estimado de la variable X y ‘e’ es el término de error aleatoriamente distribuido. Constituye, con el modelo de la regresión múltiple, uno de los modelos más utilizados en ciencias sociales.

90 Representación del modelo en forma condensada
Y1 = b0 + b1X11 + e1 Y2 = b0 + b1X21 + e2 Yn = b0 + b1Xn1 + en y = Xβ ε (forma matricial compacta)

91 Modelo de la regresión múltiple
Y = b0 + b1X1 + b2X bpXp + e Forma simplificada: Y = b0 + ΣpbpXp + e

92 Modelo de la regresión múltiple
Expresa un modelo de la regresión de p variables como una serie de ecuaciones. Las p ecuaciones agrupadas en un sistema nos dan el modelo lineal general familiar. Los coeficientes  son conocidos como coeficientes de la regresión parciales.

93 Representación del modelo en forma condensada
Y1 = b0 + b1X11 + b2X bpXp1 + e1 Y2 = b0 + b1X12 + b2X bpXp2 + e2 Yn = b0 + b1X1n + b2X2n bpXpn + en y = X  ε

94 Modelos de la regresión de p variables
1 - Intercepto 2p - Coeficientes de pendiente parciales de la regresión i - Término residual asociado con Ia ‘i’ observación

95 Supuestos del modelo de la regresión
Normalidad Linealidad Homoscedasticidad Multicolinealidad y singularidad

96 Normalidad En principio, cabe pensar que los datos tienen una distribución normal. Es posible verificar este supuesto, construyendo histogramas y comprobando la distribución de los datos. A veces, en los histogramas se incluye una línea que representa la forma de la distribución con la que es posible comprobar si la distribución de los datos de desvía de esta línea.

97 En otras palabras… Los valores de la variable dependiente son normalmente distribuidos para cada posible combinación de los niveles de las variables X.

98 Distribución normal de la variable edad

99 Linealidad Se asume una relación lineal recta entre las variables independientes y la dependiente. En la práctica, este supuesto no suele verificarse, dado que los procedimientos de regresión múltiple no suelen ser gravemente afectados por leves desviaciones de este supuesto. Si la curvatura de la relación es evidente, se pueden transformar las variables o recurrir de forma explícita a componentes no lineales.

100 Definición de modelo lineal
Los modelos en que todos los parámetros (b0,b1,…,bp) tienen exponentes de uno se denominan modelos lineales. Los modelos cuyos parámetros (b0,b1,…,bp) tienen exponentes con valores distintos de la unidad se denominan modelos no-lineales.

101 Línea de ajuste del peso a la altura
libras/pulgadas

102 Líneas de Regresión (línea de mejor ajuste)

103 Cambio en la línea de mejor ajuste

104 Los supuestos de normalidad, linealidad y homoscedasticidad pueden ser examinados al inspeccionar el gráfico de dispersión con los valores predichos de Y (Ŷ ) en el eje X y los residuales (Y-Ŷ) en el eje Y.

105 Homoscedasticidad Las variancias de los valores de la variable dependiente (datos del estudio), para cada posible combinación de niveles de la variable X, son iguales; es decir, la variancia de los residuales es constante.

106 Multicolinealidad La multicolinealidad significa que las variables independientes están correlacionadas. Supóngase que la altura de una persona tiene dos predictores: peso en libras y peso en kilos. Estos dos predictores son redundantes, ya que el peso es único independiente de si se mide con libras o kilos //..

107 Cuando ocurre esto significa que al menos una de las variables predictoras es totalmente redundante con otras. Los indicadores estadísticos de este fenómeno es conocido por tolerancia.

108 Relación entre variables independientes
De tolerancia: el grado en que un predictor puede ser predicho por otros predictores. La tolerancia es igual a 1 cuando las variables independientes no están relacionadas.

109 Singular: De igual modo, la relación es singular cuando un predictor es perfectamente predecible de otros predictores (tolerancia igual a cero).

110 Resumen supuestos del modelo
Normalidad - Y valores son normalmente distribuidos por cada X - La distribución de probabilidad del error debe ser normal Homoscedasticidad (variancia constante) E(σi2) 90

111 Sigue… Independencia de errores E(eiej)=0 (i ≠ j) Linealidad
Las variables independientes son medidas sin error No debe darse una relación lineal exacta entre cualquier subconjunto de variables explicativas (perfecta multicolinialidad)

112 Otros modelos

113 Modelos con variables dummy (categóricas) y de interacción

114 Variables dummy Las variables ‘dummy’ (ficticias) se refieren a las dimensiones en que se tienen en cuenta dos valores o categorías. Por lo general, se utilizan los valores 0 y 1 para representar una categoría u otra de la variable (por ejemplo género).

115 Diseño experimental En el diseño experimental, las variables independientes suelen ser categóricas y, a veces, dummy. Suelen recibir el nombre de variables de tratamiento. El objetivo es comparar las medidas de los grupos de tratamiento. Se utiliza el modelo estadístico ANOVA.

116 Modelos con componentes no aditivos o interactivos
Y = b0 + b1X1 + b2X2 + b12X1X2 + e Y = b0 + Σj bjXj + ΣjΣk bjkXjXk + e

117 Modelos no lineales Modelos cuyas variables tienen exponentes, como por ejemplo, los modelos polinómicos, exponenciales, etc.

118 Modelos polinómicos no lineales
Y = b0 + b1X1 + b2X1² bkX1k + e

119 Modelo de dos variables, k = 2
Y = b0 + b1X1 + b2X2 + b11X1² + b22X2² + b12X1X2 + e Forma simplificada: Y = b0 + Σj bjXj + Σj bjjXj² + ΣjΣk bjkXjXk + e

120 ¡Cuestión! Hemos presentado un conjunto de modelos estadísticos basados en la regresión simple y múltiple (lineal y no lineal). La cuestión que se nos plantea es la siguiente: ¿Dados unos datos, cómo se procede para ajustar un modelo estadístico?

121 Proceso de ajuste del modelo estadístico
Selección del modelo Estimación de parámetros Inferencia estadística

122 Pasos para el ajuste

123 Selección (1)

124 Selección del modelo El modelo de la regresión se selecciona teniendo en cuenta: a) la naturaleza de la variable dependiente b) cantidad de variables independientes o explicativas (su estatus teórico) //..

125 c) Si la variable dependiente es cuantitativa de distribución normal, se aplica la regresión lineal. Si la variable dependiente es categórica, entonces la alternativa es la regresión logística. d) Cuando se tiene una sola variable independiente, el modelo de la regresión es simple. Con dos o más variables explicativas el modelo de la regresión es múltiple.

126 Estimación de parámetros (2)

127 Parámetros del modelo Sea el modelo: Yi = bo + b1X1 + b2X2+ e
Los parámetros a estimar son: b0 = intercepto o constante b1 = efecto asociado a la primera variable X b2 = efecto asociado a la segunda variable X 2e = variancia del error o residual //..

128 b1 se interpreta como un cambio en Y por 1 unidad de cambio de X1, siendo X2 constante. Este enunciado no es muy claro cuando X1 y X2 no son independientes. Malentendido 1: ‘bj’ siempre mide el efecto de Xj sobre E(Y), independiente de otras variables X. Malentendido 2: un valor ‘b’ significativo estadísticamente establece una relación de causa y efecto entre X e Y.

129 Resumen: interpretación de los parámetros o coeficientes
Constante ‘b0’: Intercepto o valor promedio de Y cuando todas las Xj = 0. Pendiente ‘bj’: Cambios estimados de Y por cada 1 unidad de cambio en Xj. Siendo todas las otras variables constantes.

130 ¡Cuestión! Dada la importancia que tienen, para el ajuste el modelo y la interpretación de los resultados, los parámetros o coeficientes, cabe distinguir entre los coeficientes ‘b’ (no estandarizados) y los coeficientes ‘’ (beta o estandarizados) //..

131 El coeficiente ‘b’ es el cambio esperado en Y por cada unidad de cambio en Xj, cuando el resto de variables están controladas. El coeficiente ‘’ es el cambio esperado en Y en unidades de desviación estándar por cada unidad estándar de cambio en Xj, cuando el resto de variables están controladas.

132 A propósito de la interpretación de los coeficientes
Los parámetros ‘b’ tienen la ventaja de que se interpretan en unidades de medida originales. Los coeficientes ‘’ son directamente comparables en cuanto a su importancia en la variable Y. No pueden ser interpretados en la escala de medida original //..

133 Ejemplo de ‘’ El valor beta es una medida de la intensidad con cada predictor influye en la variable criterio. Es medida en unidades de desviación estándar. Así, un valor beta de 2.5 indica que un cambio en una unidad estándar del predictor resulta un cambio de 2.5 unidades estándar en la variable criterio.

134 Inferencia y significación estadística (3)

135 Pasos a seguir en la evaluación del modelo
Una vez se ha especificado el modelo de la regresión, se necesita conocer en qué medida se ajusta a los datos. En primer lugar, probaremos el ajuste del modelo global de la regresión. Luego, probamos la significación de cada variable independiente.

136 Evaluación del modelo de la regresión múltiple
Medidas de variación Pruebas de significación

137 Medidas de variación

138 Coeficiente de determinación múltiple (R2)
Proporción de variación en Y ‘explicada’ por todas las variables X tomadas en su conjunto. Jamás decrece cuando una nueva variable X es introducida en el modelo. La prueba de R2 = 0 expresa que todas las variables X, de forma conjunta, no explican la variación de Y.

139 Prueba de significación global del modelo

140 Ejemplo práctico (datos simulados)
Supongamos que se pretende estudiar el impacto que sobre un Cuestionario de Satisfacción Vital tienen las siguientes variables: Edad Ingresos Cantidad hijos Salud

141 Pruebas de significación
En el contexto de la regresión pueden seguirse, como se ha indicado, dos estrategias de prueba: a) Prueba del modelo completo, con todos los coeficientes. Para ello se usa el coeficiente de determinación (R2) mediante el estadístico F. b) Prueba de los coeficientes individuales de la regresión con el estadístico t.

142 c) Cabe también la posibilidad de probar un subconjunto de variables independientes o modelos parciales.

143 Estadísticos para la prueba del modelo total (a)
Para conocer el grado de ajuste del modelo se utilizan dos estadísticos: R2 (coeficiente de determinación) y R2 ajustado. R2: indica la proporción de variación en la variable criterio (y) explicada por el modelo. En suma, es un medida de la bondad de la predicción de la variable criterio por las variables predictoras //..

144 R2 ajustado: el coeficiente de determinación tiende, en cierto modo, a sobre-estimar la bondad del modelo cuando se aplica al mundo real. Por ello, se calcula el coeficiente de determinación ajustado que tiene en cuenta el número de variables del modelo y el número de observaciones (participantes) en que se basa el modelo. Inconvenientes de R2: no sirve para comparar modelos.

145 R2 ajustado Dicho de forma más simple:
El coeficiente de determinación R2 es sensitivo a la magnitud de la muestra (n) y a la cantidad de variables independientes o regresores (p) con muestras pequeñas. Si p es grande en relación a n, el modelo tiende a ajustarse muy bien. Una medida mejor de bondad de ajuste es calculada como sigue:

146 cálculo n -1 R2 ajustado= 1 - (--------------)(1-R2) n – p – 1
Ventajas: refleja el tamaño de muestra y la cantidad de variables independientes; sirve para comparar modelos

147 Coeficiente de determinación múltiple (R2)
Proporción de variación en Y ‘explicada’ por todas las variables X tomadas conjuntamente. El estadístico R2 mide la contribución total de las X’s.

148 Prueba de R2 Se ha señalado que cuando se prueban todos los coeficientes de la regresión, se utiliza el coeficiente de determinación. En este caso, se prueba si hay una relación lineal entre la variable criterio y las variables independientes o predictores del modelo.

149 Hipótesis a probar: H0: 1=… k= 0 H1: al menos un parámetro es no cero, k ≠ 0 Puesto que no hay un forma de distribución de probabilidad para el estadístico R2, se utiliza en su lugar el estadístico F (ANOVA aplicado a la regresión).

150 ¿Qué tipo de prueba ha de usarse?
La distribución utilizada se denomina distribución de Fisher. El estadístico F es utilizado con esta

151 Curva de la distribución de F
reject H0 F,v ,v 1 2 Area = 

152 Prueba de significación total Ejemplo hipotético
H0: 1 = 2 = … = p = 0 H1: Al menos una I  0  = .05 gl= 4 y 14 Valor crítico: Prueba estadística: Decisión: Conclusión: F 23.751 Rechazo con  = 0.05  = 0.05 Hay evidencia de que al menos una variable independiente afecta a Y F 3.11

153 Prueba de los coeficientes de la regresión individuales (b)
Siguiendo los pasos del programa SPSS: 1.Se calculan los coeficientes no estandarizados 2. Se calcula el error estándar de estos coeficientes 3. Se calculan los coeficientes beta 4. Se calcula la t de los coeficientes no estandarizados 5. Se obtiene la significación estadística de las t

154 Significación individual de los coeficientes o parámetros no estandarizados

155 Pruebas de hipótesis de los parámetros estimados ‘’
Prueba de una cola Prueba de dos colas H0: j = H0: j = 0 H1: j > 0, o j < H1: j ≠ 0 La prueba es de una cola o dos según se tenga una hipótesis unidireccional o bidireccional (no importan que el valor del estadístico sea mayor o menor que cero). ..//..

156 Prueba estadística: Se utiliza la t de Student: el valor estimado del parámetro partido por su error estándar. Región de rechazo de H0: to > t (o to < t) |to| > t/2

157 Sea, por ejemplo, el siguiente modelo
Y = 0 + 1X1 + 2X2 + 3X3 + 4X4 + e

158 Prueba de H0: bi = 0 H0: 1 = 0 (X1 no contribuye)
H1: 1 ≠ 0 (X1 contribuye) H0: 2 = 0 (X2 no contribuye) H1: 2 ≠ 0 (X2 contribuye) H0: 3 = 0 (X3 no contribuye) H1: 3 ≠ 0 (X3 contribuye)

159 Sigue… H0: 4 = 0 (X4 no contribuye) H1: 4 ≠ 0 (X4 contribuye)

160 Pruebas estadísticas . b1 sb1 rechazar Ho if |t| > t ./2,n-k-1 t =
bi - t/2,n-k-1sbi to bi + t/2,n-k-1sbi (1- ) 100% Intervalo de confianza

161 Significación coeficientes individuales
El único parámetro estadísticamente significativo es el asociado a la Variable Ingresos.

162 t Test : Ejemplo hipotético
Test con un  = 0.05. H0: 2 = 0 H1: 2  0 gl = Valores críticos: Prueba estadística: Decisión: Conclusión: t Test Statistic = 3.491 Reject H0 at  = 0.05 Rechazo H Rechazo H .025 .025 Hay evidencia de un efecto significativo. Z -2.145 2.145

163 Intervalos de confianza
Algunos autores prefieren los intervalos de confianza a la prueba t. El Intervalo de confianza se refiere al intervalo que, a un cierto nivel de confianza, contiene al parámetro estimando. Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del parámetro.

164 El cálculo es como sigue:
b ± t(/2, g.l.)sb Donde t es el valor de t tabulado para /2, con los grados de libertad asociados a la SCR (g.l. de la Suma de Cuadrados Residual del ANOVA) y sb el error estándar de b.

165 El IC se representa por (1-)100%
El IC se representa por (1-)100%. Calculemos el intervalo de confianza del 95% para un valor estimado de b = 1.18 y sb = .28. Entrando en las tablas de t para un alfa de .05/2 =.025 y, por ejemplo, con 18 g.l. (t =2.101). El intervalo de confinaza del 95% es 1.18 ± (2.101)(.28) = .59 y 1.77 Con el intervalo de confianza, la prueba de la hipótesis nula,  = 0, viene a ser un caso especial. Con el ejemplo presente, 0 no está incluido en el rango y la hipótesis de  = 0 es por lo tanto rechazada con un  = 0.05.

166 Prueba de significación de modelos parciales

167 Prueba de modelos parciales (c)
Se examina la contribución de un conjunto de variables en relación a Y. La forma como se analiza la específica contribución de las variables define el procedimiento o método a seguir. Hay varios procedimientos que permiten evaluar la contribución particular de cada variable o predictor. 37

168 Sigue… Hipótesis nula:
La variables del conjunto no mejoran significativamente el modelo, cuando todas las otras son incluidas. Los modelos deben estimarse por separado 37

169 Prueba estadística de partes del modelo
Test H0: b1 = 0 en un modelo de 2 variables De la tabla ANOVA de la regresión para De la tabla ANOVA de la regresión para 38

170 Prueba estadística de partes del modelo
Test H0: 1=  2 = 0 en un modelo de 3 variables De la tabla ANOVA de la regresión para De la tabla ANOVA de la regresión para 38

171 Procedimientos de selección de variables

172 Tipos de procedimientos
Procedimiento enter o global Jerárquico (de acuerdo a un orden)

173 Método simultáneo (Enter)
En el método simultáneo, denominado en el SPSS por ENTER, el investigador define el conjunto de predictores que forman el modelo. A continuación se evalúa la capacidad de este modelo de predecir la variable criterio. Se trata, en definitiva, de probar el modelo global o completo.

174 Métodos jerárquicos de selección de variables
En los métodos jerárquicos las variables entran en el modelo de acuerdo con un orden determinado. El orden depende de las consideraciones teóricas o de resultados previos. Desde la perspectiva estadística, el orden de entrada de las variables en el modelo viene determinado por la fuerza de su correlación con la variable criterio.

175 En la actualidad hay diferentes versiones de este método: stepwise selection, forward selection, backward selection y remove.

176 Stepwise selection Cada predictor o variable independiente es entrando de forma secuencial y su valor es evaluado. Si añadir el predictor contribuye al modelo, entonces es retenido y el resto de variables son entonces reevaluadas para probar si siguen contribuyendo al éxito del modelo. Si no contribuyen significativamente son eliminadas.

177 Sigue… A cada paso del proceso, se observa si la variable menos significativa del modelo puede ser removida debido que a su valor F, FMIN, es menor que el especificado o valor F por defecto.

178 Sigue… Si ninguna variable puede ser removida, se verifica si la más significativa que no está en el modelo puede ser añadida dado que su valor F, FMAX, es el mayor que el especificado o por defecto. El procedimiento se para cuando no se puede añadir o eliminar ninguna otra variable.

179 Forward selection Al igual que el procedimiento stepwise, las variables son entradas secuencialmente en el modelo. La primera variable considerada para entrar en el modelo es la que tiene una mayor correlación positiva o negativa con la variable dependiente.

180 Sigue… La variable es entrada en el modelo, sólo cuando satisface el criterio de entrada (tiene un valor F mayor que el criterio). El procedimiento se para cuando no hay más variables que se ajusten el criterio de entrada.

181 Backward selection Se empieza con todas las variables del modelo y se elimina la menos útil a un tiempo. Una variable, cuyo valor p asociado a la F parcial es mayor que un valor prescrito, PMIN, es la menos útil y ha de ser eliminada del modelo. El proceso continúa hasta que no puede eliminarse ninguna otra variable de acuerdo con el criterio propuesto.

182 Sigue… Una vez eliminada la variable del modelo, no puede ser entrada de nuevo en un paso posterior.

183 Remove Es un procedimiento de selección de variables en que se eliminan todas las variables de un bloque en un solo paso.

184 A modo de resumen Finalizada la prueba de significación del modelo o de los coeficientes, es posible llevar a cabo un análisis de residuales de forma gráfica (mediante los correspondientes plots) o bien utilizando la prueba de Durbin-Watson.

185 Verificación de los supuestos del modelo

186 Multicolinealidad

187 Estadísticos de colinealidad Tolerancia y VIF (variancia inflation factors)
Tolerancia: Una primera medida para para probar la colinealidad o no dependencia lineal entre los regresores (Tp = 1 – Rp2). Cuando tiene un valor máximo de 1, la variable no tiene ningún grado de colinealidad con las restantes, Un valor 0 indica que la variable es una combinación lineal perfecta de otros regresores. Es deseable que, en general, sea mayor a .40

188 Sigue… VIF (variance inflation factor): a medida que es mayor la multicolinealidad, en un de los regresores, la variancia de su coeficiente comienza a crecer. La multicolinealidad infla la variancia del coeficiente (VIFp= 1/(1-Rxp2). La VIF tomará un valor mínimo de 1 cuando no hay colinealidad y no tendrá límite superior en el caso de multicolinealidad.

189 Sigue.. En presencia de multicolinealidad, una solución lógica consiste en eliminar del modelo aquellas variables con más alto VIF (o más baja tolerancia).

190 Diagnósticos de colinealidad
Dimensiones: factores diferentes que se hallan en el conjunto de variables independientes. Autovalores: los valores próximos a 0 indican colinealidad. Índices de condición: raíz cuadrada (autovalormayor/autovalor). Valores por encima de 15 indican posibles problemas de colinealidad Proporciones de variancia: proporción de la variancia de cada coeficiente de la regresión parcial bj que está explicada por cada factor.

191 Sigue… Proporciones de variancia: Hay problema de colinealidad si una dimensión (de índice de condición alto) explica gran cantidad de la variable de dos o más variables.

192 Resto de supuestos

193 Pruebas del resto de supuestos del modelo
Prueba de la linealidad Pruebas de independencia Prueba de homoscedasticidad Prueba de normalidad

194 Scatter- plot (gráfico de dispersión)
El scatter plot nos permite obtener respuesta a la siguientes cuestiones: 1. ¿Las variables X e Y están relacionadas? 2. ¿Las variables X e Y están linealmente relacionales? 3. ¿Las variables X e Y están relacionadas no- linealmente? 4. ¿La variación en el cambio de Y depende de X? 5. ¿Hay outliers (valores extremos o atípicos)?

195 Variables listadas en el SPSS
DEPENDEN : variable dependiente. ZPRED: valores pronósticos tipificados; valores pronósticos divididos por su desviación estándar (media de 0 y desviación 1). ZRESID: residuos tipificados.

196 Sigue… DRESID: residuos eliminados; es decir, al efectuar los pronósticos se elimina de la ecuación el caso sobre el que se efectúa el pronóstico. ADJPRED: pronósticos ajustados; es decir, valores pronosticados sin incluir el caso pronosticado. SRESID: residuos estudentizados; divididos por su desviación estándar y se distribuyen según la t de Student. SDRESID: residuos estudentizados

197 Interpretando los plots de valores predichos y residuales
Los plots de los valores predichos, observados y residuales son esenciales en determinar si el modelo ajustado satisface los ‘cuatro presupuestos de la regresión lineal: 1. Linealidad de la relación entre la variable dependiente e independientes. 2. Independencias o no autocorrelación de los errores. 3. Homoscedasticidad o variancia constante de los errores. 4. Normalidad de la distribución del error.

198 1. Linealidad Se obtiene del plot de los valores observados y predichos versus la variable independiente. Si la relación no es lineal, la dispersión (scatter) de los puntos mostrará una desviación sistemática de la línea de regresión. Con el modelo de la regresión múltiple es mejor generar un gráfico simple (plot) de los valores observados versus los valores predichos. Teóricamente, en un gráfico de observados vs. predichos los puntos deberían moverse entre torno a la línea recta diagonal.

199 Sigue… El gráfico de valores residuales vs. valores predichos es esencialmente el mismo que el anterior, a excepción de que la línea de referencia es horizontal más que de 45 grados.

200 2) Independencia Uno de los supuestos básicos del MRL (modelos de la regresión lineal) es la independencia entre los residuos. El estadístico de Durbin-Watson aporta información sobre el grado de independencia existente entre ellos

201 El estadístico de Durbin-Watson
El estadístico de Durbin-Watson (DW) proporciona información sobre el grado de independencia entre los residuales. El estadístico DW varía entre 0 y 4, y toma el valor 2 cuando los residuales son independientes. Valores menores que 2 indica autocorrelación positiva. Podemos asumir independencia entre los residuales cuando DW toma valores entre 1.5 y 2.5

202 Residual Analysis: Autocorrelation
Durbin-Watson Test for Autocorrelation Statistic The statistic ranges in value from zero to four. If successive values of the residuals are close together (positive autocorrelation), the statistic will be small. If successive values are far apart (negative auto- correlation), the statistic will be large. A value of two indicates no autocorrelation.

203 Sigue.. El valor del residual se calcula por ei = Yi - Ŷi

204 3) Homoscedasticidad En el cuadro de diálogo de Gráficos de la regresión lineal del SPSS, se obtienen una serie de variables listadas para obtener diferentes gráficos de dispersión:

205 Prueba de homoscedasticidad
Los valores ZRESID se trasladan al eje Y y los valores ZPRED al eje X. La variación de los residuos debe ser uniforme en todo el rango de valores pronosticados; es decir, el tamaño de los residuos es independiente del tamaño de los pronósticos. Por lo tanto, el gráfico de dispersión no debe mostrar ninguna pauta de asociación entre los pronósticos y los residuos.

206 4) Prueba de normalidad A) Mediante el histograma de los residuos tipificados. La curva se construye con media 0 y un desviación típica de 1. B) Gráfico de probabilidad normal. En el eje de las abscisas se representa la probabilidad acumulada de cada residuo y en de las ordenadas la probabilidad acumulada teórica o esperada.

207 Sigue… Teóricamente este gráfico debería ser una línea recta diagonal. Si los datos se inclinan hacia arriba o hacia abajo, indica una distribución asimétrica (sesgada). Si el gráfico de probabilidad normal muestra una línea recta, es razonable asumir que los datos observados proceden de una distribución normal. Si los puntos se desvían de la línea recta, hay evidencia en contra de la distribución normal e independiente.

208 Correlaciones

209 Correlaciones Correlaciones de orden cero: Se presentan en la matriz de correlaciones simples entre todas las variables, incluyendo la variable de control. Se trata de la correlación ordinaria entre dos variables, no controlando ninguna (cero) otra variable.

210 Sigue… Correlación parcial: La correlación que hay entre dos variables después de remover la correlación debida a su asociación con otras variables. Es decir, la correlación entre la variable dependiente y una variable independiente cuando los efectos lineales de las otras variables independientes del modelo han sido removidos. Neutralizando su efecto sobre la dependiente e independiente.

211 Sigue… Part Correlation (semiparcial). Es la posible relación entre un variable dependiente e independiente, controlando la relación que esta variable independiente pueda tener con otra u otras variables independientes. Se neutraliza los efectos lineales de una variable independiente del resto de variables independientes. Está relacionada al cambio en R al cuadrado cuando una variable es añadida a la ecuación. Es conocida, también, por correlación semiparcial.

212 Sigue… El procedimiento de Correlaciones Parciales calcula los coeficientes de correlación parcial que describen la relación lineal entre dos variables mientras se controlan los efectos de una o más variables adicionales. Las correlaciones son medidas de asociación lineal. Dos variables pueden estar perfectamente correlacionadas, pero si la relación es no linear, un coeficiente de correlación no es una estadístico apropiado para medir su asociación.

213 Fin parte teórica


Descargar ppt "Master Intervención Psicosocial"

Presentaciones similares


Anuncios Google