Segunda sesión.

Slides:



Advertisements
Presentaciones similares
ANOVA DE UN FACTOR.
Advertisements

Tercera sesión.
Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Pronósticos, Series de Tiempo y Regresión
Bivariadas y Multivariadas
KRIGING.
INFERENCIA ESTADISTICA
MODELO DE REGRESIÓN MÚLTIPLE
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
Econometria 2. Modelo de Regresión Lineal Simple
Modelo básico de regresión Lineal
Estimación por Intervalos de confianza
Regresión y correlación
ANÁLISIS DISCRIMINANTE
CONTRASTE Y VALIDACIÓN DE UN MODELO
ANOVA Modelo I: Comparación entre medias
Tema 1- Regresión lineal simple.
9 Regresión Lineal Simple
División de Estudios Políticos, CIDE
Tema 2: Métodos de ajuste
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Inferencia Estadística
Unidad VI: PRUEBAS DE HIPOTESIS
PROBLEMAS ECONOMETRICOS
CONTRASTE Y VALIDACIÓN DE UN MODELO
Diseño Estadístico y Herramientas para la Calidad
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
3. Funciones discriminantes para la f.d.p normal.
Tema 17: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
Métodos de calibración: regresión y correlación
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Capítulo 7 Estimación de Parámetros Estadística Computacional
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Enfoque cuantitativo y Enfoque cualitativo
Herramientas básicas.
Estimador de Efectos Fijos
Diseño de un grupo de sujetos
Modelos de Estructura de Covarianza. Contenidos ●Introducción histórica ● Teorías y modelos. Los modelos como aproximaciones ●Clasificación de las variables.
Capítulo 1. Conceptos básicos de la Estadística
Regresión lineal múltiple
Pruebas de hipótesis.
coeficientes de correlación de
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Estimación y contraste de hipótesis
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
INTRODUCCION Es un elemento fundamental en todo proceso de investigación Viene después del problema, y el investigador la enuncia Esto orienta el proceso.
Variables estadísticas bidimensionales
Análisis cinemático: ACELERACION
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Unidad 4 Análisis de los Datos.
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
INFERENCIA ESTADÍSTICA
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
Free and Quick translation of Prof. Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 1. Estimacion.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
ANALISIS DE VARIANZA.
Transcripción de la presentación:

Segunda sesión

Representación GRAFICA y representación ALGEBRAICA de los modelos Para facilitar la comprensión de los modelos causales disponemos de dos formas para representarlos, la gráfica y la algebraica. Estas dos formas de representación son equivalentes entre sí. La representación gráfica se realiza mediante los diagramas de caminos y la forma algebraica, mediante ecuaciones (en la mayoría de los casos lineales) que relacionan las variables entre sí.

Representación gráfica y algebraica de los modelos En este ejemplo todas las variables son observables. y1 = 11 x1 + 12 x2 + 13 x3 + 1 y2 = 21 x1 + 21 y1 + 23 x3 + 2

♦ Las flechas entre las variables simbolizan las relaciones cuya existencia se postula. ♦ Las flechas pueden ser rectas o curvas ♦ Si la variable X1 tiene un efecto causal sobre la variable Y1, dibujamos una flecha recta con origen en X1 y final en Y1. ♦ Se asume que, si se produce un cambio en el valor de la variable situada en el origen de la flecha, también se producirá en el valor de la variable situada en la punta de la flecha. Este fenómeno no se da en el sentido inverso. ♦Cuando dos variables están correlacionadas, se unen mediante una flecha curva con dos puntas que apuntan a las dos variables

MODELO DE REGRESIÓN SIMPLE Este modelo consta de: - una variable x, independiente y observable (medible directamente); - una variable y, dependiente, que también es observable; - un camino , que va de la variable x a la y; una variable de error . La ecuación de este modelo de regresión lineal sería: y =  x +  Esta ecuación muestra la relación existente entre las variables x e y, e indica que una variación unitaria en la variable x produce una variación de  unidades en la variable y.  es el efecto de la variable x sobre la variable y.  es el término de error de y.

Modelo de regresión múltiple y = 1 x1 + 2 x2 + 

Algunos supuestos del modelo de regresión La relación funcional entre las variables independientes (xi) y la variable dependiente (y) es lineal No se omiten variables relevantes, ni se incluyen variables irrelevantes en el modelo Las variables X1 , X 2, ... Xk son linealmente independientes (no se puede poner a una de ellas como combinación lineal de las otras). Esta es la hipótesis de independencia y cuando no se cumple se dice que el modelo presenta multicolinealidad. O sea: Ninguna v. Independiente da un R 2 = 1 con las otras v.independientes Los residuos: Siguen una distribución Normal N(0, σ2) No están correlacionados con ninguna de las variables independientes, ni están autocorrelacionados. Hay homocedasticidad : la varianza del error es constante para los distintos valores de las variables independientes.

Modelo recursivo de ecuaciones estructurales

y1 = 11 x1 + 12 x2 + 13 x3 + 1 y2 = 21 x1 + 21 y1 + 23 x3 + 2 En este sistema y1, y2 son las variables endógenas, dependientes o efectos del modelo y x1, x2, x3 son las variables exógenas e independientes del modelo. Estas variables actúan como causa y el modelo no explica su ocurrencia. La flecha curva de doble dirección entre x1 y x2 representa una relación existente (covariación) entre estas dos variables exógenas, no explicada por el modelo. 12 es la covarianza entre las variables exógenas x1 , x2; 11 es el efecto de x1 sobre y1; 12 es el efecto de x2 sobre y1; 13 es el efecto de x3 sobre y1; 21 es el efecto de x1 sobre y2; 21 es el efecto de y1 sobre y2; 1 es el termino de error de y1; 2 es el termino de error de y2.

La representación algebraica de un modelo de este tipo sería Modelo de Medida – Análisis Factorial Confirmatorio se usa para medir variables no observables directamente su medida se realiza mediante la utilización de indicadores La representación algebraica de un modelo de este tipo sería 1 = 11 x1 + 21 x2 + 31 x31 + 1

MODELO RECURSIVO COMPLETO DE ESTRUCTURAS DE COVARIANZA

Modelos Recursivos Cuando tanto el número de variables independientes observables como el número de variables dependientes observables son superiores a uno y no existen ciclos, al modelo se le llama modelo recursivo de ecuaciones estructurales.

En el análisis de caminos: Los modelos recursivos: 1. tienen efectos causales unidireccionales 2. Pueden estimarse por regresión múltiple 3. Siempre están identificados Los modelos no recursivos: 1 Tienen bucles 2. Es mas complejo determinar su identificación (hay reglas pero no sirven para todos los modelo) 3. Hay que estimarlos usando programas especiales (AMOS, LISREL,EQS, etc)

Prerequisito Para avanzar en los modelos de estructura de covarianza son necesarios ciertos conocimientos previos. Entre ellos es conveniente saber como realizar (con SPPS u otro programa similar) e interpretar los resultados de un análisis de regresión múltiple.

Ejemplo de regresión: Variables independientes: NIVEL SOCIOECONOMICO FAMILIAR, Edad del/a encuestado/a, RIQUEZA VERBAL Variable dependiente: PAGA SEMANAL EN EUROS.

Resumen del modelo Modelo R R cuadrado R cuadrado corregida 1 ,554(a) ,307 ,267 a Variables predictoras: (Constante), NIVEL SOCIOECONOMICO FAMILIAR, Edad del/a encuestado/a, RIQUEZA VERBAL El 30’7 % de la variación de la paga es explicado por las variables del modelo.

Salida modelo regresión con SPSS Coeficientes no estandarizados Coeficientes estandarizados constante -5’318 edad 0’761 0’188 Riqueza verbal -0’016 -0´014 Nivel socioeconómico 4’249 0’538 La ecuación de regresión será: Paga = - 5´318 + 0’761 edad – 0’016 Riq.verbal + 4’ 249 niv soc Zpaga = 0’188 Zedad – 0’014 Zriq.verbal +0’538 znivsoc

El resultado del diagrama realizado con los mismos datos en AMOS

Colocación de los parámetros estimados en la salida gráfica de AMOS Estimaciones no estadarizadas Estimaciones estandarizadas Cerca de las flechas de un solo sentido Pesos de regresión Pesos de regresión estandarizados Cerca de las flechas con doble sentido Covarianzas correlaciones Cerca de las variables endógenas Termino independiente, (intercep )solo cuando se analizan estructuras de medias Cuadrado de la correlación múltiple Cerca de las variables exógenas Medias y varianzas --------------------

USO DE AMOS PARA REALIZAR TEST DE HIPÓTESIS Si comprobamos este modelo obtenemos una Chi2 de 0 y no se puede calcular su p-value

El test chi cuadrado informa sobre el ajuste entre las covarianzas calculadas con los datos de la muestra y las que se obtienen al ajustar el modelo.

La hipótesis nula es que los parámetros calculados para la muestra servirian también para la población. En este caso aceptar la hipótesis nula significa que NO rechazamos el modelo. Compararemos el valor de chi cuadrado que nos calcula el programa con el de la tabla chi cuadrado, teniendo en cuenta el nivel de confianza y los grados de libertad

Si la Chi2 que calcula el programa es menor que el valor que da la tabla, estamos en la región de aceptación y por ello aceptamos H0, lo que significa que no hay diferencias significativas (al nivel prefijado) entre nuestra teoría (el modelo) y los datos de la muestra

Si fijamos Cov ( Estudios padres y Nivel socioeconómico) a 0 , (en la muestra era 0’058) se obtienen una Chi2 = 0’222 con 1 grado de libertad y p=0’637 (aceptamos H0 Si fijamos Cov ( Nivel socioeconómico y paga) a 0 (en la muestra era 4’02) se obtienen una Chi2 = 17’129 con 1 grado de libertad y p=0’00 (rechazamos H0)

También tenemos en la salida el número correspondiente al nivel de probabilidad (Probability lebel). Si este número es mayor que el nivel prefijado (0,05 ó 0,01) se aceptará la hipótesis nula y NO se rechaza el modelo.

Fases en la construcción de un modelo de Estructura de covarianza (1) 1. Especificación: plasmar las hipótesis en ecuaciones o gráficos 2. Identificación: no todos los modelos pueden estimarse correctamente. El que estén identificados garantiza la existencia de solución única 3. Selección de variables observadas. Cada concepto teórico debe “medirse” con una o varias variables observadas (indicadores)

Fases en la construcción de un modelo de Estructura de covarianza (2) 4. Estimación del modelo: mediante el programa estadístico (AMOS, LISREL; EQS, etc) se estiman los parámetros y estadísticos, a partir de los datos 5. Valoración del ajuste del modelo: mediante el estudio de los índices de ajuste. Si se acepta el modelo se pasa a interpretar los resultados y si se rechaza habrá que desecharle o elaborar un nuevo modelo. 6. Re-especificación: plantear un nuevo modelo basado en el anterior y contrastar si mejora o no el ajuste. Hay que hacerlo a partir de una basé teórica previa.

LOS DATOS Los modelos de Estructura de Covarianza son técnicas que analizan la estructura de las varianzas y covarianzas de los datos, no los propios datos. En general para estudiar un modelo basta usar la matriz de varianzas-covarianzas de los datos, no los propios datos. Aunque nunca viene mal disponer de los propios datos.

Revisión de los datos Esta es una fase importante y hay que considerar los siguientes aspectos: Descripción Valores perdidos Multicolinealidad Valores átipicos Normalidad Linealidad y homocedasticidad

Aspectos a tener en cuenta en la Especificación del modelo 1. Las variables que se van a considerar 2. Cuál va a ser la escala de dichas variables 3. El tipo de relación entre las variables 4. La dirección de la relación 5. Complejidad del modelo o identificación 6. Tamaño muestral

Variables que se incluyen Las variables que se incluyen en un modelo deben serlo por criterios teóricos o empíricos (otros trabajos publicados) Posibles problemas: 1. Hay demasiadas variables explicativas y es mejor excluir alguna 2. Hay pocas variables explicativas 3. No aparecen en el modelo variables significativas (los efectos de la omisión de variables son sesgos en la magnitud y sentido de los estimadores difíciles de determinar)

Modelos de segundo orden Son modelos en los que una o mas variables latentes están definidas por indicadores que son a su vez variables latentes. Se verán modelos “multi-level” mas adelante

El modelo completo se expresa algebraicamente con un sistema de ecuaciones estructurales que contienen variables y parámetros estructurales. Las variables que intervienen en el modelo completo pueden ser: latentes, observables y de error. Los parámetros estructurales son constantes con las que se expresan las relaciones existentes entre las variables..

El sistema de ecuaciones estructurales consta de dos subsistemas: el modelo de variables latentes que consta de las ecuaciones estructurales que expresan las relaciones existentes entre la variables latentes y el modelo de medida que se usa para medir variables que no son observables directamente y cuya medida se realiza mediante la utilización de una serie de indicadores

Especificación del modelo Previo al diseño de un modelo es necesario un conocimiento sustantivo del tema objeto de estudio que representaremos en el modelo. Etapas en la especificación del modelo - decidir las variable (observables o latentes) que intervendrán en el modelo. - clasificar las variables en exógenas (nunca les llegan flechas) y endógenas. - especificar las relaciones entre las variables

Algunos supuestos que han de cumplir los modelos de estructura de covarianza En cuanto al tamaño de la muestra : James Stevens en Applied Multivariate Statistics for the Social Sciences, afirman que al menos son necesarios 15 casos por cada variable del modelo. Bentler y Chou (1987) dicen que son necesarios al menos 5 casos por parámetro a estimar, siempre y cuando el comportamiento de las variables sea “bueno” (distribución normal, sin casos perdidos o aislados, etc) Más en general Loehlin (1992), tras revisar las publicaciones sobre el tema, afirma que para un modelo con dos (cuatro) factores son necesarios al menos 100 (200) casos. Si se usan muestras de menor tamaño puede producir fallos en la convergencia a la solución ( estos programas usan métodos iterativos). También pueden dar lugar a soluciones inadecuadas como estimación de varianzas negativas, o poca exactitud en el cálculo de los errores estandar

Si los datos no siguen una distribución normal o son defectuosos las muestras necesarias deben ser de mayor tamaño. Aunque no es fácil hacer recomendaciones concretas para cuando los datos siguen una distribución asimétrica, o tienen diferente apuntamiento que la curva normal, o hay casos perdidos: La recomendación general es obtener tantos datos como sea posible

Los programas asumen que las variables (dependientes y mediadoras) son continuas y con residuos distribuidos normalmente. Es mas, para el conjunto de los residuos se ausume que siguen una distribución multinormal, aunque esto no se suele cumplir en la práctica Pero se han desarrollado métodos para poder trabajar con variables que no se distribuyen normalmente pero tienen una distribución “aproximadamente” continua. (escalas Likert, etc)

Identificación del modelo En los modelos de estructura de covarianza se da el nombre de número de observaciones (que no hay que confundir con el tamaño de la muestra) al número de varianzas y covarianzas entre las variables observadas Nº Observaciones = nº varianzas + nº covarianzas. Nº varianzas = v (tantas como variables) Nº covarianzas = combinaciones de v elementos tomados de 2 en 2 = v(v-1)/2 nº varianzas + nº covarianzas = v + v(v-1)/2 = v(v+1)/2 v(v+1)/2 es el número de observaciones El número de parámetros a estimar no puede superar al número de observaciones

Si el número de parámetros a estimar coincide con el número de observaciones se dice que tenemos un modelo identificado, también se le llama modelo saturado y la solución es única Si el número de parámetros a estimar es mayor al número de observaciones tenemos un modelo no identificado y para hacerle identificado se suelen poner restricciones a los parámetros. Para que el programa pueda realizar los cálculos que conducen al cálculo de los parámetros es necesario que el número de parámetros a estimar sea igual o menor que el número de observaciones

Grados de libertad Cuando el número de variables (V) (parámetros a estimar) es mayor que (>) el número de observaciones ( ecuaciones E), V > E significa que existen MULTIPLES soluciones al sistema de ecuaciones, es decir, se pueden elegir libremente la cantidad (V-E) de valores de variables y cada grupo de valores que se elija genera una solución distinta para las E variables que se decida calcular. Dado que se eligen libremente, este número de variables define el número de GRADOS DE LIBERTAD f=V-E

Ajuste del modelo Para medir la consistencia entre los datos y el modelo propuesto, se estudia la semejanza entre la matriz de covarianzas de la población, que se suele representar como , obtenida mediante inferencia de la matriz de covarianzas de la muestra, que se suele representar por S y la matriz de covarianzas que el modelo predice para la población, que se suele representar por ().

La hipótesis fundamental en la que se basa el desarrollo de los modelos causales de estructuras de covarianza se puede formalizar mediante la ecuación  = (). Donde  sigue siendo la matriz de covarianzas de la población y  es un vector que contiene los parámetros del modelo, esto es los coeficientes que aparecen en las ecuaciones estructurales

Para resolver el sistema de ecuaciones el programa usa métodos iterativos. Después de cada iteración el programa calcula la función de discrepancia, que expresa la separación existente entre los datos observados y los datos que predice el modelo. Este proceso se repite hasta que ya no es posible mejorar los resultados. En ese momento se dice que se ha alcanzado la convergencia. A veces el programa no converge en un número razonable de iteraciones, lo que se interpreta como que algo intrínseco al modelo no es correcto. Será necesario realizar alguna modificación en el modelo o abandonarlo.

Clasificación de los métodos de estimación 1 Los programas pueden estimar los parámetros mediante diferentes métodos que se pueden clasificar en dos grupos 1 Basados en la teoría de la distribución Normal: A) LS. Mínimos cuadrados (ordinarios, generalizados, etc) tambien denominados regresión B) Máxima verosimilitud. Es el mas empleado para los SEM y el que aparece por defecto en los programas

Clasificación de los métodos de estimación 2 Basados en teorías de distribución no normales 1. ELS: Basados en la teoría de distribución elíptica para lo cual basta con que la distribución de las variables sea simétrica. Precisa como “input” los datos y requiere mayor tamaño muestral 2. ALS: Basados en la teoría de distribución arbitraria. Precisa como “input” los datos y requiere un tamaño muestral superior a 1000

Interpretación de los resultados Al estimar un modelo se obtienen diversos estadísticos asociados a sus correspondientes hipótesis que habrá que interpretar. Hay de dos tipos 1. Parámetros: coeficientes de los caminos o efectos directos y Varianzas y covarianzas 2. Estadísticos de ajuste: de los parámetros y globales del ajuste del modelo

Para los estadísticos de ajuste de los caminos hay dos soluciones equivalentes estadísticamente, aunque con interpretaciones diferentes 1. Solución estandarizada: obtenida a partir de las variables estandarizadas (puntuaciones Z) 2. Solución no estandarizada obtenida a partir del valor real de las variables

Coeficientes estandarizados Una de las ventajas de los coeficientes estandarizados es que se pueden establecer comparaciones entre ellos porque no dependen de la escala en la que se miden las variables. Como contrapartida es mas difícil saber si el efecto es grande, medio o pequeño. Se recomienda la siguiente regla: Coeficiente menor que 0’1 → efecto pequeño Coeficiente entre 0’1 y 0’5 → efecto medio Coeficiente mayor que 0’5 → efecto grande

Los coeficientes del camino o efectos directos permiten calcular los efectos indirectos ( los efectos que tiene una variable X sobre otra Y a través de variables endógenas intermedias). El efecto total es la suma de los efectos directos e indirectos. En la primera ecuación todos son efectos directos, pero en la segunda hay directos e indirectos y1 = 11 x1 + 12 x2 + 13 x3 + 1 y2 = 21 x1 + 21 y1 + 23 x3 + 2 Esta es una de las grandes aportaciones del análisis de caminos, respecto de la regresión