Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Facultad de Ciencias Sociales
Departamento de Sociología Estadística II Modulo 6. Pruebas de significación y relación entre variables cuantitativas Catalina Canals Cifuentes 30/05/2016
2
Contenidos INTRODUCCIÓN
Relación lineal y no lineal entre variables cuantitativas: Los gráficos X/Y. Covarianza y Correlación. Regresión lineal simple. Regresión lineal múltiple.
3
I. Relación lineal y no lineal
4
Grafico X/Y Gráfico de dispersión conjunta de dos variables (X e Y).
I. Relación lineal y no lineal Grafico X/Y Gráfico de dispersión conjunta de dos variables (X e Y). Variable Y Variable X
5
Relación entre variables cuantitativas
I. Relación lineal y no lineal Relación entre variables cuantitativas Dos variables están relacionadas cuando varían conjuntamente. Es decir: Al variar la variable X, varía la variable Y
6
Relación entre variables cuantitativas en grafico X/Y
I. Relación lineal y no lineal Relación entre variables cuantitativas en grafico X/Y Gráfico de dispersión conjunta de dos variables (X e Y). Variable Y Variable X
7
Relación entre variables cuantitativas en grafico X/Y
I. Relación lineal y no lineal Relación entre variables cuantitativas en grafico X/Y
8
Relación entre variables cuantitativas en grafico X/Y
I. Relación lineal y no lineal Relación entre variables cuantitativas en grafico X/Y
9
Relación lineal entre variables
I. Relación lineal y no lineal Relación lineal entre variables Efecto de una variable en otra es constante
10
II. Covarianza y Correlación
11
Varianza y Covarianza Varianza: Medida de dispersión de una variable.
II. COVARIANZA Y CORRELACIÓN Varianza y Covarianza Varianza: Medida de dispersión de una variable. Covarianza: Medida de dispersión conjunta de dos variables. 𝑉𝑎𝑟(𝑥)= 𝑖=1 𝑁 ( 𝑥 𝑖 − 𝑥 ) 2 𝑁 𝑉𝑎𝑟(𝑥)= 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝑛−1 𝐶𝑜𝑣 𝑥,𝑦 = 𝑖=1 𝑁 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 𝑁 𝐶𝑜𝑣 𝑥,𝑦 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 𝑛−1 Parámetro Estimadores
12
II. COVARIANZA Y CORRELACIÓN
𝐶𝑜𝑣 𝑥,𝑦 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 −𝑦 𝑛−1 𝑦 𝑦 𝑦 𝑥 𝑥 𝑥 Problema: Depende de nivel medida de la variable, por tanto no es fácil de interpretar
13
Correlación de Pearson
II. COVARIANZA Y CORRELACIÓN Correlación de Pearson Medida de relación lineal entre dos variables cuantitativas. 𝑟= 𝐶𝑜𝑣(𝑋,𝑌) 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟(𝑌) r=1 Correlación negativa perfecta r=0Nula correlación* r=1Correlación positiva perfecta
14
Correlación de Pearson
II. COVARIANZA Y CORRELACIÓN Correlación de Pearson r=-1 Correlación negativa perfecta r ∈[−0,7;−1) Correlación negativa de alta intensidad r ∈[−0,3;−0.7) Correlación negativa de mediana intensidad r ∈[−0,1;−0.3) Correlación negativa de baja intensidad r ∈(0;−0.1) Correlación negativa de muy baja intensidad r=0 Nula correlación* r ∈(0;0.1) Correlación positiva de muy baja intensidad r ∈[0,1;0.3) Correlación positiva de baja intensidad r ∈[0,3;0.7) Correlación positiva de mediana intensidad r ∈[0,7;1) Correlación positiva de alta intensidad r=1 Correlación positiva perfecta Si trabajamos con muestras: Test de hipótesis: H0r=0, H1r≠0
15
Correlación de Pearson
II. COVARIANZA Y CORRELACIÓN Correlación de Pearson
16
Correlación de Pearson
II. COVARIANZA Y CORRELACIÓN Correlación de Pearson
17
Correlación de Pearson con variable de control
II. COVARIANZA Y CORRELACIÓN Correlación de Pearson con variable de control Analizar si correlación entre dos variables se explica por una tercera. PROCEDIMIENTO: Estimar correlación y test de hipótesis asociado para cada categoría de la tercera variable. CONCLUSION Correlación robusta: hay correlación en todas las categorías de la tercera variable. Correlación espuria: no hay correlación en ninguna de las categorías de la tercera variable. Correlación condicionada: hay asociación en alguna(s) de las categorías de la tercera variable.
18
Correlaciones espurias
II. COVARIANZA Y CORRELACIÓN Correlaciones espurias
19
Correlación de Pearson con variable de control
II. COVARIANZA Y CORRELACIÓN Correlación de Pearson con variable de control Ejemplo: Datos CASEN 2013 Correlación ingresos escolaridad Valor P Test de hipótesis Toda la muestra 0,2744 0.000 Hombres 0,2935 Mujeres 0,2564
20
Correlación de Pearson con variable de control
II. COVARIANZA Y CORRELACIÓN Correlación de Pearson con variable de control Ejemplo: Datos CASEN 2013 Correlación edad escolaridad Valor P Test de hipótesis Toda la muestra 0.000 Hombres Mujeres
21
II. COVARIANZA Y CORRELACIÓN
22
II. COVARIANZA Y CORRELACIÓN
23
II. COVARIANZA Y CORRELACIÓN
24
II. COVARIANZA Y CORRELACIÓN
25
II. COVARIANZA Y CORRELACIÓN
Congregación «Guadalupana» Congregación «Jesuitas»
26
II. COVARIANZA Y CORRELACIÓN
27
II. COVARIANZA Y CORRELACIÓN
28
PREGUNTAS Horas Trabajadas e ingresos: r=0,2 (Valor P=0,03)
Un grupo de investigadores estudia la relación entre un índice de satisfacción laboral (ISL) y las horas trabajadas en una muestra probabilística de trabajadores de Chile. Para ello realizan un gráfico, estiman la correlación de Pearson, y ponen a prueba la hipótesis nula de que la correlación es cero, obteniendo los siguientes resultados. Los investigadores concluyen que no existe relación entre ambas variables. Comente. A continuación se indica la correlación entre varios pares de variables (y entre paréntesis se indica el Valor P del test que prueba H0: r=0), para cada caso interprete los resultados estadística y sociológicamente. Horas Trabajadas e ingresos: r=0,2 (Valor P=0,03) Distancia estudiante-escuela e ingresos: r=0,5 (Valor P=0,01) Escolaridad de la madre- Puntaje PSU: r=0,35 (Valor P=0,02). Escolaridad de la madre- Puntaje PSU en hombres: r=0,33 (Valor P=0,01). Escolaridad de la madre- Puntaje PSU en mujeres: r=0,36 (Valor P=0,03). Resultado Correlación de Pearson (r) 0,03 Valor P de Test que prueba H0: r=0 0,27 ISL Horas Trabajadas
29
III. Regresión lineal Simple
30
Regresión Lineal Simple (RLS)
III. REGRESIÓN LINEAL SIMPLE Regresión Lineal Simple (RLS) Técnica de análisis estadístico utilizada para estimar el efectos de una variable (independientes /predictores) en otra variable cuantitativa (dependiente/ predicha/ respuesta). (Permite probar la hipótesis de que el efecto de la variable independiente en la dependiente es distinta de 0.) Técnica de análisis estadístico utilizada para predecir una variable dependiente, a partir de otra independiente.
31
Objetivos de investigación
III. REGRESIÓN LINEAL SIMPLE Objetivos de investigación Determinar como incide A (independiente) en B (dependiente). Predecir B (dependiente) a partir de A (independiente).
32
III. REGRESIÓN LINEAL SIMPLE
El modelo: la recta XY Y X
33
El modelo: la recta III. REGRESIÓN LINEAL SIMPLE Y = a + X b b
Intercepto pendiente Eje y y2 b y1 a x1 x2 Eje x
34
El modelo: la recta III. REGRESIÓN LINEAL SIMPLE Y = a + X b
Intercepto pendiente Al aumentar en 1 los años de escolaridad, aumenta en b el ingreso
35
Y =a+ X b +e El modelo: la recta III. REGRESIÓN LINEAL SIMPLE
Constante Coeficiente del Modelo: Indica el efecto de X en Y Y =a+ X b +e Variable Dependiente Error: Variables no observadas que influyen en Y Variable Independiente
36
Y =a+ X b +e El modelo: la recta III. REGRESIÓN LINEAL SIMPLE
Constante Coeficiente del Modelo: Indica el efecto de X en Y Y =a+ X b +e Variable Dependiente CUANTITATIVA Error: Variables no observadas que influyen en Y Variable Independiente CUANTITATIVA O DUMMY
37
𝑌 = 𝛼 + X 𝛽 Estimación del modelo III. REGRESIÓN LINEAL SIMPLE
Estimador de la Constante Estimador del Coeficiente del Modelo: Indica el efecto de X en Y 𝑌 = 𝛼 + X 𝛽 Variable Dependiente Predicha Variable Independiente
38
III. REGRESIÓN LINEAL SIMPLE
Estimación del modelo
39
Estimación del modelo:
III. REGRESIÓN LINEAL SIMPLE Estimación del modelo: Residuo
40
Estimación del modelo:
III. REGRESIÓN LINEAL SIMPLE Estimación del modelo: Residuo Variable dependiente Variable dependiente predicha 𝜀 =𝑌− 𝑌 Residuo
41
III. REGRESIÓN LINEAL SIMPLE
Estimación del modelo
42
III. REGRESIÓN LINEAL SIMPLE
Estimación del modelo
43
III. REGRESIÓN LINEAL SIMPLE
Estimación del modelo
44
III. REGRESIÓN LINEAL SIMPLE
Estimación del modelo
45
Mínimos cuadrados ordinarios (MCO)
III. REGRESIÓN LINEAL SIMPLE Mínimos cuadrados ordinarios (MCO) Siendo 𝜀 𝑖 el residuo para el individuo I, buscamos la recta ( 𝛼 y 𝛽 ) que minimice: 𝑖=1 𝑛 𝜀 𝑖 2
46
Supuestos del modelo Relación lineal entre las variables
III. REGRESIÓN LINEAL SIMPLE Supuestos del modelo Relación lineal entre las variables Errores independientes con E(e)=0 Homocedasticidad de los errores: Varianza de los errores es constante Ausencia de outliers Independencia de X y errores
47
IV. Regresión Lineal Múltiple
48
Regresión Lineal Múltiple (RLM)
IV. REGRESIÓN LINEAL MÚLTIPLE Regresión Lineal Múltiple (RLM) Técnica de análisis estadístico utilizada para estimar el efectos de varias variables (independientes /predictores) en una variable cuantitativa (dependiente/ predicha/ respuesta). (Permite probar la hipótesis de que el efecto de las variables independientes en la dependiente son distintas de 0.) Técnica de análisis estadístico utilizada para predecir una variable dependiente, a partir de otras independientes.
49
Objetivos de investigación
IV. REGRESIÓN LINEAL MÚLTIPLE Objetivos de investigación Determinar como incide A, B, C,… (independiente) en Y (dependiente). Predecir Y (dependiente) a partir de A, B, C, … (independiente).
50
IV. REGRESIÓN LINEAL MÚLTIPLE
El modelo years
51
Variables independiente CUANTITATIVAS
IV. REGRESIÓN LINEAL MÚLTIPLE El modelo: Variables Y = a+ X1 b1+…+ Xk bk +e Variable Dependiente CUANTITATIVA Variables independiente CUANTITATIVAS O DUMMY
52
(controlando por las demás X)
IV. REGRESIÓN LINEAL MÚLTIPLE El modelo: parámetros Y = a+ X1 b1+…+ Xk bk +e Constante Efecto de X en Y (controlando por las demás X)
53
Y = a+ X1 b1+…+ Xk bk Estimación del modelo
IV. REGRESIÓN LINEAL MÚLTIPLE Estimación del modelo Estimador del Coeficiente del Modelo: Indica el efecto de X en Y Estimador de la Constante Y = a+ X1 b1+…+ Xk bk Variable Dependiente Predicha Variables Independientes
54
Estimación del modelo:
III. REGRESIÓN LINEAL MÚLTIPLE Estimación del modelo: Residuo Variable dependiente Variable dependiente predicha 𝜀 =𝑌− 𝑌 Residuo
55
Mínimos cuadrados ordinarios (MCO)
III. REGRESIÓN LINEAL MÚLTIPLE Mínimos cuadrados ordinarios (MCO) Siendo 𝜀 𝑖 el residuo para el individuo I, buscamos la recta ( 𝛼 , 𝛽 1 , …, 𝛽 𝑘 ) que minimice: 𝑖=1 𝑛 𝜀 𝑖 2
56
Supuestos del modelo Relación lineal entre las variables
III. REGRESIÓN LINEAL MÚLTIPLE Supuestos del modelo Relación lineal entre las variables Errores independientes con E(e)=0 Homocedasticidad de los errores: Varianza de los errores es constante Ausencia de outliers Independencia de X y errores Ausencia de multicolinealidad: Variables independientes deben ser independientes entre sí.
57
Ajuste del modelo: Coeficiente de determinación (R2)
III. REGRESIÓN LINEAL MÚLTIPLE Ajuste del modelo: Coeficiente de determinación (R2) Suma total de cuadrados: 𝑺𝑺𝑻= 𝒊 ( 𝒚 𝒊 − 𝒚 ) 𝟐 =𝑺𝑺𝑬+𝑺𝑺𝑹 Suma de cuadrados explicada: 𝑺𝑺𝑬= 𝒊 ( 𝒚 𝒊 − 𝒚 ) 𝟐 Suma de cuadrados residual: 𝑺𝑺𝑹= 𝒊 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 𝑅 2 = 𝑆𝑆𝐸 𝑆𝑆𝑇 Interpretación: El modelo explica el R2*100% de la varianza de la variable dependiente
58
ANOVA y Estadístico F Media cuadrática: Estadístico H0:
III. REGRESIÓN LINEAL MÚLTIPLE ANOVA y Estadístico F Media cuadrática: Residual (MSR)=SCR/n-(k+1)n-(k+1) gl Explicada (MSE): SCE/[(k +1) – 1]k gl Estadístico H0: F>F crítico se rechaza H0; P<a se rechaza H0
59
Interpretación de coeficientes
III. REGRESIÓN LINEAL MÚLTIPLE Interpretación de coeficientes Y=a + 𝑿 𝟏 𝜷 𝟏 +…+ 𝑿 𝒌 𝜷 𝒌 + e Al aumentar en uno 𝑿 𝒌 , mantendiendo las demás variables constantes, Y aumenta en 𝜷 𝒌 unidades. Para cada 𝜷 𝒌 , se hace un Test T, que pone a prueba las hipótesis: 𝑯 𝟎 : 𝜷 𝒌 =0 𝑯 𝟏 : 𝜷 𝒌 ≠0 Si Valor P<a: se rechaza 𝑯 𝟎
60
Interpretación de coeficientes
III. REGRESIÓN LINEAL MÚLTIPLE Interpretación de coeficientes Y=a + 𝑿 𝟏 𝜷 𝟏 +…+ 𝑿 𝒌 𝜷 𝒌 + e Al aumentar en uno 𝑿 𝒌 , mantendiendo las demás variables constantes, Y aumenta en 𝜷 𝒌 unidades. Para cada 𝜷 𝒌 , se hace un Test T, que pone a prueba las hipótesis: 𝑯 𝟎 : 𝜷 𝒌 =0 𝑯 𝟏 : 𝜷 𝒌 ≠0 Si Valor P<a: se rechaza 𝑯 𝟎
61
Estimación de parámetros del modelo
III. REGRESIÓN LINEAL MÚLTIPLE Ejemplo: ¿Cuál es el efecto de la escolaridad y el estado de actividad en los ingresos per capita? Ajuste del modelo Test T ( 𝑯 𝟎 : 𝜷 𝒌 =0) Estimación de parámetros del modelo
62
III. REGRESIÓN LINEAL MÚLTIPLE
63
III. REGRESIÓN LINEAL MÚLTIPLE
64
PREGUNTAS Un grupo de investigadores estima una regresión lineal para estimar cómo el sexo y el tipo de contrato (indefinido/plazo fijo) afectan las horas trabajadas, usando la CASEN 2013, obteniendo los siguientes resultados. Interprete el ajuste del modelo y los coeficientes (y el Test T asociado). Interprete sociológicamente sus resultados.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.