Construcción de modelos con regresión y correlación

Slides:



Advertisements
Presentaciones similares
Tema 6: Regresión lineal.
Advertisements

REGRESION Y CORRELACION
Regresión lineal simple
REGRESION LINEAL SIMPLE
Error Estándar de la Media
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
MÉTODOS DE MEDICIÓN DE COSTOS.
Pronósticos, Series de Tiempo y Regresión
Ingeniería Industrial II CicloEducativo 2011
KRIGING.
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
Introducción a la Estadística. Modelos de regresión
Regresión Lineal y Regresión Polinomial
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Regresión y correlación
Estadística Descriptiva: 4. Correlación y Regresión Lineal
بسم الله الرحمن الرحيم.
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
9 Regresión Lineal Simple
División de Estudios Políticos, CIDE
Regresión Linear Correlación de Pearson, r Regresión Múltiple Regresión Logística Regresión de Poisson.
MEDIDAS DE DISPERSIÓN:
Facultad: Turismo Y Hotelería
BIOMETRIA II TEMA 2 El Modelo de Regresión.
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
Regresión Lineal Simple Lic. César Octavio Contreras.
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Datos: Estadística.
Métodos de calibración: regresión y correlación
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
CORRELACION Y REGRESION LINEAL: Introducción
Inferencia Estadística
Estadística Descriptiva
LA RECTA DE REGRESIÓN CONTENIDOS:
Herramientas básicas.
RELACIÓN ENTRE VARIABLES
REGRESION LINEAL II Mario Briones L. MV, MSc
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
1 Y MODELO DE REGRESIÓN SIMPLE Suponemos que una variable Y es una función lineal de otra variable X, con parámetros desconocidos  1 y  2 que queremos.
Estimación y contraste de hipótesis
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
ESTIMACIÓN DE PARÁMETROS
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Distribuciones de Probabilidad
Regresión lineal simple Nazira Calleja
Diferencias individuales y correlaciones
Correlación ρ (rho) r.
Unidad 4 Análisis de los Datos.
REGRESIÓN LINEAL MÚLTIPLE.
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
Modelos de regresión lineal
Supuestos en el análisis de regresión
Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage.
Aplicaciones Estadísticas a las Finanzas Clase 1
REGRESIÓN LINEAL SIMPLE
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
14 Introducción al Análisis de Correlación y de Regresión Lineal
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
Transcripción de la presentación:

Construcción de modelos con regresión y correlación Miles, J. & Shevlin, M. Applying regression & correlation: a guide for strudents and researchers. Los Angeles: Sage. Cap. 1

 Temas 1. Modelos 2. Modelo de mínimos cuadrados 3. Error estándar de la media 4. Modelamiento de relaciones 5. Modelo de regresión lineal a) La línea del mejor ajuste b) Utilización del modelo estimado para predecir c) Intervalo de confianza para β d) β estandarizado 6. Correlación 7. Varianza explicada

Representación parsimoniosa o simple de un fenómeno. 1. Modelos MODELO Representación parsimoniosa o simple de un fenómeno. Comúnmente, no es una representación perfecta.

Modelos en estadística ENRIQUE PEÑA NIETO 1,72CM DATOS MODELO = 1.72 CON UN PARÁMETRO

Modelos DATOS = MODELO + ERROR = +

Modelos DATOS = MODELO + ERROR Perfecta representación de los datos o parámetros. “Modelo perfecto” que no resume los datos = Duplicado Modelo ≠ Los datos PARÁMETROS: Números que integran el modelo

2. Modelo de mínimos cuadrados MEDIA: Modelo simple Modelo de los datos en un parámetro. Con un solo número se obtiene una idea general del conjunto total de números.

Modelo de mínimos cuadrados MEDIA Modelo con la menor probabilidad de error. Puntaje de una persona = Media +(-) error Modelo de mínimos cuadrados

Modelo de mínimos cuadrados MEDIA Puntaje = Media +(-) error - X1 = e1 La diferencia entre el modelo y los datos es el error - X2 = e2 X3 = - e3 - ei Xi = i : la ecuación se repite para cada uno de los individuos. (Muchas veces se omite la i).

Modelo de mínimos cuadrados DATOS = MODELO + ERROR 14 20 -6 15 -5 16 -4 23 3 25 5 34 RESIDUALES: Error o diferencia entre el puntaje predicho por el modelo y el puntaje obtenido

Modelo de mínimos cuadrados 14 20 -6 36 15 -5 25 16 -4 23 3 9 5 34 196 ∑ 366 2 ( ) Cálculo del error total

Modelo de mínimos cuadrados = 36.60 Media del error al cuadrado por persona = 𝟑𝟔𝟔 𝟏𝟎 √ 36.60 = 6.05 Media del error Media de las desviaciones respecto de la media

Modelo de mínimos cuadrados Desviación estándar (de, ds, sd, s): Medida de error Medida de qué tanto varían los puntajes respecto de la media

Modelo de mínimos cuadrados ¿Por qué la media es un modelo de mínimos cuadrados? Error (DE) Media Media verdadera Archivo de Excel

Modelo de mínimos cuadrados DATOS = MODELO + ERROR Media Suma de los residuales al cuadrado Da el valor de error más bajo posible Estimador de mínimos cuadrados MEDIA: Método para modelar (resumir, describir) un conjunto de datos, que minimiza el error (desviación estándar).

3. Error estándar de la media De la media de la población Estimación para la población Valor de los parámetros del modelo para la muestra Qué tan cerca está la media de la muestra

Error estándar de la media Muchas muestras posibles, muchas medias posibles

Error estándar de la media Distribución muestral de medias 100 muestras de 50 pacientes cada una Nivel de apego al tratamiento

Error estándar de la media Sólo vemos una

Error estándar de la media Desviación estándar de la distribución muestral = Error estándar de la media ES( ) = o

Error estándar de la media IC: Intervalo de confianza 1 ES _ 68% 2 ES _ 95% 3 ES _ 99%

Error estándar de la media Intervalo de confianza

Error estándar de la media Intervalo de confianza Límite superior En tabla de puntajes Z: 90/2 = 45% Z para .4500 = 1.645 Límite inferior En tabla de puntajes Z: 99/2 = 49.5% Z para .4950 = 2.575

Error estándar de la media Intervalo de confianza al 95% Datos: = 2 libros leídos ES = 0.23 95%: Z = 1.96 CI 95% = 1.96 x ES ± CI 95% superior = 2 + (1.96 x 0.23) = 2.45 CI 95% inferior = 2 - (1.96 x 0.23) = 1.55 El número promedio de libros leídos por los estudiante en la siguiente muestra que tomemos de la población de la cual tomamos nuestra muestra (cuya media fue 2) será entre 1.45 a 2.55; sólo tendremos 5% de probabilidades de estar equivocados.

4. Modelamiento de relaciones Interés: Modelar la relación entre 2 o más variables. Técnica: Análisis de regresión. Objetivo: Estimar en cuánto aumenta la calificación con cada libro leído.

Modelamiento de relaciones x Inteligencia Y Actitud hacia el estudio 110 2.6 120 3.0 100 2.5 90 1.5 130 3.2 3.4 Actitud hacia el estudio Y Inteligencia X Estimar en cuánto se incrementa el puntaje de actitud con cada punto de inteligencia.

Modelamiento de relaciones y = mx + c x, y: variables m: pendiente de la línea c: intercepto de y valor de y cuando x = 0 punto donde la línea cruza el eje de las x

Modelamiento de relaciones Para representar una relación (lineal) entre dos variables se requieren dos parámetros y = mx + c y = a + bx m, c Permiten saber cómo es la línea que relaciona las dos variables a , b

5. Modelo de regresión lineal Para variables que posiblemente están asociadas (X y Y) asumimos el modelo: Y = α + β·X + ε α y β son coeficientes desconocidos. X y Y son las variables que observamos. ε es la parte de Y que X no explica. Es el error aleatorio que define los valores de la vida real.

Análisis de regresión: Encontrar la línea de mejor ajuste Regresión lineal Análisis de regresión: Encontrar la línea de mejor ajuste y = bx + c + e (x, y) ε Y = α + β·X + ε β α Y = α + βX c = b0 = a = α = intercepto y m = b = β = pendiente = línea de regresión

a) La línea del mejor ajuste Encontrar la línea de mejor ajuste Estimación de los mínimos cuadrados de la línea Con un parámetro: Con dos parámetros: a y b

La línea del mejor ajuste ¿Qué tan cercanamente se ajusta cada una de las posibles líneas a los datos observados? Consumo de tabaco y pérdida de fijación dental (28 fumadores) Pérdida media de fijación dental (mm) Número de cigarros fumados por día (autorreporte)

La línea del mejor ajuste Residuales: Distancias verticales de todos los puntos (x,y) a la línea. Error La línea de mejor ajuste se define como aquélla en la que la suma de los cuadrados de los residuales es mínima.

Ejemplo ¿Cuál es la asociación entre: Consumo de tabaco y Pérdida de fijación dental?

Ejemplo Línea de ajuste de la asociación entre el consumo de tabaco (número de cigarros fumados por día) y la pérdida de fijación dental (en mm). N = 28 fumadores. Pérdida media de fijación dental (mm) Número de cigarros fumados por día (autorreporte)

Ejemplo: Pérdida de fijación dental y cigarros fumados por día Consumo de tabaco y pérdida de fijación dental (28 fumadores) Pérdida media de fijación dental (mm) Número de cigarros fumados por día (autorreporte)

Ejemplo: Pérdida de fijación dental y cigarros fumados por día α β Este resultado de SPSS dice que: a = 2.319, b = 0.067 La línea de mejor ajuste es: Y = 2.319 + 0.067 × X Nivel promedio de fijación dental Cigarros fumados por día

Ejemplo: Pérdida de fijación dental y cigarros fumados por día Y = 2.319 + 0.067 × X puede interpretarse como: “Cada cigarro fumado extra por día se asocia con una pérdida adicional de 0.067 mm de fijación dental." También :“Cada paquete fumado al día (20 cigarros) se asocia con una pérdida adicional de 0.067 × 20 = 1.34 mm de fijación dental."

La línea del mejor ajuste α β Este resultado de SPSS dice que: a = 2.319, b = 0.067 La línea de mejor ajuste es: Y = 2.319 + 0.067 × X Donde Y = nivel promedio de fijación y X = cigarros fumados por día.

b) Utilización del modelo estimado para predecir ¿Qué nivel de fijación dental tendrá alguien que fuma 30 cigarros al día? La mejor estimación del nivel de pérdida de fijación dental promedio de las personas que fuman 30 cigarrillos / día es: Y = 2.319 + 0.067 × X Y = 2.319 + (0.067 x 30) = 4.329 mm

c) Intervalo de confianza para β Un intervalo de confianza de 1-α para β es: IC = b ± 1.96 X ES b: Pendiente de la línea de regresión % de confianza: 95% ES: Error estándar Rango de valores entre los cuales es probable encontrar el valor verdadero de β (el de la población).

Intervalo de confianza para β Ejemplo: Cigarros fumados por día y pérdida de fijación dental b = 0.067 IC Límite inferior: 0.001 SE = 0.032 IC Límite superior: 0.133 El intervalo de confianza de 95% para β es: 0.001 - 0.133

d) β estandarizado Problema!! La estimación de β depende de la métrica utilizada. No es posible comparar con otros estudios. Solución Estandarizar las métricas, utilizar puntaje z. Ya se pueden hacer comparaciones, independientemente de cómo se hayan medido la variables.* *Sólo en regresión múltiple, no en regresión múltiple.

Puntajes estandarizados Estandarización Puntajes originales o brutos X Puntajes estandarizados Z Puntaje Z: Número de desviaciones estándar en el que se encuentra ubicado un puntaje en relación con la media de la distribución. En SPSS: Analizar – Descriptivos – Guardar valores tipificados como variables

Distribución de puntajes Z β estandarizado Distribución de puntajes Z Distribución de puntajes estandarizados Z Distribución de puntajes originales o brutos X Media = 0 Desviación estándar = 1

β estandarizado Puntaje Z De X a Z De Z a X Puntaje X

β estandarizado % Z Z % % Z Tabla de Z Los estadísticos han construido tablas que indica el valor de estas proporciones para cada posible puntaje Z. % Z Z % % Z Calculadoras electrónicas de puntajes Z y áreas bajo la curva: http://davidmlane.com/hyperstat/normal_distribution.html http://psych.colorado.edu/~mcclella/java/normal/normz.html

β estandarizado Con variables estandarizadas: el intercepto (a) siempre será cero. Si se elimina, el modelo queda más sencillo. Lo que importa es la pendiente (b). Un incremento en una unidad en el eje de las X se asocia con un incremento de ___ en el eje de las Y. B estandarizado = .49

β estandarizado b estandarizado = r ¡¡¡Sorpresa!!! Casi todas las pruebas estadísticas se basan en principios similares y están muy relacionadas entre sí.

6. Correlación Cuantificación lineal de la relación entre dos variables. Cuantificación porque convierte la relación en un número. Mientras más fuerte sea la relación, mayor será el valor absoluto de la correlación. Lineal porque asume que la relación forma una línea recta. Entre dos variables porque describe qué tanto cambia una variable (X) dado un cambio en una segunda variable (Y). Un índice de correlación (r) es un número entre -1.00 y +1.00 que describe la relación entre dos variables.

DIRECCIÓN DE LA RELACIÓN Correlación negativa No correlación Correlación positiva Cuando una variable sube la otra baja Cuando un cambio en una de las variables no afecta a la otra Cuando una variable sube, la otra también sube y viceversa Número negativo - Cero Número positivo + Máxima posible: 1 (o -1)

Correlación

Correlación Dispersigramas Correlación lineal Correlación no lineal

Correlación El índice de correlación de Pearson es el coeficiente más utilizado para estudiar el grado de relación lineal existente entre dos variables cuantitativas.   A finales del siglo XIX, Sir Francis Galton introdujo el concepto de correlación. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros científicos biométricos.

Como una medida de asociación, la r está basada en la covarianza. Correlación Como una medida de asociación, la r está basada en la covarianza. Covarianza Correlación 𝑟 𝑥𝑦 = 𝑆 𝑥𝑦 𝑆 𝑥 𝑆 𝑦 𝑟 𝑥𝑦 = Covarianza de la variable X con Y = Correlación de la variable x con y = Diferencia de cada uno de los puntajes de X en relación con su media 𝑆 𝑥𝑦 = Covarianza de la variable x con y 𝑆 𝑥 = Desviación estándar de la variable x = Diferencia de cada uno de los puntajes de Y en relación con su media 𝑆 𝑦 = Desviación estándar de la variable y

Correlación Con puntajes estandarizados (zx zy) r = N - 1 Ejemplo 9.27 r = = 0.71 14 - 1 a) Dirección de la relación: Positiva b) Magnitud de la relación: de moderada a fuerte c) Una variable no causa la otra

7. Varianza explicada s = de2 Varianza: medida de la variabilidad de una variable, qué tanto se desvían de la media. Varianza total: Promedio de las desviaciones cuadradas de los puntajes respecto de la línea. SCtotal:Suma de cuadrados total Media

Varianza explicada Desviación del modelo Línea de mejor ajuste de mínimos cuadrados (con a y b) Calificación real Residual Calificación predicha Desviación del modelo Residual = Valor real - Valor predicho Media Desviación estándar Varianza Valores predichos Valores residuales

Varianza explicada + = Varianza de los valores predichos Varianza de los residuales = Varianza total Varianza no explicada por el modelo Varianza explicada por el modelo

Varianza explicada = = r Varianza de los valores predichos Proporción de la varianza de Y explicada por X = Varianza de los valores reales Proporción de la varianza de Y explicada por X = r