Tema 7: Regresión Simple

Slides:



Advertisements
Presentaciones similares
Tema 6: Regresión lineal.
Advertisements

ESTADISTICA INFERENCIAL
Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Pronósticos, Series de Tiempo y Regresión
Bivariadas y Multivariadas
Estadística: -Correlación y regresión
Ingeniería Industrial II CicloEducativo 2011
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Regresión y correlación
Tema 6: Análisis de la Varianza (1ª parte: ANOVA simple)
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Regresión Simple..
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
Tema 2: Métodos de ajuste
Estadística bidimensional
MEDIDAS DE DISPERSIÓN:
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Análisis de Correlación y de Regresión lineal simple
Distribuciones bidimensionales. Tablas de contingencia
Tema 3: Estadística descriptiva bivariante y regresión lineal.
Prueba para la Bondad de ajuste Validación de Modelo
CONTRASTE Y VALIDACIÓN DE UN MODELO
Módulo 5 Análisis de Regresión y Series de Tiempo.
Pronósticos, Series de Tiempo y Regresión
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
Departamento de Informática Universidad Técnica Federico Santa María
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
ESTADÍSTICA BIDIMENSIONAL
Estadística bidimensional
Tema 6: Análisis de la Varianza (2ª parte: ANOVA multifactorial)
Estadística Descriptiva
LA RECTA DE REGRESIÓN CONTENIDOS:
Tema 2: Regresión y correlación
Diagramas de dispersión (Nube de puntos)
Variables estadísticas bidimensionales
Tema 5: Contrastes de Hipótesis no-paramétricos
Tema 6: Análisis de la Varianza
Regresión lineal simple
Regresión lineal múltiple
ESTADISTICA PROBLEMA 1: Queremos comparar los préstamos de dos bibliotecas situadas en zonas similares. 1.- ¿Es “normal” la variable préstamo en cada una.
Estadística aplicada a la educación
Relaciones entre variables y regresión
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Estadística II Regresión Lineal.
Regresión Lineal Simple
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente.
Variables estadísticas bidimensionales
Unidad 4 Análisis de los Datos.
TEMA 3: Estadística Bidimensional.
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
INFERENCIA ESTADÍSTICA
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
Pruebas paramétricas y no paramétricas
Tema 2: Estadística bidimensional
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
GRÁFICAS Y FUNCIONES MATEMÁTICAS Bernardo Nieto Castellanos.
ESTADÍSTICA BIDIMENSIONAL
Transcripción de la presentación:

Tema 7: Regresión Simple y Múltiple

EJEMPLO: Nos dicen que la fórmula Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Si damos valores a la variable Días (nº días transcurridos desde la apertura de la biblioteca…

Si dos variables X e Y está relacionadas mediante una expresión del tipo Y=a+bX, la gráfica que relaciona los valores de X e Y es una línea recta, y se dice que Y=a+bX es la ecuación de dicha recta; el recíproco es cierto, es decir, si la gráfica que relaciona X e Y es una recta, entre ambas existe una relación del tipo Y=a+bX. En ese caso, decimos que entre X e Y hay una relación de tipo lineal. PROBLEMA: Dadas dos variables continuas X e Y, ¿podemos decir que entre ellas hay aproximadamente una relación lineal? Si la respuesta es afirmativa, ¿podemos encontrar los valores a y b que proporcionan la mejor aproximación para Y, a partir de los valores de X?

EJEMPLO: Supongamos que una biblioteca proporcionó los siguientes datos, a lo largo de su primer año de vida Días Nº prestamos 5 25 20 32 35 40 50 39 65 47 80 51 95 56 110 54 135 69 150 72 165 76 180 77 195 86 210 90 235 98 250 102 265 105 280 295 113 310 120

En el ejemplo anterior se ve que, aunque las variables no respondan EXACTAMENTE a una expresión del tipo Y = a+bX, sí responden APROXIMADAMENTE a una expresión de este tipo. En concreto, utilizando técnicas estadísticas puede verse que es una aproximación “suficientemente buena” del Nº préstamos.

PROBLEMAS: Dadas dos variables X e Y, continuas 1.- [Correlación] ¿Existe una cierta relación entre ellas, o por el contrario son independientes? En el primer caso, hablamos de que entre X e Y hay correlación; en el segundo, decimos que son incorreladas 2.- [Correlación lineal] Suponiendo que entre X e Y hay correlación, ¿están linealmente correlacionadas, es decir, funciona suficientemente bien un modelo del tipo Y = a+bX para predecir Y a partir de X? ¿Cuáles son los “óptimos” valores para a y b, es decir, los que producen “mejores” esti- maciones? 3.- [Otros tipos de correlación] ¿Hay algún modelo mejor que el lineal que permita estimar Y a partir de X? Por ejemplo, Cuadrático: Y=a+bX+bX2 Exponencial: Y=a bx …

1. Distribuciones bidimensionales. Correlación. Cuando en una población registramos simultáneamente los valores de dos variables X e Y, decimos que estamos ante una distribución BIDIMENSIONAL (PIZARRA: distribuciones marginales) Los datos relativos a una distribución bidimensional se pueden representar gráficamente mediante una NUBE DE PUNTOS, o DIAGRAMA DE DISPERSION (PIZARRA) Si la nube de puntos se ajusta aproximadamente a una curva, diremos que las variables están correlacionadas, es decir, que existe una cierta relación entre ellas (y buscaremos cuál es la expresión, la “fórmula” que mejor aproxima una de ellas partir de la otra); en caso contrario, decimos que las variables son incorreladas, es decir, que no tienen relación.

Hay correlación Incorreladas

Además de la “inspección” de la nube de puntos, hay métodos más exactos para evaluar la existencia o no de correlación.

Si la nube de puntos parece ajustarse en torno a alguna curva (es decir, si hay correlación), la forma de dicha curva nos indica el tipo de correlación. Si la nube de puntos parece agruparse en torno a una recta, diremos que hay correlación lineal, o que las variables están linealmente correlacionadas.

¿Cómo tomar a, b para que la aproximación sea Si las variables están linealmente correlacionadas, entonces tiene sentido buscar la recta que “mejor se ajusta” a la nube de puntos, es decir, la recta que globalmente está más cerca del conjunto de puntos. Si nuestra intención al hacer eso es la de estimar Y a partir de X, entonces encontrar dicha recta es equivalente a encontrar la mejor aproximación Y=a+bX (RECTA DE REGRESION DE Y SOBRE X) ¿Cómo tomar a, b para que la aproximación sea “óptima”? Statgraphics

2. Regresión lineal sobre un conjunto de puntos. PROBLEMA 1: Dada una distribución bidimensional (X,Y), determinar si las variables X e Y están o no linealmente correlacionadas, y la fuerza de dicha correlación lineal. PROBLEMA 2: Suponiendo que X e Y están linealmente correlacionadas, determinar la recta de regresión de Y sobre X, es decir, a y b de modo que, aproximadamente, Y=a + bX.

PROBLEMA 1: Dada una distribución bidimensional (X,Y), determinar si las variables X e Y están o no linealmente correlacionadas, y la fuerza de dicha correlación lineal. Concepto de COVARIANZA (PIZARRA) Coeficiente de correlación lineal de Pearson. (PIZARRA) Coeficiente de correlación lineal de Spearman. (PIZARRA)

PROBLEMA 2: Suponiendo que X e Y están linealmente correlacionadas, determinar la recta de regresión de Y sobre X, es decir, a y b de modo que, aproximadamente, Y=a + bX. Covarianza (Ecuación recta de regresión de Y sobre X) Media marginal de X Media marginal de Y Varianza marginal de X

Conocida la recta de regresión, podemos estimar los valores de Y correspondientes a distintos valores de X. Valor predicho, o estimado

:valor real

Valor predicho:

Statgraphics Residuo: diferencia entre el valor real y el valor predicho Valor predicho: Statgraphics

¿SIGUE SIENDO “APROXIMADAMENTE” VALIDO Y=a+bX cuando tomamos 3. El modelo de regresión lineal. Sabemos decidir si, aproximadamente, un conjunto (xi,yi) de puntos (datos) se ajusta o no a Y=a+bX. Pero, teniendo en cuenta que esos datos son una MUESTRA de una población… ¿SIGUE SIENDO “APROXIMADAMENTE” VALIDO Y=a+bX cuando tomamos NO una muestra (xi,yi), sino cuando consideramos TODA LA POBLACION? ¿Qué queremos decir por “aproximadamente”?

Modelo de regresión lineal: Decimos que dos variables (poblacionales!) están linealmente correlacionadas, si: 1. residuo Y: variable explicada X: regresor 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 2+ 4+ 5= Residuos siguen una normal N(0,σ)

“La varianza de los residuos no depende de xi (homocedasticidad)”

Modelo de regresión lineal: Hipótesis básicas: 1. residuo Y: variable explicada X: regresor 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 2, 4 y 5 pueden contrastarte guardando los residuos, y procediendo como en otras ocasiones.

Modelo de regresión lineal: Hipótesis básicas: 1. residuo Y: variable explicada X: regresor 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 3 es difícil de contrastar con Statgraphics; por tanto, Simplemente inspeccionaremos el diagrama de dispersión (OBSERVACION: si para un mismo valor de xi sólo tenemos un punto, este requisito se cumple trivialmente)

Si la homocedasticidad es dudosa, siempre podemos eliminar “aceptable” Si la homocedasticidad es dudosa, siempre podemos eliminar Residuos atípicos.

¿Cómo CONTRASTAR? Modelo de regresión lineal: Hipótesis básicas: 1. residuo Y: variable explicada X: regresor 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. ¿Cómo CONTRASTAR?

(Explicación: PIZARRA) ¿Cómo CONTRASTAR? a.- Inspección del diagrama de dispersión, valores de los coeficientes de correlación de Pearson y Spearman (si el ajuste no funciona bien para la muestra, difícilmente lo hará para la población). b.- Contraste tipo ANOVA sobre la existencia o no de correlación lineal. COEFICIENTE DE DETERMINACION. c.- Contraste sobre la pendiente de la recta de regresión. d.- ¿Cómo podemos estar seguros de que, en la población, los coeficien- tes de Pearson y Spearman no serían 0 (en cuyo caso, no habría correlación lineal)? Contraste de hipótesis. (Explicación: PIZARRA)

- Eliminación de parámetros (simplificación del modelo): PIZARRA - Puntos influyentes (PIZARRA) Statgraphics

4. El modelo de regresión múltiple. PROBLEMA: Hemos recogido datos sobre usuarios de mediana edad de una biblioteca en la que además se realizan actividades tanto para niños como para adolescentes y adultos, y estamos interesados en analizar cuáles son las variables que determinan el nivel de satisfacción de sus usuarios; las variables recogidas son: afición a la lectura, al cine, a la música, número de hijos, renta… y, por supuesto, nivel de satisfac- ción.

El modelo de regresión simple es, a priori, poco realista (parece poco probable que el nivel de satisfacción dependa de una única variable, más bien lo natural es que en él intervengan varias variables). En con- secuencia, ensayamos no con Y=a+bX sino con Y=a+b1X1+ … +bnXn regresores Variable respuesta (en nuestro caso, “nivel de satisfacción”)

Por ejemplo, en el problema anterior, la fórmula a la que llegaremos es: Aquí, Y=Satisfacción, X1=Afición_cine, X2=Aficion_lectura, etc. Sirve para: predecir. detectar influencias (qué variables tienen más “poder” sobre la variable que nos interesa, etc.)

Modelo de regresión múltiple: 1. residuo 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 6. Las variables x1, x2, etc. no están linealmente correlacionadas entre sí.

Modelo de regresión múltiple: 1. residuo 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 6. Las variables x1, x2, etc. no están linealmente correlacionadas entre sí. 2+ 4+ 5= Residuos siguen una normal N(0,σ)

Modelo de regresión múltiple: 1. residuo 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 6. Las variables x1, x2, etc. no están linealmente correlacionadas entre sí. La homocedasticidad (IDEA: PIZARRA) se puede comprobar gráficamente (residuo frente a predicho); hay métodos más sofisticados, también más laboriosos.

Modelo de regresión múltiple: 1. residuo 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 6. Las variables x1, x2, etc. no están linealmente correlacionadas entre sí. Si algunas de las variables Xi están correlacionadas linealmente entre sí, se dice que hay MULTICOLINEALIDAD. Más llanamente, se trata de un modelo “redundante” donde ciertas variables “sobran”. Se puede detectar parcialmente Inspeccionando la matriz de correlaciones (PIZARRA)

Modelo de regresión múltiple: 1. residuo 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 6. Las variables x1, x2, etc. no están linealmente correlacionadas entre sí. La “fuerza” de la correlación lineal se mide mediante el R-cuadrado (porcentaje de variabilidad explicada por el modelo); razonamientos sobre variabilidad también llevan a la construcción de un contraste sobre la existencia o no de correlación lineal (PIZARRA)

Como en el caso de regresión simple, si alguna hipótesis no se cumple, podemos tratar de “depurar” los datos; en este sentido, medidas habituales son: Detección (y en su caso, eliminación) de datos que producen residuos atípicos. -Detección (y en su caso, eliminación) de datos “influyentes” -Detección de multicolinealidad (y en su caso, eliminación de regresores). -Detección (y, en su caso, eliminación) de variables “superfluas” (es decir, con poco “poder”sobre la variable respuesta) Statgraphics