La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.

Presentaciones similares


Presentación del tema: "Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos."— Transcripción de la presentación:

1 Tema 7: Regresión Simple y Múltiple

2 EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos dicen que la fórmula Si damos valores a la variable Días (nº días transcurridos desde la apertura de la biblioteca…

3

4 Si dos variables X e Y está relacionadas mediante una expresión del tipo Y=a+bX, la gráfica que relaciona los valores de X e Y es una línea recta, y se dice que Y=a+bX es la ecuación de dicha recta; el recíproco es cierto, es decir, si la gráfica que relaciona X e Y es una recta, entre ambas existe una relación del tipo Y=a+bX. En ese caso, decimos que entre X e Y hay una relación de tipo lineal. En la realidad, no nos encontramos fórmulas tan “redondas”, pero sí nos encontramos fenómenos que pueden aproximarse por ellas.

5 Días Nº prestamos 525 2032 3540 5039 6547 8051 9556 11054 13569 15072 16576 18077 19586 21090 23598 250102 265105 280110 295113 310120 EJEMPLO: Supongamos que una biblioteca proporcionó los siguientes datos, a lo largo de su primer año de vida

6

7 APROXIMADAMENTE, En este caso, diríamos que las variables Nº préstamos y Días están linealmente correlacionadas, y que lo de arriba es la ecuación de la recta de regresión de Nº préstamos sobre Días. ¿Para qué nos sirve? (1) para conocer leyes empíricas; (2) para predecir el valor de una cierta variable

8 PROBLEMAS: Dadas dos variables X e Y, continuas 1.- [Correlación] ¿Existe una cierta relación entre ellas, o por el contrario son independientes? En el primer caso, hablamos de que entre X e Y hay correlación; en el segundo, decimos que son incorreladas 2.- [Correlación lineal] Suponiendo que entre X e Y hay correlación, ¿están linealmente correlacionadas, es decir, funciona suficientemente bien un modelo del tipo Y = a+bX para predecir Y a partir de X? ¿Cuáles son los “óptimos” valores para a y b, es decir, los que producen “mejores” esti- maciones? 3.- [Otros tipos de correlación] ¿Hay algún modelo mejor que el lineal que permita estimar Y a partir de X? Por ejemplo, Cuadrático: Y=a+bX+bX 2 Exponencial: Y=a b x … Otro ejemplo (Leyes bibliométricas)

9 Curva logística del crecimiento de la información

10 1. Distribuciones bidimensionales. Correlación. Cuando en una población registramos simultáneamente los valores de dos variables X e Y, decimos que estamos ante una distribución BIDIMENSIONAL (PIZARRA: distribuciones marginales) Los datos relativos a una distribución bidimensional se pueden representar gráficamente mediante una NUBE DE PUNTOS, o DIAGRAMA DE DISPERSION (PIZARRA) Si la nube de puntos se ajusta aproximadamente a una curva, diremos que las variables están correlacionadas, es decir, que existe una cierta relación entre ellas (y buscaremos cuál es la expresión, la “fórmula” que mejor aproxima una de ellas partir de la otra); en caso contrario, decimos que las variables son incorreladas, es decir, que no tienen relación.

11 Hay correlación Incorreladas

12 Además de la “inspección” de la nube de puntos, hay métodos más exactos para evaluar la existencia o no de correlación.

13 Si la nube de puntos parece ajustarse en torno a alguna curva (es decir, si hay correlación), la forma de dicha curva nos indica el tipo de correlación. Si la nube de puntos parece agruparse en torno a una recta, diremos que hay correlación lineal, o que las variables están linealmente correlacionadas.

14 Si las variables están linealmente correlacionadas, entonces tiene sentido buscar la recta que “mejor se ajusta” a la nube de puntos, es decir, la recta que globalmente está más cerca del conjunto de puntos. Si nuestra intención al hacer eso es la de estimar Y a partir de X, entonces encontrar dicha recta es equivalente a encontrar la mejor aproximación Y=a+bX (RECTA DE REGRESION DE Y SOBRE X) ¿Cómo tomar a, b para que la aproximación sea “óptima”?

15 2. Regresión lineal sobre un conjunto de puntos. PROBLEMA 1: Dada una distribución bidimensional (X,Y), determinar si las variables X e Y están o no linealmente correlacionadas, y la fuerza de dicha correlación lineal. PROBLEMA 2: Suponiendo que X e Y están linealmente correlacionadas, determinar la recta de regresión de Y sobre X, es decir, a y b de modo que, aproximadamente, Y=a + bX.

16 PROBLEMA 1: Dada una distribución bidimensional (X,Y), determinar si las variables X e Y están o no linealmente correlacionadas, y la fuerza de dicha correlación lineal. - Nube de puntos. - Coeficiente de correlación lineal de Pearson. (PIZARRA) - Coeficiente de correlación lineal de Spearman. - Coeficiente de determinación ó R-cuadrado ó % de variabilidad explicada.

17 PROBLEMA 2: Suponiendo que X e Y están linealmente correlacionadas, determinar la recta de regresión de Y sobre X, es decir, a y b de modo que, aproximadamente, Y=a + bX. (Ecuación recta de regresión de Y sobre X) Conocida la recta de regresión, podemos estimar los valores de Y correspondientes a distintos valores de X. Valor predicho, o estimado

18 :valor real

19 Valor predicho:

20 Residuo: diferencia entre el valor real y el valor predicho

21 Statgraphics R-cuadrado ó Coeficiente de Determinación ó % de variabilidad explicada… (PIZARRA)

22 3. El modelo de regresión lineal. Sabemos decidir si, aproximadamente, un conjunto (x i,y i ) de puntos (datos) se ajusta o no a Y=a+bX. Pero, teniendo en cuenta que esos datos son una MUESTRA de una población… ¿SIGUE SIENDO “APROXIMADAMENTE” VALIDO Y=a+bX cuando tomamos NO una muestra (x i,y i ), sino cuando consideramos TODA LA POBLACION? ¿Qué queremos decir por “aproximadamente”?

23 Modelo de regresión lineal: Y: variable explicada X: regresor residuo Decimos que dos variables (poblacionales!) están linealmente correlacionadas, si: 1. 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de x i (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 2+ 4+ 5= Residuos siguen una normal N(0,σ)

24 “La varianza de los residuos no depende de xi (homocedasticidad)”

25 Modelo de regresión lineal: Y: variable explicada X: regresor residuo Hipótesis básicas: 1. 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de x i (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 2, 4 y 5 pueden contrastarte guardando los residuos, y procediendo como en otras ocasiones.

26 Modelo de regresión lineal: Y: variable explicada X: regresor residuo Hipótesis básicas: 1. 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de x i (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 3 lo contrastaremos con los gráficos de residuos, y comprobando que no haya residuos atípicos.

27 Homocedasticidad “aceptable”

28 Modelo de regresión lineal: Y: variable explicada X: regresor residuo Hipótesis básicas: 1. 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de x i (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. ¿Cómo CONTRASTAR?

29 a.- Inspección del diagrama de dispersión, valores de los coeficientes de correlación de Pearson y Spearman (si el ajuste no funciona bien para la muestra, difícilmente lo hará para la población). b.- Contraste tipo ANOVA sobre la existencia o no de correlación lineal. COEFICIENTE DE DETERMINACION. = Contraste sobre la pendiente de la recta de regresión. c.- ¿Cómo podemos estar seguros de que, en la población, los coeficien- tes de Pearson y Spearman no serían 0 (en cuyo caso, no habría correlación lineal)? Contraste de hipótesis. ¿Cómo CONTRASTAR? (Explicación: PIZARRA)

30 - Eliminación de parámetros (simplificación del modelo): Si aceptamos el contraste H 0 : a=0, entonces la recta de regresión que obtenemos es y = bx (una fórmula más sencilla): se dice entonces que hemos simplificado nuestro modelo.

31 Y: variable explicada X: regresor residuo 1. 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de x i (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. ¿Qué hacer si falla alguna hipótesis? (algunas ideas sobre esto…) (APUNTES) Statgraphics

32 4. El modelo de regresión múltiple. PROBLEMA: Hemos recogido datos sobre usuarios de mediana edad de una biblioteca en la que además se realizan actividades tanto para niños como para adolescentes y adultos, y estamos interesados en analizar cuáles son las variables que determinan el nivel de satisfacción de sus usuarios; las variables recogidas son: afición a la lectura, al cine, a la música, número de hijos, renta… y, por supuesto, nivel de satisfac- ción.

33

34 El modelo de regresión simple es, a priori, poco realista (parece poco probable que el nivel de satisfacción dependa de una única variable, más bien lo natural es que en él intervengan varias variables). En con- secuencia, ensayamos no con sino con Y=a+bX Y=a+b 1 X 1 + … +b n X n Variable respuesta (en nuestro caso, “nivel de satisfacción”) regresores

35 Por ejemplo, en el problema anterior, la fórmula a la que llegaremos es: Aquí, Y=Satisfacción, X 1 =Afición_cine, X 2 =Aficion_lectura, etc. Sirve para: - predecir. - detectar influencias (qué variables tienen más “poder” sobre la variable que nos interesa, etc.)

36 Modelo de regresión múltiple: 1. 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de x i (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 6. Las variables x 1, x 2, etc. no están linealmente correlacionadas entre sí. residuo

37 Modelo de regresión múltiple: 1. 2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de x i (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 6. Las variables x 1, x 2, etc. no están linealmente correlacionadas entre sí. 2+ 4+ 5= Residuos siguen una normal N(0,σ) residuo


Descargar ppt "Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos."

Presentaciones similares


Anuncios Google