La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

9 Regresión Lineal Simple

Presentaciones similares


Presentación del tema: "9 Regresión Lineal Simple"— Transcripción de la presentación:

1 9 Regresión Lineal Simple
Supongamos que tenemos datos de dos variables cuantitativas continuas X e Y, Ejemplo: X=nivel de ingreso en el pais Y: tasa de divorcio X: horas de preparacion para un examen Y: nota en el examen X: area de una casa Y= precio de una casa Haciendo un diagrama de dispersion (scatterplot) se puede detectar si la relacion entre las variables sigue una tendencia lineal. Tendencia lineal significa que los puntos están dispuestos alrededor de una linea recta, desviándose por una cantidad aleatoria e de la misma.

2 Ejemplo El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes datos representan los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la empresa. X(años) 3 4 6 7 8 12 15 20 22 26 Y(ventas) 9 16 19 23 27 34 37 40 45

3

4 3.0 El Coeficiente de Correlación
El Llamado también coeficiente de correlación de Pearson, se representa por r y es una medida que representa el grado de asociación entre dos variables cuantitativas X e Y. Se calcula por

5 La correlación varia entre -1 y 1
La correlación varia entre -1 y 1. Un valor de r cercano a 0 indica una relación lineal muy pobre entre las variables. Un valor cercano a 1 indica que hay una buena relación lineal entre la variable y además al aumentar una de ellas la otra también aumenta. Un valor cercano a –1 indica una buena relación lineal pero al aumentar el valor de una de las variables la otra disminuye.

6 En términos generales un valor de correlación mayor que
En términos generales un valor de correlación mayor que .75 ó menor que -.75 indica una buena relación lineal entre las variables. Aunque el tipo de datos que se está usando influye en el momento de decidir si la correlación es suficientemente alta. Si los datos provienen de un área donde se exige mucha precisión, como en ingeniería o medicina entonces la correlación debe estar lo más cerca posible a 1 ó –1, en áreas como economía o en ciencias sociales una correlación de .6 en valor absoluto pudiera ser considerada aceptable. Pero si hay un consenso general que una correlación entre -.3 y .3 es indicativo de una relación lineal bastante pobre entre las dos variables.

7 En MINITAB, el coeficiente de correlación se puede obtener eligiendo la opción correlation del submenú Basic Statistics del menú Stat. Para los datos del ejemplo se obtiene: Correlations: ventas, años Pearson correlation of ventas and años = 0.984 Interpretación: Existe una buena relación lineal entre los años de experiencia y las unidades que vende el vendedor. Además mientras más experiencia tiene el vendedor más carros venderá. Se puede usar los años de experiencia para predecir las unidades que venderá anualmente a través de una linea recta

8 El valor de correlación es afectado por la presencia de valores anormales, en la siguiente gráfica se puede ver el efecto de los valores anormales en el valor de la correlación para 4 diferentes relaciones.

9 Si además asumimos que se trata de predecir el comportamiento de Y usando X, entonces el modelo de regresión lineal simple es de la forma: Y = +X+ Donde, Y es llamada la variable de respuesta o dependiente, X es llamada la variable predictora o independiente,  es el intercepto de la linea con el eje Y, y  es la pendiente de la linea de regresión. es un error aleatorio, el cual se supone que tiene media 0 y varianza constante 2 .  y  son parámetros desconocidos y para estimarlos se toma una muestra de tamaño n de observaciones (xi,yi), La variable Y se asume que es aleatoria pero X puede que no sea aleatoria.

10 las cantidades Sxx, Syy y Sxy aparecen definidas anteriormente.
Los estimados de  y  son hallados usando el método de mínimos cuadrados, que se basa en minimizar la suma de cuadrados de los errores Q(,)= Usando técnicas de cálculo diferencial para minimizar una función de dos variables  y  se obtienen: las cantidades Sxx, Syy y Sxy aparecen definidas anteriormente. La ecuación , es llamada la línea de regresión estimada. Para obtener la línea de regresion encima del diagrama de dispersion en MINITAB se sigue la secuencia: STAT Regression  Fitted line plot.

11

12 9.1.1 Interpretación de los Coeficientes de Regresión:
Interpretación del intercepto : Indica el valor promedio de la variable de respuesta Y cuando X es cero. Si se tiene certeza de que la variable predictora X no puede asumir el valor 0, entonces la interpretación es innecesaria. En el ejemplo anterior, =7.661 indicaría que si el vendedor no tiene experiencia entonces sus venta promedio anual sera de carros. Interpretación de la pendiente : Indica el cambio promedio en la variable de respuesta Y cuando X aumenta en una unidad adicional. En el ejemplo anterior =1.507 indica que por cada año adicional de experiencia las ventas de un vendedor en promedio en carros.

13 Ejemplo 9.1. Se desea hallar una linea de regresión que permita predecir el precio de una casa (Y) basado en el área de la misma (X). Se recolectaron 15 datos: Casa área precio

14 Regression Analysis: precio versus área
The regression equation is precio = área Predictor Coef SE Coef T P Constant área S = R-Sq = 73.6% R-Sq(adj) = 71.6% Analysis of Variance Source DF SS MS F P Regression Residual Error Total

15 Interpretación del intercepto
=73168 indicaría que si la casa no tiene área su precio promedio será 73,168, lo cual no es muy razonable. Es más conveniente hallar una línea de regresión que no tenga intercepto. Interpretación de la pendiente =38.5 indica que por cada píe cuadrado adicional de la casa su precio aumentará en promedio en 38.5 dólares.

16 9.2 Inferencia en Regresión Lineal
Para poder hacer inferencia en regresión hay que asumir que los errores ei del modelo se distribuyen en forma normal con media cero y varianza constante 2 y además que sean independientes entre sí. Se pueden hacer prueba de hipótesis y calcular intervalos de confianza para el intercepto  y de la pendiente  de la línea de regresión poblacional. Asímismo se pueden establecer intervalos de confianza para el valor medio y para el valor individual de la variable de respuesta dado un valor particular de la variable predictora.

17 9.2.1 Inferencia acerca de los coeficientes de regresión
Lo más frecuente es probar Ho: =0 versus Ha: 0 y Ho: =0 versus Ha: 0. De aceptarse la primera hipótesis significaría que la línea de regresión pasaria por el origen, es decir que cuando la variable predictora es cero, entonces el valor promedio de la variable de respuesta es también cero. De aceptarse la segunda hipótesis significaría que la pendiente de la línea de regresión es cero, es decir que la variable predictora no se relaciona linealmente con la variable de respuesta En ambos casos la prueba estadística que se usa es una prueba de t de Student. Sólo discutiremos la prueba de hipótesis para la pendiente. La prueba estadística viene dada por:

18 La cual se distribuye como una t con n-2 grados de libertad. Aquí
es la desviación estándar del error, Sxx es la suma de cuadrados corregida de la variable X y s.e( es el error estándar de En el ejemplo 9.1, s=14,118 y s.e( )==6.391.

19 En MINITAB aparece el valor de la prueba estadística y el “p-value” de la prueba, él cual se puede usar para llegar a una decisión. Un "p-value" cercano a 0, digamos menor que 0.05, lleva a la conclusión de rechazar la hipótesis nula. Si se rechaza la hipótesis nula quiere decir de que de alguna manera la variable X es importante para predecir el valor de Y usando la regresión lineal. En cambio si se acepta la hipótesis nula se llega a la conclusión de que, la variable X no es importante para predecir el comportamiento de Y usando una regresión lineal. En el ejemplo 9.1 el valor de la prueba estadistica de t es 6.03 y el P-value=.0000 por lo que se rechaza la hipótesis nula. Luego hay suficiente evidencia estadística para concluir que la variable área de la casa puede ser usada para predecir el precio de la casa.


Descargar ppt "9 Regresión Lineal Simple"

Presentaciones similares


Anuncios Google