9 Regresión Lineal Simple

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

MSP César Eduardo Luna Gurrola
Tema 6: Regresión lineal.
REGRESION LINEAL SIMPLE
ESTADISTICA INFERENCIAL
Qué es el análisis de correlación lineal ?
Ingeniería Industrial II CicloEducativo 2011
Análisis de Regresión Lineal
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Modelo básico de regresión Lineal
Regresión y correlación
Estadística Administrativa II
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
Regresión y Correlación
Análisis de Correlación y de Regresión lineal simple
SISTEMAS DE SOPORTE PARA LA TOMA DE DECISIONES
LEAN SIGMA – FASE DE ANÁLISIS Propósito y herramientas 1.
Facultad: Turismo Y Hotelería
REGRESION LINEAL En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre factores (o variables).
Estadística 2010 Maestría en Finanzas Universidad del CEMA Profesor: Alberto Landro Asistente: Julián R. Siri.
REGRESION Y CORRELACION
15 Análisis de Regresión Múltiple
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
REGRESION LINEAL III Mario Briones L. MV, MSc 2005.
Modelo de regresión simple: Y =  1 +  2 X + u 1 Hemos visto que los coeficientes de regresión b 1 y b 2 son variables aleatorias. Estos, respectivamente,
INTERVALO DE CONFIANZA
Unidad V: Estimación de
Métodos de calibración: regresión y correlación
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
CORRELACION Y REGRESION LINEAL: Introducción
Inferencia Estadística
Regresión lineal múltiple
CO-2124 Análisis de Varianza con Un Criterio de Clasificación En clases anteriores se deseaba determinar si existían diferencias entre las medias de dos.
Pruebas de hipótesis.
COMPROBACION DE HIPOTESIS SOBRE DOS PROMEDIOS Mario Briones L. MV, MSc 2005.
ANÁLISIS DE REGRESIÓN SIMPLE
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
ESTIMACIÓN DE PARÁMETROS
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
TEMA : ANALISIS DE REGRESION
INFERENCIA ESTADÍSTICA
EPE MA 148 ESTADÍSTICA INFERENCIAL TEMA:
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
Estadística Administrativa II
ECONOMETRIA 2. MODELO LINEAL SIMPLE Hernán Delgadillo Dorado
REGRESIÓN LINEAL SIMPLE
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE Y UNA O MAS INDEPENDIENTES.
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
1 ANÁLISIS DE CORRELACIÓN, REGRESIÓN Y CONTRASTE.
Bioestadística Inferencia estadística y tamaño de muestra
14 Introducción al Análisis de Correlación y de Regresión Lineal
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

9 Regresión Lineal Simple Supongamos que tenemos datos de dos variables cuantitativas continuas X e Y, Ejemplo: X=nivel de ingreso en el pais Y: tasa de divorcio X: horas de preparacion para un examen Y: nota en el examen X: area de una casa Y= precio de una casa Haciendo un diagrama de dispersion (scatterplot) se puede detectar si la relacion entre las variables sigue una tendencia lineal. Tendencia lineal significa que los puntos están dispuestos alrededor de una linea recta, desviándose por una cantidad aleatoria e de la misma.

Ejemplo 3.23. El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes datos representan los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la empresa.   X(años) 3 4 6 7 8 12 15 20 22 26 Y(ventas) 9 16 19 23 27 34 37 40 45

3.0 El Coeficiente de Correlación El Llamado también coeficiente de correlación de Pearson, se representa por r y es una medida que representa el grado de asociación entre dos variables cuantitativas X e Y. Se calcula por

La correlación varia entre -1 y 1 La correlación varia entre -1 y 1. Un valor de r cercano a 0 indica una relación lineal muy pobre entre las variables. Un valor cercano a 1 indica que hay una buena relación lineal entre la variable y además al aumentar una de ellas la otra también aumenta. Un valor cercano a –1 indica una buena relación lineal pero al aumentar el valor de una de las variables la otra disminuye.

En términos generales un valor de correlación mayor que En términos generales un valor de correlación mayor que .75 ó menor que -.75 indica una buena relación lineal entre las variables. Aunque el tipo de datos que se está usando influye en el momento de decidir si la correlación es suficientemente alta. Si los datos provienen de un área donde se exige mucha precisión, como en ingeniería o medicina entonces la correlación debe estar lo más cerca posible a 1 ó –1, en áreas como economía o en ciencias sociales una correlación de .6 en valor absoluto pudiera ser considerada aceptable. Pero si hay un consenso general que una correlación entre -.3 y .3 es indicativo de una relación lineal bastante pobre entre las dos variables.

En MINITAB, el coeficiente de correlación se puede obtener eligiendo la opción correlation del submenú Basic Statistics del menú Stat. Para los datos del ejemplo se obtiene: Correlations: ventas, años Pearson correlation of ventas and años = 0.984 Interpretación: Existe una buena relación lineal entre los años de experiencia y las unidades que vende el vendedor. Además mientras más experiencia tiene el vendedor más carros venderá. Se puede usar los años de experiencia para predecir las unidades que venderá anualmente a través de una linea recta

El valor de correlación es afectado por la presencia de valores anormales, en la siguiente gráfica se puede ver el efecto de los valores anormales en el valor de la correlación para 4 diferentes relaciones.

Si además asumimos que se trata de predecir el comportamiento de Y usando X, entonces el modelo de regresión lineal simple es de la forma: Y = +X+ Donde, Y es llamada la variable de respuesta o dependiente, X es llamada la variable predictora o independiente,  es el intercepto de la linea con el eje Y, y  es la pendiente de la linea de regresión. es un error aleatorio, el cual se supone que tiene media 0 y varianza constante 2 .  y  son parámetros desconocidos y para estimarlos se toma una muestra de tamaño n de observaciones (xi,yi), La variable Y se asume que es aleatoria pero X puede que no sea aleatoria.

las cantidades Sxx, Syy y Sxy aparecen definidas anteriormente. Los estimados de  y  son hallados usando el método de mínimos cuadrados, que se basa en minimizar la suma de cuadrados de los errores Q(,)= Usando técnicas de cálculo diferencial para minimizar una función de dos variables  y  se obtienen: las cantidades Sxx, Syy y Sxy aparecen definidas anteriormente. La ecuación , es llamada la línea de regresión estimada. Para obtener la línea de regresion encima del diagrama de dispersion en MINITAB se sigue la secuencia: STAT Regression  Fitted line plot.

9.1.1 Interpretación de los Coeficientes de Regresión: Interpretación del intercepto : Indica el valor promedio de la variable de respuesta Y cuando X es cero. Si se tiene certeza de que la variable predictora X no puede asumir el valor 0, entonces la interpretación es innecesaria. En el ejemplo anterior, =7.661 indicaría que si el vendedor no tiene experiencia entonces sus venta promedio anual sera de 7.661 carros. Interpretación de la pendiente : Indica el cambio promedio en la variable de respuesta Y cuando X aumenta en una unidad adicional. En el ejemplo anterior =1.507 indica que por cada año adicional de experiencia las ventas de un vendedor en promedio en 1.507 carros.

Ejemplo 9.1. Se desea hallar una linea de regresión que permita predecir el precio de una casa (Y) basado en el área de la misma (X). Se recolectaron 15 datos: Casa área precio 1 3060 179000 2 1600 126500 3 2000 134500 4 1300 125000 5 2000 142000 6 1956 164000 7 2400 146000 8 1200 129000 9 1800 135000 10 1248 118500 11 2025 160000 12 1800 152000 13 1100 122500 14 3000 220000 15 2000 141000

Regression Analysis: precio versus área The regression equation is precio = 73168 + 38.5 área Predictor Coef SE Coef T P Constant 73168 12674 5.77 0.000 área 38.523 6.391 6.03 0.000 S = 14117.9 R-Sq = 73.6% R-Sq(adj) = 71.6% Analysis of Variance Source DF SS MS F P Regression 1 7241245891 7241245891 36.33 0.000 Residual Error 13 2591087442 199314419 Total 14 9832333333

Interpretación del intercepto =73168 indicaría que si la casa no tiene área su precio promedio será 73,168, lo cual no es muy razonable. Es más conveniente hallar una línea de regresión que no tenga intercepto. Interpretación de la pendiente =38.5 indica que por cada píe cuadrado adicional de la casa su precio aumentará en promedio en 38.5 dólares.

9.2 Inferencia en Regresión Lineal Para poder hacer inferencia en regresión hay que asumir que los errores ei del modelo se distribuyen en forma normal con media cero y varianza constante 2 y además que sean independientes entre sí. Se pueden hacer prueba de hipótesis y calcular intervalos de confianza para el intercepto  y de la pendiente  de la línea de regresión poblacional. Asímismo se pueden establecer intervalos de confianza para el valor medio y para el valor individual de la variable de respuesta dado un valor particular de la variable predictora.

9.2.1 Inferencia acerca de los coeficientes de regresión Lo más frecuente es probar Ho: =0 versus Ha: 0 y Ho: =0 versus Ha: 0. De aceptarse la primera hipótesis significaría que la línea de regresión pasaria por el origen, es decir que cuando la variable predictora es cero, entonces el valor promedio de la variable de respuesta es también cero. De aceptarse la segunda hipótesis significaría que la pendiente de la línea de regresión es cero, es decir que la variable predictora no se relaciona linealmente con la variable de respuesta En ambos casos la prueba estadística que se usa es una prueba de t de Student. Sólo discutiremos la prueba de hipótesis para la pendiente. La prueba estadística viene dada por:

La cual se distribuye como una t con n-2 grados de libertad. Aquí es la desviación estándar del error, Sxx es la suma de cuadrados corregida de la variable X y s.e( es el error estándar de En el ejemplo 9.1, s=14,118 y s.e( )==6.391.

En MINITAB aparece el valor de la prueba estadística y el “p-value” de la prueba, él cual se puede usar para llegar a una decisión. Un "p-value" cercano a 0, digamos menor que 0.05, lleva a la conclusión de rechazar la hipótesis nula. Si se rechaza la hipótesis nula quiere decir de que de alguna manera la variable X es importante para predecir el valor de Y usando la regresión lineal. En cambio si se acepta la hipótesis nula se llega a la conclusión de que, la variable X no es importante para predecir el comportamiento de Y usando una regresión lineal. En el ejemplo 9.1 el valor de la prueba estadistica de t es 6.03 y el P-value=.0000 por lo que se rechaza la hipótesis nula. Luego hay suficiente evidencia estadística para concluir que la variable área de la casa puede ser usada para predecir el precio de la casa.