Modelos Predictivos Regresion lineal simple

Slides:



Advertisements
Presentaciones similares
Regresión Lineal Múltiple
Advertisements

CO 3321/22 Modelos Lineales Práctica 3 Consideraremos modelos de la forma: Observación=señal + ruido Estos modelos pueden escribirse en la forma: Y=X 
REGRECION LINEAL SIMPLE, MULTIPLE Y CORRELACION. REGRECION LINEAL SIMPLE.
Un criterio para detectar outliers. Otro criterio para detectar errores groseros (outliers)
PRONOSTICOS CON REGRESION LINEAL MULTIPLE En la regresión lineal simple se investiga la relación entre una variable independiente y otra dependiente. A.
REGRESIÓN Y CORRELACIÓN LINEAL, SERIES DE TIEMPO Msc. Esmelda Aguirre Téllez Master en Administración de Negocios.
COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON
LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261.
Tema 3: Distribuciones bidimensionales: Relación estre dos variables estadísticas Relación estadísca: Correlación Diagramas de dispersión.
ESTADÍSTICAS DESCRIPTIVAS TEORÍA DE LA CORRELACIÓN Psic. Gerardo A. Valderrama M.
TEMA 3. ESTADÍSTICA BIDIMENSIONAL. INDICE 1.- Relación estadística: correlación 2.- Diagramas de dispersión o nube de puntos 3.- Tablas de frecuencia.
TEMA 3: ESTADÍSTICA BIDIMENSIONAL. ÍNDICE: 1.- Relación estadística: correlación. 2.- Diagramas de dispersión o nube de puntos. 3.- Tablas de frecuencia.
Dolz, Pablo Joaquín. I.S.F.D Nº 107, Cañuelas. Bs. As. Argentina. Año 2011.
Free and Quick Translation of Anderson's slides1 Modelo de Regresión Lineal Simple y =  0 +  1 x + u.
REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.
1 Pronósticos, Series de Tiempo y Regresión Capítulo 3: Regresión Lineal Simple.
Ing. VITELIO ASENCIOS TARAZONA. Dentro de los modelos causales o asociativos encontramos el análisis de regresión o regresión lineal, que es un método.
Prof. Dr. Luis Alberto Rubio Jacobo CURSO: “Estadística Aplicada al Marketing” MAESTRIA EN GERENCIA DE MARKETING.
Tipos de funciones Marcela mayen#14 4b.
Funciones y gráficas.
MEP- II.
Distribuciones bidimensionales: Relación entre dos variables estadísticas Tema 3:
ESTADÍSTICA BIDIMENSIONAL
FUNCIONES, PROCESAMIENTO ELEMENTAL DE DATOS
Facultad de Ciencias Sociales
TEMA 3: Distribuciones bidimensionales: relación entre dos variables estadísticas. Cristhian Lopez.
Modelos estadísticos de los procesos II
FUNCIONES, PROCESAMIENTO ELEMENTAL DE DATOS
El modelo simple de regresión
MEP- II.
Regresión logística y cuadrática
Facultad de Ciencias Sociales
Estadística bivariada
ESTADÍSTICA BIDIMENSIONAL
LA DERIVADA Autor: Victor Manuel Castro González
Bioestadística Regresión y Correlación Múltiple:
PREDICCIÓN Y ESTIMACIÓN
Variables estadísticas bidimensionales
CORRELACIÓN CAP 8 DE Peña y Romo.
REGRESÍON LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE
PROBABILIDAD Y ESTADÍSTICA
CORRELACIÓN ENTRE VARIABLES
Aplicaciones Estadísticas a las Finanzas
Más allá de la regresión lineal de medias
2016 / 17 ESCALA Informe evolutivo sobre resultados en la Prueba
Estadística Administrativa II
Correlación Relación no lineal Relación lineal positiva Relación
REGRESION LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE
PARA LA REGRESIÓN LINEAL SIMPLE
Ecuación Explícita de la Recta
Dr. Carlomagno Araya Alpízar
Dr. Carlomagno Araya Alpízar
Dr. Alejandro Salazar – El Colegio de Sonora
Correlación Relación no lineal Relación lineal positiva Relación
Tema 6: Regresión lineal. 1. Introducción. 2. La ecuación de la recta. 3. El criterio de mínimos cuadrados. 4. Representación gráfica. 5. Coeficientes.
REGRESION LOGISTICA (Logit).
Diseño experimental 2137 Juan C. Benavides
PROBABILIDAD Y ESTADISTICA
MODELOS DE PRONOSTICOS
Regresión Logística App4stats © Todos los derechos reservados.
EJEMPLO PARA ACTIVIDADES SOBRE VALIDEZ Validez: Evaluación empírica.
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
Regresión lineal Electivo Estadística IV°Medio 2019.
ANALISIS DE REGRESION SIMPLE
ESTADÍSTICA APLICADA  ZEUS DE JESÚS RODRÍGUEZ BUDA  GABRIELA MÁRQUEZ TORRES  MARÍA ENRIQUETA GIL CÓRDOVA  ELIÁN ANTONIO GONZALEZ GARCÍA  CRISTELL.
REGRESION LINEAL SIMPLE
REGRESION LINEAL SIMPLE
UNIDAD EDUCATIVA “MARIANO PICON SALAS REGRESION LINEAL SIMPLE
Transcripción de la presentación:

Modelos Predictivos Regresion lineal simple Universidad Nacional Experimental Politécnica de la Fuerza Armada Núcleo Juan Griego Nueva Esparta. Modelos Predictivos Regresion lineal simple MSC. JESUS SUNIAGA Juan Griego, Marzo 2019.

¿ QUE ES LA REGRESION

la regresión es un método estadístico para estimar las relaciones entre dos o mas variables. X Y f

EJEMPLO 1: Poblacion estudiantil unefa desde el anio 2006 (anio 1) X (ANO) Y(POBLACION EN MILES) 1,0 0,6 2,0 1,2 3,0 1,5 4,0 1,8 5,0 2,1 6,0 2,5

Ejemplo 2: relación entre los antecedentes académicos en matemáticas y la nota final NOTAS CINU MAT (X1) NOTAS PRETEST (X2) Y (NOTAS FINALES) 15 11 14 8 1 16 9 5 10 18 19 20 13 17 V

Ejemplo 3: relación entre los parámetros meteorológicos en el estado nueva esparta desde 1993 hasta 2007 AÑO HUMEDAD INSOLACION PRECIPITACION RADIACIÓN TEMPERATURA 1993 87,4 8,4 285,0 20,8 26,1 1994 86,4 8,5 399,0 19,5 26,0 1995 82,3 8,6 433,0 18,1 26,7 1996 88,4 410,3 17,6 26,8 1997 88,8 8,8 383,0 14,4 26,9 1998 79,7 8,7 575,0 15,9 25,6 1999 83,4 756,0 15,3 2000 78,7 447,5 16,0 27,0 2001 84,3 9,0 366,1 15,1 27,4 2002 84,2 462,8 13,0 27,1 2003 86,0 284,5 15,8 27,3 2004 83,9 588,3 18,9 2005 82,2 619,6 27,6 2006 82,9 9,2 361,4 16,1 27,2 2007 84,4 9,3 96,7 16,6 27,5 V

Ejemplo 4: relación entre los componentes de concreto armado y su calidad Cement Water  Coarse Aggregate  Fine Aggregate Age (day) Concrete compressive strength 540,0 162,0 1040,0 676,0 28 79,99 1055,0 61,89 332,5 228,0 932,0 594,0 270 40,27 365 41,05 198,6 192,0 978,4 825,5 360 44,30 266,0 670,0 90 47,03 380,0 43,70 36,45 45,85 475,0 39,29 V

DIFERENTES TIPOS DE REGRESION Lineal Cuadrática Cubica Exponencial Potencial Múltiple Ridge Lasso Por componentes principales 11.Multivariante 12.Elastic Net Regresión 13.Partial Least Square Regresión 14. Support Vector Regresión 15. Ordinal Regresión 16. Poisson Regresión 17. Negative Binomial Regresión 18. Quasi-Poisson Regression 19. Cox Regresion

El diagrama de dispersion Es un dibujo en el plano de coordenadas de los datos de un par de variables, una independiente la cual se dibuja en el eje X y la dependiente en el eje Y. Este diagrama nos puede sugerir cual es el modelo a usar

Lineal. Modelo y=a+bx+E Ejemplo: y: Población Estudiantil Unefa-NE, x:anio DATOS: x=(1,2,3,4,5,6) y=(0.6, 1.2, 1.5, 1.8, 2.1, 2.5), x=1 representa el año 2006, y (miles de estudiantes)

Ejemplo de modelo cuadrático y=a+bx+cx2+e

EJEMPLO DE Modelo CUBICO: y=a0+a1x+a2x^2+A3X^3+e

Modelo exponencial Y=A*EXP(BX)+E

El modelo de regresión lineal simple y=a+bx+E En este modelo de regresión hay 2 tipos de variables: la variable independiente que se denota generalmente por x y la variable dependiente que se denota por y. EL objetivo del análisis de regresión es producir una formula matemática que permita calcular y en función de x. Esta formula puede usarse para predecir el valor de y en base a nuevos valores de las variables predictora (x) Otro objetivo es precisar la relación existente entre las variables x, y

DETALLES DE LA REGRESION LINEAL SIMPLE 1. Calculo de los parámetros del modelo, a y b. Significado 2. El coeficiente de correlación 3. El coeficiente de determinación 4. Evaluación del modelo

CALCULO DE LOS PARAMETROS DEL MODELO y=a+bx XY X^2 1 0.6 2 1.2 2.4 4 3 1.5 4.5 9 1.8 7.2 16 5 2.1 10.5 25 6 2.5 15 36 totales 21 9.7 40,2 91 CALCULO DE

CALCULO DE LOS PARAMETROS DEL MODELO totales sum x=21, sum y =9.7, sum xy= 40.2, sum x^2=91, sum y^2=17.95 b=[n*(sum x*y)-(sum x)*(sum y)]/[n*sum(x^2)-(sum(x)^2]= (6*40.2-21*9.7)/[6*91-21^2)]= 0,357 a=sum y/n – b*sum x/n = 9.7/6-0.357*21/6=0.366 La línea de regresión queda: Yest=a+bx=0.366+0.357x

Metodo de los minimos cuadrados Las formulas anteriores permiten calcular los coeficientes de regresión lineal y se determinan de modo que el error cuadrático en la predicción de y sea mínima. (Es decir (y-yest)^2 es minimo) Este método de calcular los coeficientes se denomina método de mínimos cuadrados ordinarios

INTERPRETACION DE LOS COEFICIENTES DE REGRESION Interpretación de b en y=a+bx Variación en Y por una variación de X en una unidad. En este caso podemos decir que por cada anio se incrementa la poblaci’on estudiantil en 360 estudiantes DEMOSTRACION: y2-y1=[a+b(x+1)]-[a+bx]=a+bx+b-a-bx=b

INTERPRETACION DE a: en y=a+bx a es la ordenada en el origen. Es el valor de y cuando x=0. En este caso podemos interpretar el valor de 0.37 como que antes del inicio de las actividades en UNEFA-NE habían 370 aspirantes (preinscritos)

Valores predichos y residuos Los valores predichos son los valores que se obtienen cuando calculamos el valor de y con el modelo y =a+bx La línea de regresión en el ejemplo es: Yest=a+bx=0.366+0.357x Asi por ejemplo cuando x=1, yest=0,366+0,357=0,723 Y el residuo (res) es la diferencia entre el valor observado de y su estimado En este caso res=0.6-0.723 = - 0,123

Valores predichos y residuos (continuación) x yobs predicho res 1 0,6 0,7238096 -0,1238096 2 1,2 1,0809525 0,1190475 3 1,5 1,4380954 0,0619046 4 1,8 1,7952383 0,0047617 5 2,1 2,1523812 -0,0523812 6 2,5 2,5095241 -0,0095241

Evaluacion del modelo el error cuadrado medio (rmse) El error cuadrado medio se define como el promedio de los residuos, mide el error de predicción del modelo y se calcula asi RMSE = raizc( mean ((res) ^ 2) Se denota por RMSE por sus siglas en ingles (Root Mean Squared Error) Cuanto menor sea el RMSE, mejor será el modelo

Ejemplo de calculo de rmse x yobs predicho res res^2 1 0,6 0,7238096 -0,1238096 0,015328817 2 1,2 1,0809525 0,1190475 0,014172307 3 1,5 1,4380954 0,0619046 0,00383218 4 1,8 1,7952383 0,0047617 2,26738E-05 5 2,1 2,1523812 -0,0523812 0,00274379 6 2,5 2,5095241 -0,0095241 9,07085E-05 Suma(res^2) 0,036190476 Prom 0,009047619 raiz c 0,095118973

La Correlacion Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. Ejemplos de variables correlacionadas: 1) peso y estatura, 2)gastos y salarios 3)horas de estudio y calificaciones. ejemplo de variables no correlacionadas: 1)#zapatos y notas estudiantiles, 2)estatura y día de la semana, 3) temperatura y edad.

Calculo de la correlacion La correlación se mide por un coeficiente denominado coeficiente de correlación el cual varia entre 1 y -1 y  se calcula a través de los datos por la formula r=cov(x,y)/sx*sy donde: cov(x,y)=[n*(sum x*y)-(sum x)*(sum y)] sx=raizc[n*sum(x^2)-(sum(x)^2)] sy=raizc[n*sum(y^2)-(sum(y)^2)]

Ejemplo de calculo del coeficiente de correlacion X Y XY X^2 Y^2 1 0.6 0.36 2 1.2 2.4 4 1.44 3 1.5 4.5 9 2.25 1.8 7.2 16 3.24 5 2.1 10.5 25 4.41 6 2.5 15 36 6.25 totales 21 9.7 40.2 91 17.95 CALCULO DE

Ejemplo de calculo del coeficiente de correlacion (continuación) totales sum x=21, sum y =9.7, sum xy= 40.2, sum x^2=91, sum y^2=17.95 cov(x,y)=[n*(sum x*y)-(sum x)*(sum y)]= [6*40.2-(21)*(9.7)]=37.5 sx=raizc[n*sum(x^2)-(sum(x)^2)]= raizc[6*91-(21^2)]=10,247 sy=raizc[n*sum(y^2)-(sum(y)^2)]=raizc[6*17.95)-(9.7^2)]=3.689 r=cov(x,y)/sx*sy = 37.5/(10.247*3.689)=0.99

el coeficiente r-cuadrado: R2 Es la correlación al cuadrado entre los valores observados y predichos R-cuadrado=cor(yobs,ypred)^2 R-cuadrado=(0.991)^2=0.984=98.4% Cuanto mayor sea el R2, mejor será el modelo

Interpretacion del coeficiente de correlacion De la formula r=cov(x,y)/sx*sy se puede demostrar que: -1= <r<=1 Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante. Si 0 < r < 1, existe una correlación positiva. .

Interpretacion del coeficiente de correlacion Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante. Si 0 < r < 1, existe una correlación positiva. .

Muchas gracias por su atencion En el próximo video abordaremos el importantísimo tema del uso del programa R para la regresión. No se lo pierdan

CALCULOS EN LENGUAJE r Pasos: Primero, se introducen los datos en la pantalla de Rstudio x = c(1,2,3,4,5,6) y=c(0.6,1.2,1.5,1.8,2.1,2.5) NOTA: Hay otras alternativas para  introducir los datos, una de ellas es muy parecida a copiar y pegar desde otro archivo, para ello se marca el conjunto de datos luego se copian (ctrl C) y finalmente se pegan en R-studio

Calculos en lenguaje r (continuación) con el comando read.delim(‘clipboard’) y se le asigna un nombre cualquiera, por ejm. datos datos= read.delim(‘clipboard’) Otra manera es usando el comando import, que ya lo comentamos en la sec.2

Calculos en R 2. Segundo. Se determina el diagrama de dispersión. Se usa el comando plot(x,y) y hacemos el diagrama Ejemplo: plot(x,y,pch = 20, col = “blue”, xlab=”ANOS”, ylab=”MATRICULA”) 3. Aplicamos el comando lm Ejm: reg=lm( y~x)

Calculos con R (continuación) 4. Se calculan los estadísticos de la regresión con el comando: Summary(reg) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.36667 0.08855 0.0144 * x 0.35714 0.02274 5.707 9.6e-05 ***

Interpretacion de p La última columna de la tabla anterior nos indica la importancia del parámetro en el modelo. Si el parámetro es importante el valor de p debe ser menor que .05 , se denota así: (p<0.05) En este caso se dice que el parámetro es significativo y en la salida se denota por un asterisco (*) Si p es menor que .01se dice que el parámetro es significativo y en la salida se denota por dos o mas asteriscos (**) En caso que p>0.05, el parámetro en cuestión no es significativo

Continuacion-calculos Residual standard error: 0.09512 on 4 degrees of freedom Multiple R-squared: 0.984, Adjusted R- squared: 0.9801 F-statistic: 246.7 on 1 and 4 DF, p-value: 9.597e-05 (Nota: Estas medidas nos indican que tan Bueno es el modelo, y se denominan medidas de la bondad del ajuste)

Resumen de los cálculos en r La línea de regresión estimada es: Y= 0.37+0.36x. Ambos coeficientes son significativos . El coeficiente de determinación R2 fue 98.4% y el error estándar RMSE es 0.095, pequeño , por lo tanto El modelo es altamente significativo (ver prueba F) Para mas detalles como se realizan los cálculos en R ver: https://www.youtube.com/watch?v=WVjTTawPoE8&featur e=youtube

INTERPRETACION DE LOS COEFICIENTES DE REGRESION Interpretacion de a: ordenada en el origen. Es el valor de y cuando x=0. En este caso podemos interpretar el valor de 0.37 como que antes del inicio de las actividades en UNEFA-NE habían 370 aspirantes (preinscritos)

Interpretacion del coeficiente de correlacion Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante. Si 0 < r < 1, existe una correlación positiva. .

Interpretacion del coeficiente de correlacion Si r = 0, no existe relación lineal.. Si -1 < r < 0, existe una correlación negativa. Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante

Regresion multiple La regresión lineal múltiple (como su nombre indica) se caracteriza por disponer de múltiples variables independientes para encontrar la mejor curva de ajuste. Puede ajustarse a una regresión polinómica o curvilínea.

EL MODELO: Y = a0 + a1x1+ a2x2 +…+ an+xn+ E Las variables son x1,x2,..xn, las cuales pueden ser continuas o discretas, los valores de las a son los coeficientes de regresión. Para su estudio debemos analizar Los Coeficientes. La bondad del Ajuste. La Matriz de Correlaciones La selección de variables

Modelos aditivos con interaccion La ecuación anterior, Y = a0 + a1x1+ a2x2 +…+ an+xn+ E también conocida como modelo aditivo, solo investiga los efectos principales de los predictores/ Supone que la relación entre una variable predictiva dada y el resultado es independiente de las otras variables predictoras

Modelos aditivos con interaccion Esta suposición podría no ser cierta . Por ejemplo, si x1 y x2 influyen en y, pero la presencia de x1 aumenta la influencia de x2 se dice que hay interacci’on entre x1 y x2 en marketing, esto se conoce como efecto de sinergia, y en las estadística se lo denomina efecto de interacción. El modelo adecuado seria y=x1+x2+x1*x2 El modelo

EJEMPLO DE REGRESION MULTIPLE y=prom, x1=nb,x2=edad,x3=ingreso,x4=mat,x5= dedic y=a0+a1x1+a2x2+a3x3+a4x4+a5x5 Y=1.28+0.48x1+0.1x2 - 0.02x3+0.39x4+0.03x5

CALCULOS EN LENGUAJE r Pasos: Primero, se introducen los datos en la pantalla de Rstudio En este caso usamos el comando import, Segundo. Se determina las variables independientes y se decide que variables vamos a incluir en el modelo, En este caso y=prom, x1=nb,x2=edad,x3=ingreso,x4=mat,x5=dedic

Calculo en lenguaje r(continuación) 3. Aplicamos el comando lm y la salida la denotamos con cualquier nombre p.ej. fit fit=lm(= y ~ x1 + x2 + x3 + x4 + x5) 4. Calculamos los estadísticos de la regresión con el comando: Summary(fit)

EJEMPLO (CONTINUACION) Estimate Std. Error t value Pr(>|t|) (Intercept) 1.27813 3.25463 0.393 0.69647 x1 0.47686 0.13722 3.475 0.00118 ** x2 0.09733 0.11039 0.882 0.38283 x3 -0.02351 0.02609 -0.901 0.37245 x4 0.39064 0.05476 7.134 8.23e-09 *** x5 0.02762 0.22750 0.121 0.90395 --- Multiple R-squared: 0.7132, Adjusted R-squared: 0.6799 F-statistic: 21.39 on 5 and 43 DF, p-value: 1.097e-10