Modelos Predictivos Regresion lineal simple

Modelos Predictivos Regresion lineal simple
Universidad Nacional Experimental Politécnica de la Fuerza Armada Núcleo Juan Griego Nueva Esparta. Modelos Predictivos Regresion lineal simple MSC. JESUS SUNIAGA Juan Griego, Marzo 2019.

¿ QUE ES LA REGRESION

la regresión es un método estadístico para estimar las relaciones entre dos o mas variables.
X Y f

EJEMPLO 1: Poblacion estudiantil unefa desde el anio 2006 (anio 1)
X (ANO) Y(POBLACION EN MILES) 1,0 0,6 2,0 1,2 3,0 1,5 4,0 1,8 5,0 2,1 6,0 2,5

Ejemplo 2: relación entre los antecedentes académicos en matemáticas y la nota final
NOTAS CINU MAT (X1) NOTAS PRETEST (X2) Y (NOTAS FINALES) 15 11 14 8 1 16 9 5 10 18 19 20 13 17 V

Ejemplo 3: relación entre los parámetros meteorológicos en el estado nueva esparta desde 1993 hasta 2007 AÑO HUMEDAD INSOLACION PRECIPITACION RADIACIÓN TEMPERATURA 1993 87,4 8,4 285,0 20,8 26,1 1994 86,4 8,5 399,0 19,5 26,0 1995 82,3 8,6 433,0 18,1 26,7 1996 88,4 410,3 17,6 26,8 1997 88,8 8,8 383,0 14,4 26,9 1998 79,7 8,7 575,0 15,9 25,6 1999 83,4 756,0 15,3 2000 78,7 447,5 16,0 27,0 2001 84,3 9,0 366,1 15,1 27,4 2002 84,2 462,8 13,0 27,1 2003 86,0 284,5 15,8 27,3 2004 83,9 588,3 18,9 2005 82,2 619,6 27,6 2006 82,9 9,2 361,4 16,1 27,2 2007 84,4 9,3 96,7 16,6 27,5 V

Ejemplo 4: relación entre los componentes de concreto armado y su calidad
Cement Water Coarse Aggregate Fine Aggregate Age (day) Concrete compressive strength 540,0 162,0 1040,0 676,0 28 79,99 1055,0 61,89 332,5 228,0 932,0 594,0 270 40,27 365 41,05 198,6 192,0 978,4 825,5 360 44,30 266,0 670,0 90 47,03 380,0 43,70 36,45 45,85 475,0 39,29 V

DIFERENTES TIPOS DE REGRESION
Lineal Cuadrática Cubica Exponencial Potencial Múltiple Ridge Lasso Por componentes principales 11.Multivariante 12.Elastic Net Regresión 13.Partial Least Square Regresión 14. Support Vector Regresión 15. Ordinal Regresión 16. Poisson Regresión 17. Negative Binomial Regresión 18. Quasi-Poisson Regression 19. Cox Regresion

El diagrama de dispersion
Es un dibujo en el plano de coordenadas de los datos de un par de variables, una independiente la cual se dibuja en el eje X y la dependiente en el eje Y. Este diagrama nos puede sugerir cual es el modelo a usar

Lineal. Modelo y=a+bx+E
Ejemplo: y: Población Estudiantil Unefa-NE, x:anio DATOS: x=(1,2,3,4,5,6) y=(0.6, 1.2, 1.5, 1.8, 2.1, 2.5), x=1 representa el año 2006, y (miles de estudiantes)

Ejemplo de modelo cuadrático y=a+bx+cx2+e

EJEMPLO DE Modelo CUBICO: y=a0+a1x+a2x^2+A3X^3+e

Modelo exponencial Y=A*EXP(BX)+E

El modelo de regresión lineal simple
y=a+bx+E En este modelo de regresión hay 2 tipos de variables: la variable independiente que se denota generalmente por x y la variable dependiente que se denota por y. EL objetivo del análisis de regresión es producir una formula matemática que permita calcular y en función de x. Esta formula puede usarse para predecir el valor de y en base a nuevos valores de las variables predictora (x) Otro objetivo es precisar la relación existente entre las variables x, y

DETALLES DE LA REGRESION LINEAL SIMPLE
1. Calculo de los parámetros del modelo, a y b. Significado 2. El coeficiente de correlación 3. El coeficiente de determinación 4. Evaluación del modelo

CALCULO DE LOS PARAMETROS DEL MODELO y=a+bx
XY X^2 1 0.6 2 1.2 2.4 4 3 1.5 4.5 9 1.8 7.2 16 5 2.1 10.5 25 6 2.5 15 36 totales 21 9.7 40,2 91 CALCULO DE

CALCULO DE LOS PARAMETROS DEL MODELO
totales sum x=21, sum y =9.7, sum xy= 40.2, sum x^2=91, sum y^2=17.95 b=[n*(sum x*y)-(sum x)*(sum y)]/[n*sum(x^2)-(sum(x)^2]= (6* *9.7)/[6*91-21^2)]= 0,357 a=sum y/n – b*sum x/n = 9.7/ *21/6=0.366 La línea de regresión queda: Yest=a+bx= x

Metodo de los minimos cuadrados
Las formulas anteriores permiten calcular los coeficientes de regresión lineal y se determinan de modo que el error cuadrático en la predicción de y sea mínima. (Es decir (y-yest)^2 es minimo) Este método de calcular los coeficientes se denomina método de mínimos cuadrados ordinarios

INTERPRETACION DE LOS COEFICIENTES DE REGRESION
Interpretación de b en y=a+bx Variación en Y por una variación de X en una unidad. En este caso podemos decir que por cada anio se incrementa la poblaci’on estudiantil en 360 estudiantes DEMOSTRACION: y2-y1=[a+b(x+1)]-[a+bx]=a+bx+b-a-bx=b

INTERPRETACION DE a: en y=a+bx
a es la ordenada en el origen. Es el valor de y cuando x=0. En este caso podemos interpretar el valor de 0.37 como que antes del inicio de las actividades en UNEFA-NE habían 370 aspirantes (preinscritos)

Valores predichos y residuos
Los valores predichos son los valores que se obtienen cuando calculamos el valor de y con el modelo y =a+bx La línea de regresión en el ejemplo es: Yest=a+bx= x Asi por ejemplo cuando x=1, yest=0,366+0,357=0,723 Y el residuo (res) es la diferencia entre el valor observado de y su estimado En este caso res= = - 0,123

Valores predichos y residuos (continuación)
x yobs predicho res 1 0,6 0, -0, 2 1,2 1, 0, 3 1,5 1, 0, 4 1,8 1, 0, 5 2,1 2, -0, 6 2,5 2, -0,

Evaluacion del modelo el error cuadrado medio (rmse)
El error cuadrado medio se define como el promedio de los residuos, mide el error de predicción del modelo y se calcula asi RMSE = raizc( mean ((res) ^ 2) Se denota por RMSE por sus siglas en ingles (Root Mean Squared Error) Cuanto menor sea el RMSE, mejor será el modelo

Ejemplo de calculo de rmse
x yobs predicho res res^2 1 0,6 0, -0, 0, 2 1,2 1, 0, 0, 3 1,5 1, 0, 0, 4 1,8 1, 0, 2,26738E-05 5 2,1 2, -0, 0, 6 2,5 2, -0, 9,07085E-05 Suma(res^2) 0, Prom 0, raiz c 0,

La Correlacion Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. Ejemplos de variables correlacionadas: 1) peso y estatura, 2)gastos y salarios 3)horas de estudio y calificaciones. ejemplo de variables no correlacionadas: 1)#zapatos y notas estudiantiles, 2)estatura y día de la semana, 3) temperatura y edad.

Calculo de la correlacion
La correlación se mide por un coeficiente denominado coeficiente de correlación el cual varia entre 1 y -1 y se calcula a través de los datos por la formula r=cov(x,y)/sx*sy donde: cov(x,y)=[n*(sum x*y)-(sum x)*(sum y)] sx=raizc[n*sum(x^2)-(sum(x)^2)] sy=raizc[n*sum(y^2)-(sum(y)^2)]

Ejemplo de calculo del coeficiente de correlacion
X Y XY X^2 Y^2 1 0.6 0.36 2 1.2 2.4 4 1.44 3 1.5 4.5 9 2.25 1.8 7.2 16 3.24 5 2.1 10.5 25 4.41 6 2.5 15 36 6.25 totales 21 9.7 40.2 91 17.95 CALCULO DE

Ejemplo de calculo del coeficiente de correlacion (continuación)
totales sum x=21, sum y =9.7, sum xy= 40.2, sum x^2=91, sum y^2=17.95 cov(x,y)=[n*(sum x*y)-(sum x)*(sum y)]= [6*40.2-(21)*(9.7)]=37.5 sx=raizc[n*sum(x^2)-(sum(x)^2)]= raizc[6*91-(21^2)]=10,247 sy=raizc[n*sum(y^2)-(sum(y)^2)]=raizc[6*17.95)-(9.7^2)]=3.689 r=cov(x,y)/sx*sy = 37.5/(10.247*3.689)=0.99

el coeficiente r-cuadrado: R2
Es la correlación al cuadrado entre los valores observados y predichos R-cuadrado=cor(yobs,ypred)^2 R-cuadrado=(0.991)^2=0.984=98.4% Cuanto mayor sea el R2, mejor será el modelo

Interpretacion del coeficiente de correlacion
De la formula r=cov(x,y)/sx*sy se puede demostrar que: -1= <r<=1 Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante. Si 0 < r < 1, existe una correlación positiva. .

Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante. Si 0 < r < 1, existe una correlación positiva. .

Muchas gracias por su atencion
En el próximo video abordaremos el importantísimo tema del uso del programa R para la regresión. No se lo pierdan

CALCULOS EN LENGUAJE r Pasos:
Primero, se introducen los datos en la pantalla de Rstudio x = c(1,2,3,4,5,6) y=c(0.6,1.2,1.5,1.8,2.1,2.5) NOTA: Hay otras alternativas para introducir los datos, una de ellas es muy parecida a copiar y pegar desde otro archivo, para ello se marca el conjunto de datos luego se copian (ctrl C) y finalmente se pegan en R-studio

Calculos en lenguaje r (continuación)
con el comando read.delim(‘clipboard’) y se le asigna un nombre cualquiera, por ejm. datos datos= read.delim(‘clipboard’) Otra manera es usando el comando import, que ya lo comentamos en la sec.2

Calculos en R 2. Segundo. Se determina el diagrama de dispersión. Se usa el comando plot(x,y) y hacemos el diagrama Ejemplo: plot(x,y,pch = 20, col = “blue”, xlab=”ANOS”, ylab=”MATRICULA”) 3. Aplicamos el comando lm Ejm: reg=lm( y~x)

Calculos con R (continuación)
4. Se calculan los estadísticos de la regresión con el comando: Summary(reg) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) * x e-05 ***

Interpretacion de p La última columna de la tabla anterior nos indica la importancia del parámetro en el modelo. Si el parámetro es importante el valor de p debe ser menor que .05 , se denota así: (p<0.05) En este caso se dice que el parámetro es significativo y en la salida se denota por un asterisco (*) Si p es menor que .01se dice que el parámetro es significativo y en la salida se denota por dos o mas asteriscos (**) En caso que p>0.05, el parámetro en cuestión no es significativo

Continuacion-calculos
Residual standard error: on 4 degrees of freedom Multiple R-squared: 0.984, Adjusted R- squared: F-statistic: on 1 and 4 DF, p-value: e-05 (Nota: Estas medidas nos indican que tan Bueno es el modelo, y se denominan medidas de la bondad del ajuste)

Resumen de los cálculos en r
La línea de regresión estimada es: Y= x. Ambos coeficientes son significativos . El coeficiente de determinación R2 fue 98.4% y el error estándar RMSE es 0.095, pequeño , por lo tanto El modelo es altamente significativo (ver prueba F) Para mas detalles como se realizan los cálculos en R ver: e=youtube

INTERPRETACION DE LOS COEFICIENTES DE REGRESION
Interpretacion de a: ordenada en el origen. Es el valor de y cuando x=0. En este caso podemos interpretar el valor de 0.37 como que antes del inicio de las actividades en UNEFA-NE habían 370 aspirantes (preinscritos)

Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante. Si 0 < r < 1, existe una correlación positiva. .

Si r = 0, no existe relación lineal.. Si -1 < r < 0, existe una correlación negativa. Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante

Regresion multiple La regresión lineal múltiple (como su nombre indica) se caracteriza por disponer de múltiples variables independientes para encontrar la mejor curva de ajuste. Puede ajustarse a una regresión polinómica o curvilínea.

EL MODELO: Y = a0 + a1x1+ a2x2 +…+ an+xn+ E
Las variables son x1,x2,..xn, las cuales pueden ser continuas o discretas, los valores de las a son los coeficientes de regresión. Para su estudio debemos analizar Los Coeficientes. La bondad del Ajuste. La Matriz de Correlaciones La selección de variables

Modelos aditivos con interaccion
La ecuación anterior, Y = a0 + a1x1+ a2x2 +…+ an+xn+ E también conocida como modelo aditivo, solo investiga los efectos principales de los predictores/ Supone que la relación entre una variable predictiva dada y el resultado es independiente de las otras variables predictoras

Modelos aditivos con interaccion
Esta suposición podría no ser cierta . Por ejemplo, si x1 y x2 influyen en y, pero la presencia de x1 aumenta la influencia de x2 se dice que hay interacci’on entre x1 y x2 en marketing, esto se conoce como efecto de sinergia, y en las estadística se lo denomina efecto de interacción. El modelo adecuado seria y=x1+x2+x1*x2 El modelo

EJEMPLO DE REGRESION MULTIPLE
y=prom, x1=nb,x2=edad,x3=ingreso,x4=mat,x5= dedic y=a0+a1x1+a2x2+a3x3+a4x4+a5x5 Y= x1+0.1x x3+0.39x4+0.03x5

CALCULOS EN LENGUAJE r Pasos:
Primero, se introducen los datos en la pantalla de Rstudio En este caso usamos el comando import, Segundo. Se determina las variables independientes y se decide que variables vamos a incluir en el modelo, En este caso y=prom, x1=nb,x2=edad,x3=ingreso,x4=mat,x5=dedic

Calculo en lenguaje r(continuación)
3. Aplicamos el comando lm y la salida la denotamos con cualquier nombre p.ej. fit fit=lm(= y ~ x1 + x2 + x3 + x4 + x5) 4. Calculamos los estadísticos de la regresión con el comando: Summary(fit)

EJEMPLO (CONTINUACION)
Estimate Std. Error t value Pr(>|t|) (Intercept) x ** x x x e-09 *** x --- Multiple R-squared: , Adjusted R-squared: F-statistic: on 5 and 43 DF, p-value: 1.097e-10

Modelos Predictivos Regresion lineal simple

Presentaciones similares

Presentación del tema: "Modelos Predictivos Regresion lineal simple"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Modelos Predictivos Regresion lineal simple

Presentaciones similares

Presentación del tema: "Modelos Predictivos Regresion lineal simple"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback