APROXIMACIÓN EMPÍRICA DE LA FUNCIÓN DE REGRESIÓN.

APROXIMACIÓN EMPÍRICA DE LA FUNCIÓN DE REGRESIÓN

CONTEXTO TEÓRICO Conocida la distribución de una población bidimensional se conoce su función de regresión X Y x CONTEXTO PRÁCTICO Con n observaciones de esa población, en principio no puedo calcular la función de regresión al no disponer de datos en la vertical de x. ¿?

ESTIMADORES PARAMÉTRICOS DE LA FUNCIÓN DE REGRESIÓN (Suponen que la función de regresión es paramétrica y consideran los datos como un vector bidimensional discreto con masa sus frecuencias relativas) 1.Recta de regresión de Y sobre X (estimador bueno sólo si la función de regresión es lineal). Un indicador de su “bondad” es el cuadrado del coeficiente de correlación lineal muestral entre X e Y. 2. Polinomio de regresión de Y sobre X, por ejemplo, de grado 2 (estimador bueno sólo si la función de regresión es lineal o cuadrática, en ese caso). Un indicador de su “bondad” es el cuadrado del coeficiente de correlación lineal múltiple muestral correspondiente. X Y

ESTIMADORES NO PARAMÉTRICOS DE LA FUNCIÓN DE REGRESIÓN (No suponen nada acerca de la función de regresión. Van a ser estimadores “todo terreno” ) MOTIVACIÓN Si hubiera datos en la vertical del punto en que se pretende estimar la función de regresión, se promediarían sus respuestas, es decir, si por ejemplo k datos estuvieran en esa vertical Si no es así, consideraremos un entorno de ese punto suficientemente grande para que haya datos en su vertical, y razonaremos sobre estos datos. X Y xx-hx+h

3.Estimador de Nadaraya-Watson: promedia de forma ponderada las respuestas de los datos en ese entorno, penalizando su alejamiento de la vertical del punto x. 4.Regresión polinómica local (lineal, en particular): asigna al punto x el valor en x de un polinomio de regresión (la recta de regresión, en particular) construido sólo con los datos en ese entorno. X Y xx-hx+h

Existen procedimientos para aproximar con los datos ventanas óptimas, es decir siendo D una distancia funcional adecuada. ESTUDIO DE SIMULACIÓN Suponiendo un escenario controlado, es decir, una distribución bidimensional conocida (y por lo tanto su función de regresión teórica también), podemos estudiar por simulación (trabajando sobre muestras artificiales del mismo) el comportamiento de los cuatro estimadores considerados, comparándolos con la función de regresión teórica.

ESCENARIO 1 Notemos que en este caso Por lo tanto, si el número de datos es grande, cabe esperar buen funcionamiento de la recta de regresión y del polinomio de regresión de Y sobre X de orden 2. Veremos que los estimadores no paramétricos (“todo terreno”) tampoco funcionan mal.

ESCENARIO 1. Código fuente en R para comparar por Monte Carlo regresión lineal simple, polinómica de grado 2, Nadaraya-Watson y polinómica local de grado 1 MODELO PARAMÉTRICO 1: Y=2+3*X+N(0,3) con X=U(-3,3). require(lokern) require(KernSmooth) x<-runif(100000,-3,3) y<-2+3*x+rnorm(100000,0,3) plot(x,y,xlim=c(-3,3),ylim=c(-10,20),main="Función de regresión",sub="MODELO: Y=2+3*X+N(0,3), X=U(-3,3); N=100000") x1<-seq(-3,3,length=1000) y1<-2+3*x1 lines(x1,y1,lwd=2,col=6,type="l") poli1<-lm(y~x) #”~”=alt+ctrl+4 abline(poli1,lwd=2,col=3) poli2<-lm(y~x+I(x^2)) df<-data.frame(x=x1) y1<-predict(poli2,df) lines(x1,y1,lwd=2,col=5) v<-dpill(x,y) lines(locpoly(x,y,bandwidth=v,gridsize=length(x1),range.x=c(-3,3)),type="l",lwd=2,col=4) #corrige efecto frontera res<-glkerns(x,y) lines(ksmooth(x,y,"normal",bandwidth=res$bandwidth,range.x=c(-3,3),n.points=length(x1)),lwd=2,col=2) legend("top",legend=c("Función de regresión teórica","Estimación por regresión polinómica (grado 1: recta)","Estimación por regresión polinómica (grado 2)","Estimación por regresión lineal local","Estimación por Nadaraya- Watson"),lwd=2,col=c(6,3,5,4,2))

ESCENARIO 2 Notemos que en este caso Por lo tanto, si el número de datos es grande, cabe esperar buen funcionamiento del polinomio de regresión de Y sobre X de orden 2, y malo de la recta de regresión de Y sobre X. Veremos que los estimadores no paramétricos (“todo terreno”) tampoco funcionan mal.

ESCENARIO 2. Código fuente en R para comparar por Monte Carlo regresión lineal simple, polinómica de grado 2, Nadaraya-Watson y polinómica local de grado 1 MODELO PARAMÉTRICO 2: Y=2+3*X^2+N(0,5) con X=U(-3,3). require(lokern) require(KernSmooth) x<-runif(100000,-3,3) y<-2+3*(x^2)+rnorm(100000,0,5) plot(x,y,xlim=c(-3,3),ylim=c(0,40),main="Función de regresión",sub="MODELO: Y=2+3*X^2+N(0,5), X=U(-3,3); N=100000") x1<-seq(-3,3,length=1000) y1<-2+3*(x1^2) lines(x1,y1,lwd=2,type="l",col=6) poli1<-lm(y~x) #”~”=alt+ctrl+4 abline(poli1,lwd=2,col=3) poli2<-lm(y~x+I(x^2)) df<-data.frame(x=x1) y1<-predict(poli2,df) lines(x1,y1,lwd=2,col=5) v<-dpill(x,y) lines(locpoly(x,y,bandwidth=v,gridsize=length(x1),range.x=c(-3,3)),type="l",lwd=2,col=4) #corrige efecto frontera res<-glkerns(x,y) lines(ksmooth(x,y,"normal",bandwidth=res$bandwidth,range.x=c(-3,3),n.points=length(x1)),lwd=2,col=2) legend("top",legend=c("Función de regresión teórica","Estimación por regresión polinómica (grado 1: recta)","Estimación por regresión polinómica (grado 2)","Estimación por regresión lineal local","Estimación por Nadaraya- Watson"),lwd=2,col=c(6,3,5,4,2))

ESCENARIO 3 Notemos que en este caso Por lo tanto, si el número de datos es grande, cabe esperar mal funcionamiento de la recta de regresión y del polinomio de regresión de Y sobre X de orden 2. Veremos que los estimadores no paramétricos (“todo terreno”) funcionan bien.

ESCENARIO 3. Código fuente en R para comparar por Monte Carlo regresión lineal simple, polinómica de grado 2, Nadaraya-Watson y polinómica local de grado 1 MODELO NO PARAMÉTRICO 3: Y=SIN(3*X)+N(0,1) con X=U(-3,3). require(lokern) require(KernSmooth) x<-runif(100000,-3,3) y<-sin(3*x)+rnorm(100000,0,1) plot(x,y,xlim=c(-3,3),ylim=c(-4,6),main="Función de regresión",sub="MODELO: Y=sin(3*x)+N(0,1), X=U(-3,3); N=100000") x1<-seq(-3,3,length=1000) y1<-sin(3*x1) lines(x1,y1,lwd=2,type="l",col=6) poli1<-lm(y~x) #”~”=alt+ctrl+4 abline(poli1,lwd=2,col=3) poli2<-lm(y~x+I(x^2)) df<-data.frame(x=x1) y1<-predict(poli2,df) lines(x1,y1,lwd=2,col=5) v<-dpill(x,y) lines(locpoly(x,y,bandwidth=v,gridsize=length(x1),range.x=c(-3,3)),type="l",lwd=2,col=4) #corrige efecto frontera res<-glkerns(x,y) lines(ksmooth(x,y,"normal",bandwidth=res$bandwidth,range.x=c(-3,3),n.points=length(x1)),lwd=2,col=2) legend("top",legend=c("Función de regresión teórica","Estimación por regresión polinómica (grado 1: recta)","Estimación por regresión polinómica (grado 2)","Estimación por regresión lineal local","Estimación por Nadaraya- Watson"),lwd=2,col=c(6,3,5,4,2))

ESCENARIO 4 Notemos que en este caso Por lo tanto, si el número de datos es grande, cabe esperar mal funcionamiento de la recta de regresión y del polinomio de regresión de Y sobre X de orden 2. Veremos que los estimadores no paramétricos (“todo terreno”) funcionan bien.

ESCENARIO 4. Código fuente en R para comparar por Monte Carlo regresión lineal simple, polinómica de grado 2, Nadaraya-Watson y polinómica local de grado 1 MODELO NO PARAMÉTRICO 4: Y=SIN(1/X)+N(0,1) con X=U(-0.5,0.5). require(lokern) require(KernSmooth) x<-runif(100000,-0.5,0.5) y<-sin(1/x)+rnorm(100000,0,1) plot(x,y,xlim=c(-0.5,0.5),ylim=c(-4,5),main="Función de regresión",sub="MODELO: Y=sin(1/x)+N(0,1), X=U(-0.5,0.5); N=100000)") x1<-seq(-3,3,length=1000) y1<-sin(1/x1) lines(x1,y1,lwd=2,type="l",col=6) poli1<-lm(y~x) #”~”=alt+ctrl+4 abline(poli1,lwd=2,col=3) poli2<-lm(y~x+I(x^2)) df<-data.frame(x=x1) y1<-predict(poli2,df) lines(x1,y1,lwd=2,col=5) v<-dpill(x,y) lines(locpoly(x,y,bandwidth=v,gridsize=length(x1),range.x=c(-3,3)),type="l",lwd=2,col=4) #corrige efecto frontera res<-glkerns(x,y) lines(ksmooth(x,y,"normal",bandwidth=res$bandwidth,range.x=c(-3,3),n.points=length(x1)),lwd=2,col=2) legend("top",legend=c("Función de regresión teórica","Estimación por regresión polinómica (grado 1: recta)","Estimación por regresión polinómica (grado 2)","Estimación por regresión lineal local","Estimación por Nadaraya-Watson"),lwd=2,col=c(6,3,5,4,2))

COMENTARIOS 1. Una posible (y frecuente) elección de los pesos en el estimador de Nadaraya-Watson es 2. Comentario válido para escenarios 1 y 2 (parcialmente). Con n grande, los cuadrados de los coeficientes de correlación lineal simple y correlación lineal múltiple considerados, indican la fracción total de varianza explicada con todas las estimaciones (pues tienden a coincidir). Notemos que aún en los mejores casos, esa fracción no suele pasar del 75%, debido al efecto de la varianza de la variable condicionada. 3. A efectos de definir los escenarios notemos que

APROXIMACIÓN EMPÍRICA DE LA FUNCIÓN DE REGRESIÓN.

Presentaciones similares

Presentación del tema: "APROXIMACIÓN EMPÍRICA DE LA FUNCIÓN DE REGRESIÓN."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

APROXIMACIÓN EMPÍRICA DE LA FUNCIÓN DE REGRESIÓN.

Presentaciones similares

Presentación del tema: "APROXIMACIÓN EMPÍRICA DE LA FUNCIÓN DE REGRESIÓN."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback