APROXIMACIÓN EMPÍRICA DE LA FUNCIÓN DE REGRESIÓN.

Slides:

Advertisements

Presentaciones similares

Advertisements

Tema 6: Regresión lineal.

Tema.9.Predicción y estimación. Concepto. Cálculo de la ecuación de regresión lineal. Modelo general lineal. Evaluación del modelo. Diagnóstico del modelo.

Tema 2. El modelo de regresión lineal simple

1.1 Contraste de Bondad de Ajuste para Datos Categóricos

Error Estándar de la Media

Modelos de Variable Dependiente Binaria -Logit y Probit-

ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN

Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.

Modelado y simulación en Ingeniería Química. Manuel Rodríguez

PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES

Introducción a la Estadística. Modelos de regresión

ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL

Econometria 2. Modelo de Regresión Lineal Simple

Regresión y correlación

Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.

CONTRASTE Y VALIDACIÓN DE UN MODELO

Estadística Descriptiva: 4. Correlación y Regresión Lineal

Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.

Tema 2: Métodos de ajuste

Estadística bidimensional

COMPORTAMIENTO DE LAS DISTRIBUCIONES DE

Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.

Facultad: Turismo Y Hotelería

UNIVERSIDAD AUTONOMA DEL PERÚ

Distribuciones bidimensionales. Tablas de contingencia

Prueba para la Bondad de ajuste Validación de Modelo

CONTRASTE Y VALIDACIÓN DE UN MODELO

BIOMETRIA II TEMA 2 El Modelo de Regresión.

Pronósticos, Series de Tiempo y Regresión

Pronósticos, Series de Tiempo y Regresión

Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.

RECTA DE REGRESIÓN DÍA 55 * 1º BAD CT

Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.

Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.

ESTIMACION POR INTERVALOS

Dr. José Guadalupe Ríos1 ELEMENTOS DE PRUEBAS ACELERADAS Es una técnica que permite tener tiempos de falla más rápidamente, lo cual permite ahorrar tiempo.

Titular: Agustín Salvia

Introducción a la Inferencia Estadística

DISTRIBUCIÓN NORMAL MULTIDIMENSIONAL. En particular, si n=2.

LA RECTA DE REGRESIÓN CONTENIDOS:

Herramientas básicas.

INFERENCIA ESTADISTICA

Consignas Laboratorio III. ► Ejercicio 1 ► Al tirar un dado se obtiene la realización de una variable aleatoria discreta independiente con valores posibles:

Variables estadísticas bidimensionales

Límites y Continuidad.

Regresión lineal múltiple

P Y E 2012 Clase 11Gonzalo Perera1 Repaso de clase anterior Fórmula del bloqueo de Erlang. LFGN y el problema de la Robustez.

Pruebas de hipótesis.

Definición del Modelo de Regresión Simple Estimaciones por MCO Método de MCO Valores Esperados y Varianzas por MCO.

Estimación Diferencia de dos medias

Maracaibo, 26 de Mayo de 2006 Universidad del Zulia Facultad de Ingeniería División de Postgrado Maestría en Computación Aplicada Universidad del Zulia.

Estadística II Regresión Lineal.

Regresión Lineal Simple

Aplicaciones Estadísticas a las Finanzas Clase 1

ESTIMACIÓN DE PARÁMETROS

Variables estadísticas bidimensionales

MODELOS DE PRONOSTICOS Primer semestre 2010 Modelo de Regresión con dos variables.

Unidad 4 Análisis de los Datos.

TEMA 3: Estadística Bidimensional.

P y E 2012 Clase 15Gonzalo Perera1 Repaso de la clase anterior. Métodos de estimación.

APROXIMACIÓN EMPÍRICA DE LA FUNCIÓN DE DISTRIBUCIÓN.

Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.

UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.

REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.

ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.

TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.

Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.

Estimación estadística

1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)

Transcripción de la presentación:

APROXIMACIÓN EMPÍRICA DE LA FUNCIÓN DE REGRESIÓN

CONTEXTO TEÓRICO Conocida la distribución de una población bidimensional se conoce su función de regresión X Y x CONTEXTO PRÁCTICO Con n observaciones de esa población, en principio no puedo calcular la función de regresión al no disponer de datos en la vertical de x. ¿?

ESTIMADORES PARAMÉTRICOS DE LA FUNCIÓN DE REGRESIÓN (Suponen que la función de regresión es paramétrica y consideran los datos como un vector bidimensional discreto con masa sus frecuencias relativas) 1.Recta de regresión de Y sobre X (estimador bueno sólo si la función de regresión es lineal). Un indicador de su “bondad” es el cuadrado del coeficiente de correlación lineal muestral entre X e Y. 2. Polinomio de regresión de Y sobre X, por ejemplo, de grado 2 (estimador bueno sólo si la función de regresión es lineal o cuadrática, en ese caso). Un indicador de su “bondad” es el cuadrado del coeficiente de correlación lineal múltiple muestral correspondiente. X Y

ESTIMADORES NO PARAMÉTRICOS DE LA FUNCIÓN DE REGRESIÓN (No suponen nada acerca de la función de regresión. Van a ser estimadores “todo terreno” ) MOTIVACIÓN Si hubiera datos en la vertical del punto en que se pretende estimar la función de regresión, se promediarían sus respuestas, es decir, si por ejemplo k datos estuvieran en esa vertical Si no es así, consideraremos un entorno de ese punto suficientemente grande para que haya datos en su vertical, y razonaremos sobre estos datos. X Y xx-hx+h

3.Estimador de Nadaraya-Watson: promedia de forma ponderada las respuestas de los datos en ese entorno, penalizando su alejamiento de la vertical del punto x. 4.Regresión polinómica local (lineal, en particular): asigna al punto x el valor en x de un polinomio de regresión (la recta de regresión, en particular) construido sólo con los datos en ese entorno. X Y xx-hx+h

Existen procedimientos para aproximar con los datos ventanas óptimas, es decir siendo D una distancia funcional adecuada. ESTUDIO DE SIMULACIÓN Suponiendo un escenario controlado, es decir, una distribución bidimensional conocida (y por lo tanto su función de regresión teórica también), podemos estudiar por simulación (trabajando sobre muestras artificiales del mismo) el comportamiento de los cuatro estimadores considerados, comparándolos con la función de regresión teórica.

ESCENARIO 1 Notemos que en este caso Por lo tanto, si el número de datos es grande, cabe esperar buen funcionamiento de la recta de regresión y del polinomio de regresión de Y sobre X de orden 2. Veremos que los estimadores no paramétricos (“todo terreno”) tampoco funcionan mal.

ESCENARIO 1. Código fuente en R para comparar por Monte Carlo regresión lineal simple, polinómica de grado 2, Nadaraya-Watson y polinómica local de grado 1 MODELO PARAMÉTRICO 1: Y=2+3*X+N(0,3) con X=U(-3,3). require(lokern) require(KernSmooth) x<-runif(100000,-3,3) y<-2+3*x+rnorm(100000,0,3) plot(x,y,xlim=c(-3,3),ylim=c(-10,20),main="Función de regresión",sub="MODELO: Y=2+3*X+N(0,3), X=U(-3,3); N=100000") x1<-seq(-3,3,length=1000) y1<-2+3*x1 lines(x1,y1,lwd=2,col=6,type="l") poli1<-lm(y~x) #”~”=alt+ctrl+4 abline(poli1,lwd=2,col=3) poli2<-lm(y~x+I(x^2)) df<-data.frame(x=x1) y1<-predict(poli2,df) lines(x1,y1,lwd=2,col=5) v<-dpill(x,y) lines(locpoly(x,y,bandwidth=v,gridsize=length(x1),range.x=c(-3,3)),type="l",lwd=2,col=4) #corrige efecto frontera res<-glkerns(x,y) lines(ksmooth(x,y,"normal",bandwidth=res$bandwidth,range.x=c(-3,3),n.points=length(x1)),lwd=2,col=2) legend("top",legend=c("Función de regresión teórica","Estimación por regresión polinómica (grado 1: recta)","Estimación por regresión polinómica (grado 2)","Estimación por regresión lineal local","Estimación por Nadaraya- Watson"),lwd=2,col=c(6,3,5,4,2))

ESCENARIO 2 Notemos que en este caso Por lo tanto, si el número de datos es grande, cabe esperar buen funcionamiento del polinomio de regresión de Y sobre X de orden 2, y malo de la recta de regresión de Y sobre X. Veremos que los estimadores no paramétricos (“todo terreno”) tampoco funcionan mal.

ESCENARIO 2. Código fuente en R para comparar por Monte Carlo regresión lineal simple, polinómica de grado 2, Nadaraya-Watson y polinómica local de grado 1 MODELO PARAMÉTRICO 2: Y=2+3*X^2+N(0,5) con X=U(-3,3). require(lokern) require(KernSmooth) x<-runif(100000,-3,3) y<-2+3*(x^2)+rnorm(100000,0,5) plot(x,y,xlim=c(-3,3),ylim=c(0,40),main="Función de regresión",sub="MODELO: Y=2+3*X^2+N(0,5), X=U(-3,3); N=100000") x1<-seq(-3,3,length=1000) y1<-2+3*(x1^2) lines(x1,y1,lwd=2,type="l",col=6) poli1<-lm(y~x) #”~”=alt+ctrl+4 abline(poli1,lwd=2,col=3) poli2<-lm(y~x+I(x^2)) df<-data.frame(x=x1) y1<-predict(poli2,df) lines(x1,y1,lwd=2,col=5) v<-dpill(x,y) lines(locpoly(x,y,bandwidth=v,gridsize=length(x1),range.x=c(-3,3)),type="l",lwd=2,col=4) #corrige efecto frontera res<-glkerns(x,y) lines(ksmooth(x,y,"normal",bandwidth=res$bandwidth,range.x=c(-3,3),n.points=length(x1)),lwd=2,col=2) legend("top",legend=c("Función de regresión teórica","Estimación por regresión polinómica (grado 1: recta)","Estimación por regresión polinómica (grado 2)","Estimación por regresión lineal local","Estimación por Nadaraya- Watson"),lwd=2,col=c(6,3,5,4,2))

ESCENARIO 3 Notemos que en este caso Por lo tanto, si el número de datos es grande, cabe esperar mal funcionamiento de la recta de regresión y del polinomio de regresión de Y sobre X de orden 2. Veremos que los estimadores no paramétricos (“todo terreno”) funcionan bien.

ESCENARIO 3. Código fuente en R para comparar por Monte Carlo regresión lineal simple, polinómica de grado 2, Nadaraya-Watson y polinómica local de grado 1 MODELO NO PARAMÉTRICO 3: Y=SIN(3*X)+N(0,1) con X=U(-3,3). require(lokern) require(KernSmooth) x<-runif(100000,-3,3) y<-sin(3*x)+rnorm(100000,0,1) plot(x,y,xlim=c(-3,3),ylim=c(-4,6),main="Función de regresión",sub="MODELO: Y=sin(3*x)+N(0,1), X=U(-3,3); N=100000") x1<-seq(-3,3,length=1000) y1<-sin(3*x1) lines(x1,y1,lwd=2,type="l",col=6) poli1<-lm(y~x) #”~”=alt+ctrl+4 abline(poli1,lwd=2,col=3) poli2<-lm(y~x+I(x^2)) df<-data.frame(x=x1) y1<-predict(poli2,df) lines(x1,y1,lwd=2,col=5) v<-dpill(x,y) lines(locpoly(x,y,bandwidth=v,gridsize=length(x1),range.x=c(-3,3)),type="l",lwd=2,col=4) #corrige efecto frontera res<-glkerns(x,y) lines(ksmooth(x,y,"normal",bandwidth=res$bandwidth,range.x=c(-3,3),n.points=length(x1)),lwd=2,col=2) legend("top",legend=c("Función de regresión teórica","Estimación por regresión polinómica (grado 1: recta)","Estimación por regresión polinómica (grado 2)","Estimación por regresión lineal local","Estimación por Nadaraya- Watson"),lwd=2,col=c(6,3,5,4,2))

ESCENARIO 4 Notemos que en este caso Por lo tanto, si el número de datos es grande, cabe esperar mal funcionamiento de la recta de regresión y del polinomio de regresión de Y sobre X de orden 2. Veremos que los estimadores no paramétricos (“todo terreno”) funcionan bien.

ESCENARIO 4. Código fuente en R para comparar por Monte Carlo regresión lineal simple, polinómica de grado 2, Nadaraya-Watson y polinómica local de grado 1 MODELO NO PARAMÉTRICO 4: Y=SIN(1/X)+N(0,1) con X=U(-0.5,0.5). require(lokern) require(KernSmooth) x<-runif(100000,-0.5,0.5) y<-sin(1/x)+rnorm(100000,0,1) plot(x,y,xlim=c(-0.5,0.5),ylim=c(-4,5),main="Función de regresión",sub="MODELO: Y=sin(1/x)+N(0,1), X=U(-0.5,0.5); N=100000)") x1<-seq(-3,3,length=1000) y1<-sin(1/x1) lines(x1,y1,lwd=2,type="l",col=6) poli1<-lm(y~x) #”~”=alt+ctrl+4 abline(poli1,lwd=2,col=3) poli2<-lm(y~x+I(x^2)) df<-data.frame(x=x1) y1<-predict(poli2,df) lines(x1,y1,lwd=2,col=5) v<-dpill(x,y) lines(locpoly(x,y,bandwidth=v,gridsize=length(x1),range.x=c(-3,3)),type="l",lwd=2,col=4) #corrige efecto frontera res<-glkerns(x,y) lines(ksmooth(x,y,"normal",bandwidth=res$bandwidth,range.x=c(-3,3),n.points=length(x1)),lwd=2,col=2) legend("top",legend=c("Función de regresión teórica","Estimación por regresión polinómica (grado 1: recta)","Estimación por regresión polinómica (grado 2)","Estimación por regresión lineal local","Estimación por Nadaraya-Watson"),lwd=2,col=c(6,3,5,4,2))

COMENTARIOS 1. Una posible (y frecuente) elección de los pesos en el estimador de Nadaraya-Watson es 2. Comentario válido para escenarios 1 y 2 (parcialmente). Con n grande, los cuadrados de los coeficientes de correlación lineal simple y correlación lineal múltiple considerados, indican la fracción total de varianza explicada con todas las estimaciones (pues tienden a coincidir). Notemos que aún en los mejores casos, esa fracción no suele pasar del 75%, debido al efecto de la varianza de la variable condicionada. 3. A efectos de definir los escenarios notemos que