La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Maestría en Transporte Estadística

Presentaciones similares


Presentación del tema: "Maestría en Transporte Estadística"— Transcripción de la presentación:

1 Maestría en Transporte Estadística

2 Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X (o varias...), y que la relación es lineal...

3 Suposiciones Variable Y (dependiente) continua.
Relación lineal en los parámetros. Observaciones independientes y muestreadas aleatoriamente. Existencia de incertidumbre en la relación Y -> X (existencia de errores). Errores de esperanza nula y varianza constante. Errores no correlacionados. Errores no correlacionados con X. Errores aproximadamente normales.

4 Suposiciones II

5 Violaciones a los supuestos
Fallas a la Normalidad Existencia de correlación en las regresoras Heterocedasticidad Existencia de correlación Errores en la especificación de modelos.

6 Mas sobre Regresiones Bondad de Ajuste, un poco mas allá...
¿Que son “outliers”? ¿Como detectarlos? ¿Como actuar? Fallas a la homocedasticidad Fallas a la falta de correlación serial Fallas a la falta de normalidad

7 Un poco mas de bondad (de ajuste)...

8 Prueba F Se trata probar acerca de la bondad de modelos competidores
Primero se estima el modelo completo El mejor modelo que se disponga Todas las regresoras Luego se estima un modelo restringido es un modelo al que se han quitado variables Puede ser un modelo en el que, incluso se han quitado TODAS las regresoras y se deja sólo el término constante...

9 Prueba F (II) La lógica de la prueba es comparar la variablidad de los errores en el modelo completo vs la variabilidad en el modelo reducido. Se comparan las sumas de cuadrados de los errores de ambos modelos SSEfull y SSEred

10 Prueba F EL estadístico calculado tiene distribución F con Donde
dfr-dff grados de libertad en el numerador dff grados de libertad en el denominador Donde dfr = n-pr dff = n-pf n es el número de observaciones pf es número de parámetros en el modelo completo (full) pr es el número de parámetros en el modelo restringido

11 Prueba F ¿y si se excluyen todas los parámetros beta? SSEr=2(n-1)
dfr=n-1 La prueba F sólo es válida para modelos “anidados”, esto es donde en uno de ellos se excluye una o mas regresoras respecto al otro.

12 Criterios de Información
Para comparar entre modelos en general (con distintas regresoras) se usan los Criterios de información. Conceptualmente los CI (o IC en inglés): dan cuenta de la variabilidad de los errores, cuanto menos variabilidad mejor, dan cuenta de la cantidad de variables regresoras incluidas, cuanto menos mejor (criterio de parsimonia). De manera que penalízan cuando se incluyen mas regresoras...

13 Criterios de Información
Los criterios se comparan seleccionando el modelo que resulte en un valor menor (menor variabilidad de los errores) k número de parámetros estimados n número de observaciones l log de la verosimilitud

14 Criterios de Información
Ejemplo: definición alternativa de AIC (bajo normalidad) Ejercicio: mostrar que las expresiones son iguales

15 ¿Quién no quiere ser singular
¿Quién no quiere ser singular? ¿quién no quiere ser tratado especialmente? ¿quién no quiere que su participación tenga real influencia? Todos somos... Outliers

16 Outliers Conocidas como Observaciones Aberrantes
Son observaciones atípicas de mucha influencia en la pendiente de la recta.

17 Outliers Influencia a causa de alejamiento en el eje de las y
A causa de alejamiento en el eje (los ejes) de las x A causa de alejamiento en ambos sentidos La influencia en los parámetros es el cuadrado de la distancia.

18 Outliers Matriz “Hat” sombrero (notación maticial)
Parámetros estimados Valores Ajustados (proyección) H es la matriz “hat”

19 Outliers Entonces, los valores ajustados son combinación lineal de la muestra (los observados) Además donde e son residuos e I es la matriz identidad (ejercicio, mostrar esto)

20 Outliers donde hii es el i-ésimo elemento de la matriz diagonal de H.
Se puede demostrar que

21 Outliers Cuando mas grande es hii, mas pequeño es Var(ei), mas influencia tiene en determinar la recta. Valores de alto hii tienen menores residuos. El “leverage” hii es grande cuando supera el doble del promedio de todos los leverage. Ejercicio ¿cuál es este promedio?

22 Outliers Distancia de Cook
Cuantifica el impacto de remover una observación de la estimación sobre los parámetros.

23 Outliers La distancia depende del residuo en “i” y del leverage en “i”. Si cualquiera es elevado Di será grande respecto al resto de las observaciones.

24 Outliers Acciones Revisar el modelo Revisar las observaciones
(¿variables indicadoras? ¿otras variables regresoras?) Revisar las observaciones ¿no corresponde a errores o diferente metodología de recolección? Revisar los instrumentos de medida Revisar manipulación previa de los datos

25 Outliers Acciones (II)
Es recomendable identificar y explicar las observaciones aberrantes. Quitarlas puede llevar a críticas por “tratar de ajustar los datos al modelo y no a la inversa” Si se comprueba un error justificable, quitarlas.

26 Heterocedasticidad Los mínimos cuadrados son un poco pesados...

27 OLS Ordinary Least Squares o MCO
Notación matricial: minúsculas indican vectores, mayúsculas indican matrices (incluso en letras griegas). Los escalares se denotan igual que vectores

28 OLS Adicionalmente, normalidad de los errores

29 OLS Ecuaciones normales (p ecuaciones para p incognitas)
(hemos cambiado la notación para los estimadores de B a “Beta Sombrero”

30 OLS Si (X’X) no es singular...
Y asumiendo normalidad de los errores se puede obtener la distribución de los beta^ que resultan se normales. Se aplican pruebas t, etc...

31 Generalized Least Squares GLS
También conocidos como estimadores de Aitken.

32 Generalized Least Squares GLS
También conocidos como estimadores de Aitken.

33 GLS siempre que V sea simétrica y definida positiva |V|>0.

34 GLS Si se usa una matriz triangular tal P’P=V-1 (la matriz V-1 ha sido descompuesta. Se denomina descomposición de Choleki). Resulta que...

35 GLS Supóngase la siguiente transformación
Ejercicio, hallar la distribución de eta  Ejercicio, hallar la expresión de beta^ en función de las variables originales

36 GLS Inconveniente, necesitamos conocer V!!
Las aplicaciones de GLS son diversas entre ellas los WLS Weighted Least Squares o Mínimos Cuadrados Pesados, una de las posibles soluciones para la heterocedasticidad, cuando existen réplicas o cuasi réplicas...

37 Mínimos Cuadrados Pesados
Se pueden construir mejores estimadores si se acepta que existe heterocedasticidad. Si se sabe que cada observación tiene una varianza distinta... Nótese que aún existe no correlación entre errores de observaciones distintas

38 Mínimos Cuadrados Pesados
Para algún valor arbitrario de 2 se puede escribir... Voila!! Todo está solucionado (si conociéramos las varianzas de cada observación!!!) Entonces (a) puede hacerse una suposición “de fé” sobre la variación de la varianza, algo similar a decir “los errores son normales” es una suposición previa. (b) si existen réplicas se pueden calcular las varianzas para cada observación i

39 Mínimos Cuadrados Pesados
Existe tres réplicas X1, tres réplicas X2 y cuatro réplicas X3

40 Mínimos Cuadrados Pesados

41 Mínimos Cuadrados Pesados
En una regresión simple, todo resulta en que regresión OLS con dos variables y sin ordenada al origen A los efectos del cálculo

42 Mínimos Cuadrados Pesados
Las ecuaciones normales implican que se debe aplicar pesos 1/2. Ejercicio mostrar las validez de las siguientes expresiones

43 Mínimos Cuadrados Pesados
Dado que las varianzas son estimadas algunos autores (Ej:Kmenta) proponen calcular iterativamente. Se calcula una regresión OLS y se estiman los residuos de las réplicas. Se determinan las varianzas de. Se calcula una regresión WLS y se estiman los residuos de las réplicas. Se determinan las varianzas de los errores de las réplicas. Se itera hasta obtener convergencia de varianzas (igualdad de varianzas entre réplicas!!)

44 Mínimos Cuadrados Pesados
Similares cuestiones surgen cuando la variable respuesta es un promedio de varias observaciones yi es promedio de ni observaciones y como tal su varianza es Ejercicio, hallar la expresión de V

45 Mínimos Cuadrados Pesados
Es necesario tener consideraciones especiales a la hora de realizar predicciones respecto a bandas de predicción y bandas de predicción individual.

46 Mínimos Cuadrados Pesados

47 Autocorrelación (ya no se me ocurre nada que decir...)

48 Autocorrelación Se aplica cuando las observaciones son obtenidas a través del tiempo. Observación de los residuos agrupamiento de amplitud Durbin Watson, modelo Ejercicio, verificar que

49 Autocorrelación Ejercicio ¿Que efectos tiene sobre los estimadores de una regresión lineal simple, el hecho que  no sea nulo? Verificar si los estimadores son insesgados Verificar el efecto en la varianza de los estimadores OLS. ¿Porqué no ? Estudio de Series de Tiempo Box y Jenkins Aproximación AR(1) es buena en muchos casos!!

50 Autocorrelación  es positivo! Residuo Región crítica
si d<dl se rechaza H0 si d>du no se rechaza H0 si du<d<dl no es concluyente

51 Autocorrelación

52 Autocorrelación De igual forma se puede tratar para <0, pero se calcula 4-d con igual región crítica. El estadístico d está limitado por 0 y por 4, si es cercano a 2 no se rechaza la hipótesis.

53 Autocorrelación Existen transformaciones para usar OLS. El estudio de series de tiempo es mas general Si rho fuese conocido puede aplicarse GLS. Una posibilidad es estimar rho sobre residuos de una primera estimación OLS.

54 Autocorrelación La estimación vía Máxima Verosimilitud
Autocorrelación con datos trimestrales Autocorrelación con datos mensuales


Descargar ppt "Maestría en Transporte Estadística"

Presentaciones similares


Anuncios Google