Elementos Básicos de Probabilidad y Estadística

Slides:



Advertisements
Presentaciones similares
DSITRIBUCION T DE STUDENT.
Advertisements

REGRESION LINEAL SIMPLE
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Bivariadas y Multivariadas
} LISSET BÁRCENAS MONTERROZA
Introducción al tema El único método científico para validar conclusiones sobre un grupo de individuos a partir de la información que nos proporciona un.
KRIGING.
MODELO DE REGRESIÓN MÚLTIPLE
DISTRIBUCIONES MUESTRALES, DE LAS MUESTRAS O DE MUESTREO
Estimación por intervalos de confianza.
Estimación por Intervalos de confianza
Introducción Media y varianza poblacional Sea
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
INFERENCIA ESTADÍSTICA
División de Estudios Políticos, CIDE
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Facultad: Turismo Y Hotelería
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
8.3.- APROXIMACIOIN DE LA DISTRIBUCION BINOMIAL A LA NORMAL
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Modelo de regresión simple: Y =  1 +  2 X + u 1 Hemos visto que los coeficientes de regresión b 1 y b 2 son variables aleatorias. Estos, respectivamente,
INTERVALO DE CONFIANZA
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
Distribuciones derivadas del muestreo
Estadística Administrativa I
DISTRIBUCIONES DE MUESTREO
Unidad V: Estimación de
ESTADISTICA TEMA y 223.
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
Valor que toma la variable aleatoria
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Distribuciones Continuas de Probabilidad
Estimación Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra. Sea un estadístico ( función.
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Capítulo 7 Estimación de Parámetros Estadística Computacional
ESTIMACION POR INTERVALOS
Inferencia Estadística
Estadística para administradores
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
Unidad II: Variables Aleatorias Concepto Discreta y Continua Fun. de densidad Fun. de probabilidad F. de distribución Esperanza y Varianza Propiedades.
Unidad V: Estimación de
Teoría de Probabilidad Dr. Salvador García Lumbreras
Distribuciones de probabilidad bidimensionales o conjuntas
DISTRIBUCIONES MUESTRALES
Estimación Diferencia de dos medias
Estimación y contraste de hipótesis
INTERVALOS DE CONFIANZA
ESTIMACIÓN DE PARÁMETROS
Distribuciones de Probabilidad
La distribución normal
Inferencia Estadística Conceptos Previos. Conceptos Previos Población: Es la colección de toda la posible información que caracteriza a un fenómeno aleatorio.
INFERENCIA ESTADÍSTICA
Laboratorio de Estadística administrativa Distribuciones de Muestreo Teorema del límite central Tamaño de muestra Marzo de 2007.
DEFINICIÓN DE NORMALIDAD MEDIDAS DE DESCRIPCIÓN DE DATOS
UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE CIENCIAS ECONOMICAS INFERENCIA ESTADISTICA TEMA: ESTIMACION PUNTUAL, PROPIEDADES DE LAS ESTIMACIONES;
REGRESIÓN LINEAL SIMPLE
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Estimación estadística
Medidas de tendencia central
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
INTERVALO DE CONFIANZA
Elementos Básicos de Probabilidad y Estadística
VARIANZA Y Y COVARIANZA DE VARIABLES ALEATORIAS Estadística II MI. MARTHA PAMELA RAMÍREZ VELA ITESM CAMPUS SALTILLO 1.
Transcripción de la presentación:

Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 http://www.cide.edu/investigadores/aparicio/metodos

Contenido Variables aleatorias (VA): X Distribución de probabilidad Valor esperado de una VA: E(X) Varianza de una VA: VA discretas y continuas Covarianza y correlación Muestreo y estimadores Sesgo y eficiencia de los estimadores Propiedades de los estimadores muestrales Teorema del Límite Central

Un ejemplo de distribución de probabilidad: X es la suma de dos dados rojo 1 2 3 4 5 6 verde 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 X f p 2 1 1/36 3 2 2/36 4 3 3/36 5 4 4/36 6 5 5/36 7 6 6/36 8 5 5/36 9 4 4/36 10 3 3/36 11 2 2/36 12 1 1/36 Una variable aleatoria X se puede definir como la suma de los números cuando se tiran dos dados. Se define f como las frecuencias asociadas asociadas a los posibles valores de X. Finalmente se define p, como la probabilidad de ocurrencia de cada resultado, la cual es 1/36.

Un ejemplo de distribución de probabilidad: X es la suma de dos dados 2 36 __ 3 36 __ 4 36 __ 5 36 __ 6 36 __ 5 36 __ 4 36 __ 3 36 __ 2 36 __ 1 36 1 36 2 3 4 5 6 7 8 9 10 11 12 X Esta es la distribución vista gráficamente. En este ejemplo es simétrica: más alta para X igual a 7, y decreciente en ambos lados.

Valor esperado de una variable aleatoria Definición de E(X), el valor esperado de X: Notación alternativa de E(X): E(X) = μx El valor esperado de una variable aleatoria, también conocida como la media poblacional, es el promedio ponderado de sus valores posibles.

Valor esperado de una variable aleatoria xi pi xi pi xi pi xi pi x1 p1 x1 p1 2 1/36 2/36 x2 p2 x2 p2 3 2/36 6/36 x3 p3 x3 p3 4 3/36 12/36 x4 p4 x4 p4 5 4/36 20/36 x5 p5 x5 p5 6 5/36 30/36 x6 p6 x6 p6 7 6/36 42/36 x7 p7 x7 p7 8 5/36 40/36 x8 p8 x8 p8 9 4/36 36/36 x9 p9 x9 p9 10 3/36 30/36 x10 p10 x10 p10 11 2/36 22/36 x11 p11 x11 p11 12 1/36 12/36 S xi pi = E(X) 252/36 = 7 Del ejemplo anterior, el valor esperado es 7, lo cual es obvio porque, como vimos en la gráfica anterior, la distribución es simétrica en torno a 7.

Valor esperado de una función de una variable aleatoria Definición de E[g(X)], el valor esperado de una función de X: Ejemplo: Para encontrar el valor esperado de una función de una variable aleatoria, se calculan todos los posibles valores de la función, ponderándolos por las probabilidades correspondientes, y sumando el resultado.

Valor esperado de una función de una variable aleatoria xi pi g(xi) g(xi ) pi xi pi xi2 xi2 pi x1 p1 g(x1) g(x1) p1 2 1/36 4 0.11 x2 p2 g(x2) g(x2) p2 3 2/36 9 0.50 x3 p3 g(x3) g(x3) p3 4 3/36 16 1.33 … … …... ……... 5 4/36 25 2.78 … … …... ……... 6 5/36 36 5.00 … … …... ……... 7 6/36 49 8.17 … … …... ……... 8 5/36 64 8.89 … … …... ……... 9 4/36 81 9.00 … … …... ……... 10 3/36 100 8.83 … … …... ……... 11 2/36 121 6.72 xn pn g(xn) g(xn) pn 12 1/36 144 4.00 S g(xi) pi 54.83 El valor esperado de X2 es la suma de sus valores ponderados en la columna final. Es el valor promedio de de los valores en la columna previa, tomando las distintas probabilidades en cuenta.

Desviación estándar de X Varianza poblacional de una variable aleatoria discreta Varianza poblacional de X Desviación estándar de X El valor esperado de la desviación es conocida como la varianza poblacional de X. Es una medida de dispersión de la distribución de X alrededor de su media poblacional. La desviación estándar de X es la raíz cuadrada de su varianza poblacional.

Varianza poblacional de una variable aleatoria discreta xi pi xi – m (xi – m)2 (xi – m)2 pi 2 1/36 –5 25 0.69 3 2/36 –4 16 0.89 4 3/36 –3 9 0.75 5 4/36 –2 4 0.44 6 5/36 –1 1 0.14 7 6/36 0 0 0.00 8 5/36 1 1 0.14 9 4/36 2 4 0.44 10 3/36 3 9 0.75 11 2/36 4 16 0.89 12 1/36 5 25 0.69 5.83 Para obtener la varianza, primero es necesario sustraer la media a cada valor de x. Segundo, este resultado se eleva al cuadrado y finalmente se multiplica por la probabilidad de ocurrencia de cada x.

Independencia de dos variables aleatorias Dos variables aleatorias X y Y son independientes si y sólo si: E[f(X)g(Y)] = E[f(X)] E[g(Y)] para cualquier función de f(X) y g(Y). Caso especial: si X y Y son independentes, E(XY) = E(X) E(Y) Dos variables X y Y son independientes si y sólo si, dada cualquier función de f(X) y g(Y), el valor esperado del producto de f(X)g(Y) es igual al valor esperado de f(X) multiplicado por el valor esperado de g(Y). Caso especial, el valor esperado de XY es igual al valor esperado de X multiplicado por el valor esperado de Y, si y sólo si X y Y son independientes.

Covarianza y correlación Si dos variables son independientes, su covarianza es cero. Para demostrarlo se reescribe la covarianza como el producto de de los valores esperados de sus factores. Esto se puede hacer porque X y Y son independientes. El valor esperado de ambos factores es cero porque E(X) = mX y E(Y) = mY. E(mX) = mX y E(mY) = mY porque mX y mY son constantes. Por lo tanto la covarianza es cero.

Covarianza y correlación Cov(X, Y) es una medida de asociación insatisfactoria entre X y Y porque depende de las unidades de medida (o escala) de X y Y. Una mejor medida es el coeficiente de correlación porque no es dimensional: El numerador posee las unidades de medida de X y Y, mientras que la varianza de X y Y en el denominador posee las unidades de medida al cuadrado de estas varibles. Si X y Y son independientes, rXY será igual a cero porque sXY será igual a cero. Si hay una asociación positiva entgre ellos, sXY, y por tanto rXY, será positiva. Si hay una exacta relación lineal positiva, rXY tomará su valor máximo de 1. Similarmente,si hay una relación negativa, rXYserá negativa con un valor mínimo de –1.

Variables aleatorias continuas altura 55 60 70 75 65 X Las variables aleatorias continuas pueden tomar cualquier valor infinitesimal en un rango. Un ejemplo es la temperatura de una habitación. Se asume que ésta puede situarse entre cualquier valor entre 55 y 75 grados Fahrenheit con la misma probabilidad en todo el rango. En el caso de variables aleatorias continuas, la probabilidad de ser igual a un valor en el rango siempre es infinitesimal. Por esta razón, sólo se puede hablar de la probabilidad de una variable aleatoria continua se encuentre dentro de un rango de valores dados.

Variables continuas aleatorias f(X) = 0.05 para 55 X 75 f(X) = 0 para X < 55 y X > 75 Densidad de probabilidad f(X) 0.05 0.25 55 60 65 70 75 X Soponga que se requiere calcular la probabilidad de la temperatura entre 65 y 70 grados. Para obtenerla, se debe calcular el área debajo de la función de densidad entre 65 y 70. La altura del rectángulo es 0.05 y su ancho es 5, por lo tanto su área es 0.25.

Muestreo y estimadores Suponga que tenemos una variable aleatoria X, y deseamos estimar su (hasta ahora desconocida) media poblacional mX… Un primer paso es obtener una muestra de n observaciones: {X1, …, Xn}. Aún antes de conseguir la muestra, Xi contiene valores aleatorios, los cuales provendrán de la distribución de X, pero no sabemos qué valores tomarán. De modo que podemos pensar en variables aleatorias en DOS niveles: La variable aleatoria X por si misma El componente aleatorio de la muestra {X1, …, Xn}: error muestral.

Muestreo y estimadores Una vez que tenemos una muestra de n observaciones {X1, …, Xn}, podemos usar fórmulas matemáticas para estimar la (desconocida) media poblacional, mX. Esta fórmula es un estimador. Un estimador típico es la media muestral: …Este estimador es también una variable aleatoria porque depende de las valores aleatorios {X1, …, Xn}.

Muestreo y estimadores Densidad de probabilidad de X Densidad de probabilidad de X mX X mX X Como se ve en el gráfico, X tiene la misma media que X. Sin embargo, la varianza ed la distribución de X es más pequeña que la de X.

Sesgo y eficiencia estimator B mX Función de densidad de probabilidad estimador A mX ¿Cómo elegir entre los estimadores A y B? La respuesta es usar el estimador más eficiente, es decir, aquel con la varianza más pequeña puesto que éste tiende a ser más acertado. En el diagrama el estimador más eficiente es B.

Trade off entre sesgo y eficiencia (varianza) Función de densidad de probabilidad estimador B estimador A q Supongamos que hay un estimador alternativo q de la población, uno insesgado, y otro sesgado pero con menor varianza. ¿Cómo escoger entre ambos?

Trade off entre sesgo y eficiencia (varianza) Función de densidad de probabilidad estimador B sesgo q mZ Una medida ampliamente utilizada es la media del error cuadrado del estimador, definido como el valor esperado del cuadrado de las desviaciones del estimador respecto del verdadero parámetro de la población.

Estimadores muestrales de varianza, covarianza y correlación

Estimadores de varianza, covarianza y correlación El coeficiente de correlación de la población rXY para dos variables X y Y es definida por su covarianza dividida por la raíz cuadrada del producto de sus varianzas. El coeficiente de correlación muestral, rXY, se obtiene de reemplazar la covarianza y las varianzas por sus estimadores.

Propiedades de los estimadores: consistencia Un estimador de la población es consistente si satisface dos condiciones: Posee un límite probabilístico (plim), de modo que su distribución se vuelva un pico conforme el tamaño de la muestra tienda a infinito, y (2) El pico de esta distribución se localice en el “verdadero valor” del parámetro poblacional.

Propiedades de los estimadores: consistencia Función de densidad de probabilidad de X n = 5000 0.8 0.6 0.4 0.2 50 100 150 200 En este ejemplo, el estimador cumple con ambas condiciones… Una condición suficiente de consistencia es que el estimador debe ser insesgado y su varianza debe tender a cero conforme n se incrementa.

Propiedades de los estimadores: consistencia Función de densidad de probabilidad de Z n = 1000 n = 100 n = 20 q Z Sin embargo, la condición es suficiente, no necesaria. Es posible que un estimador esté sesgado en una muestra finita, pero el sesgo disminuye conforme el tamaño de muestra aumenta.

Tamaño de muestra y margen de error

Teorema del Límite Central Si una variable aleatoria X tiene una distribución normal, su media muestral, X, también tendrá una distribución normal. Sin embargo, ¿qué ocurre si no conocemos la verdadera distribución de X? El teorema del límite central resuelve el problema. El TLC establece que: si las observaciones Xi de una muestra son obtenidas de manera independiente (aleatoria) de la misma distribución y, si ésta distribución tiene una media y varianza poblacional finita  la distribución de X convergerá hacia una distribución normal. Es decir, que aunque la distribución de X sea desconocida, la distribución de sus estimadores muestrales tenderá a ser normal conforme N aumente. Esto implica que tanto los estadísticos t como los intervalos de confianza serán aproximadamente válidos, siempre que la muestra sea suficientemente grande.

Teorema del Límite Central El gráfico muestra cómo, conforme n aumenta, la distribución de la media de X converge hacia una distribución normal.

Referencias Esta presentación sigue a: “Random variables and sampling theory”, en Dougherty (2002). Introduction to Econometrics, 2nd ed. Algunos applets relacionados: A Central Limit Theorem Applet Sample from a population Sampling distributions