La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Inferencia Estadística

Presentaciones similares


Presentación del tema: "Inferencia Estadística"— Transcripción de la presentación:

1 Inferencia Estadística

2 Inferencia Estadística
Son los procedimientos, técnicas o métodos utilizados para obtener conocimiento de una población a partir de los datos de una muestra aleatoria. Se clasifican según su objetivo: Estimación: Queremos aproximar una cantidad desconocida. Estimar el tiempo medio para resolver un expediente. Contraste de hipótesis: Queremos comprobar si una hipótesis es sustentada por los datos observados. Contrastar si los tiempos medios de dos departamentos para resolver un expediente son iguales.

3 ESTIMACIÓN DE PARÁMETROS

4 Estimación: puntual y por intervalo
Un estimador es una función de los valores observados de una muestra que se elabora para indagar el valor de un parámetro de la población de la que procede la muestra. Un intervalo de confianza es un rango de valores que permite conocer los posibles valores entre los que se encuentra el parámetro y la incertidumbre existente en la estimación. Se obtienen estas estimaciones a partir de los correspondientes estadísticos muestrales (a partir de la media muestral, proporción muestral, varianza muestral,...) La estimación puede ser de dos tipos: Estimación puntual: Obtendremos el valor del estadístico muestral como estimación del parámetro desconocido. 4,29 días es el tiempo medio de resolución de un expediente Estimación por intervalo: Obtendremos un intervalo que contiene al parámetro desconocido con unas garantías probabilísticas. I.C. tiempo medio de resolución de un expediente con un nivel de confianza del 95%: (3´24,5´34) días Propiedades deseables en los estimadores: Insesgado: Cuando el estimador muestral coincide con el poblacional, sin ninguna desviación sistemática. Consistencia: A medida que se incrementa el tamaño muestral, la diferencia entre el estimador y el parámetro será menos que cualquier número (e). Eficiencia: Se emplea para comparar estimadores. Si tenemos dos estimadores y de un mismo parámetro q, diremos que es más eficiente que si tenemos que var( )<var( ). Suficiencia: Diremos que es un estimador suficiente del parámetro si dicho estimador basta por sí solo para estimar . Si el estimador es suficiente utiliza toda la información contenida en la muestra. SESGADO: Cuando el estimador muestral NO coincide con el poblacional debido a un error sistemático. Un buen estimador es aquel que es insesgado, eficiente y suficiente (Rothman y Greenland, 1998)

5 INTERVALOS DE CONFIANZA

6 Error típico o estándar
Para calcular intervalos de confianza se usa habitualmente el concepto de error estándar. Un error estándar (por ej., el error estándar de la media, que se calcula dividiendo la desviación estándar por la raíz cuadrada de n) es un indicador de la variabilidad de las medias calculadas en muchas posibles muestras que se tomen de una población, todas ellas de tamaño n. El error estándar de la media mide nuestro grado de incertidumbre respecto a la capacidad de la media muestral para estimar la media poblacional. Si la desv. estándar de la edad de una muestra de 100 pacientes es 20 años, el EE de la media valdría 20 / 100 = 2, y esperaríamos que las medias de muestras repetidas de tamaño 100 tuviesen una distribución normal cuya desv. estándar fuese 2.

7 Error típico o estándar
El razonamiento anterior se aplica a otros estimadores muestrales distintos de la media: proporciones, varianza, diferencias de medias,... La expresión más general para hacer estimaciones calculando intervalos de confianza es sumar y restar al estimador muestral z veces el EE del estimador: parámetro  (estimador + z x EE del estimador) donde z es el valor correspondiente de la distribución normal. Si el I.C. es al 95% (1-), implica que hay un 5% de error () repartido en dos colas, una a cada lado. Cada cola valdría el 2.5% (/2 = 0.025); en este caso, z valdría 1.96. A veces , en vez de z, se usa la t de Student como veremos más adelante. Para distribuciones normales tenemos que alrededor del valor central y en un radio de 2 y 2.5 desv. típicas, tenemos aproximadamente una masa de probabilidad del 95% y 99% respectivamente, que son los valores usados habitualmente como niveles de confianza.

8 Introducción: Intervalos de Confianza
Un problema habitual es el de estimar parámetros que ayuden a caracterizar una variable. Por ej.,el porcentaje de individuos que mejora ante un cierto tratamiento, o el tiempo medio que tarda un anestésico en hacer efecto... Podríamos decir, “el 75% de los pacientes tratados experimentó una mejoría”. Una respuesta más sofisticada usando Intervalos de Confianza sería: “Nuestro estudio muestra que en el 75% de los casos se experimenta una mejoría, siendo el margen de error del 6%. El nivel de confianza es del 95%”. Los I.C. nos permiten hacer declaraciones sobre qué valores podemos esperar para un parámetro. La estimación por intervalos de confianza permite conocer los posibles valores entre los que se encuentra el parámetro y la incertidumbre existente en la estimación.

9 Intervalos de Confianza
El Intervalo calculado dependerá de: Lo estimado en la muestra (porcentaje, media,..) El I.C. está formado por valores ligeramente menores y mayores que la aproximación ofrecida por la muestra. El tamaño muestral. Cuantos más datos hayan participado en el cálculo, más pequeño esperamos que sea la diferencia entre el valor estimado y el valor real desconocido. La probabilidad (nivel de confianza) con la que el método dará una respuesta correcta. Niveles de confianza habituales para los intervalos de confianza son el 95% y el 99%. La elección de un nivel de confianza como el 95% nos permite hacer declaraciones con una razonable probabilidad de acertar, y además el intervalo declarado es lo suficientemente pequeño como para suscitar algún interés.

10 Intervalos de confianza PARA VARIABLES DICOTÓMICAS

11 Intervalo de Confianza para una proporción
Cuando tenemos una variable dicotómica (o de Bernoulli) interesa saber en qué proporción de casos p, ocurre el éxito en la realización de un experimento. La distribución del nº de éxitos es binomial, y puede ser aproximada a la normal si el tamaño de la muestra n es grande, y p no es una cantidad muy cercana a 0 o 1. Ejemplo: Se preguntó a 80 pacientes si habían sufrido algún trastorno tras seguir un tratamiento, de los cuales 60 (p=60/80=75%) dijeron que no. La muestra es grande y no esperamos que el porcentaje real en el caso de haber sido extendido a muchos más pacientes sea muy diferente. Podemos decir, que el 75% de los individuos no mencionaron haber sufrido trastornos. La confianza es del 95% y el I.C. es ( x0.048) = (0.65,0.84)

12 Elección del tamaño muestral para una proporción
Con una muestra de 100 individuos se realizó una estimación con un 95% de confianza, del porcentaje de votantes a una cuestión en un referéndum, con un margen de error de 9.3 puntos. Si pretendemos reducir el error a 1 punto y aumentar el nivel de confianza al 97% (α=0.03) hemos de tomar una muestra de mayor tamaño N. Si no tenemos una idea sobre qué valores puede tomar p, debemos considerar el peor caso posible, que es en el que se ha de estimar el tamaño muestral cuando p=q=1/2.

13 Intervalo para la diferencia de dos proporciones
Consideramos que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. Dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población extraemos muestras de tamaños n1 y n2. Si las muestra son suficientemente grandes tenemos una aproximación para un I.C. al nivel 1-α para la diferencia de proporciones de dos poblaciones es:

14 Intervalos de confianza PARA LA DISTRIBUCIÓN NORMAL

15 I.C. para la distribución normal
Dada un v.a. de distribución gaussiana N (μ,2) nos interesa calcular I.C. para sus dos parámetros μ y 2. Situaciones que consideraremos: Intervalo para la media si se conoce la varianza. Intervalo para la media (caso general). Intervalo de confianza para la varianza. Estimación del tamaño muestral. Intervalo de dos poblaciones para la diferencia de medias de dos poblaciones. Intervalo para la diferencia de medias homocedásticas.

16 Intervalo para la media si se conoce la varianza
Difícilmente vamos a poder conocer con exactitud 2 mientras que μ es desconocido. Sin embargo, nos aproxima del modo más simple a la estimación de medias. Se estima μ mediante el estadístico El I.C. al nivel de significación 1- para μ de una Normal de varianza conocida es:

17 EJEMPLO: Intervalo para la media si se conoce la varianza
EJEMPLO: Se sabe que el peso de los recién nacidos sigue una distr. normal con una desviación típica  = 0.75 kg. Si en una m.a.s de 100 de ellos se obtiene una media muestral de 3 kg, y una  de 0.5 kg, calcular un I.C. para la media poblacional que presente una confianza del 95%. Para calcular μ usamos , no depende de la dispersión de la muestra, ya que nosotros disponemos de la dispersión exacta de la población. Esto no es lo habitual en una situación práctica, y como veremos más adelante, el papel de la dispersión exacta de la población (desconocido) será sustituido por el de la dispersión de la muestra. Utilizando obtenemos que con una confianza del 95%, μ = kg.

18 Intervalo para la media (caso general)
El I.C. al nivel de significación 1- para μ de una Normal cuando sus parámetros son desconocidos es: EJEMPLO: Se sabe que el peso de los recién nacidos sigue una distr. Normal. Si en una m.a.s de 100 de ellos se obtiene una media muestral de 3 kg, y una desviación típica de 0.5 kg, calcular un I.C. para la media poblacional que presente una confianza del 95%. Solución: Para calcular μ usamos el estadístico: que a diferencia del ej. anterior, no depende de  (desconocido) sino de su estimación puntual insesgada:

19 EJEMPLO: Intervalo para la media (caso general)
Un I.C. al 95% se calcula teniendo en cuenta que T sigue una distribución tn-1 , y dicha distribución presenta un 95 % de probabilidad de ocurrir entre sus cuantiles Tn-1;0.025= y Tn-1;0.975= 1.98. Luego con una confianza del 95% ocurre: Es decir, con una confianza del 95% tenemos que μ = kg.

20 Intervalo de confianza para la varianza
Un I.C. al nivel 1- para la varianza de una distribución Normal cuando sus parámetros son desconocidos lo obtenemos como: EJEMPLO: Se estudia la altura de los individuos de una ciudad, obteniéndose en una muestra de tamaño n=25 los siguientes valores: = 170 cm, S=10 cm Calcular un I.C. con  =0.05 para la varianza  2 de la altura de los individuos de la ciudad . Solución:  2 є [ ; ] Por tanto, para el valor poblacional de la desv. típica tenemos que 7.96 <  < con una confianza del 95%.

21 Estimación del tamaño muestral
Antes de realizar un estudio sobre una variable, lo primero es decidir el nº de elementos n, a elegir en la muestra aleatoria. Consideremos que el estudio se basa en una variable de distribución normal, y nos interesa obtener para un nivel de significación  una precisión (error) d. Si n es suficientemente grande , la manera de obtener la precisión buscada consiste en elegir n con el siguiente criterio:

22 EJEMPLO: Estimación del tamaño muestral
Se ha estudiado la altura de los individuos de una ciudad, considerando que ésta es una variable que se distribuye de modo gaussiana. Para ello se tomó una muestra de 25 individuos (que podemos considerar piloto), que ofreció los siguientes resultados: = 170 cm, S=10 cm Calcular el tamaño que debería tener una muestra para que se obtuviese un I.C. para la media poblacional con un nivel  =0.01 (al 99%) y con una precisión d = 1 cm. Solución: Con un nivel de confianza del 95% tenemos que la media poblacional está en el intervalo μ є [ ; ]. Luego, sobre la muestra piloto el error cometido es aproximadamente de 4.2 cm., por lo que si buscamos un I.C tan preciso , el tamaño de la muestra n , deberá ser bastante mayor. I.C. para la media (caso general) Pág. 185

23 EJEMPLO: Estimación del tamaño muestral
Por tanto, si queremos realizar un estudio con toda la precisión requerida en el enunciado se debería tomar una muestra de 694 individuos. Esto es un indicación de gran utilidad antes de comenzar el estudio. Una vez que el muestreo haya sido realizado, debemos confirmar que el error para el nivel de significación dado es inferior o igual a 1 cm., utilizando la muestra obtenida. I.C. para la media (caso general) Pág. 185

24 Intervalos para la diferencia de medias de dos poblaciones
Tenemos dos poblaciones de modo que el carácter que estudiamos en ambas (X1 y X2) son v.a. distribuidas según leyes gaussianas N(μ1,1) y N(μ2,2) respectivamente. En cada una de estas poblaciones es extraen muestras que no tienen por que ser necesariamente del mismo tamaño (respectivamente n1 y n2). Suponemos que las dos poblaciones tienen varianzas idénticas (homocedasticidad)  2 =  12 =  22 . El I.C. al nivel 1- para la diferencia de esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es: DAR FOTOCOPIAS EJEMPLOS PAG 192 (MADRES FUMADORAS) , 193 Y 194

25 TABLA RESUMEN TAMAÑO MUESTRAL
POBLACIÓN INFINITA POBLACIÓN DE N SUJETOS Estimar


Descargar ppt "Inferencia Estadística"

Presentaciones similares


Anuncios Google