Inferencia Estadística

Slides:



Advertisements
Presentaciones similares
Danny Rafael Amaya Cotes Marcos Elías López Guerra.
Advertisements

DISTRIBUCIONES DE PROBABILIDAD Por Jorge Sánchez.
Presentado por Karina Yuliet Preciado Mosquera Estadística II.
T – Student teoria de las muestras pequeñas Paola Andrea Palacio Montero Estadística.
DISTRIBUCIONES ESTADÍSTICAS Realizado por: Claudia Morales y Denise Muñoz.
TEMA 3. ESTADÍSTICA BIDIMENSIONAL. INDICE 1.- Relación estadística: correlación 2.- Diagramas de dispersión o nube de puntos 3.- Tablas de frecuencia.
Estadística inferencial. ¿Qué es? La Estadística inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para toda la población.
TEMA 2: PARÁMETROS ESTADÍSTICOS. INDICE 1. Parámetros estadísticos: 1.1 Definición 1.2 Medidas de Centralización: Medias, moda y Mediana 1.3 Medidas de.
@ Angel Prieto BenitoMatemáticas 2º Bachillerato CS1 INFERENCIA ESTADÍSTICA U.D. 14 * 2º BCS.
Bioestadística Distribuciones muestrales para variables cuantitativas.
Estimación e intervalos de confianza. Estimaciones puntuales e intervalos de confianza Estimación puntual: Estadístico calculado a partir de la información.
República Bolivariana de Venezuela Instituto Universitario Politécnico “Santiago Mariño" Estadísticas I - OV Estadística Profesor : Bachiller: Pedro Beltrán.
ESTADÍSTICA Mercedes de la Oliva ESTADÍSTICA INFERENCIAL Teorema Central del límite Distribución de media y proporción muestral.
INFERENCIA ESTADÍSTICA
MUESTREO ALEATORIO ESTRATIFICADO
INFERENCIA ESTADÍSTICA
ESTADISTICA APLICADA I UNIDAD: INFERENCIA ESTADISTICA
PRUEBAS DE BONDAD DE AJUSTE estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.
Intervalos de Confianza
DISTRIBUCIONES EN EL MUESTREO
“Bootstrap” Jaime Mojica Cuevas
Inferencia estadística.
Bioestadística Inferencia estadística y tamaños de muestra para una y dos o más medias.
INFERENCIA ESTADÍSTICA PARA DOS POBLACIONES
ESTADISTICA II UNIDAD I 3RA PARTE.
Clase 8: Contraste de Hipótesis
CONCEPTOS BASICOS ESTADISTICA.-Conjunto de métodos que nos permiten tomar decisiones en momentos de incertidumbre (duda). Tiene como objetivo que la información.
ESTADÍSTICA INFERENCIAL
MUESTREO ALEATORIO CON REPOSICIÓN
ESTIMACION DEL TAMAÑO DE LA MUESTRA.
TEMA 6 : DISTRIBUCIONES ESTADÍSTICAS.
ESTADÍSTICA UNIDIMENSIONAL
GRÁFICOS DE CAJAS VALORES ATIPICOS MEDIDAS DE DISPERSIÓN
Distribuciones muestrales e Intervalos de Confianza
Estimación de parámetros: Estimación puntual y por intervalos
REGRESIÓN LINEAL SIMPLE
Distribución normal o de Gauss
INTERVALO DE CONFIANZA
DISTRIBUCIÓN MUESTRAL DE UNA MEDIA.
Matemáticas 2º Bachillerato CS
CONTENIDO Teoría del muestreo ¿Cómo seleccionar una muestra?
Intervalos de confianza Muestras pequeñas
Aplicaciones Estadísticas a las Finanzas
ESTADÍSTICA BÁSICA.
La mayoría de las variables aleatorias que se presentan en los estudios relacionados con las ciencias sociales, físicas y biológicas, por ejemplo, el peso.
La mayoría de las variables aleatorias que se presentan en los estudios relacionados con las ciencias sociales, físicas y biológicas, por ejemplo, el peso.
ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza
Distribuciones de Probabilidad DISTRIBUCIÓN BINOMIAL
DISEÑO Y ANALISIS DE EXPERIMENTOS
TEMA 1.- INTRODUCCIÓN A LA INFERENCIA
TEMA 1.- INTRODUCCIÓN A LA INFERENCIA
DISEÑO Y ANALISIS DE EXPERIMENTOS
MEDIDAS DE DISPERSIÓN.
Distribuciones de muestreo con más detalle
Estadística Administrativa II
Dr. Carlomagno Araya Alpízar
TEMA 3: MUESTREO Y ESTIMACIÓN
ESTADISTICA MEDIDAS DE DISPERSIÓN Cristian Gómez Coordinar Técnico Calidad Laboratorio Labsai.
ESTADISTICA DESCRIPTIVA
“Medidas de dispersión”
MODELOS DE PRONOSTICOS
Estadística Descriptiva
ESTADISTICOS Y DISTRIBUCIONES MUESTRALES
Regresión Logística App4stats © Todos los derechos reservados.
MEDIDAS DE DISPERSIÓN “Medidas de dispersión”. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
BIOESTADISTICA I UNIDAD: INFERENCIA ESTADISTICA EJERCICIOS Y PROBLEMAS
1 Estimación por Intervalo. 2 Hasta ahora los estimadores estudiados son puntuales, es decir, exhiben un valor como estimación del parámetro de interés.
DISEÑO Y ANALISIS DE EXPERIMENTOS
ESTADÍSTICA APLICADA  ZEUS DE JESÚS RODRÍGUEZ BUDA  GABRIELA MÁRQUEZ TORRES  MARÍA ENRIQUETA GIL CÓRDOVA  ELIÁN ANTONIO GONZALEZ GARCÍA  CRISTELL.
REGRESION LINEAL SIMPLE
Transcripción de la presentación:

Inferencia Estadística

Inferencia Estadística Son los procedimientos, técnicas o métodos utilizados para obtener conocimiento de una población a partir de los datos de una muestra aleatoria. Se clasifican según su objetivo: Estimación: Queremos aproximar una cantidad desconocida. Estimar el tiempo medio para resolver un expediente. Contraste de hipótesis: Queremos comprobar si una hipótesis es sustentada por los datos observados. Contrastar si los tiempos medios de dos departamentos para resolver un expediente son iguales.

ESTIMACIÓN DE PARÁMETROS

Estimación: puntual y por intervalo Un estimador es una función de los valores observados de una muestra que se elabora para indagar el valor de un parámetro de la población de la que procede la muestra. Un intervalo de confianza es un rango de valores que permite conocer los posibles valores entre los que se encuentra el parámetro y la incertidumbre existente en la estimación. Se obtienen estas estimaciones a partir de los correspondientes estadísticos muestrales (a partir de la media muestral, proporción muestral, varianza muestral,...) La estimación puede ser de dos tipos: Estimación puntual: Obtendremos el valor del estadístico muestral como estimación del parámetro desconocido. 4,29 días es el tiempo medio de resolución de un expediente Estimación por intervalo: Obtendremos un intervalo que contiene al parámetro desconocido con unas garantías probabilísticas. I.C. tiempo medio de resolución de un expediente con un nivel de confianza del 95%: (3´24,5´34) días Propiedades deseables en los estimadores: Insesgado: Cuando el estimador muestral coincide con el poblacional, sin ninguna desviación sistemática. Consistencia: A medida que se incrementa el tamaño muestral, la diferencia entre el estimador y el parámetro será menos que cualquier número (e). Eficiencia: Se emplea para comparar estimadores. Si tenemos dos estimadores y de un mismo parámetro q, diremos que es más eficiente que si tenemos que var( )<var( ). Suficiencia: Diremos que es un estimador suficiente del parámetro si dicho estimador basta por sí solo para estimar . Si el estimador es suficiente utiliza toda la información contenida en la muestra. SESGADO: Cuando el estimador muestral NO coincide con el poblacional debido a un error sistemático. Un buen estimador es aquel que es insesgado, eficiente y suficiente (Rothman y Greenland, 1998)

INTERVALOS DE CONFIANZA

Error típico o estándar Para calcular intervalos de confianza se usa habitualmente el concepto de error estándar. Un error estándar (por ej., el error estándar de la media, que se calcula dividiendo la desviación estándar por la raíz cuadrada de n) es un indicador de la variabilidad de las medias calculadas en muchas posibles muestras que se tomen de una población, todas ellas de tamaño n. El error estándar de la media mide nuestro grado de incertidumbre respecto a la capacidad de la media muestral para estimar la media poblacional. Si la desv. estándar de la edad de una muestra de 100 pacientes es 20 años, el EE de la media valdría 20 / 100 = 2, y esperaríamos que las medias de muestras repetidas de tamaño 100 tuviesen una distribución normal cuya desv. estándar fuese 2.

Error típico o estándar El razonamiento anterior se aplica a otros estimadores muestrales distintos de la media: proporciones, varianza, diferencias de medias,... La expresión más general para hacer estimaciones calculando intervalos de confianza es sumar y restar al estimador muestral z veces el EE del estimador: parámetro  (estimador + z x EE del estimador) donde z es el valor correspondiente de la distribución normal. Si el I.C. es al 95% (1-), implica que hay un 5% de error () repartido en dos colas, una a cada lado. Cada cola valdría el 2.5% (/2 = 0.025); en este caso, z valdría 1.96. A veces , en vez de z, se usa la t de Student como veremos más adelante. Para distribuciones normales tenemos que alrededor del valor central y en un radio de 2 y 2.5 desv. típicas, tenemos aproximadamente una masa de probabilidad del 95% y 99% respectivamente, que son los valores usados habitualmente como niveles de confianza.

Introducción: Intervalos de Confianza Un problema habitual es el de estimar parámetros que ayuden a caracterizar una variable. Por ej.,el porcentaje de individuos que mejora ante un cierto tratamiento, o el tiempo medio que tarda un anestésico en hacer efecto... Podríamos decir, “el 75% de los pacientes tratados experimentó una mejoría”. Una respuesta más sofisticada usando Intervalos de Confianza sería: “Nuestro estudio muestra que en el 75% de los casos se experimenta una mejoría, siendo el margen de error del 6%. El nivel de confianza es del 95%”. Los I.C. nos permiten hacer declaraciones sobre qué valores podemos esperar para un parámetro. La estimación por intervalos de confianza permite conocer los posibles valores entre los que se encuentra el parámetro y la incertidumbre existente en la estimación.

Intervalos de Confianza El Intervalo calculado dependerá de: Lo estimado en la muestra (porcentaje, media,..) El I.C. está formado por valores ligeramente menores y mayores que la aproximación ofrecida por la muestra. El tamaño muestral. Cuantos más datos hayan participado en el cálculo, más pequeño esperamos que sea la diferencia entre el valor estimado y el valor real desconocido. La probabilidad (nivel de confianza) con la que el método dará una respuesta correcta. Niveles de confianza habituales para los intervalos de confianza son el 95% y el 99%. La elección de un nivel de confianza como el 95% nos permite hacer declaraciones con una razonable probabilidad de acertar, y además el intervalo declarado es lo suficientemente pequeño como para suscitar algún interés.

Intervalos de confianza PARA VARIABLES DICOTÓMICAS

Intervalo de Confianza para una proporción Cuando tenemos una variable dicotómica (o de Bernoulli) interesa saber en qué proporción de casos p, ocurre el éxito en la realización de un experimento. La distribución del nº de éxitos es binomial, y puede ser aproximada a la normal si el tamaño de la muestra n es grande, y p no es una cantidad muy cercana a 0 o 1. Ejemplo: Se preguntó a 80 pacientes si habían sufrido algún trastorno tras seguir un tratamiento, de los cuales 60 (p=60/80=75%) dijeron que no. La muestra es grande y no esperamos que el porcentaje real en el caso de haber sido extendido a muchos más pacientes sea muy diferente. Podemos decir, que el 75% de los individuos no mencionaron haber sufrido trastornos. La confianza es del 95% y el I.C. es (0.75 + 1.96x0.048) = (0.65,0.84)

Elección del tamaño muestral para una proporción Con una muestra de 100 individuos se realizó una estimación con un 95% de confianza, del porcentaje de votantes a una cuestión en un referéndum, con un margen de error de 9.3 puntos. Si pretendemos reducir el error a 1 punto y aumentar el nivel de confianza al 97% (α=0.03) hemos de tomar una muestra de mayor tamaño N. Si no tenemos una idea sobre qué valores puede tomar p, debemos considerar el peor caso posible, que es en el que se ha de estimar el tamaño muestral cuando p=q=1/2.

Intervalo para la diferencia de dos proporciones Consideramos que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. Dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población extraemos muestras de tamaños n1 y n2. Si las muestra son suficientemente grandes tenemos una aproximación para un I.C. al nivel 1-α para la diferencia de proporciones de dos poblaciones es:

Intervalos de confianza PARA LA DISTRIBUCIÓN NORMAL

I.C. para la distribución normal Dada un v.a. de distribución gaussiana N (μ,2) nos interesa calcular I.C. para sus dos parámetros μ y 2. Situaciones que consideraremos: Intervalo para la media si se conoce la varianza. Intervalo para la media (caso general). Intervalo de confianza para la varianza. Estimación del tamaño muestral. Intervalo de dos poblaciones para la diferencia de medias de dos poblaciones. Intervalo para la diferencia de medias homocedásticas.

Intervalo para la media si se conoce la varianza Difícilmente vamos a poder conocer con exactitud 2 mientras que μ es desconocido. Sin embargo, nos aproxima del modo más simple a la estimación de medias. Se estima μ mediante el estadístico El I.C. al nivel de significación 1- para μ de una Normal de varianza conocida es:

EJEMPLO: Intervalo para la media si se conoce la varianza EJEMPLO: Se sabe que el peso de los recién nacidos sigue una distr. normal con una desviación típica  = 0.75 kg. Si en una m.a.s de 100 de ellos se obtiene una media muestral de 3 kg, y una  de 0.5 kg, calcular un I.C. para la media poblacional que presente una confianza del 95%. Para calcular μ usamos , no depende de la dispersión de la muestra, ya que nosotros disponemos de la dispersión exacta de la población. Esto no es lo habitual en una situación práctica, y como veremos más adelante, el papel de la dispersión exacta de la población (desconocido) será sustituido por el de la dispersión de la muestra. Utilizando obtenemos que con una confianza del 95%, μ = 3 + 0.147 kg.

Intervalo para la media (caso general) El I.C. al nivel de significación 1- para μ de una Normal cuando sus parámetros son desconocidos es: EJEMPLO: Se sabe que el peso de los recién nacidos sigue una distr. Normal. Si en una m.a.s de 100 de ellos se obtiene una media muestral de 3 kg, y una desviación típica de 0.5 kg, calcular un I.C. para la media poblacional que presente una confianza del 95%. Solución: Para calcular μ usamos el estadístico: que a diferencia del ej. anterior, no depende de  (desconocido) sino de su estimación puntual insesgada:

EJEMPLO: Intervalo para la media (caso general) Un I.C. al 95% se calcula teniendo en cuenta que T sigue una distribución tn-1 , y dicha distribución presenta un 95 % de probabilidad de ocurrir entre sus cuantiles Tn-1;0.025= -1.98 y Tn-1;0.975= 1.98. Luego con una confianza del 95% ocurre: Es decir, con una confianza del 95% tenemos que μ = 3 + 0.1 kg.

Intervalo de confianza para la varianza Un I.C. al nivel 1- para la varianza de una distribución Normal cuando sus parámetros son desconocidos lo obtenemos como: EJEMPLO: Se estudia la altura de los individuos de una ciudad, obteniéndose en una muestra de tamaño n=25 los siguientes valores: = 170 cm, S=10 cm Calcular un I.C. con  =0.05 para la varianza  2 de la altura de los individuos de la ciudad . Solución:  2 є [ 63.45 ; 201.60 ] Por tanto, para el valor poblacional de la desv. típica tenemos que 7.96 <  < 14.199 con una confianza del 95%.

Estimación del tamaño muestral Antes de realizar un estudio sobre una variable, lo primero es decidir el nº de elementos n, a elegir en la muestra aleatoria. Consideremos que el estudio se basa en una variable de distribución normal, y nos interesa obtener para un nivel de significación  una precisión (error) d. Si n es suficientemente grande , la manera de obtener la precisión buscada consiste en elegir n con el siguiente criterio:

EJEMPLO: Estimación del tamaño muestral Se ha estudiado la altura de los individuos de una ciudad, considerando que ésta es una variable que se distribuye de modo gaussiana. Para ello se tomó una muestra de 25 individuos (que podemos considerar piloto), que ofreció los siguientes resultados: = 170 cm, S=10 cm Calcular el tamaño que debería tener una muestra para que se obtuviese un I.C. para la media poblacional con un nivel  =0.01 (al 99%) y con una precisión d = 1 cm. Solución: Con un nivel de confianza del 95% tenemos que la media poblacional está en el intervalo μ є [165.79 ; 174.204]. Luego, sobre la muestra piloto el error cometido es aproximadamente de 4.2 cm., por lo que si buscamos un I.C. tan preciso , el tamaño de la muestra n , deberá ser bastante mayor. I.C. para la media (caso general) Pág. 185

EJEMPLO: Estimación del tamaño muestral Por tanto, si queremos realizar un estudio con toda la precisión requerida en el enunciado se debería tomar una muestra de 694 individuos. Esto es un indicación de gran utilidad antes de comenzar el estudio. Una vez que el muestreo haya sido realizado, debemos confirmar que el error para el nivel de significación dado es inferior o igual a 1 cm., utilizando la muestra obtenida. I.C. para la media (caso general) Pág. 185

Intervalos para la diferencia de medias de dos poblaciones Tenemos dos poblaciones de modo que el carácter que estudiamos en ambas (X1 y X2) son v.a. distribuidas según leyes gaussianas N(μ1,1) y N(μ2,2) respectivamente. En cada una de estas poblaciones es extraen muestras que no tienen por que ser necesariamente del mismo tamaño (respectivamente n1 y n2). Suponemos que las dos poblaciones tienen varianzas idénticas (homocedasticidad)  2 =  12 =  22 . El I.C. al nivel 1- para la diferencia de esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es: DAR FOTOCOPIAS EJEMPLOS PAG 192 (MADRES FUMADORAS) , 193 Y 194

TABLA RESUMEN TAMAÑO MUESTRAL POBLACIÓN INFINITA POBLACIÓN DE N SUJETOS Estimar