"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample.

Slides:



Advertisements
Presentaciones similares
LEAN SIGMA – FASE DE ANÁLISIS Propósito y herramientas 1.
Advertisements

ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
RESUMEN DE LA DISTRIBUCION MUESTRAL PARA LA MEDIA MUESTRAL X INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL  TIPO DE PROBLEMA ESPERANZA Y VARIANZA.
PRUEBA CHI-CUADRADO UNIDAD 2: ESTADÍSTICA.
PRINCIPIOS DE ESTADÍSTICAS INFERENCIALES PRUEBA DE HIPÓTESIS: MUESTRAS PEQUEÑAS.
ESTADÍSTICA II Ing. Danmelys Perozo MSc. Blog:
PPTCEG049EM32-A16V1 Distribución normal EM-32. Recordemos… -¿Cómo se calcula el valor esperado para una determinada variable aleatoria? -¿Cómo es posible.
PPTCES047MT22-A16V1 Clase Medidas de dispersión y muestreo MT-22.
Bioestadística Distribuciones muestrales para variables cuantitativas.
PRUEBA DE HIPÓTESIS. 1. Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la toma de decisión acerca.
REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.
1 Pronósticos, Series de Tiempo y Regresión Capítulo 3: Regresión Lineal Simple.
Distribuciones de probabilidad (variables discretas
XVII CONIC 2009 Congreso Nacional de Ingeniería Civil Capítulo de Ingeniería Civil Consejo Departamental De Lambayeque Colegio de Ingenieros del Perú.
Capitulo 3 Análisis descriptivo inferencial: comparaciones de muestras
ESCUELA PROFESIONAL CIENCIA POLITICA Y GOBIERNO
Tema 3. El estadístico Chi-cuadrado y contrastes asociados RONALD AYLMER FISHER.
ESTADÍSTICAS INFERENCIALES
Muestreo PRUEBAS Y VALIDACION DE HIPOTESIS Carlos Willian Rincón Pérez
PSICOESTADÍSTICAS INFERENCIALES
Correlación y regresión
PRUEBA DE HIPÓTESIS: MUESTRAS PEQUEÑAS
7.1 Procedimientos paramétricos para datos cuantitativos
“Bootstrap” Jaime Mojica Cuevas
Distribuciones de probabilidad normal
Análisis de varianza Paramétricos vs. No Paramétricos
Clase 9: Contraste de Hipótesis
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
INFERENCIA ESTADÍSTICA PARA DOS POBLACIONES
ANALISIS UNILATERAL DE LA VARIANZA POR JERARQUIAS DE KRUSKAL- WALLIS
Clase 8: Contraste de Hipótesis
Tamaño de la muestra.
CHI CUADRADO  2 OBJETIVOS –Describir situaciones donde es adecuado la utilización de la prueba de Chi Cuadrado (  2 ) –Formular Hipótesis para diferentes.
¿Cuándo usar esta distribución?
ANALISIS DE LA VARIANZA PROF. GERARDO A. VALDERRAMA M.
Anova de una via Diseños completamente aleatorios
Comparación de medias-no paramétrico
Pruebas de normalidad y asunciones de los modelos lineares
PLAN DE MUESTREO.
DISEÑO DE EXPERIMENTOS
UNIDAD CURRICULAR: ESTADÍSTICA II
Pruebas de normalidad y asunciones de los modelos lineares
Tema: Distribución t-Student para una muestra Curso: Seminario de Estadística Aplicada a la Investigación Educacional UNIVERSIDAD NACIONAL DE EDUCACIÓN.
ESTADÍSTICA INFERENCIAL. La estadística Inferencial, es el proceso por el cual se deducen (infieren) propiedades o características de una población a.
Anova de una via Diseños completamente aleatorios
“Formulación de Hipótesis Estadística”
En el Control de Calidad diario. Reglas de Control Cantidad de Controles Corridas Analíticas Ped; Pfr Cantidad de Controles Tratamiento de Controles.
Tamaño de muestra Ecología Marina. Una población se define como un conjunto de individuos de una especie que habita un área determinada. Los métodos disponibles.
Capítulo 10 Test de Hipótesis Capítulo 10 Test de Hipótesis.
REPASO BIOESTADÍSTICA I Dra. Margot Vidal Anzardo Unidad de Epidemiología Clínica Universidad Peruana Cayetano Heredia.
ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza
Ensayo de Rendimiento DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES.
ANALISIS DE VARIANZA
INTRODUCCION A LA ESTADÍSTICA INFERENCIAL
CAUDALES. ESTADÍSTICA HIDROLÓGICA ESTADÍSTICA E N LA HIDROLOGÍA ESTADÍSTICA HIDROLÓGICA Los procesos hidrológicos varían en el espacio y en el tiempo.
Identificación de los efectos de los diseños experimentales.
UNIVERSIDAD DE LOS ANDES CENTRO DE INVESTIGACIONES PSICOLÓGICAS
"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample.
Diseño en bloques aleatorios (completos)
"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample.
Alumna : Karen Cabana Gil
ANÁLISIS DE VARIANZA(ANOVA) AULA:33 INTEGRANTES: JUAN CHAUCA ALEXIS JARAMILLO JEFFERSON LLANGARI KATHY ULLOA UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE.
Contrastes y comparaciones múltiples
Depto. Matemáticas – IES Elaios Tema: Distribuciones de Probabilidad 2. DISTRIBUCIÓN BINOMIAL Y DISTRIBUCIÓN NORMAL Presentación elaborada por el profesor.
TEORIA de ERRORES. Generalidades:  Una “discrepancia" es la diferencia entre dos valores medidos de la misma cantidad.-  La “precisión” se refiere al.
TRATAMIENTO Y EVALUACION DE RESULTADOS ANALITICOS 1.Conceptos generales sobre la medida. Tipos de errores, concepto, componentes, corrección. Distribución.
1 Afectados de cierto grado de INCERTIDUMBRE SIEMPRE HAY UN ERROR EN SU MEDIDA ESTABLECER LA FIABILIDAD DE LOS DATOS ¿Podemos evaluar la magnitud del error.
ESTADÍSTICA APLICADA  ZEUS DE JESÚS RODRÍGUEZ BUDA  GABRIELA MÁRQUEZ TORRES  MARÍA ENRIQUETA GIL CÓRDOVA  ELIÁN ANTONIO GONZALEZ GARCÍA  CRISTELL.
Prueba de Hipótesis Concepto Asignar Probabilidades de ocurrencia a un evento basado en la suposición (hipótesis) de un evento o distribución.
Transcripción de la presentación:

"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample itself"

Nivel de significancia, probabilidad de error tipo I

Error en pruebas de hipótesis y estadistica Diseño experimental 2137 Juan C. Benavides

Errores estadisticos Las pruebas de las hipótesis en estadística tienen reglas definidas Definir la hipótesis Especificar el tipo de distribución de la variable Realizar el experimento Calcular el valor de probabilidad p de la variable observada- medida Rechazar o “aceptar” la hipótesis nula Silogismos, Si A entonces B, si no A entonces no B

Errores estadisticos Silogismos Con probabilidad Si A entonces B Si no A Entonces no B Con probabilidad Si A entonces probablemente B Silogismos, Si A entonces B, si no A entonces no B

Error y poder Error tipo I (también es alfa “α”) Rechazar la hipótesis nula cuando el efecto no es real Error Tipo II (también es alfa “β”) No rechazar (aceptar) la hipótesis nula cuando el efecto es real Poder La probabilidad de detectar un efecto real

Tu decisión estadística Verdadero resultado de la hipótesis nula Ho Verdadera (deforestación es positiva) Ho falsa (deforestación no es positiva) Rechazo Ho (para mi la deforestación es negativa) Error tipo I (α) Tremendo error Correcto No rechazo Ho (para mi la deforestación es positiva) Correcto y super bien Error tipo II (β) Error

Pseudoreplicación

Error y poder Efecto del tamaño de la muestra y su variación Señal vs ruido (error experimental, replicación) Principios Diferencia entre significancia estadística y experimental Asociación no implica causa-efecto (generalmente) Comparaciones múltiples y sobreuso de datos-replicación

Significancia estadística y experimental 34.079 mujeres Mujeres con mas de 21 horas de ejercicio al mes ganaron menos peso que mujeres con menor ejercicio “Para permanecer delgado una hora de ejercicio al dia”

“Figura 2 Trayectoria de la ganancia de peso en el tiempo por los niveles de actividad física basales. Cuando se clasificaron por esta sola medida de la actividad física, los 3 grupos mostraron patrones similares de aumento de peso con el tiempo "

Asociación no implica causalidad Dos variables pueden estar relacionadas solo por chance o porque son afectadas por el mismo factor http://sphweb.bumc.bu.edu/otlt/MPH-Modules/QuantCore/PH717_Correlation-LinearRegression/Ecological-Meat.png

Comparaciones múltiples y sobreuso de datos-replicación 1073 pacientes Divididos en dos grupos sin tratamiento especifico Subdivididos cada uno en 18 grupos con condiciones especificas Un subgrupo de 397 pacientes con una condición ventricular mostro mayor supervivencia en Grupo 1 que en Grupo 2 What??? http://sphweb.bumc.bu.edu/otlt/MPH-Modules/QuantCore/PH717_Correlation-LinearRegression/Ecological-Meat.png

Comparaciones múltiples y sobreuso de datos-replicación Para un p de 0.05 hay un 5% de probabilidad de tener un falso positivo Error tipo I Si se compara el tratamiento y control de cada una de las condiciones son 18 comparaciones Si las comparaciones son independientes la probabilidad de que una sea una falso positivo es: 60%

Comparaciones múltiples y sobreuso de datos-replicación

Distribuciones estadísticas Función matemática que describe las probabilidades de ocurrencia de un evento particular en un experimento Discretas Cubre números enteros-Conteos Continuas Cubre números reales Distribución normal

Distribución normal Distribución estadística mas común Tiene media µ y varianza σ2 Se describe mediante una función de densidad La función de densidad es la probabilidad de todos los valores de X http://inductivebias.com/Blog/wp-content/uploads/2013/09/normalpdf.jpg

Probabilidad de un intervalo https://onlinecourses.science.psu.edu/stat414/sites/onlinecourses.science.psu.edu.stat414/files/lesson14/HamburgerDensity4.gif

La función de densidad en una distribución normal Ejemplo dnorm(0) #[1] 0.3989423 dnorm(0)*sqrt(2*pi) #[1] 1 dnorm(0,mean=4) #[1] 0.0001338302 dnorm(0,mean=4,sd=10) #[1] 0.03682701 v <- c(0,1,2) dnorm(v) #[1] 0.39894228 0.24197072 0.05399097 x <- seq(-20,20,by=.1) y <- dnorm(x) plot(x,y) y <- dnorm(x,mean=2.5,sd=2) dnorm()

La función cumulativa de densidad en una distribución normal Ejemplo pnorm(0) #[1] 0.5 pnorm(1) #[1] 0.8413447 pnorm(0,mean=2) #[1] 0.02275013 pnorm(0,mean=2,sd=3) #[1] 0.2524925 v <- c(0,1,2) pnorm(v) #[1] 0.5000000 0.8413447 0.9772499 x <- seq(-20,20,by=.1) y <- pnorm(x) plot(x,y) y <- pnorm(x,mean=3,sd=4) pnorm()

Probabilidad de que un numero sea menor a determinado valor Ejemplo pnorm() > pnorm(0,lower.tail=FALSE) #[1] 0.5 > pnorm(1,lower.tail=FALSE) #[1] 0.1586553 > pnorm(0,mean=2,lower.tail=FALSE) #[1] 0.9772499

Analisis de poder Nos permite calcular el tamaño minimo de una muestra para detectar diferencias Y si estamos limitados en el número de muestras permite calcular la probabilidad de detectar el efecto (poder)

Analisis de poder Relación entre 4 cantidades Tamaño de la muestra Tamaño del efecto (tratamiento) Nivel de significancia (Error tipo 1) Poder (1-error tipo II) Conociendo las otras 3 se puede terminar la 4ª

Analisis de poder

Análisis de poder en R function power calculations for pwr.2p.test two proportions (equal n) pwr.2p2n.test two proportions (unequal n) pwr.anova.test balanced one way ANOVA pwr.chisq.test chi-square test pwr.f2.test general linear model pwr.p.test proportion (one sample) pwr.r.test correlation pwr.t.test t-tests (one sample, 2 sample, paired) pwr.t2n.test t-test (two samples with unequal n)

Tamaño minimo de una muestra sampleSizeZtest = function(alpha = 0.05, sigma, power, delta){ zcra=qnorm(p = 1-alpha, mean = 0, sd=1) zcrb=qnorm(p = power, mean = 0, sd = 1) n = round((((zcra+zcrb)*sigma)/delta)^2) return(n) } sigma = 15 h0 = 100 ha = 105 sampleSizeZtest(sigma = sigma, power = 0.8, delta = (ha-h0))

Muestreo-sample() a<-sample(mtcars$mpg,replace=TRUE) sample(x, size, replace, prob) sample() en R permite extraer una muestra de n elementos de un vector en R Tiene tres componentes x: un vector que tenga longitud mayor a o (length(x)>0) size: determina el tamaño de la muestra a tomar de x replace: indica si el muestreo se hace reempazando o no Prob: es un vector que indica si las probabilidades son diferentes entre las mtas a<-sample(mtcars$mpg,replace=TRUE) b<-sample(mtcars$mpg,replace=FALSE) mean(a) ; mean(b) par(mfrow=c(2,1)) hist(a);hist(b)

Muestreo-sample() Para extraer siempre la misma muestra se debe definir una semilla para el calculo de los numeros aleatorios set.seed() .Random.seed RNGkind set.seed(7) c<-sample(mtcars$mpg,replace=TRUE) d<-sample(mtcars$mpg,replace=TRUE) mean(c) ; mean(d) par(mfrow=c(2,2)) hist(a);hist(b); hist(c);hist(d)

Bootstrap-remuestreo Herramienta útil cuando se desconoce la distribución del estadístico a describir Bootstrap es una estrategia de remuestreo no paramétrica que permite calcular intervalos de confianza, errores estándar y en ocasiones pruebas de hipótesis Se usa principalmente con muestras pequeñas donde los requerimientos de funciones mas sofisticadas son difíciles de cumplir "The bootstrap is a computer-based method for assigning measures of accuracy to sample estimates."

Bootstrap-pasos Remuestreo de un set de datos con reemplazo un número de veces determinado (cada remuestreo es de la misma longitud) Calculo del estadístico de interés en cada una de las “re-muestras” Estimar la distribución del estadístico para obtener la distribución de su error "The bootstrap is a computer-based method for assigning measures of accuracy to sample estimates."

Bootstrap en R paso a paso Se realiza combinando las instrucciones for{} y sample() hist(airquality$Ozone,col="blue",xlab="Ozone Concentrations", main="Ozone Concentrations in NY (Summer 1973)")

Bootstrap en R paso a paso Como se calcula la mediana? Se puede calcular la distribución de la mediana El intervalo de confianza del 95% de la mediana se puede calcular usando bootstrap median(airquality$Ozone) #[1] NA # There are missing daily ozone concentration values median(airquality$Ozone,na.rm=TRUE) #[1] 31.5

Bootstrap en R paso a paso Primero sacamos un vector de las concentraciones de ozono excluyendo los valores NA Usando un for creamos 10.000 muestras y calculamos la mediana para cada una ozone=airquality$Ozone[!is.na(airquality$Ozone)] nboot <-10000 #number of bootstrap samples bootstrap.medians <-rep(NA, nboot) set.seed(10) for(i in 1:nboot){ bootstrap.medians[i]<-median(sample(ozone,replace=TRUE)) }

Bootstrap en R paso a paso De las 10.000 medianas obtebidas calculamos los cuantiles del 0.025 y 0.075 Alpha <- 0.05 sort(bootstrap.medians)[nboot*alpha/2] sort(bootstrap.medians)[nboot*(1-alpha/2)] #[1] 23.5 #[1] 39

Bootstrap en R paso a paso La dsitribución de las medianas no es igual a la distribución de la variable hist(bootstrap.medians,col="blue",xlab="Bootstrap Medians",+ main="Bootstrap Medians for Ozone Concentrations in NY",cex.main=.8)

Bootstrap usando una curva ajustada data(cars) plot(dist~speed,data=cars) with(cars, lines(lowess(speed, dist), col="tomato", lwd=2))

Bootstrap usando una curva ajustada La curva a partir de los remuestreos se construye sobre cada una de las muestras extraidas usando lowess() m=dim(cars)[1] # obtain the sample size nboot=20 for(i in 1:nboot){ mysample <- sample(1:m,replace=T) with(cars, lines(lowess(speed[mysample], dist[mysample]), col=(i+1), lwd=2) )}

Bootstrap usando una curva ajustada m=dim(cars)[1] # obtain the sample size nboot=20 for(i in 1:nboot){ mysample <- sample(1:m,replace=T) with(cars, lines(lowess(speed[mysample], dist[mysample]), col=(i+1), lwd=2) )}

Bootstrap usando una curva ajustada La funcion lowess() solo funciona sobre los remuestreos La funcion approx() realiza una interpolación linear entre puntos entre el min() y el max() de x nboot <- 1000 boot.speed <- matrix(NA, 1000,m) set.seed(1314) for(i in 1:nboot){ mysample <- sample(1:m,replace=T) low1 <- with(cars, lowess(speed[mysample], dist[mysample])) low.all <- approx(low1$x, low1$y, xout=cars$speed, rule=2) boot.speed[i,] <- low.all$y }

Bootstrap usando una curva ajustada Buscamos los limites superiores e inferiores de la distribución de la función (prueba de hipotesis) upper <- rep(NA, m) lower <- rep(NA, m) for(j in 1:m){ upper[j] <- quantile(boot.speed[,j], 0.975) lower[j] <- quantile(boot.speed[,j], 0.025) }

Bootstrap usando una curva ajustada Graficando plot(dist~speed,data=cars) for(i in 1:nboot){ lines(x=cars$speed, y=boot.speed[i,], col="#0000FF05") } with(cars, lines(lowess(speed, dist), col="tomato", lwd=2)) polygon(x=c(cars$speed, rev(cars$speed)), y=c(upper, rev(lower)), density=0, col="red", lty=2)

Bootstrap usando una curva ajustada plot(dist~speed,data=cars) for(i in 1:nboot){ lines(x=cars$speed, y=boot.speed[i,], col="#0000FF05") } with(cars, lines(lowess(speed, dist), col="tomato", lwd=2)) polygon(x=c(cars$speed, rev(cars$speed)), y=c(upper, rev(lower)), density=0, col="red", lty=2)

https://www. google. com. co/maps/place/Negeri+Sembilan,+Malaysia/@2 https://www.google.com.co/maps/place/Negeri+Sembilan,+Malaysia/@2.8396872,101.6420397,9z/data=!3m1!4b1!4m5!3m4!1s0x31cde76f651dda2b:0x2b4e482fbc170249!8m2!3d2.7258058!4d101.9423782 https://www.google.com.co/maps/place/2%C2%B058'55.2%22N+102%C2%B018'46.8%22E/@2.9820054,102.3108113,1085m/data=!3m2!1e3!4b1!4m5!3m4!1s0x0:0x0!8m2!3d2.982!4d102.313

http://cdn2.arkive.org/media/B9/B9BAFA06-7026-4304-A672-2F8C35E07304/Presentation.Large/Vaquita-calf-at-the-surface.jpg https://abcbirds.org/wp-content/uploads/2015/12/Spotted-Owl.jpg

Aumento del CV a menor tamaño poblacional, imprecisión de la medida

Probabilidad de detectar el efecto para diferentes tamaños poblacionales

Comparación de diferentes métodos y su poder… Natalidad mortalidad y tablas de vida Estimación tamaño poblacional recapturas Comparación de diferentes métodos y su poder… como se relaciona esto a la varianza