La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample.

Presentaciones similares


Presentación del tema: ""it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample."— Transcripción de la presentación:

1 "it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample itself"

2 Nivel de significancia, probabilidad de error tipo I

3 Error en pruebas de hipótesis y estadistica
Diseño experimental 2137 Juan C. Benavides

4 Errores estadisticos Las pruebas de las hipótesis en estadística tienen reglas definidas Definir la hipótesis Especificar el tipo de distribución de la variable Realizar el experimento Calcular el valor de probabilidad p de la variable observada- medida Rechazar o “aceptar” la hipótesis nula Silogismos, Si A entonces B, si no A entonces no B

5 Errores estadisticos Silogismos Con probabilidad Si A entonces B
Si no A Entonces no B Con probabilidad Si A entonces probablemente B Silogismos, Si A entonces B, si no A entonces no B

6 Error y poder Error tipo I (también es alfa “α”)
Rechazar la hipótesis nula cuando el efecto no es real Error Tipo II (también es alfa “β”) No rechazar (aceptar) la hipótesis nula cuando el efecto es real Poder La probabilidad de detectar un efecto real

7 Tu decisión estadística Verdadero resultado de la hipótesis nula
Ho Verdadera (deforestación es positiva) Ho falsa (deforestación no es positiva) Rechazo Ho (para mi la deforestación es negativa) Error tipo I (α) Tremendo error Correcto No rechazo Ho (para mi la deforestación es positiva) Correcto y super bien Error tipo II (β) Error

8 Pseudoreplicación

9 Error y poder Efecto del tamaño de la muestra y su variación
Señal vs ruido (error experimental, replicación) Principios Diferencia entre significancia estadística y experimental Asociación no implica causa-efecto (generalmente) Comparaciones múltiples y sobreuso de datos-replicación

10 Significancia estadística y experimental
mujeres Mujeres con mas de 21 horas de ejercicio al mes ganaron menos peso que mujeres con menor ejercicio “Para permanecer delgado una hora de ejercicio al dia”

11 “Figura 2 Trayectoria de la ganancia de peso en el tiempo por los niveles de actividad física basales. Cuando se clasificaron por esta sola medida de la actividad física, los 3 grupos mostraron patrones similares de aumento de peso con el tiempo "

12 Asociación no implica causalidad
Dos variables pueden estar relacionadas solo por chance o porque son afectadas por el mismo factor

13 Comparaciones múltiples y sobreuso de datos-replicación
1073 pacientes Divididos en dos grupos sin tratamiento especifico Subdivididos cada uno en 18 grupos con condiciones especificas Un subgrupo de 397 pacientes con una condición ventricular mostro mayor supervivencia en Grupo 1 que en Grupo 2 What???

14 Comparaciones múltiples y sobreuso de datos-replicación
Para un p de 0.05 hay un 5% de probabilidad de tener un falso positivo Error tipo I Si se compara el tratamiento y control de cada una de las condiciones son 18 comparaciones Si las comparaciones son independientes la probabilidad de que una sea una falso positivo es: 60%

15 Comparaciones múltiples y sobreuso de datos-replicación

16 Distribuciones estadísticas
Función matemática que describe las probabilidades de ocurrencia de un evento particular en un experimento Discretas Cubre números enteros-Conteos Continuas Cubre números reales Distribución normal

17 Distribución normal Distribución estadística mas común
Tiene media µ y varianza σ2 Se describe mediante una función de densidad La función de densidad es la probabilidad de todos los valores de X

18 Probabilidad de un intervalo

19 La función de densidad en una distribución normal
Ejemplo dnorm(0) #[1] dnorm(0)*sqrt(2*pi) #[1] 1 dnorm(0,mean=4) #[1] dnorm(0,mean=4,sd=10) #[1] v <- c(0,1,2) dnorm(v) #[1] x <- seq(-20,20,by=.1) y <- dnorm(x) plot(x,y) y <- dnorm(x,mean=2.5,sd=2) dnorm()

20 La función cumulativa de densidad en una distribución normal
Ejemplo pnorm(0) #[1] 0.5 pnorm(1) #[1] pnorm(0,mean=2) #[1] pnorm(0,mean=2,sd=3) #[1] v <- c(0,1,2) pnorm(v) #[1] x <- seq(-20,20,by=.1) y <- pnorm(x) plot(x,y) y <- pnorm(x,mean=3,sd=4) pnorm()

21 Probabilidad de que un numero sea menor a determinado valor
Ejemplo pnorm() > pnorm(0,lower.tail=FALSE) #[1] 0.5 > pnorm(1,lower.tail=FALSE) #[1] > pnorm(0,mean=2,lower.tail=FALSE) #[1]

22 Analisis de poder Nos permite calcular el tamaño minimo de una muestra para detectar diferencias Y si estamos limitados en el número de muestras permite calcular la probabilidad de detectar el efecto (poder)

23 Analisis de poder Relación entre 4 cantidades
Tamaño de la muestra Tamaño del efecto (tratamiento) Nivel de significancia (Error tipo 1) Poder (1-error tipo II) Conociendo las otras 3 se puede terminar la 4ª

24 Analisis de poder

25 Análisis de poder en R function power calculations for pwr.2p.test
two proportions (equal n) pwr.2p2n.test two proportions (unequal n) pwr.anova.test balanced one way ANOVA pwr.chisq.test chi-square test pwr.f2.test general linear model pwr.p.test proportion (one sample) pwr.r.test correlation pwr.t.test t-tests (one sample, 2 sample, paired) pwr.t2n.test t-test (two samples with unequal n)

26 Tamaño minimo de una muestra
sampleSizeZtest = function(alpha = 0.05, sigma, power, delta){ zcra=qnorm(p = 1-alpha, mean = 0, sd=1) zcrb=qnorm(p = power, mean = 0, sd = 1) n = round((((zcra+zcrb)*sigma)/delta)^2) return(n) } sigma = 15 h0 = 100 ha = 105 sampleSizeZtest(sigma = sigma, power = 0.8, delta = (ha-h0))

27 Muestreo-sample() a<-sample(mtcars$mpg,replace=TRUE)
sample(x, size, replace, prob) sample() en R permite extraer una muestra de n elementos de un vector en R Tiene tres componentes x: un vector que tenga longitud mayor a o (length(x)>0) size: determina el tamaño de la muestra a tomar de x replace: indica si el muestreo se hace reempazando o no Prob: es un vector que indica si las probabilidades son diferentes entre las mtas a<-sample(mtcars$mpg,replace=TRUE) b<-sample(mtcars$mpg,replace=FALSE) mean(a) ; mean(b) par(mfrow=c(2,1)) hist(a);hist(b)

28 Muestreo-sample() Para extraer siempre la misma muestra se debe definir una semilla para el calculo de los numeros aleatorios set.seed() .Random.seed RNGkind set.seed(7) c<-sample(mtcars$mpg,replace=TRUE) d<-sample(mtcars$mpg,replace=TRUE) mean(c) ; mean(d) par(mfrow=c(2,2)) hist(a);hist(b); hist(c);hist(d)

29 Bootstrap-remuestreo
Herramienta útil cuando se desconoce la distribución del estadístico a describir Bootstrap es una estrategia de remuestreo no paramétrica que permite calcular intervalos de confianza, errores estándar y en ocasiones pruebas de hipótesis Se usa principalmente con muestras pequeñas donde los requerimientos de funciones mas sofisticadas son difíciles de cumplir "The bootstrap is a computer-based method for assigning measures of accuracy to sample estimates."

30 Bootstrap-pasos Remuestreo de un set de datos con reemplazo un número de veces determinado (cada remuestreo es de la misma longitud) Calculo del estadístico de interés en cada una de las “re-muestras” Estimar la distribución del estadístico para obtener la distribución de su error "The bootstrap is a computer-based method for assigning measures of accuracy to sample estimates."

31 Bootstrap en R paso a paso
Se realiza combinando las instrucciones for{} y sample() hist(airquality$Ozone,col="blue",xlab="Ozone Concentrations", main="Ozone Concentrations in NY (Summer 1973)")

32 Bootstrap en R paso a paso
Como se calcula la mediana? Se puede calcular la distribución de la mediana El intervalo de confianza del 95% de la mediana se puede calcular usando bootstrap median(airquality$Ozone) #[1] NA # There are missing daily ozone concentration values median(airquality$Ozone,na.rm=TRUE) #[1] 31.5

33 Bootstrap en R paso a paso
Primero sacamos un vector de las concentraciones de ozono excluyendo los valores NA Usando un for creamos muestras y calculamos la mediana para cada una ozone=airquality$Ozone[!is.na(airquality$Ozone)] nboot < #number of bootstrap samples bootstrap.medians <-rep(NA, nboot) set.seed(10) for(i in 1:nboot){ bootstrap.medians[i]<-median(sample(ozone,replace=TRUE)) }

34 Bootstrap en R paso a paso
De las medianas obtebidas calculamos los cuantiles del y 0.075 Alpha <- 0.05 sort(bootstrap.medians)[nboot*alpha/2] sort(bootstrap.medians)[nboot*(1-alpha/2)] #[1] 23.5 #[1] 39

35 Bootstrap en R paso a paso
La dsitribución de las medianas no es igual a la distribución de la variable hist(bootstrap.medians,col="blue",xlab="Bootstrap Medians",+ main="Bootstrap Medians for Ozone Concentrations in NY",cex.main=.8)

36 Bootstrap usando una curva ajustada
data(cars) plot(dist~speed,data=cars) with(cars, lines(lowess(speed, dist), col="tomato", lwd=2))

37 Bootstrap usando una curva ajustada
La curva a partir de los remuestreos se construye sobre cada una de las muestras extraidas usando lowess() m=dim(cars)[1] # obtain the sample size nboot=20 for(i in 1:nboot){ mysample <- sample(1:m,replace=T) with(cars, lines(lowess(speed[mysample], dist[mysample]), col=(i+1), lwd=2) )}

38 Bootstrap usando una curva ajustada
m=dim(cars)[1] # obtain the sample size nboot=20 for(i in 1:nboot){ mysample <- sample(1:m,replace=T) with(cars, lines(lowess(speed[mysample], dist[mysample]), col=(i+1), lwd=2) )}

39 Bootstrap usando una curva ajustada
La funcion lowess() solo funciona sobre los remuestreos La funcion approx() realiza una interpolación linear entre puntos entre el min() y el max() de x nboot <- 1000 boot.speed <- matrix(NA, 1000,m) set.seed(1314) for(i in 1:nboot){ mysample <- sample(1:m,replace=T) low1 <- with(cars, lowess(speed[mysample], dist[mysample])) low.all <- approx(low1$x, low1$y, xout=cars$speed, rule=2) boot.speed[i,] <- low.all$y }

40 Bootstrap usando una curva ajustada
Buscamos los limites superiores e inferiores de la distribución de la función (prueba de hipotesis) upper <- rep(NA, m) lower <- rep(NA, m) for(j in 1:m){ upper[j] <- quantile(boot.speed[,j], 0.975) lower[j] <- quantile(boot.speed[,j], 0.025) }

41 Bootstrap usando una curva ajustada
Graficando plot(dist~speed,data=cars) for(i in 1:nboot){ lines(x=cars$speed, y=boot.speed[i,], col="#0000FF05") } with(cars, lines(lowess(speed, dist), col="tomato", lwd=2)) polygon(x=c(cars$speed, rev(cars$speed)), y=c(upper, rev(lower)), density=0, col="red", lty=2)

42 Bootstrap usando una curva ajustada
plot(dist~speed,data=cars) for(i in 1:nboot){ lines(x=cars$speed, y=boot.speed[i,], col="#0000FF05") } with(cars, lines(lowess(speed, dist), col="tomato", lwd=2)) polygon(x=c(cars$speed, rev(cars$speed)), y=c(upper, rev(lower)), density=0, col="red", lty=2)

43 https://www. google. com. co/maps/place/Negeri+Sembilan,+Malaysia/@2

44

45

46

47

48 Aumento del CV a menor tamaño poblacional, imprecisión de la medida

49

50 Probabilidad de detectar el efecto para diferentes tamaños poblacionales

51

52 Comparación de diferentes métodos y su poder…
Natalidad mortalidad y tablas de vida Estimación tamaño poblacional recapturas Comparación de diferentes métodos y su poder… como se relaciona esto a la varianza


Descargar ppt ""it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample."

Presentaciones similares


Anuncios Google