"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample.

"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample itself"

Nivel de significancia, probabilidad de error tipo I

Error en pruebas de hipótesis y estadistica
Diseño experimental 2137 Juan C. Benavides

Errores estadísticos Las pruebas de las hipótesis en estadística tienen reglas definidas Definir la hipótesis Especificar el tipo de distribución de la variable Realizar el experimento Calcular el valor de probabilidad p de la variable observada- medida Rechazar o “aceptar” la hipótesis nula Silogismos, Si A entonces B, si no A entonces no B

Errores estadisticos Silogismos Con probabilidad Si A entonces B
Si no A Entonces no B Con probabilidad Si A entonces probablemente B Silogismos, Si A entonces B, si no A entonces no B

Error y poder Error tipo I (también es alfa “α”)
Rechazar la hipótesis nula cuando el efecto no es real Error Tipo II (también es alfa “β”) No rechazar (aceptar) la hipótesis nula cuando el efecto es real Poder La probabilidad de detectar un efecto real

Tu decisión estadística Verdadero resultado de la hipótesis nula
Ho Verdadera (no hay efecto de la deforestacion) Ho falsa (deforestación no es positiva) Rechazo Ho (para mi la deforestación tiene un impacto) Error tipo I (α) Tremendo error Correcto No rechazo Ho (para mi la deforestación es positiva) Correcto y super bien Error tipo II (β) Error

Pseudoreplicación

Error y poder Efecto del tamaño de la muestra y su variación
Señal vs ruido (error experimental, replicación) Principios Diferencia entre significancia estadística y experimental Asociación no implica causa-efecto (generalmente) Comparaciones múltiples y sobreuso de datos-replicación

Significancia estadística y experimental
mujeres Mujeres con mas de 21 horas de ejercicio al mes ganaron menos peso que mujeres con menor ejercicio “Para permanecer delgado una hora de ejercicio al dia”

“Figura 2 Trayectoria de la ganancia de peso en el tiempo por los niveles de actividad física basales. Cuando se clasificaron por esta sola medida de la actividad física, los 3 grupos mostraron patrones similares de aumento de peso con el tiempo "

Asociación no implica causalidad
Dos variables pueden estar relacionadas solo por chance o porque son afectadas por el mismo factor

Comparaciones múltiples y sobreuso de datos-replicación
1073 pacientes Divididos en dos grupos sin tratamiento especifico Subdivididos cada uno en 18 grupos con condiciones especificas Un subgrupo de 397 pacientes con una condición ventricular mostro mayor supervivencia en Grupo 1 que en Grupo 2 What???

Para un p de 0.05 hay un 5% de probabilidad de tener un falso positivo Error tipo I Si se compara el tratamiento y control de cada una de las condiciones son 18 comparaciones Si las comparaciones son independientes la probabilidad de que una sea una falso positivo es: 60%

Distribuciones estadísticas
Función matemática que describe las probabilidades de ocurrencia de un evento particular en un experimento Discretas Cubre números enteros-Conteos Continuas Cubre números reales Distribución normal

En la búsqueda de nuestra preguntas ecológicas nos enfrentamos a diferentes fuentes de error-ruido Modelos estadísticos consisten de una señal y el ruido asociado La señal es determinística El ruido (error-varianza) es estocástico

De donde viene el ruido-error
Error de proceso Error del modelo Error que surge por la selección de un modelo incorrecto o falta de estructura en los datos Error estocástico Error de medición

Error de proceso Error de modelo Error estocástico No es un error es la variabilidad del sistema Error de medición

Error estocástico Podemos conocer un proceso en gran detalle Mortalidad de personas en un intervalo de tiempo Conocemos el promedio pero somos incapaces de predecir el evento individual Existe una variabilidad intrínseca estocástica

Distribuciones de probabilidad
Describe el set de probabilidades de todos los posibles valores que puede tomar una variable Es el componente estocástico del modelo

Distribuciones discretas o continuas
Eventos (presencia, ausencia) Conteos Número enteros Distribuciones continuas Variables que pueden tomar cualquier valor

En los análisis estadísticos tradicionales se usan cuatro tipos de distribución principales Normal t de student Chi cuadrado F Normal y t se relacionan a la distribución de las medias Chi cuadrado y F se relaciona a la distribución de las varianzas

Distribución normal Distribución estadística mas común
Tiene media µ y varianza σ2 Se describe mediante una función de densidad La función de densidad es la probabilidad de todos los valores de X

Probabilidad de un intervalo

La función de densidad en una distribución normal
Ejemplo En excel dnorm(0) #[1] dnorm(0)*sqrt(2*pi) #[1] 1 dnorm(0,mean=4) #[1] dnorm(0,mean=4,sd=10) #[1] v <- c(0,1,2) dnorm(v) #[1] x <- seq(-20,20,by=.1) y <- dnorm(x) plot(x,y) y <- dnorm(x,mean=2.5,sd=2) =DISTR.NORM.ESTAND.N(z,acumulado) Z=valor z calculado Acumulado=si realiza el análisis acumulando la función o no (0-1) dnorm()

La función cumulativa de densidad en una distribución normal
Ejemplo pnorm(0) #[1] 0.5 pnorm(1) #[1] pnorm(0,mean=2) #[1] pnorm(0,mean=2,sd=3) #[1] v <- c(0,1,2) pnorm(v) #[1] x <- seq(-20,20,by=.1) y <- pnorm(x) plot(x,y) y <- pnorm(x,mean=3,sd=4) pnorm()

Probabilidad de que un numero sea menor a determinado valor
Ejemplo pnorm() > pnorm(0,lower.tail=FALSE) #[1] 0.5 > pnorm(1,lower.tail=FALSE) #[1] > pnorm(0,mean=2,lower.tail=FALSE) #[1]

La distribución t help(TDist) x <- seq(-20,20,by=.5)
La función de densidad de la distribución t dt() x <- seq(-20,20,by=.5) y <- dt(x,df=10) plot(x,y) y <- dt(x,df=50)

Función de distribución cumulativa de t
help(TDist) pt(-3,df=10) #[1] pt(3,df=10) #[1] 1-pt(3,df=10) pt(3,df=20) #[1] x = c(-3,-4,-2,-1) pt((mean(x)-2)/sd(x),df=20) #[1] pt((mean(x)-2)/sd(x),df=40) #[1]

Función de distribución de quantiles (inversa) de t
qt(0.05,df=10) #[1] qt(0.95,df=10) #[1] qt(0.05,df=20) #[1] qt(0.95,df=20) #[1] v <- c(0.005,.025,.05) qt(v,df=253) qt(v,df=25)

Generador de números aleatorios en función de densidad de probabilidad t
rt(3,df=10) #[1] rt(3,df=20) #[1] #[1]

Funcion chi cuadrado χ2 Un hijo de la distribución normal
Valor z (de la distribución normal) calculado Ponerle una letra griega La mayor parte de los valores están entre 0 y 1

Funcion chi cuadrado χ2 Si se suman varios valores de Z al cuadrado se tiene una distribución Chi cuadrado Valores z de dos medias Suma de los cuadrados de los valores z La forma de la distribución Chi cuadrado depende del numero de elementos z que se estén sumando

Funcion chi cuadrado χ2 La distribución de Chi cuadrado depende de 1 parametro… sus grados de libertad (df) A medida que aumentan los grados de libertad la distribución se va haciendo mas normal

Funcion chi cuadrado χ2 Graficar la función de densidad de la distribución χ2 plot(dchisq(seq(0,100,0.01), df = 1)) points(dchisq(seq(0,100,0.01), df = 2),col="blue") points(dchisq(seq(0,100,0.01), df = 20),col="red") plot(dchisq(seq(0,100,0.01), df = 20),col="red") Cual es el valor crítico de Chi cuadrado al 95% para una muestra con 7 grados de libertad qchisq(.95, df=7)

Analisis de poder Nos permite calcular el tamaño minimo de una muestra para detectar diferencias Y si estamos limitados en el número de muestras permite calcular la probabilidad de detectar el efecto (poder)

Análisis de poder Relación entre 4 cantidades
Tamaño de la muestra Tamaño del efecto (tratamiento) Nivel de significancia (Error tipo 1) Poder (1-error tipo II) Conociendo las otras 3 se puede terminar la 4ª

Análisis de poder

Análisis de poder en R function power calculations for pwr.2p.test
two proportions (equal n) pwr.2p2n.test two proportions (unequal n) pwr.anova.test balanced one way ANOVA pwr.chisq.test chi-square test pwr.f2.test general linear model pwr.p.test proportion (one sample) pwr.r.test correlation pwr.t.test t-tests (one sample, 2 sample, paired) pwr.t2n.test t-test (two samples with unequal n)

Tamaño minimo de una muestra
sampleSizeZtest = function(alpha = 0.05, sigma, power, delta){ zcra=qnorm(p = 1-alpha, mean = 0, sd=1) zcrb=qnorm(p = power, mean = 0, sd = 1) n = round((((zcra+zcrb)*sigma)/delta)^2) return(n) } sigma = 15 h0 = 100 ha = 105 sampleSizeZtest(sigma = sigma, power = 0.8, delta = (ha-h0))

Muestreo-sample() a<-sample(mtcars$mpg,replace=TRUE)
sample(x, size, replace, prob) sample() en R permite extraer una muestra de n elementos de un vector en R Tiene tres componentes x: un vector que tenga longitud mayor a o (length(x)>0) size: determina el tamaño de la muestra a tomar de x replace: indica si el muestreo se hace reempazando o no Prob: es un vector que indica si las probabilidades son diferentes entre las mtas a<-sample(mtcars$mpg,replace=TRUE) b<-sample(mtcars$mpg,replace=FALSE) mean(a) ; mean(b) par(mfrow=c(2,1)) hist(a);hist(b)

Muestreo-sample() Para extraer siempre la misma muestra se debe definir una semilla para el calculo de los numeros aleatorios set.seed() .Random.seed RNGkind set.seed(7) c<-sample(mtcars$mpg,replace=TRUE) d<-sample(mtcars$mpg,replace=TRUE) mean(c) ; mean(d) par(mfrow=c(2,2)) hist(a);hist(b); hist(c);hist(d)

t = valor del estadístico t para n-1 grados de libertad
n = numero de muestras t = valor del estadístico t para n-1 grados de libertad s = desviación estándar D = error esperado

Aumento del CV a menor tamaño poblacional, imprecisión de la medida

Probabilidad de detectar el efecto para diferentes tamaños poblacionales

Comparación de diferentes métodos y su poder…
Natalidad mortalidad y tablas de vida Estimación tamaño poblacional recapturas Comparación de diferentes métodos y su poder… como se relaciona esto a la varianza

Ejercicio de clase Estimar el tamaño de muestra necesario para detectar la diferencia entre dos poblaciones de peces con

Bootstrap-remuestreo
Herramienta útil cuando se desconoce la distribución del estadístico a describir Bootstrap es una estrategia de remuestreo no paramétrica que permite calcular intervalos de confianza, errores estándar y en ocasiones pruebas de hipótesis Se usa principalmente con muestras pequeñas donde los requerimientos de funciones mas sofisticadas son difíciles de cumplir "The bootstrap is a computer-based method for assigning measures of accuracy to sample estimates."

Bootstrap-pasos Remuestreo de un set de datos con reemplazo un número de veces determinado (cada remuestreo es de la misma longitud) Calculo del estadístico de interés en cada una de las “re-muestras” Estimar la distribución del estadístico para obtener la distribución de su error "The bootstrap is a computer-based method for assigning measures of accuracy to sample estimates."

Bootstrap en R paso a paso
Se realiza combinando las instrucciones for{} y sample() hist(airquality$Ozone,col="blue",xlab="Ozone Concentrations", main="Ozone Concentrations in NY (Summer 1973)")

Como se calcula la mediana? Se puede calcular la distribución de la mediana El intervalo de confianza del 95% de la mediana se puede calcular usando bootstrap median(airquality$Ozone) #[1] NA # There are missing daily ozone concentration values median(airquality$Ozone,na.rm=TRUE) #[1] 31.5

Primero sacamos un vector de las concentraciones de ozono excluyendo los valores NA Usando un for creamos muestras y calculamos la mediana para cada una ozone=airquality$Ozone[!is.na(airquality$Ozone)] nboot < #number of bootstrap samples bootstrap.medians <-rep(NA, nboot) set.seed(10) for(i in 1:nboot){ bootstrap.medians[i]<-median(sample(ozone,replace=TRUE)) }

De las medianas obtebidas calculamos los cuantiles del y 0.075 Alpha <- 0.05 sort(bootstrap.medians)[nboot*alpha/2] sort(bootstrap.medians)[nboot*(1-alpha/2)] #[1] 23.5 #[1] 39

La dsitribución de las medianas no es igual a la distribución de la variable hist(bootstrap.medians,col="blue",xlab="Bootstrap Medians",+ main="Bootstrap Medians for Ozone Concentrations in NY",cex.main=.8)

Bootstrap usando una curva ajustada
data(cars) plot(dist~speed,data=cars) with(cars, lines(lowess(speed, dist), col="tomato", lwd=2))

La curva a partir de los remuestreos se construye sobre cada una de las muestras extraidas usando lowess() m=dim(cars)[1] # obtain the sample size nboot=20 for(i in 1:nboot){ mysample <- sample(1:m,replace=T) with(cars, lines(lowess(speed[mysample], dist[mysample]), col=(i+1), lwd=2) )}

m=dim(cars)[1] # obtain the sample size nboot=20 for(i in 1:nboot){ mysample <- sample(1:m,replace=T) with(cars, lines(lowess(speed[mysample], dist[mysample]), col=(i+1), lwd=2) )}

La funcion lowess() solo funciona sobre los remuestreos La funcion approx() realiza una interpolación linear entre puntos entre el min() y el max() de x nboot <- 1000 boot.speed <- matrix(NA, 1000,m) set.seed(1314) for(i in 1:nboot){ mysample <- sample(1:m,replace=T) low1 <- with(cars, lowess(speed[mysample], dist[mysample])) low.all <- approx(low1$x, low1$y, xout=cars$speed, rule=2) boot.speed[i,] <- low.all$y }

Buscamos los limites superiores e inferiores de la distribución de la función (prueba de hipotesis) upper <- rep(NA, m) lower <- rep(NA, m) for(j in 1:m){ upper[j] <- quantile(boot.speed[,j], 0.975) lower[j] <- quantile(boot.speed[,j], 0.025) }

Graficando plot(dist~speed,data=cars) for(i in 1:nboot){ lines(x=cars$speed, y=boot.speed[i,], col="#0000FF05") } with(cars, lines(lowess(speed, dist), col="tomato", lwd=2)) polygon(x=c(cars$speed, rev(cars$speed)), y=c(upper, rev(lower)), density=0, col="red", lty=2)

plot(dist~speed,data=cars) for(i in 1:nboot){ lines(x=cars$speed, y=boot.speed[i,], col="#0000FF05") } with(cars, lines(lowess(speed, dist), col="tomato", lwd=2)) polygon(x=c(cars$speed, rev(cars$speed)), y=c(upper, rev(lower)), density=0, col="red", lty=2)

"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample.

Presentaciones similares

Presentación del tema: ""it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample.

Presentaciones similares

Presentación del tema: ""it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback