Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porNatividad Río Poblete Modificado hace 6 años
1
"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample itself"
2
Nivel de significancia, probabilidad de error tipo I
3
Error en pruebas de hipótesis y estadistica
Diseño experimental 2137 Juan C. Benavides
4
Errores estadísticos Las pruebas de las hipótesis en estadística tienen reglas definidas Definir la hipótesis Especificar el tipo de distribución de la variable Realizar el experimento Calcular el valor de probabilidad p de la variable observada- medida Rechazar o “aceptar” la hipótesis nula Silogismos, Si A entonces B, si no A entonces no B
5
Errores estadisticos Silogismos Con probabilidad Si A entonces B
Si no A Entonces no B Con probabilidad Si A entonces probablemente B Silogismos, Si A entonces B, si no A entonces no B
6
Error y poder Error tipo I (también es alfa “α”)
Rechazar la hipótesis nula cuando el efecto no es real Error Tipo II (también es alfa “β”) No rechazar (aceptar) la hipótesis nula cuando el efecto es real Poder La probabilidad de detectar un efecto real
7
Tu decisión estadística Verdadero resultado de la hipótesis nula
Ho Verdadera (no hay efecto de la deforestacion) Ho falsa (deforestación no es positiva) Rechazo Ho (para mi la deforestación tiene un impacto) Error tipo I (α) Tremendo error Correcto No rechazo Ho (para mi la deforestación es positiva) Correcto y super bien Error tipo II (β) Error
8
Pseudoreplicación
9
Error y poder Efecto del tamaño de la muestra y su variación
Señal vs ruido (error experimental, replicación) Principios Diferencia entre significancia estadística y experimental Asociación no implica causa-efecto (generalmente) Comparaciones múltiples y sobreuso de datos-replicación
10
Significancia estadística y experimental
mujeres Mujeres con mas de 21 horas de ejercicio al mes ganaron menos peso que mujeres con menor ejercicio “Para permanecer delgado una hora de ejercicio al dia”
11
“Figura 2 Trayectoria de la ganancia de peso en el tiempo por los niveles de actividad física basales. Cuando se clasificaron por esta sola medida de la actividad física, los 3 grupos mostraron patrones similares de aumento de peso con el tiempo "
12
Asociación no implica causalidad
Dos variables pueden estar relacionadas solo por chance o porque son afectadas por el mismo factor
13
Comparaciones múltiples y sobreuso de datos-replicación
1073 pacientes Divididos en dos grupos sin tratamiento especifico Subdivididos cada uno en 18 grupos con condiciones especificas Un subgrupo de 397 pacientes con una condición ventricular mostro mayor supervivencia en Grupo 1 que en Grupo 2 What???
14
Comparaciones múltiples y sobreuso de datos-replicación
Para un p de 0.05 hay un 5% de probabilidad de tener un falso positivo Error tipo I Si se compara el tratamiento y control de cada una de las condiciones son 18 comparaciones Si las comparaciones son independientes la probabilidad de que una sea una falso positivo es: 60%
15
Comparaciones múltiples y sobreuso de datos-replicación
16
Distribuciones estadísticas
Función matemática que describe las probabilidades de ocurrencia de un evento particular en un experimento Discretas Cubre números enteros-Conteos Continuas Cubre números reales Distribución normal
17
Distribuciones estadísticas
En la búsqueda de nuestra preguntas ecológicas nos enfrentamos a diferentes fuentes de error-ruido Modelos estadísticos consisten de una señal y el ruido asociado La señal es determinística El ruido (error-varianza) es estocástico
18
Distribuciones estadísticas
En la búsqueda de nuestra preguntas ecológicas nos enfrentamos a diferentes fuentes de error-ruido Modelos estadísticos consisten de una señal y el ruido asociado La señal es determinística El ruido (error-varianza) es estocástico
19
De donde viene el ruido-error
Error de proceso Error del modelo Error que surge por la selección de un modelo incorrecto o falta de estructura en los datos Error estocástico Error de medición
20
De donde viene el ruido-error
Error de proceso Error de modelo Error estocástico No es un error es la variabilidad del sistema Error de medición
21
De donde viene el ruido-error
Error estocástico Podemos conocer un proceso en gran detalle Mortalidad de personas en un intervalo de tiempo Conocemos el promedio pero somos incapaces de predecir el evento individual Existe una variabilidad intrínseca estocástica
22
Distribuciones de probabilidad
Describe el set de probabilidades de todos los posibles valores que puede tomar una variable Es el componente estocástico del modelo
23
Distribuciones discretas o continuas
Eventos (presencia, ausencia) Conteos Número enteros Distribuciones continuas Variables que pueden tomar cualquier valor
24
Distribuciones estadísticas
En los análisis estadísticos tradicionales se usan cuatro tipos de distribución principales Normal t de student Chi cuadrado F Normal y t se relacionan a la distribución de las medias Chi cuadrado y F se relaciona a la distribución de las varianzas
25
Distribución normal Distribución estadística mas común
Tiene media µ y varianza σ2 Se describe mediante una función de densidad La función de densidad es la probabilidad de todos los valores de X
26
Probabilidad de un intervalo
27
La función de densidad en una distribución normal
Ejemplo En excel dnorm(0) #[1] dnorm(0)*sqrt(2*pi) #[1] 1 dnorm(0,mean=4) #[1] dnorm(0,mean=4,sd=10) #[1] v <- c(0,1,2) dnorm(v) #[1] x <- seq(-20,20,by=.1) y <- dnorm(x) plot(x,y) y <- dnorm(x,mean=2.5,sd=2) =DISTR.NORM.ESTAND.N(z,acumulado) Z=valor z calculado Acumulado=si realiza el análisis acumulando la función o no (0-1) dnorm()
28
La función cumulativa de densidad en una distribución normal
Ejemplo pnorm(0) #[1] 0.5 pnorm(1) #[1] pnorm(0,mean=2) #[1] pnorm(0,mean=2,sd=3) #[1] v <- c(0,1,2) pnorm(v) #[1] x <- seq(-20,20,by=.1) y <- pnorm(x) plot(x,y) y <- pnorm(x,mean=3,sd=4) pnorm()
29
Probabilidad de que un numero sea menor a determinado valor
Ejemplo pnorm() > pnorm(0,lower.tail=FALSE) #[1] 0.5 > pnorm(1,lower.tail=FALSE) #[1] > pnorm(0,mean=2,lower.tail=FALSE) #[1]
30
La distribución t help(TDist) x <- seq(-20,20,by=.5)
La función de densidad de la distribución t dt() x <- seq(-20,20,by=.5) y <- dt(x,df=10) plot(x,y) y <- dt(x,df=50)
31
Función de distribución cumulativa de t
help(TDist) pt(-3,df=10) #[1] pt(3,df=10) #[1] 1-pt(3,df=10) pt(3,df=20) #[1] x = c(-3,-4,-2,-1) pt((mean(x)-2)/sd(x),df=20) #[1] pt((mean(x)-2)/sd(x),df=40) #[1]
32
Función de distribución de quantiles (inversa) de t
qt(0.05,df=10) #[1] qt(0.95,df=10) #[1] qt(0.05,df=20) #[1] qt(0.95,df=20) #[1] v <- c(0.005,.025,.05) qt(v,df=253) qt(v,df=25)
33
Generador de números aleatorios en función de densidad de probabilidad t
rt(3,df=10) #[1] rt(3,df=20) #[1] #[1]
34
Funcion chi cuadrado χ2 Un hijo de la distribución normal
Valor z (de la distribución normal) calculado Ponerle una letra griega La mayor parte de los valores están entre 0 y 1
35
Funcion chi cuadrado χ2 Si se suman varios valores de Z al cuadrado se tiene una distribución Chi cuadrado Valores z de dos medias Suma de los cuadrados de los valores z La forma de la distribución Chi cuadrado depende del numero de elementos z que se estén sumando
36
Funcion chi cuadrado χ2 La distribución de Chi cuadrado depende de 1 parametro… sus grados de libertad (df) A medida que aumentan los grados de libertad la distribución se va haciendo mas normal
37
Funcion chi cuadrado χ2 Graficar la función de densidad de la distribución χ2 plot(dchisq(seq(0,100,0.01), df = 1)) points(dchisq(seq(0,100,0.01), df = 2),col="blue") points(dchisq(seq(0,100,0.01), df = 20),col="red") plot(dchisq(seq(0,100,0.01), df = 20),col="red") Cual es el valor crítico de Chi cuadrado al 95% para una muestra con 7 grados de libertad qchisq(.95, df=7)
38
Analisis de poder Nos permite calcular el tamaño minimo de una muestra para detectar diferencias Y si estamos limitados en el número de muestras permite calcular la probabilidad de detectar el efecto (poder)
39
Análisis de poder Relación entre 4 cantidades
Tamaño de la muestra Tamaño del efecto (tratamiento) Nivel de significancia (Error tipo 1) Poder (1-error tipo II) Conociendo las otras 3 se puede terminar la 4ª
40
Análisis de poder
41
Análisis de poder en R function power calculations for pwr.2p.test
two proportions (equal n) pwr.2p2n.test two proportions (unequal n) pwr.anova.test balanced one way ANOVA pwr.chisq.test chi-square test pwr.f2.test general linear model pwr.p.test proportion (one sample) pwr.r.test correlation pwr.t.test t-tests (one sample, 2 sample, paired) pwr.t2n.test t-test (two samples with unequal n)
42
Tamaño minimo de una muestra
sampleSizeZtest = function(alpha = 0.05, sigma, power, delta){ zcra=qnorm(p = 1-alpha, mean = 0, sd=1) zcrb=qnorm(p = power, mean = 0, sd = 1) n = round((((zcra+zcrb)*sigma)/delta)^2) return(n) } sigma = 15 h0 = 100 ha = 105 sampleSizeZtest(sigma = sigma, power = 0.8, delta = (ha-h0))
43
Muestreo-sample() a<-sample(mtcars$mpg,replace=TRUE)
sample(x, size, replace, prob) sample() en R permite extraer una muestra de n elementos de un vector en R Tiene tres componentes x: un vector que tenga longitud mayor a o (length(x)>0) size: determina el tamaño de la muestra a tomar de x replace: indica si el muestreo se hace reempazando o no Prob: es un vector que indica si las probabilidades son diferentes entre las mtas a<-sample(mtcars$mpg,replace=TRUE) b<-sample(mtcars$mpg,replace=FALSE) mean(a) ; mean(b) par(mfrow=c(2,1)) hist(a);hist(b)
44
Muestreo-sample() Para extraer siempre la misma muestra se debe definir una semilla para el calculo de los numeros aleatorios set.seed() .Random.seed RNGkind set.seed(7) c<-sample(mtcars$mpg,replace=TRUE) d<-sample(mtcars$mpg,replace=TRUE) mean(c) ; mean(d) par(mfrow=c(2,2)) hist(a);hist(b); hist(c);hist(d)
45
t = valor del estadístico t para n-1 grados de libertad
n = numero de muestras t = valor del estadístico t para n-1 grados de libertad s = desviación estándar D = error esperado
50
Aumento del CV a menor tamaño poblacional, imprecisión de la medida
52
Probabilidad de detectar el efecto para diferentes tamaños poblacionales
54
Comparación de diferentes métodos y su poder…
Natalidad mortalidad y tablas de vida Estimación tamaño poblacional recapturas Comparación de diferentes métodos y su poder… como se relaciona esto a la varianza
55
Ejercicio de clase Estimar el tamaño de muestra necesario para detectar la diferencia entre dos poblaciones de peces con
56
Bootstrap-remuestreo
Herramienta útil cuando se desconoce la distribución del estadístico a describir Bootstrap es una estrategia de remuestreo no paramétrica que permite calcular intervalos de confianza, errores estándar y en ocasiones pruebas de hipótesis Se usa principalmente con muestras pequeñas donde los requerimientos de funciones mas sofisticadas son difíciles de cumplir "The bootstrap is a computer-based method for assigning measures of accuracy to sample estimates."
57
Bootstrap-pasos Remuestreo de un set de datos con reemplazo un número de veces determinado (cada remuestreo es de la misma longitud) Calculo del estadístico de interés en cada una de las “re-muestras” Estimar la distribución del estadístico para obtener la distribución de su error "The bootstrap is a computer-based method for assigning measures of accuracy to sample estimates."
58
Bootstrap en R paso a paso
Se realiza combinando las instrucciones for{} y sample() hist(airquality$Ozone,col="blue",xlab="Ozone Concentrations", main="Ozone Concentrations in NY (Summer 1973)")
59
Bootstrap en R paso a paso
Como se calcula la mediana? Se puede calcular la distribución de la mediana El intervalo de confianza del 95% de la mediana se puede calcular usando bootstrap median(airquality$Ozone) #[1] NA # There are missing daily ozone concentration values median(airquality$Ozone,na.rm=TRUE) #[1] 31.5
60
Bootstrap en R paso a paso
Primero sacamos un vector de las concentraciones de ozono excluyendo los valores NA Usando un for creamos muestras y calculamos la mediana para cada una ozone=airquality$Ozone[!is.na(airquality$Ozone)] nboot < #number of bootstrap samples bootstrap.medians <-rep(NA, nboot) set.seed(10) for(i in 1:nboot){ bootstrap.medians[i]<-median(sample(ozone,replace=TRUE)) }
61
Bootstrap en R paso a paso
De las medianas obtebidas calculamos los cuantiles del y 0.075 Alpha <- 0.05 sort(bootstrap.medians)[nboot*alpha/2] sort(bootstrap.medians)[nboot*(1-alpha/2)] #[1] 23.5 #[1] 39
62
Bootstrap en R paso a paso
La dsitribución de las medianas no es igual a la distribución de la variable hist(bootstrap.medians,col="blue",xlab="Bootstrap Medians",+ main="Bootstrap Medians for Ozone Concentrations in NY",cex.main=.8)
63
Bootstrap usando una curva ajustada
data(cars) plot(dist~speed,data=cars) with(cars, lines(lowess(speed, dist), col="tomato", lwd=2))
64
Bootstrap usando una curva ajustada
La curva a partir de los remuestreos se construye sobre cada una de las muestras extraidas usando lowess() m=dim(cars)[1] # obtain the sample size nboot=20 for(i in 1:nboot){ mysample <- sample(1:m,replace=T) with(cars, lines(lowess(speed[mysample], dist[mysample]), col=(i+1), lwd=2) )}
65
Bootstrap usando una curva ajustada
m=dim(cars)[1] # obtain the sample size nboot=20 for(i in 1:nboot){ mysample <- sample(1:m,replace=T) with(cars, lines(lowess(speed[mysample], dist[mysample]), col=(i+1), lwd=2) )}
66
Bootstrap usando una curva ajustada
La funcion lowess() solo funciona sobre los remuestreos La funcion approx() realiza una interpolación linear entre puntos entre el min() y el max() de x nboot <- 1000 boot.speed <- matrix(NA, 1000,m) set.seed(1314) for(i in 1:nboot){ mysample <- sample(1:m,replace=T) low1 <- with(cars, lowess(speed[mysample], dist[mysample])) low.all <- approx(low1$x, low1$y, xout=cars$speed, rule=2) boot.speed[i,] <- low.all$y }
67
Bootstrap usando una curva ajustada
Buscamos los limites superiores e inferiores de la distribución de la función (prueba de hipotesis) upper <- rep(NA, m) lower <- rep(NA, m) for(j in 1:m){ upper[j] <- quantile(boot.speed[,j], 0.975) lower[j] <- quantile(boot.speed[,j], 0.025) }
68
Bootstrap usando una curva ajustada
Graficando plot(dist~speed,data=cars) for(i in 1:nboot){ lines(x=cars$speed, y=boot.speed[i,], col="#0000FF05") } with(cars, lines(lowess(speed, dist), col="tomato", lwd=2)) polygon(x=c(cars$speed, rev(cars$speed)), y=c(upper, rev(lower)), density=0, col="red", lty=2)
69
Bootstrap usando una curva ajustada
plot(dist~speed,data=cars) for(i in 1:nboot){ lines(x=cars$speed, y=boot.speed[i,], col="#0000FF05") } with(cars, lines(lowess(speed, dist), col="tomato", lwd=2)) polygon(x=c(cars$speed, rev(cars$speed)), y=c(upper, rev(lower)), density=0, col="red", lty=2)
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.