Comparación de medias-no paramétrico Diseño experimental 2137 Juan C. Benavides Tomado en parte de: http://webspace.ship.edu/pgmarr/Geo441/Lectures/
Pruebas no parámetricas Prueba paramétrica Prueba no paramétrica Objetivo de la prueba Prueba t para dos muestras Mann-Whitney/ Wilcoxon Rank Sum Test Comparar dos muestras independientes Prueba t pareada Sign Test o Wilcoxon Signed-Rank Test Comparar dos muestras no independientes ANOVA de una vía Prueba de Kruskal-Wallis Comparar k muestras independientes
Ventajas de las pruebas no paramétricas 1. Pueden ser usadas en todas las escalas Fáciles de calcular Pocas asunciones No se necesitan conocer parámetros de la población Los resultados pueden ser idénticos a los de las pruebas paramétricas © 1984-1994 T/Maker Co.
Desventajas de las pruebas no paramétricas 1. Pueden descartar información Los modelos paramétricos pueden ser mas eficientes si los datos o el diseño lo permiten 2. Difícil de realizar manualmente 3. Las tablas para su calculo no son tan comunes © 1984-1994 T/Maker Co.
Prueba Mann-Whitney-Wilcoxon Comparar dos promedios ?wilcox.test par(mfrow=c(2,1)) set.seed(7) hist(rnorm(20));abline(v=0,col="blue") #histograma hist(rnorm(20, 2));abline(v=2,col="blue") #histograma #prueba wilcoxon wilcox.test(rnorm(20), rnorm(20, 2), conf.int = TRUE)
Pruebas no parametricas en R
Momentos en estadistica Un momento es una medida cuantitativa especifica de la forma de un grupo de puntos Primera, segunda y tercera derivada Momento zero= toda la distribución Primer momento = Media (x11 + x21 + x31 + . . . + xn1)/n Segundo momento = Varianza Σ(xi – μx)2. Tercer momento = sesgo (skewness) (x13 + x23 + x33 + . . . + xn3)/n
Media, mediana y moda Tres descriptores del primer momento Media Valor promedio Mediana Valor intermedio Moda Valor mas repetido set.seed(7) a<-rnorm(20) boxplot(a); abline(h=median(a),col="red",lwd=2) b<-log(rf(20,df1=1,df2=200)) boxplot(b); abline(h=median(b),col="red",lwd=2) c<-rchisq(20,df=2) boxplot(c); abline(h=median(c),col="red",lwd=2)
Prueba Mann-Whitney-Wilcoxon Comparar dos medias Variable x continua u ordinal Observaciones independientes Ambas poblaciones deben tener distribuciones similares https://statistics.laerd.com/spss-tutorials/img/mwut/identical-shape-distributions.png
Prueba Mann-Whitney-Wilcoxon Comparar dos promedios U=Mann-Whitney U test n1 = sample size one n2= Sample size two Ri = Rank of the sample size
Prueba Mann-Whitney-Wilcoxon Comparar dos promedios Nivel del agua en dos pozos de monitoreo en humedales alto andinos Niveles de agua tomados una vez por 1 mes en dos pozos https://drive.google.com/open?id=0B__kU99CVEtqWDNOS1Z5M3RkNnc “non parametric exercises.xlxs” Datos en la primera hoja: waterlevel
Prueba Mann-Whitney-Wilcoxon Nivel del agua en dos pozos de monitoreo en humedales alto andinos watlevel<-read.csv("watlevel.csv",header=T) watlevel$Date<-as.Date(watlevel$Date,format="%m/%d/%y") plot(watlevel$Water.level[watlevel$Well=="W4"], type="n",ylim=c(1.55,1.9)) lines(watlevel$Water.level[watlevel$Well=="W2"], col="blue") lines(watlevel$Water.level[watlevel$Well=="W4"], col="red")
Prueba Mann-Whitney-Wilcoxon Graficando usando box and whisker usando el formato formula en la gráfica plot(watlevel$Water.level~watlevel$Well, xlab="pozo",ylab="Nivel del agua (m)", main="Comparación de profundidad promedio \n del agua en dos pozos") main="Comparación de profundidad promedio
Prueba Mann-Whitney-Wilcoxon Nivel del agua en dos pozos de monitoreo en humedales alto andinos qqnorm(watlevel$Water.level) qqline(watlevel$Water.level) res.test<-lm(Water.level~Well,data=watlevel) qqnorm(res.test$residuals) qqline(res.test$residuals) ks.test(res.test$residuals, "pnorm") # two-sided, exact
Prueba Mann-Whitney-Wilcoxon Prueba no parametrica de Wilcoxon usando el formato formula wilcox.test(Water.level~Well,data=watlevel) #Wilcoxon rank sum test with continuity correction #data: Water.level by Well #W = 0, p-value = 3.016e-11 #alternative hypothesis: true location shift is not equal to 0
Prueba pareada Mann-Whitney-Wilcoxon Prueba no parametrica de Wilcoxon pareada Archivo water level paired Lecturas a la misma hora el mismo dia por un mes en dos pozos Mediciones no independientes: segregación temporal #prueba wilcoxon pareada wl_paired<-read.csv("waterlevel paired.csv",header=T) wilcox.test(wl_paired$Well2,wl_paired$Well4,paired=TRUE)
Prueba pareada Mann-Whitney-Wilcoxon El problema con la prueba de los signos es que la magnitud o el tamaño de las diferencias emparejadas se pierde. La prueba pareada de Wilcoxon utilizalas filas de las diferencias emparejadas para retener un cierto sentido de su tamaño. Se usa cuando la distribución de las diferencias emparejadas no son normales o cuando el tamaño de la muestra es pequeño. Se puede utilizar con una respuesta ordinal.
Prueba Kruskal-Wallis Prueba no parametrica diseñada para comparar multiples promedios Solo sirve para diseños completamente aleatorios
Prueba Kruskal-Wallis Si decidimos al menos dos poblaciones difieren en términos de lo que es típico de sus valores podemos utilizar comparaciones múltiples para determinar qué poblaciones difieren. Para ello se calcula un valor p aproximado para cada comparación por pares y luego comparamos que el p-valor a un nivel de significancia de Bonferroni corregido (a)
Prueba Kruskal-Wallis Para identificar cuales grupos son diferentes podemos usar y luego se calcula el valor y se compara con a/2m, donde m es el número de posibles comparaciones entre los pares,
Prueba Kruskal-Wallis Comparar flujos de co2 en 7 sitios de paramos de Colombia #prueba kruskal wallis fluxes<-read.csv("soil_flux.csv",header=TRUE) qqnorm(fluxes$Flux) qqline(fluxes$Flux) ks.test(fluxes$Flux, "pnorm") # two-sided, exact
Prueba Kruskal-Wallis Comparar flujos de co2 en 7 sitios de paramos de Colombia fluxes_test<-lm(Flux~site_local,data=fluxes) qqnorm(fluxes_test$residuals) qqline(fluxes_test$residuals) ks.test(fluxes_test$residuals, "pnorm") # two-sided, exact plot(fluxes$Flux~fluxes$site_local, xlab=”Sitio",ylab=”Flujos CO2", main=”Flujos de CO2 en paramos de Colombia")
Prueba Kruskal-Wallis Comparar flujos de co2 en 7 sitios de paramos de Colombia plot(fluxes$Flux~fluxes$site_local, xlab=”Sitio", ylab=expression(paste(”Flujos CO”[2], main=”Flujos de CO2 en paramos de Colombia")
Ejercicio Comparar temperaturas del suelo a tres profundidades durante tres meses Graficar promedios y quantiles (box and whisker) Graficas variación temporal de cada una de las temperaturas a diferentes profundidades Hacer una grafica de Temperatura vs tiempo para cada profundidad Sugerencia usar subset