V Jornadas Nacionales de Estadística 30 de Setiembre de 2017 Análisis de pertinencia en el uso de distribuciones asintóticas Carlos López-Vázquez(1) y Esther Hochsztain(2) LatinGEO Lab, SGM + Universidad ORT Uruguay FCEA, UDELAR Uruguay
Plan Motivación Uso de distribuciones asintóticas Estudio de caso Conclusiones
Motivación La aplicación de tests estadísticos usando software es corriente pero… Muchas veces oculta que usa distribuciones asintóticas que pueden ser válidas solamente en cierto rango Del estilo “ si k>algo” Como ejemplo se ha analizado el Test de Friedman
Test de Friedman (1937) Válido para analizar tablas de rankings: N filas, k opciones Ejemplo: N jueces catando k vinos H0: los jueces deciden al azar Dada la tabla con rankings rij, el estadístico propuesto es El estadístico se puede aproximar por una χ2 para N grande, o por una normal para k grande
Uso de distribuciones asintóticas Un buen software usará tablas, y luego las aproximaciones asintóticas Las últimas tienen un rango de validez En ocasiones avisa; en general no ¿Qué error se comete, justo cuando terminan las tablas y se recurre a la aproximación asintótica?
Definamos error… En este trabajo se define el error de la aproximación χ2 como {αi} = {10%, 5%, 2.5%, 1.25%, 1%} Para la aproximación normal el error se define en forma similar
La aproximación χ2 ¿es suficientemente buena? Algunos resultados Si tolero un 10% de error, para k =2 el N mínimo es 134 Si exijo un 1%, para k=2 el N mínimo excede 9900 Para k=3, el N mínimo es 15 o 310 respectivamente Para k=10, el N mínimo es 7 o 78, respectivamente … Las tablas publicadas casi nunca llegan al 10% ¿Es ese error tolerable? ¿Y que se hace en otro caso? ¿¿¿y como obtuvimos el 134, 9900, etc.???
¿Como ampliamos las tablas? Puro Big Computing… mediante extensa Simulación de Monte Carlo Entre 107 y hasta 1011 eventos según los casos Requirió ~150 años-CPU de cálculo Cluster FING, entre 100 y 200 núcleos Octave bajo LINUX ~18 meses de principio a fin Más detalles irán en artículo en preparación
Nuestros resultados para χ2
Lo mismo, pero con otros ejes 1% 1.25% 2.5% 5% 10%
Más de lo esperado… Identificamos las regiones críticas Se logró un estimador sencillo del error Dados k,N y para los α considerados, ahora se puede acotar el error de la aproximación asintótica χ2 ¿Como usarlo?
¿Cómo usarlo? Antes rechazar H0 Si no rechazar H0 Ahora, siendo ver nuestras tablas no rechazar H0
Casos en la literatura Búsqueda por “friedman test” Más de 70.000 hits en google scholar Se analizaron 59 trabajos recientes En muchos no había suficiente detalle En 3 casos, para el (k,N,α) usado la H0 fue erróneamente evaluada usando χ2 Gross et al. (2012) Cechanowicz et al. (2014) de Juan and Hewitt (2011)
Conclusiones(1/2) Para un error admisible dado, la aproximación asintótica es válida, pero con {k,N} medios o bajos tal vez no Debe tenerse en cuenta que la mayoría de las herramientas no informan al usuario si el cálculo se basa en la distribución exacta o aproximada Esto puede ser particularmente relevante para quienes desarrollan estadística aplicada basada en software estadístico, sin prestar mucha atención a los conceptos subyacentes
Conclusiones(2/2) Se concluye en la conveniencia que en el output del software estadístico se incluya información indicando si se está usando una distribución exacta o asintótica, así como el error estimado De esta forma el usuario podrá tener mayor información de los conceptos que sustentan las conclusiones obtenidas Esto se hizo para el Test de Friedman
Referencias Friedman, M. The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of the american statistical association, 32(200):675–701, 1937 Gross, M.; Mercer, V. and Feng-Chang Lin. Effects of foot orthoses on balance in older adults. Journal of orthopaedic & sports physical therapy, 42(7):649–657, 2012. Cechanowicz, J.E.; Gutwin, C.; Bateman, S.; Mandryk, R. and Stavness, I. Improving player balancing in racing games. In Proceedings of the first ACM SIGCHI annual symposium on Computer-human interaction in play, 47–56. ACM, 2014. de Juan, S. and Hewitt, J. Relative importance of local biotic and environmental factors versus regional factors in driving macrobenthic species richness in intertidal areas. Marine Ecology Progress Series, 423:117–129, 2011.
¿y que pasó con la aproximación asintótica normal?
Resultados para la χ2
Nuestros resultados para la normal
Y combinando ambas…
V Jornadas Nacionales de Estadística 30 de Setiembre de 2017 ¿Preguntas? Carlos López-Vázquez(1) y Esther Hochsztain(2) carloslopez@uni.ort.edu.uy Esther.hochsztain@gmail.com