¿Cómo hacer comparaciones estadísticas sin hacer pruebas de hipótesis? Seminario Científico ¿Cómo hacer comparaciones estadísticas sin hacer pruebas de hipótesis? Dr. Dennis Denis Ávila
Ciencia Población (natural) UNIVERSO MUESTRA Parámetros MUESTREO DE DATOS Transformación conceptual MUESTRA Población de valores Estadísticos
Valor de un resultado científico Un método válido de toma de datos Un análisis adecuado de estos datos La metodología correcta es lo único que le da validez al resultado Asunción básica de todo análisis científico: Los datos están bien tomados y son representativos del fenómeno estudiado
Estadística “Vías” del pensamiento científico Inducción Deducción Empírica (factual) Probabilística Lógica Exacta Siempre hay incertidumbre Medición Estadística Válida ssi: - la muestra ha sido tomada de forma apropiada - las premisas de los métodos a aplicar se han cumplido
¿Qué pasa si no se cumplen? Asunciones de las pruebas estadísticas Distribución probabilística determinada (normalidad) Homogeneidad de varianzas Independencia de errores Aleatorización Aditividad de efectos ¿Qué pasa si no se cumplen?
A) Nociones básicas B) Pruebas de hipótesis C) Sustituyendo B por A Objetivo: Dar a conocer un sencillo algoritmo para hacer pruebas estadísticas sin necesidad de emplear distribuciones probabilísticas prefijadas y sin temer por el cumplimiento de premisas. Sumario: A) Nociones básicas de estadística descriptiva B) Bases y algoritmo de las pruebas de hipótesis C) Sustituyendo B por A A) Nociones básicas B) Pruebas de hipótesis C) Sustituyendo B por A
Subdivisiones de la Estadística Estadística descriptiva Estadística inferencial Describe, analiza y representa un grupo de datos por métodos numéricos y gráficos que resumen la información contenida en ellos. Efectúa estimaciones, decisiones, predicciones u otras generalizaciones a partir de una muestra, sobre un conjunto mayor (apoyándose en el cálculo de probabilidades) Estadísticos Parámetros Población de valores
Variabilidad de los datos Precisión de la estimación Si el estadístico se usa para estimar un parámetro ¡medida de la incertidumbre! Parámetros Estadísticos Población de valores Variabilidad de los datos Precisión de la estimación Medidas de "dispersión"
Precisión Exactitud Medidas de "dispersión" Rango Distancia intercuartiles Desviación estándar Rango: distancia entre el mínimo y el máximo. Distancia intercuartiles: distancia entre los valores que delimitan el 25 % inferior y superior de los datos. Desviación estándar: promedio de las distancias absolutas de los valores a la media. Medidas de "dispersión"
Medidas de "dispersión" Precisión Exactitud Cuartiles: Son los números que dividen a los datos ordenados en cuatro grupos de igual cantidad de valores. Primer cuartil (cuantil 0,25) Tercer cuartil (cuantil 0,75) 25% 75% 75% 25% Percentiles: Valor Xp tal que P % de los valores de la población son menores o iguales a Xp. Segundo cuartil (cuantil 0,50)
¿Cuántos valores están entre los percentiles 2,5 y 97,5? Medidas de "dispersión" Precisión Exactitud ¿Cuántos valores están entre los percentiles 2,5 y 97,5? Percentil 97,5 Percentil 2,5 95 % 2,5 % 2,5 % Percentiles: Valor Xp tal que P % de los valores de la población son menores o iguales a Xp.
Medidas de "dispersión" Precisión Exactitud Rango Distancia intercuartiles Desviación estándar Error estándar Límites de confianza Error estándar: variabilidad de las medias muestrales alrededor de la media poblacional. Límites de confianza: … "intervalo alrededor del estadístico en el cual se puede tener cierta confianza en encontrar el parámetro"
Coeficiente de correlación Límites de confianza: Ejemplo: En un estudio de 64 sujetos, la correlación entre altura y peso fue de 0,68 (rango probable de 0,52 a 0,79). Valor observado Límite de confianza inferior Límite de confianza superior Coeficiente de correlación 0.00 0.50 1
¿Por qué se pueden saber estas cosas sin siquiera tener los datos? Límites de confianza Intervalo de confianza: diferencia entre los límites de confianza inferior y superior. Datos curiosos acerca de los IC de las variables “normales”: Para reducirlos a la mitad hay que cuadruplicar el tamaño de muestra Un intervalo al 99 % es 1,3 veces más amplio que uno al 95 %, pero para tener el mismo ancho necesita 1,7 veces el tamaño de muestra Un intervalo al 90 % tiene 0,8 veces el ancho de uno al 95 %, y se necesita solo 0,7 veces el tamaño de muestra para tener el mismo ancho. ¿Por qué se pueden saber estas cosas sin siquiera tener los datos?
… porque se ASUME que los datos tienen una distribución «prefijada» Límites de confianza … porque se ASUME que los datos tienen una distribución «prefijada» Para la media de una variable normal: Para la varianza de una variable normal: Para la diferencia entre dos medias de variables normales y con igual varianza: Para una proporción: Para la diferencia entre dos proporciones:
El resultado NO SIRVE para nada PREMISAS o ASUNCIONES: condiciones obligatorias que deben cumplirse para que un análisis sirva, y que se relacionan con las condiciones en las cuales se diseñó el método. Concepto importante ¿Que pasa si calculo el área de un cuadrado usando la fórmula del círculo? Lado=r Área A= π*r2 El resultado NO SIRVE para nada
PREMISAS o ASUNCIONES: condiciones obligatorias que deben cumplirse para que un análisis sirva, y que se relacionan con las condiciones en las cuales se diseñó el método. Equivalente a: Z2= - 2,5217 0,9941 … aplicar las fórmulas de probabilidades de la distribución Z si los datos no son de una distribución normal…
“los métodos son robustos” PREMISAS o ASUNCIONES: condiciones obligatorias que deben cumplirse para que un análisis sirva, y que se relacionan con las condiciones en las cuales se diseñó el método. ¡Son restrictivas! Lado=r Área (Lado=1/2r)≈(radio=r) Área … tendencia a “relajarlas” “los métodos son robustos” A= π*r2
Estadísticos de la muestra Límites de confianza: Ejemplo de cálculo: Longitud 4,0 2,4 3,0 2,5 3,2 3,1 0,9 1,6 Nivel deseado de confianza: 95 % Estadísticos de la muestra α = 1 – 0,95 = 0,05 n – 1 = 10 – 1 = 9 t0.05,9 = 2,262 Límite inferior al 95% de confianza: 2,6 – (0,28 × 2,262) = 2,0 Límite superior al 95% de confianza: 2,6 + (0,28 × 2,262) = 3,2 Intervalo para el 95% de confianza: N = 10
Aspectos generales sobre las pruebas de hipótesis estadísticas A) Nociones básicas B) Pruebas de hipótesis C) Sustituyendo B por A
¿Hay diferencias entre las muestras? Pruebas de hipótesis Métodos para calcular un valor de Pobs a partir de un conjunto de datos, respecto a una pregunta comparativa. Ejemplo: Se miden las tallas a dos muestras de dos poblaciones de mariposas. X X ¿Hay diferencias entre las muestras? ¿Media 1 ≠ Media 2? ¡Por supuesto!
¿Hay diferencias entre las POBLACIONES de donde salieron las muestras? Pruebas de hipótesis Métodos para calcular un valor de Pobs a partir de un conjunto de datos, respecto a una pregunta comparativa. Ejemplo: Se miden las tallas a dos muestras de dos poblaciones de mariposas. ? X X ¿Hay diferencias entre las POBLACIONES de donde salieron las muestras?
Pruebas de significación de hipótesis nulas Pruebas de hipótesis Métodos para calcular un valor de Pobs a partir de un conjunto de datos, respecto a una pregunta comparativa. Ejemplo: Se miden las tallas a dos muestras de dos poblaciones de mariposas. X X Pruebas de significación de hipótesis nulas Algoritmo: Si no fueran diferentes, ¿que probabilidad habría de obtener al azar muestras tan diferentes entre ellas como estas ya obtenidas?
Pruebas de hipótesis Métodos para calcular un valor de Pobs a partir de un conjunto de datos, respecto a una pregunta comparativa. “El mayor mito de la estadística contemporánea es la creencia de que una prueba es quien hace la decisión del resultado, cuando es, apenas un elemento que opcionalmente puede el investigador aportar para apoyar su propia decisión… si quiere hacerlo.”
!EL RESULTADO SIEMPRE LO DECIDE EL INVESTIGADOR! Pruebas de hipótesis Métodos para calcular un valor de Pobs a partir de un conjunto de datos, respecto a una pregunta comparativa. “La frase: “La prueba estadística demostró diferencias significativas para un 95 % de confianza” es sobrecogedora para los neófitos y convence a cualquier ignorante… pero es TOTALMENTE errónea” !EL RESULTADO SIEMPRE LO DECIDE EL INVESTIGADOR!
? ¿Decisión? Todas las mariposas tienen cuatro alas Encuentro una con seis alas 1/ 6001=0,0001 La probabilidad de encontrar una de seis alas es muy baja… Hay 6 000 mariposas con cuatro alas… ¿Que quiere decir este hallazgo? ? Que sucedió algo poco probable (¿mutación?) Que realmente todas las mariposas no tenían cuatro alas
Hipótesis alternativa ¿Decisión? Prueba estadística Hipótesis nula (Ho) Hipótesis alternativa (H1) H0: HIPÓTESIS NULA, hipótesis de no diferencias o de no significación, y que se asume siempre como que es la verdadera. H1: HIPÓTESIS ALTERNATIVA: incluye generalmente lo que se quiere probar, lo que se espera realmente.
¿Decisión? Prueba estadística Hipótesis nula (Ho) Hipótesis alternativa (H1) Calculo la probabilidad de que aparezcan los datos (asumiendo que se cumple la H0) ¿Poco probable? Mantengo la Ho y acepto que pasó algo poco probable No se sabe nunca cuál de estas dos opciones es la que realmente sucede DECIDO Rechazo la Ho
¿Decisión? Prueba estadística Hipótesis nula (Ho) Hipótesis alternativa (H1) Calculo la probabilidad de que aparezcan los datos (asumiendo que se cumple la H0) ¿Cuando algo es tan poco probable que uno puede tener certeza de que no va a suceder? ¿Poco probable? DECIDO
Hipótesis alternativa ¿Decisión? 100 % 0 % Prueba estadística Muy probable Hipótesis nula (Ho) Hipótesis alternativa (H1) Calculo la probabilidad de que aparezcan los datos (asumiendo que se cumple la H0) α ¿Poco probable? < 5 % Poco probable DECIDO
TODAS las pruebas estadísticas se basan en el siguiente algoritmo: Parámetro Estadístico … … Frecuencia Muestras aleatorias Valores de los Estadísticos
DS TODAS las pruebas estadísticas se basan en el siguiente algoritmo: Promedio Frecuencia con que aparecen los estadísticos (muestrales) DS 1/2 Rango Distancia intercuartiles Mínimo Máximo Estadísticos Percentil 25 Percentil 75
TODAS las pruebas estadísticas se basan en el siguiente algoritmo: “Límites de confianza” Frecuencia con que aparecen los estadísticos (muestrales) 2,5 % 95 % 2,5 % Estadísticos Percentil 2,5 Percentil 97,5
TODAS las pruebas estadísticas se basan en el siguiente algoritmo: “Distribución de probabilidades del estadístico” Frecuencia con que aparecen los estadísticos (muestrales) Área = probabilidad 95 % Valores de los Estadísticos
TODAS las pruebas estadísticas se basan en el siguiente algoritmo: “Distribución de probabilidades del estadístico” 5% de probabilidad de encontrar estos valores del estadístico (muy poco probable) Frecuencia con que aparecen los estadísticos (muestrales) Valores de los Estadísticos
Distribución teórica Región de Aceptación TODAS las pruebas estadísticas se basan en el siguiente algoritmo: Denominaciones en las pruebas de hipótesis: Distribución teórica Frecuencia Nivel de significación (alfa= 5 %) Región de Aceptación (de la Ho) Región de Rechazo (de la Ho) Estadístico tabulado (teórico) Valores críticos
Esta figura es el CORAZÓN de todas las pruebas estadísticas TODAS las pruebas estadísticas se basan en el siguiente algoritmo: Denominaciones en las pruebas de hipótesis: Esta figura es el CORAZÓN de todas las pruebas estadísticas Frecuencia con que aparecen los estadísticos (muestrales) Región de Aceptación (de la Ho) Región de Rechazo (de la Ho) Región de Rechazo (de la Ho) Estadístico tabulado (teórico)
TODAS las pruebas estadísticas tienen las mismas características: Un nombre propio (generalmente del autor) Un objetivo específico Una fórmula propia (Es el estadístico a calcular con la muestra) Una tabla (donde el autor puso las probabilidades de obtener cada valor del estadístico para cada n y nivel de significación deseado) Una serie de premisas (Condiciones seguidas por el autor cuando hizo la tabla)
TODAS las pruebas estadísticas tienen las mismas características: Ejemplo: Nombre: Prueba t de Student Objetivo: comparar dos medias muestrales Fórmula: t = (X1-X2)/ES1-2 Tabla: tabla t Premisas: Los datos de la tabla fueron calculados de: Población de distribución normal Con datos tomados aleatoriamente de esta Con independencia entre las muestras Homogeneidad de varianza entre todas las muestras
TODAS las pruebas estadísticas la misma secuencia de pasos: Establecer Ho y H1 Ho: X1=X2 H1: X1≠X2 Elegir la prueba a usar Prueba t Comprobar las premisas de esta prueba Si no hay ajuste (transformar datos o seleccionar otra prueba) Buscar los valores críticos Establecer la región de rechazo. Aplicar la prueba Calcular t con los datos Determinar donde cae Tomar una decisión Rechazo H0 “Acepto” H0 Distribución teórica de t (tabla) t práctica =
TODAS las pruebas estadísticas la misma secuencia de pasos: Establecer Ho y H1 Ho: X1=X2 H1: X1≠X2 Elegir la prueba a usar Prueba t Comprobar las premisas de esta prueba Si no hay ajuste (transformar datos o seleccionar otra prueba) Buscar los valores críticos Establecer la región de rechazo. Aplicar la prueba Calcular t con los datos Determinar donde cae Tomar una decisión
Prueba no significativa Cada decisión categórica que se haga conlleva una probabilidad de error: Región de aceptación de Ho Valores Prueba significativa ¡Si hay diferencias! error de tipo I Prueba no significativa ¡No hay diferencias! error de tipo II
= Actualmente… Estadística Pruebas de hipótesis Artículos, 2005 (N=50/revista) - Pruebas de hipótesis - Métodos de teoría de la información - Métodos bayesianos u otros
Actualmente… Estadística = Pruebas de hipótesis
Surgimiento de las pruebas de hipótesis Un poco de historia Surgimiento de las pruebas de hipótesis Historia de la Biología Historia Natural (Enfoque Descriptivo) Biología cuantitativa Las verdaderas raíces de la Estadística moderna yacen en las ciencias biológicas Siglo XIX Siglo XX Ronald Aylmer Fisher 1890 -1962 Karl Pearson 1857 -1936 Las mayores innovaciones estadísticas actuales provienen de revistas como Biometrics y la Journal of Agricultural, Biological, and Environmental Statistics.
Surgimiento de las pruebas de hipótesis Un poco de historia Surgimiento de las pruebas de hipótesis Década de los años 20 Matemático británico. Sus proyectos estadísticos rápidamente cobraron importancia y fueron rápidamente aplicados en biología, a la experimentación agrícola, médica e industrial. Fisher Ronald A. Fisher 1890 -1962 También contribuyó a clarificar las funciones que desempeñan la mutación y la selección natural en la genética, particularmente en la población humana.
Surgimiento de las pruebas de hipótesis Un poco de historia Surgimiento de las pruebas de hipótesis Década de los años 20 Interpretación de Fisher del valor de p: Probabilidad de valores absolutos tan o más extremos que el observado si el verdadero valor fuera de cero (o nulo). Ejemplo: 20 sujetos, correlación = 0,25, p = 0,29. Introduce el cálculo de… …que tendría un papel informal en el análisis de las inferencias. Medida de la discrepancia de los datos con la hipótesis de igualdad p ( ) Fisher Funciones: Medida del carácter probatorio del experimento Para reflexionar sobre la credibilidad de la hipótesis nula en función de los datos. Debía combinarse con otras fuentes de información sobre el fenómeno en estudio antes de llegar a alguna conclusión. Ronald A. Fisher 1890 -1962
Surgimiento de las pruebas de hipótesis Criterio FALSACIONISTA Un poco de historia Surgimiento de las pruebas de hipótesis Década de los años 20 Círculo de Viena grupo de filósofos y científicos que llegó a constituir una importante escuela de pensamiento en el ámbito de la filosofía occidental contemporánea. “… calcular la probabilidad no falsa nada” Karl Popper Karl Raimund Popper (Viena, 1902 - Londres, 1994) Positivismo Lógico Criterio FALSACIONISTA La lógica de la investigación Resaltaban la importancia de la comprobación científica y del empleo de la lógica formal: Godel, Poincaré, Einstein, Russell, … “La armazón de la ciencia se dirige no a la verificación, sino a la demostración de la falsedad de las proposiciones científicas”.
Logik der Forsehung Viena, 1934 Pág. 243, edición española 1980
Surgimiento de las pruebas de hipótesis Un poco de historia Surgimiento de las pruebas de hipótesis Neyman y Pearson (1928) Procedimiento para realizar inferencias “Pruebas de hipótesis”. “Reglas de decisión diseñadas para eliminar de los datos el efecto del azar”
Surgimiento de las pruebas de hipótesis Un poco de historia Surgimiento de las pruebas de hipótesis Neyman y Pearson (1928) Proponen: Inventar una hipótesis alterna, contraria a la de la investigación Intentar falsarla ( para ir de acuerdo con Popper) Si se demuestra falsa la nula apoyo a la hipótesis original Definen: Se calcula: : tasa de falsos positivos … Y se adopta una decisión: : tasa de falsos negativos
No son análogas Cambian la interpretación de la P Fisher Un poco de historia Surgimiento de las pruebas de hipótesis Cambian la interpretación de la P Fisher Neyman y Pearson Medida de evidencia contra la hipótesis nula No son análogas Tasa de errores positivos. Evidencia a favor de la hipótesis alternativa
Surgimiento de las pruebas de hipótesis Un poco de historia Surgimiento de las pruebas de hipótesis Hipótesis científica Generalización a un conjunto inabarcable de casos Científicas vs Estadísticas Proposiciones generales de carácter afirmativo que se enuncian para dar la respuesta tentativa más satisfactoria a un problema científico. homólogas pero no análogas Relaciones lógicas entre estadígrafos, expresadas en términos matemáticos, que forman parte de un método estadístico decisional dicotómico. “Hay confusión entre las pruebas de las hipótesis popperianas con las pruebas de Fisher de las hipótesis nulas: las primeras someten las ideas a falsación mientras que las segundas intentan apoyarlas, rechazando hipótesis nulas que casi siempre se saben falsas desde el inicio.” Ideas Ho y H1
Cambian la interpretación de la P Fisher Neyman y Pearson K. Pearson Un poco de historia Surgimiento de las pruebas de hipótesis Cambian la interpretación de la P Fisher Neyman y Pearson (hijo) K. Pearson (padre) Editor principal de Biometrika
¿Que significa exactamente esta p? Elementos comunes de todas las pruebas Requieren de una serie de asunciones (que hay que comprobar antes) Dan los mismos resultados: Valor del estadístico Grados de libertad p asociada ¿Que significa exactamente esta p? La P sintetiza la esencia propia de la estadística frecuentista, todo su trasfondo filosófico-metodológico y es, a la vez, la fuente de sus mayores críticas
Sobre el significado de la P de las pruebas de hipotesis Existe una dificultad enorme en la interpretación y manejo de la definición formal del valor de P de las pruebas Sobre el significado de la P de las pruebas de hipotesis
Arbitrariedad del valor crítico Dependencia del tamaño muestral Se calcula con muchas asunciones restrictivas Problemas asociados al valor de P Arbitrariedad del valor crítico Dependencia del tamaño muestral Inconexión con el significado científico Incertidumbre asociada a su interpretación Las muestras demasiado pequeñas pueden servir para no probar nada, … Las muestras demasiado grandes pueden servir para no probar nada. Sacket (1979)
Arbitrariedad del valor crítico Dependencia del tamaño muestral Se calcula con muchas asunciones restrictivas Problemas asociados al valor de P Arbitrariedad del valor crítico Dependencia del tamaño muestral Inconexión con el significado científico Incertidumbre asociada a su interpretación ¡NUNCA confundir significación estadística con significación biológica! “Statistically significant results are not necessarily important or even interesting”
Grupo de Vancouver (2001) (Comité Internacional de Directores de Revistas BioMédicas) “Describa los métodos estadísticos con el suficiente detalle para permitir, que un lector versado en el tema con acceso a los datos originales, pueda verificar los resultados publicados. En la medida de lo posible, cuantifique los hallazgos y presente los mismos con los indicadores apropiados de error o de incertidumbre de la medición (como los intervalos de confianza). Se evitará la dependencia exclusiva de las pruebas estadísticas de verificación de hipótesis, tal como el uso de los valores P, que no aportan ninguna información cuantitativa importante”.
Publicaciones que analizan las distorsiones metodológicas en las aplicaciones estadísticas: Rosen y Hoffman, 1978 Underwood, 1981 Hulbert, 1984 Cox, 1980 Madden et al., 1989 Kroodsma, 1989 Hulbert y White, 1993 Stewart-Oates, 1995 Camus y Lima, 1995 Rumana et al., 1999 … Stephens et al. 2006 Laara, 2009 …2011… Preocupación “Resulta alarmante que, a pesar de ello y de la proliferación de artículos de revisión que continuamente señalan estos problemas estadísticos o proponen alternativas, se mantengan los errores en las investigaciones biológicas. Pareciera que los biólogos prefieren cerrar los ojos y continuar haciendo las cosas mal, que zambuirse en nuevas corrientes.” Day y Quinn (1989) “El primer paso para resolver un problema es aceptar que existe, el segundo, es identificarlo adecuadamente.”
Si las pruebas de hipótesis son tan “malas”… ¿por qué se han usado tanto y se siguen usando? Desconocimiento (cajas negras) Sesgo histórico (enemistad Pearson – Fisher) Simplicidad, facilismo y mecanicismo Similitud aparente a las pruebas de hipótesis de Popper Gran cantidad de programas “instantáneos” Supremacía de las ciencias experimentales manipulativas
Volviendo a la filosofía de las pruebas de hipótesis … Significado de “estadísticamente significativo": - P < 0,05 - Que el cero queda fuera del intervalo de confianza.
Coeficiente de correlación Volviendo a la filosofía de las pruebas de hipótesis … Ejemplo: cuatro correlaciones para n=20 r P Rango probable Coeficiente de correlación 0.00 0.50 1 -0.50 0,70 0,37 a 0,87 0,007 0,44 0,00 a 0,74 0,05 0,25 -0,22 to 0,62 0,29 0,00 -0,44 a 0,44 1,00
Comparando los resultados que se obtienen: Asteriscos (escala de Michellin) Valores de p Intervalos de confianza (Enfoque de Neyman - Pearson) (Enfoque de Fisher) Contenido de información Asunciones implicadas
¡Actualización! Pero…. si calcular la p no es adecuado… ¿Cómo evaluamos con precisión la certidumbre de nuestras inferencias inductivas? ¡Actualización!
¿Cómo demostrar algo estadísticamente sin hacer una "prueba estadística"? Alternativas Estadística Descriptiva Paramétrica Análisis multivariados Métodos de Montecarlo No Paramétrica Pruebas de aleatorizaciones ANOVAs Pruebas de hipótesis Pruebas de permutaciones (ej. Permanova, pruebas de Mantel, Twinspan, ANOSIM,…) Métodos de la Teoría de la Información Regresiones y correlaciones Métodos bayesianos Estadística frecuentista clásica Redes neurales
Capital de los Juegos de Azar Métodos de Montecarlo (Ulam y Von Neuman, 1946) Conjunto de algoritmos para simular procesos estocásticos (métodos numéricos para imitar una población estadística con parámetros prefijados). Capital de los Juegos de Azar Métodos de cálculo intensivo Montecarlo (Principado de Mónaco)
Prueba Intervalos de confianza Procedimiento para hacer comparaciones estadísticas sin pruebas de hipótesis con asunciones restrictivas Sustituir… Prueba Intervalos de confianza
CONCEPTO MUY CONTROVERTIDO Límites de confianza: CONCEPTO MUY CONTROVERTIDO … subestimado y muy mal usado! ¿Que quiere decir…? “La media de los tamaños fue de 20,9 cm y su intervalo de confianza al 95 % fue entre 15,7 y 26,2…” Límites de confianza: … "intervalo alrededor del estadístico en el cual se puede tener cierta confianza en encontrar el parámetro"
Medida de precisión Medida de exactitud Límites de confianza: Medida de precisión Medida de exactitud (si se calcula con la DE) (si se calcula con el EE)
¿Desviación estándar (DE)? (X-X) (X-X)<0 (X-X)>0 ((X-X)) 2 Muestra 4 6 7 9 10 11 12 13 14 15 3 4 5 6 7 8 9 10 11 12 13 14 15 16 37.21 16.81 9.61 1.21 0.01 0.81 3.61 8.41 15.21 24.01 Varianza Desviación estándar suma de cuadrados 116.90
¿Error estándar de la media (SEx)? Muestra 2 es la medida de la variabilidad de las medias muestrales alrededor de las media poblacional. Muestra 1 μ Muestra 3
¿Error estándar de la media (SEx)? ¿Diferencia con la Desviación Estándar? La DS cuantifica dispersión de los datos de la muestra tomada. La DS no disminuye necesariamente con el aumento de la N (puede aumentar o seguir constante) - El ES cuantifica cuan precisa es la media muestral en relación a la media poblacional que se está estimando. El ES siempre disminuye con el aumento de la N.
¡¡¡Siempre!!! 95,46 % ¿Y la media muestral? Límites de confianza: Se calculan… LC= Media ± 1,96*DSx ¡¡¡Siempre!!! Media 68,26 % - 1 SD + 1 SD 95,46 % 2*SD 2*SD ¿Y la media muestral? Interpretación: Medida de dispersión el 95 % de los valores de la muestra están entre ellos.
¿Y la media poblacional? Límites de confianza: Se calculan… LC= Media ± 1,96*DSx ¡¡Imposible saberlo!! Media 68,26 % - 1 SD + 1 SD 95,46 % 68,26 % 2*SD 2*SD ¿Y la media poblacional? Interpretación: Medida de dispersión el 95 % de los valores de la muestra están entre ellos.
- Estadísticos Aleatorios Límites de confianza: … "intervalo alrededor del estadístico en el cual se puede tener cierta confianza en encontrar el parámetro" Estadística clásica: - Parámetros FIJOS - Estadísticos Aleatorios Intervalo fijo + variable aleatoria Probabilidad de encontrar dicha variable en ese intervalo Intervalo fijo + variable fija Prob. de encontrar dicha variable en ese intervalo solo puede ser 1 (si está) o 0 (si no está) Intervalo aleatorio + variable fija Proporción de los intervalos que contienen esa “variable” fija
x µ ¿=? ¿=? Límites de confianza: Interpretación verdadera Probabilidad de que la media esté en el intervalo Probabilidad de el intervalo contenga la media ¿=? Probabilidad de me moje cuando llueve Probabilidad de que llueve cuando me moje ¿=? Interpretación verdadera Si se generaran intervalos de confianza alrededor de muchas muestras diferentes, en el 95 % de estos, la media POBLACIONAL estará incluida. x (Conocidas) µ (Desconocida)
¿Caerá la media poblacional en el intervalo que calcule con ella? Límites de confianza: Probabilidad de que la media esté en el intervalo Probabilidad de el intervalo contenga la media ¿=? PERO… … solo hay una muestra… x … LA MÍA… (Conocidas) µ ¿Cual es? ¿Caerá la media poblacional en el intervalo que calcule con ella? (Desconocida) ¡NI IDEA!
¡TAMPOCO se sabe! x µ ¿=? PERO… Límites de confianza: Probabilidad de que la media esté en el intervalo Probabilidad de el intervalo contenga la media ¿=? PERO… … solo hay una muestra… x … LA MÍA… (Conocidas) µ ¿Puedo al menos tener un 95% de confianza de que en este IC calculado sí esté? (Desconocida) ¡TAMPOCO se sabe!
Pero sobre todo, el mayor problema es… ¿CÓMO LOS INTERPRETO? Límites de confianza: !Tienen asunciones! Que uno ha hecho un muestreo aleatorio de la población estadística en cuyo valor de µ está interesado Que los valores de la población estadística muestran una distribución normal. Que todas las muestras tomadas de esa población siempre tienen la misma varianza Que cada muestra u observación es independiente de las demás. Pero sobre todo, el mayor problema es… ¿CÓMO LOS INTERPRETO? Problema: No todos los estadísticos o índices tienen una fórmula para calcular sus IC…
¿Cómo? Límites de confianza: Entonces ¿para que sirven? Medida de precisión Medida de exactitud Pasos: - Calcularlos por una vía sin asunciones ni interpretaciones rebuscadas - Emplear un algoritmo lógico similar al de las pruebas de hipótesis pero sin usar sus fórmulas (ni asunciones) Características: Es mejor que la DS para expresar la variabilidad de la medida ya que tiene una probabilidad más alta asociada (95 %). O sea, contiene el 95 % de los datos… (como un «rango» sin afectarse por outliers) Es más recomendado para expresar la exactitud de la estimación que el error estándar SSI se cumplen sus premisas. Pueden usarse para sustituir las pruebas de hipótesis ¿Cómo?
Paramétricos No paramétricos Límites de confianza: Asumen distribución log-normal Asumen distribución normal Utilizan métodos de remuestreo intensivo (…)
Asunciones primarias (universales): Los datos están bien tomados Pasos para su obtención: - Tomo la muestra… Muestra (n=10): 12 2 3 8 5 9 11 7 4 Asunciones primarias (universales): Los datos están bien tomados Los datos son aleatorios y representativos de la población estadística
Pasos para su obtención: - Tomo la muestra… - Recreo una población estadística “infinita” las características de la muestra Muestra (n=10): 12 2 3 8 5 9 11 7 4 - Tomo al azar un número muy grande de muestras de esta población simulada - Calculo en todas ellas la media - Busco entre cuales valores la media “poblacional” aparece el 95 % las veces
Análisis de MonteCarlo Principio básico: repite un mismo cálculo N (muchas) veces en una hoja de cálculo donde hay fórmulas aleatorias o volátiles. Fórmula volátil: tipo de formula del Excel que contiene algún elemento aleatorio que se re-calcula con cualquier operación que se haga en el programa, dando siempre un resultado diferente. Ejemplo: Random, resample,…
Análisis de MonteCarlo Principio básico: repite un mismo cálculo N (muchas) veces en una hoja de cálculo donde hay fórmulas aleatorias o volátiles. Celda de la fórmula a repetir Número de réplicas Celda para los resultados descriptivos Guardar la lista con los resultados de cada muestreo simulado (en una hoja aparte)
Pasos básicos: Pasar los datos a una columna de Excel Generar una nueva columna del mismo tamaño por un remuestreo aleatorio con reemplazamiento de los datos originales
Calcular en una celda aparte la media de la seudomuestra OJO: los valores cambiarán continuamente con cada acción en el programa (fórmulas «volátiles»)
Seleccionar la opción de Simulación de Montecarlo
Método de los percentiles Medias de las N replicas 49,0 (media “poblacional” simulada) 37,8 Real: 37,6 26,6 Método de los percentiles
Resumiendo: Pasos básicos en el Excel Pasar los datos Generar una nueva columna del mismo tamaño por un remuestreo aleatorio con reemplazamiento de los datos originales Calcular en una celda aparte la media de la seudomuestra obtenida Seleccionar la opción de Simulación de MonteCarlo Señalar la celda con la fórmula calculada Escribir el numero de simulaciones que se desean (usualmente entre 1000 y 10 000) Activar la opción de guardar los resultados de las simulaciones (keep results) Marcar una celda vacía para guardar el resultado y dar click en «Go» Para calcular los IC: ordenar de menor a mayor la lista de medias simuladas, numerarlas y buscar los valores que están en la ubicación 2,5 % y 97,5 % (percentiles) (para el IC al 95%) Opcionalmente: hacer un histograma de frecuencias de los valores obtenidos, para, visualmente, interpretar el resultado.
Ventajas de los ICMontecarlo No asume ninguna distribución teórica previa Nunca incluye valores ilógicos (negativos, fuera del rango de los datos reales, etc.) Los intervalos no tienen porqué ser simétricos (±) Se pueden calcular para cualquier estadístico (o índice) Interpretación directa: SI la muestra es adecuada (aleatoria y representativa), en una población con esas características, este intervalo tiene un 95 % de probabilidad de CONTENER la media poblacional.
Pasos: - Calcularlos por una vía sin asunciones ni interpretaciones rebuscadas - Emplear un algoritmo lógico similar al de las pruebas de hipótesis pero sin usar sus fórmulas (ni asunciones) ¿Cómo pueden los intervalos de confianza sustituir las pruebas de hipótesis? Tryon, W. W. (2001). Evaluating statistical difference, equivalence, and indeterminacy using inferential confidence intervals: An integrated alternative method of conducting null hypothesis statistical tests. Psychological Methods, 6, 371–386.
Paso #1 – Cambiar la mentalidad Determinación de la "significación" Estimación de los efectos Importante Verdadero De gran magnitud Con implicaciones biológicas Probable Significado de… “significación estadística”:
Paso #1 – Cambiar la mentalidad Determinación de la "significación" Estimación de los efectos Que un valor p -calculado por una fórmula con muchas asunciones que posiblemente no se cumplen, que no tiene nada que ver con su función o importancia biológica y que se relaciona de forma remota de lo que me interesa (es la probabilidad de falsos positivos)- es menor del 5 %. Significado de… “significación estadística”:
Paso #1 – Cambiar la mentalidad Determinación de la "significación" Estimación de los efectos
Paso #1 – Cambiar la mentalidad Determinación de la "significación" Estimación de los efectos Ejemplo: Comparación de los tamaños de dos especies de peces A y B A= 24,6 ± 4,2 cm B= 22,6 ± 3,5 cm ¿Qué es más informativo? Tamaño de efecto Los tamaños son estadísticamente diferentes para p<0,05 La diferencia media entre las especies es de 2,0 ± 0,8 g
Paso #1 – Cambiar la mentalidad Determinación de la "significación" Estimación de los efectos Tamaño de efecto: Comparaciones magnitud de la diferencia Asociaciones intensidad o magnitud de la relación OJO: se llama “estandarizado” cuando se relativiza por la media y la variabilidad para poder comparar efectos en variables o estudios diferentes
Paso #1 – Cambiar la mentalidad Algoritmo: Calcular el tamaño de efecto y la probabilidad de que sea cero Comparar ese tamaño de efecto con la magnitud que pudiera tener implicaciones biológicas Determinación de la "significación" Estimación de los efectos Tamaño de efecto: ¿Cuando dos medias son iguales? cuando el tamaño de efecto medio entre ellas es de cero ¿Cuando dos medias son diferentes biológicamente? cuando el tamaño de efecto medio entre ellas es diferente de cero y es superior a un valor umbral mínimo que tiene una repercusión biologica, y que es específico para esa variable.
Calcular los intervalos de confianza de los tamaños de efecto
Variante 1: Observar el grado de superposición de los IC en las muestras originales. Si los intervalos de confianza de dos muestras no se superponen, no se requiere de una prueba de hipótesis para asegurar la diferencia.
¿Que nos enseñó la Distribución Normal? Variante 1: Observar el grado de superposición de los IC en las muestras originales. ¿Que nos enseñó la Distribución Normal? Dos estimados (con iguales intervalos de confianza) SIEMPRE son significativamente diferentes (p<5 %), si la superposición entre ellos es menor de 0,293 de la longitud del IC. Schenker, N., y Gentleman, J. F. (2001). On judging the significance of differences by examining the overlap between confidence intervals. American Statistician, 55, 182–186.
¿Que nos enseñó la Distribución Normal? Variante 1: Observar el grado de superposición de los IC en las muestras originales. ¿Que nos enseñó la Distribución Normal? O sea: Las pruebas no son indispensables (en distribuciones perfectamente normales) Dif. * Dif. *** Dif. ns p < 0,05 p = 0,05 p > 0,05
Variante 2: Calcular los IC para los tamaños de efecto Tabla 1. Datos obtenidos Si A = B entonces A – B = ?? Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 -0,863 -0,770 0,211 -0,508 0,298 -0,810 -0,154 -0,710 -0,064 -0,390 Pero… A - B =… Promedio (A – B)= - 0,37 Pregunta: ¿Es - 0,37 diferente de 0,0? ¡Hay incertidumbre en el muestreo! Media = 2,099 SD=0,5 Media = 2,475 SD = 0,5
Vías para determinar la “significación” estadística de la diferencia Variante 2: Calcular los IC para los tamaños de efecto Tabla 1. Datos obtenidos Vías para determinar la “significación” estadística de la diferencia Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 -0,863 -0,770 0,211 -0,508 0,298 -0,810 -0,154 -0,710 -0,064 -0,390 A) Calcular el tamaño medio de efecto observado con su IC y ver si el cero queda dentro del intervalo B) Remuestrear los datos mezcados (modelo nulo o de no diferencias) y calcular el IC del tamaño de efecto aleatorio (cuya media es cero) y ver si el efecto observado queda dentro del intervalo Media = 2,099 SD=0,5 Media = 2,475 SD = 0,5
¿Entra el cero en el IC de las diferencias? Variante 2: Calcular los IC para los tamaños de efecto Tabla 1. Datos obtenidos A a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 B b1 b2 b3 b4 b5 b6 b7 b8 b9 b10 ¿Cuántos A-B tengo? Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11 d12 d13 d14 d15 d16 d17 d18 d19 d20 d21 d22 d23 d24 d25 d26 d27 d28 d29 d30 d31 d32 d33 d34 d35 d36 d37 d38 d39 d40 d41 d42 d43 d44 d45 d46 d47 d48 d49 d50 d51 d52 d53 d54 d55 d56 d57 d58 d59 d60 d61 d62 d63 d64 d65 d66 d67 d68 d69 d70 d71 d72 d73 d74 d75 d76 d77 d78 d79 d80 d81 d82 d83 d84 d85 d86 d87 d88 d89 d90 d91 d92 d93 d94 d95 d96 d97 d98 d99 d100 ¿Entra el cero en el IC de las diferencias? Media = 2,099 SD=0,5 Media = 2,475 SD = 0,5 N=10 N=10 NA-B= 10 x 10
¿Cuántos A-B, A-C y B-C tengo? Variante 2: Calcular los IC para los tamaños de efecto Tabla 1. Datos obtenidos A a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 B b1 b2 b3 b4 b5 b6 b7 b8 b9 b10 C c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 ¿Cuántos A-B, A-C y B-C tengo? Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 NA-B-C= 10 x 10 x 10 ¿Entra el cero en el IC de las diferencias? Media = 2,099 SD=0,5 Media = 2,475 SD = 0,5
Pasos en Excel + Poptools: 1- Copiar las columnas de datos a comparar (A y B) uno al lado del otro. 2- Hallar todas las posibles diferencias entre valores (posibles efectos) - Transponer la primera columna a la fila superior a la derecha de la muestra B. 3- Poner debajo de la primera columna la fórmula de la diferencia (fijando con $ la columna de la muestra B y la fila de los valores transpuestos de A) 4- Extender la fórmula hacia abajo hasta el final de las columnas de datos y luego hacia la derecha, hasta la última columna de los datos transpuestos. 5- Convertir la matriz en un vector de columna (PopTool/Matrix tools/Matriz to column vector). 6- Copiar los datos para otro programa estadístico y calcular los descriptivos (incluidos los IC 95%).
Pasos en Excel + Poptools:
Pasos en Excel + Poptools:
Pasos en Excel + Poptools:
Pasos en Excel + Poptools:
Calcular los IC por Montecarlo Pasos en Excel + Poptools: Calcular los IC por Montecarlo
Pasos en Excel + Poptools:
El cero aparece con muy poca probabilidad en las diferencias Pasos en Excel + Poptools: Interpretación: El cero aparece con muy poca probabilidad en las diferencias IC de las diferencias: Igualdad perfecta (A=B) Diferencias Estadísticas (casi nunca A=B) Interpretación verbal: la diferencia media entre las poblaciones A y B es de 37,05 cm, aunque por variaciones propias del muestreo aleatorio la mayoría de las veces se observan diferencias entre muestras que van desde 30,3 cm a 37,8 cm. Sin embargo, en todas las muestras, el promedio de la población A siempre fue menor que el de la B. Igualdad estadística ++(A=B)
Vía gráfica: Pasos en Excel + Poptools: Interpretación verbal: El muestreo indica que la especie A tiende a ser alrededor de 37,05 cm inferior a B, aunque pueden observarse diferencias extremas de 37,7 cm y 28,9 cm solo por azar. El efecto observado es estadísticamente diferente de cero. Diferencia media simulada Igualdad (dif=0) Percentiles (5%) IC 95 %
Vías para determinar la “significación” estadística de la diferencia Variante 2: Calcular los IC para los tamaños de efecto Tabla 1. Datos obtenidos Vías para determinar la “significación” estadística de la diferencia Modelo nulo: Dado un mecanismo de interés, es el modelo de cómo debían ser los datos en ausencia dicho mecanismo. Ejemplo: En una comparación de dos muestras, el modelo nulo es un conjunto muy grande de valores formados por la unión de ambos conjuntos de datos, donde las diferencias posibles entre dos muestras que se extraigan del mismo, se deberían solo al azar del muestreo. Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 -0,863 -0,770 0,211 -0,508 0,298 -0,810 -0,154 -0,710 -0,064 -0,390 A) Calcular el tamaño medio de efecto observado con su IC y ver si el cero queda dentro del intervalo B) Remuestrear los datos mezcados (modelo nulo o de no diferencias) y calcular el IC del tamaño de efecto aleatorio (cuya media es cero) y ver si el efecto observado queda dentro del intervalo Media = 2,099 SD=0,5 Media = 2,475 SD = 0,5
Filosofía de los modelos nulos Variante 2: Calcular los IC para los tamaños de efecto Filosofía de los modelos nulos Tabla 1. Datos obtenidos H0: A=B Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 H0: A-B=0 ¿Hipótesis nula?: Las observaciones de dos grupos fueron tomadas de la misma distribución, por tanto cualquier diferencia entre ellas se debe solo a variaciones en el muestreo H1: A≠B ¿Hipótesis alternativa?: Las poblaciones son diferentes H1: A-B≠0
(distribución normal) Variante 2: Calcular los IC para los tamaños de efecto Prueba clásica (paramétrica): Prueba t de Student (distribución normal) Paso previo: prueba de normalidad Resultado?: p>0,05 Resultado prueba t: p = 0,03 Conclusión: Se rechaza la hipótesis nula. Las medias si difieren estadísticamente. Tabla 1. Datos obtenidos Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 PERO: tamaño de la muestra es pequeño (n=9) ¿Potencia de la prueba de normalidad? ¿La prueba está diciendo que son normales o solo que no tenía muestra suficiente?
azar ¿Serán diferentes entonces las medias de las columnas? Variante 2: Calcular los IC para los tamaños de efecto Tabla 1. Datos obtenidos Enfoque por remuestreo: Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 Se crea, a partir de estos valores una distribución de datos que no sean diferentes. ¿Serán diferentes entonces las medias de las columnas? azar Media = 2,099 Media = 2,475 Media = 2,241 Media = 2,175 A’-B’ = 0,166 A-B = -0,376 Se repite el proceso K veces
Variante 2: Calcular los IC para los tamaños de efecto Ej. 100 veces Tabla 1. Datos obtenidos Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 Como A’=B’: media (A’-B’)= 0 Media = 2,099 Media = 2,475 -0,4 +0,4 A-B = -0,376 Variaciones aleatorias
¿El efecto observado queda dentro del IC 95 % del efecto nulo? Variante 2: Calcular los IC para los tamaños de efecto +0,4 -0,4 +0,3 -0,3 Tabla 1. Datos obtenidos Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 -0,305 IC 95% 0,321 ¿El efecto observado queda dentro del IC 95 % del efecto nulo? Interpretación: hay diferencias significativas. Media = 2,099 Media = 2,475 A≠B NO A-B = -0,376
Variante 2: Calcular los IC para los tamaños de efecto +0,4 -0,4 +0,3 -0,3 Tabla 1. Datos obtenidos -0,376 Interpretación: El muestreo indica que la especie A tiende a ser alrededor de 0,376 cm inferior a B. La probabilidad de encontrar estas diferencias solo por azar si las especies fueran iguales, es de menos del 3 %. Grupo A Grupo B 1,5280023 2,3911140 1,5796451 2,3495882 1,7569381 1,5457838 2,0003555 2,5079909 2,1992176 1,9012694 2,2393356 3,0497212 2,3362302 2,4903026 2,3478050 3,0579611 2,4048542 2,4691612 2,5997461 2,9897938 2 veces 98 veces ¿Cuántas veces el efecto obtenido solo por azar fue igual o mayor de -0,376? (#>+#=) /100=(2+1)/100 p=0,03 Media = 2,099 Media = 2,475 A-B = -0,376 Poco probable
(enfoque de Neyman - Pearson) Variante 2: Calcular los IC para los tamaños de efecto Probabilidad Comparar la p con alfa (0,05) y decidir (enfoque de Neyman - Pearson) Mantener como valor de p exacta (enfoque de Fisher) Interpretación B: Las poblaciones de A y B son estadísticamente diferentes para una significación de 0,05. Interpretación A: Si las poblaciones de A y B fueran iguales, tendría una probabilidad de menos del 0,03 % de haber obtenido estas muestras. p=0,03
≠ Comparación: Variante 2: Calcular los IC para los tamaños de efecto Enfoque Clásico (asintótico/paramétrico) Enfoque por modelos nulos PERO Asunciones Incertidumbre ¿Cómo se interpreta la p? Resultado prueba t: p = 0,03 Resultado modelo nulo: p = 0,03 ≠ P de Neyman - Pearson P de Montecarlo - Probabilidad de rechazar una hipótesis de nulidad (H0) cuando realmente fuera verdadera: tasa de errores positivos. - Probabilidad de obtener la diferencia (H1) solo por azar en una distribución nula.
¿Cuántas aleatorizaciones hacen falta? Variante 2: Calcular los IC para los tamaños de efecto ¿Cuántas aleatorizaciones hacen falta? 500 (2 seg) 100 (1 seg) 1000 (4 seg) 10 000 (32 seg) 100 000 (7,4 min) Media IC inf IC sup Iteraciones -33,30 -37,33 -30,35 100 -33,14 -36,50 -29,90 500 -33,27 -36,64 -29,66 1000 -33,21 -36,54 -29,87 10000 -33,19 -36,55 -29,83 100000
¿Ventajas de sustituir las pruebas de hipótesis por los intervalos de confianza? 1- No tiene premisas restrictivas que tienen que cumplirse. 2- No tienes que partir de hipótesis a priori 3- No necesita “inventar” una falsa hipótesis nula 4- Se enfoca en la magnitud de las diferencias (en unidades de la propia medida) 5- Permite distinguir entre las diferencias estadísticamente significativas de las biológicamente significativas
¿Cómo separar la significación “biológica” de la “estadística”? Ejemplo: ¿Hay diferencias entre sexos en el peso en una especie de rata? Diferencia que sería biológicamente importante +10 Tamaño de efecto considerado a priori como significativo +5 -5 -10
¿Cómo separar la significación “biológica” de la “estadística”? Ejemplo: ¿Hay diferencias entre sexos en el peso en una especie de rata? +10 +5 Interpretación: no hay evidencia suficiente de que hallan o no diferencias (=falta de potencia) -5 -10 No hay diferencias significativas (casos puntuales pueden ser diferentes)
¿Cómo separar la significación “biológica” de la “estadística”? Ejemplo: ¿Hay diferencias entre sexos en el peso en una especie de rata? +10 Interpretación: hay diferencias estadísticas pero no son biológicamente significativas. +5 -5 -10 Hay diferencias estadísticas (pero nunca superan los umbrales de significación biológica)
¿Cómo separar la significación “biológica” de la “estadística”? Ejemplo: ¿Hay diferencias entre sexos en el peso en una especie de rata? +10 Interpretación: estadísticamente son diferentes pero no hay evidencia de que estas diferencias tengan importancia biológica (algunas muestras si). +5 -5 -10 Hay diferencias estadísticamente significativas (pero la mayoría no supera los umbrales de significación biológica)
¿Cómo separar la significación “biológica” de la “estadística”? Ejemplo: ¿Hay diferencias entre sexos en el peso en una especie de rata? +10 +5 Interpretación: hay diferencias estadísticas y biológicamente significativas. -5 -10 Hay diferencias estadísticas y biológicas fuertes
¿Cómo separar la significación “biológica” de la “estadística”? Ejemplo: ¿Hay diferencias entre sexos en el peso en una especie de rata? +10 +5 No hay diferencias de ningún tipo -5 -10 Interpretación: no hay ninguna diferencia entre sexos
La pregunta de si los intervalos de confianza deben reemplazar las pruebas de significación puede ser respondida con un cauto “sí”. Los intervalos de confianza contienen la información de una prueba por tanto no hay pérdida de información adicional ni ningún otro riesgo cuando las sustituyen. Vistos de forma conjunta los IC, en adición a la replicación, las ilustraciones gráficas y los meta-análisis parecen representar una alternativa metodológica superior a las pruebas de significación. Por tanto, a largo plazo, los IC parecen prometer una avenida más fructífera para la investigación científica.
¿Preguntas?
Schenker, N. , y Gentleman, J. F. (2001) Schenker, N., y Gentleman, J. F. (2001). On judging the significance of differences by examining the overlap between confidence intervals. American Statistician, 55, 182–186. Tryon, W. W. (2001). Evaluating statistical difference, equivalence, and indeterminacy using inferential confidence intervals: An integrated alternative method of conducting null hypothesis statistical tests. Psychological Methods, 6, 371–386.