La reemergencia bayesiana en el Siglo XXI: los detalles de un episodio simple y elocuente Luis Carlos Silva Ayçaguer CNICM, La Habana Barcelona 2 de diciembre,

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

Intervalos de Confianza para la Media de la Población
Intervalos de Confianza para la Varianza de la Población
DISEÑO DE EXPERIMENTOS
ESTIMACION DE PARAMETRO
Curso de Bioestadística Parte 10 Inferencias de una proporción
Distribución de muestreo
Tema 15. Contraste de hipótesis: Planteamiento de las hipótesis
Dr.. Roy Martin Angulo Reyes
Pruebas de hipótesis.
Contraste de Hipótesis
Capítulo 10 Test de Hipótesis.
Estimación de parámetros poblacionales
El paradigma bayesiando: una alternativa al enfoque frecuentista
Estadística Teórica II
Tema 7: Introducción a los contrastes de hipótesis
Bioestadística Diplomado en Sanidad
} LISSET BÁRCENAS MONTERROZA
Comprobación de diferencias entre medias
Tema 7: Introducción a los contrastes de hipótesis
La prueba U DE MANN-WHITNEY
PRUEBAS DE HIPOTESIS Un grupo - medias (s conocida)
PRUEBAS DE HIPOTESIS HIPOTESIS
Estimación por intervalos de confianza.
Prueba de Hipótesis La Prueba t Carlos B. Ruiz-Matuk.
Supongamos que seleccionamos al azar a dos alumnos de dos cursos diferentes que llamaremos D8 y C1…
Estimación por Intervalos de confianza
Inferencia Estadística
Intervalos de confianza
Distribuciones muestrales Procedimientos de muestreo
Introducción a la lectura crítica de un ensayo clínico
Estadística Administrativa II Período pasos para probar hipótesis 1.
Pruebas de hipótesis Walter Valdivia Miranda
9 Regresión Lineal Simple
Prueba de hipótesis Equivalencia entre la prueba de hipótesis y los intervalos de confianza Valor de probabilidad Valor de probabilidad unilateral Prueba.
Inferencia Estadística
Unidad VI: PRUEBAS DE HIPOTESIS
Clases 4 Pruebas de Hipótesis
Diseño Estadístico y Herramientas para la Calidad
HAWKES LEARNING SYSTEMS math courseware specialists Copyright © 2010 by Hawkes Learning Systems/Quant Systems, Inc. All rights reserved. Capítulo 12 Más.
UNIVERSIDAD INCA GARCILASO DE LA VEGA
Tema 17: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
Tema 7: Introducción a los contrastes de hipótesis
Fundamentos del contraste de hipótesis
Estadística aplicada a la educación
Tema : Introducción a los contrastes de hipótesis
Unidad V: Estimación de
TALLER DE ESTADÍSTICA BAYESIANA Y SUS APLICACIONES EN LA EVALUACIÓN DE MEDICAMENTOS: HACIA UN NUEVO PARADIGMA INFERENCIAL Dr. Luis Carlos Silva Ayçaguer.
Análisis Cuantitativo de Datos (Básico)
Clase 4a Significancia Estadística y Prueba Z
ESTIMACIÓN ESTADÍSTICA POR INTERVALO DE CONFIANZA
Tamaño de Muestra y Poder del Estudio de Investigación  Los ingredientes para calcular el tamaño de muestra y como diseñar el estudio  Un ejemplo, con.
Unidad V: Estimación de
Tema: Pruebas de hipótesis
Pruebas de hipótesis.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Pruebas de hipótesis.
Tomando decisiones sobre las unidades de análisis
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
Prueba de Hipótesis Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional El estudio se plantea.
NORMA INTERNACIONAL DE AUDITORÍA 530
Aspectos generales de la investigación educativa en el SNIT
CONTRASTE DE HIPÓTESIS Dimensiones Largo275mm. 169 mm 2 Ancho175mm.49 mm 2 Alto175mm.49 mm 2 Peso16 Kg.1 Kg 2. SITUACIÓN PROBLEMA.
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
POBLACIÓN Y MUESTRA CÁLCULO DEL TAMAÑO MUESTRAL. Descripción e inferencia Población Muestra Muestreo Inferencia Resultado.
Estadística Inferencial
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
PRUEBA DE SIGNIFICANCIA
Transcripción de la presentación:

La reemergencia bayesiana en el Siglo XXI: los detalles de un episodio simple y elocuente Luis Carlos Silva Ayçaguer CNICM, La Habana Barcelona 2 de diciembre, 2011 Universidad Autónoma de Barcelona Servei d'Estadística

Thomas S. Kuhn ( ) La estructura de las revoluciones científicas (1962). Thomas S. Kuhn ( ) La estructura de las revoluciones científicas (1962). PARADIGMAS PARADIGMAS“(...)realizaciones científicas universalmente reconocidas que, durante cierto tiempo, proporcionan modelos de problemas y soluciones a una comunidad científica”.

Deconstrucción : “Desmontaje de un concepto o de una construcción intelectual por medio de su análisis, mostrando así contradicciones y ambigüedades”. Diccionario de la Real Academia Española

Valoración crítica de los valores “p” y las pruebas de significación

Anderson DR, Burnham KR (2002) Avoiding pitfalls when using information–theoretic methods. Journal of Wildlife Management 66: 912–918. “ la utilidad de los valores p es completamente limitada y nosotros nos mantenemos reclamando eutanasia para tales procedimientos”

Loftus GR (1991) On the tyranny of hypothesis testing in the social sciences. Contemporary Psychology 36: “es difícil imaginar una manera menos apropiada para traducir los datos en conclusiones”

Gill J (2004) Grappling with Fisher’s Legacy in Social Science Hypothesis Testing: Journal de la Société Française de Statistique psblade.ucdavis.edu/papers/denis.pdf “Las PSE no deberían siquiera existir, mucho menos deberían prosperar como el método dominante para presentar evidencias estadísticas en las ciencias sociales. Ellas entrañan una bancarrota intelectual y son profundamente inconsistentes tanto desde una perspectiva lógica como práctica.”

Rozeboom WW (1997) Good science is abductive, not hypothetico-deductive. En LL Harlow, SA Mulaik, & JH Steiger (Eds.), What if there were no significance tests? (pp. 335–391). Hillsdale, NJ: Erlbaum. Las PSE constituyen con toda seguridad el más idiota proceder jamás institucionalizado en el entrenamiento maquinal de los estudiantes de ciencia “ Las PSE constituyen con toda seguridad el más idiota proceder jamás institucionalizado en el entrenamiento maquinal de los estudiantes de ciencia ”

INFERENCIA ESTADÍSTICA A principios de siglo XX las anécdotas clínicas poblaban las revistas médicas ¿Qué significaban los resultados? EDITORES ¿Cómo cuantificar la evidencia y complementar los razonamientos verbales?

Karl Pearson ( ) Biometrika ( A journal for the statistical study of biological problems), fue fundada en 1901por Galton, Weldon, Pearson y Davenport.

Ronald Fisher (Londres, 1890-Australia, 1962) Aportes a la estadística: introducción de los valores p análisis de la varianza principio de la aleatorización idea de la replicación

Ho: la Sra. no tiene ese don Se observa el número de aciertos obtenidos Si se dice que hay una diferencia estadísticamente significativa T T T T L L L L L T L L T T T L

INFERENCIA ESTADÍSTICA Fisher (década de los 20) Ho: d=0 Se observa Medida de la discrepancia de los datos con la hipótesis, llamada a tener un papel informal ( no especificado ), junto con el resto de la información, en el flujo inferencial

Jerzy Neyman Egon Pearson En la década de los los valores p no resuelven el problema inferencial

INFERENCIA ESTADÍSTICA Se observa Y se adopta una decisión Si se rechaza Ho: d=0 se computa Si Se acepta Ho: d=0 Neyman y Pearson (década de los 30) Ho: d=0 H1: d  0

(1899) (1928) (1941) (1925)(1935)(1956) Departamento de EC, MP y SP e HC

Los padres de la estadística se divorcian Neyman :”los métodos de Fisher eran "peores que inútiles". Fisher: “ Neyman bien podría haber seleccionado un tema acerca del cual pudiera disertar con alguna autoridad" Pero también se divorcian de Bayes (Pearson, Neyman y Fisher eran antibayesianos furiosos

Transposición de condicionantes P(H|D) = P(D|H) Falacia

¿Cuál es la probabilidad de que un velocista que gane una medalla olímpica (M) sea negro (N)? ¿Cuál es la probabilidad de que una persona de raza negra elegido al azar (N) sea medallista olímplico (M)? P(N|M) =0.98 o más P(M|N)= o menos

“ Normas para la presentación de comunicaciones libres a premio al mejor trabajo” del XIII CONGRESO NACIONAL DE MEDICINA en Argentina del año 2003 “Las abreviaturas y siglas en tablas y figuras, deben aclararse en las leyendas respectivas, pero NS (no significativo), ES (error estándar), DS (desvío estándar), IC95 (intervalo de confianza del 95 %) y p (probabilidad de que la hipótesis nula sea cierta) no requieren aclararse.” p= P(H 0 |D)

Es importante que los investigadores sean precavidos con la potencia de sus experimentos; no solo han de poder detectarse los efectos buscados, sino que también debe evitarse la detección de pequeños efectos triviales. Rossi JS (1997) A case study in the failure of psychology as a cumulative science: The spontaneous recovery of verbal learning. En L. L. Harlow, S. A. Mulaik, & J. H. Steiger (Eds.), What if there were no significance tests? (pp. 175–197). Hillsdale, NJ: Erlbaum.

Sacket (1979) Las muestras demasiado pequeñas pueden servir para no probar nada, las muestras demasiado grandes pueden servir para no probar nada.

¿ SON IGUALES ESTAS DOS HORMIGAS?

Eligiendo entre dos trayectos urbanos en París Trayecto1Trayecto Promedio 2241 Prueba tt(20)=0,86p=0,18 10 veces 12 veces

Eligiendo entre dos trayectos urbanos en París n=10 tm=22 min n=12 tm=41 min p=0,18

n=232 tm=31 min n=225 tm=34 min P=0,02 Eligiendo entre dos trayectos urbanos en París

31 min 34 min

“En lo que concierne al tamaño muestral, es concebible que las diferencias en homeostasis de la glucosa y en la distribución de tejido adiposo entre los grupos pudiera haber sido detectadas con un tamaño de muestra mayor”. (Bitnun, 2003) “Se tomaron mediciones de la RVIP, pero no mostraron efectos de la ingestión de agua; sin embargo, no podemos descartar la posibilidad de que se hubieran detectado cambios con un tamaño de muestra mayor”. (Neave, Scholey, Emmett, Moss, Kennedy y Wesnes, 2001) “Es de esperar que en un estudio con un tamaño de muestra mayor, la diferencia entre estos valores y los del resto del grupo sea estadísticamente significativa”. (Perich, González, Valdés, Arranz, 2002)

“El presente estudio, de Salud mostró un aumento en el riesgo para la mortalidad neonatal, pero éste no fue significativo. Sin embargo, …con un mayor tamaño de muestra esta asociación, después del ajuste, podría ser significativa”. (Delgado, Muñoz, Orejuela y Sierra, 2003) “Con un tamaño de muestra mayor, estas diferencias pudieran pasar a ser estadísticamente significativas”. (Kowatch y col, 2000) “Aunque no confiable a los niveles convencionales de significación estadística, la tendencia de los datos sugiere que de haber tenido una muestra mayor, y por tanto mayor potencia, los hallazgos relacionados con el folato hubieran sido similares a los hallados para la vitamina B12”. (Bunce, Kivipelto y Wahlin, 2004)

“La adición de fluoxetina a la PUVA ha mostrado una tendencia hacia una más rápida mejoría, pero no alcanza el nivel de significación estadística. Por lo tanto, una muestra mayor puede ser considerada”. (Mitra, 2001) “Obsérvese que si bien hallamos que la diferencia entre el consumo de opiáceos para mujeres y hombres fue significativa, con, una muestra MENOR probablemente no la hubiéramos encontrado”. (Silva, 2011) CIENCIA FICCIÓN:

BAYES Y LA INFERENCIA INDUCTIVA BAYES CAPTÓ LA IMPORTANCIA DE DESARROLLAR UNA TEORÍA CUANTITATIVA Y EXACTA DEL RAZONAMIENTO INDUCTIVO

BAYES - PRICE -LAPLACE

El código “ENIGMA” y la 2ª Guerra Mundial

ALAN TURING (1912 – 1954)

Período Artículos en PUBMED Títulos Resúmenes Número de artículos registrados en PUBMED en cuyos títulos y resúmenes aparece el término “bayesian” en dos decenios consecutivos

Si la distribución a priori para  es N(  pr,  pr ) entonces la distribución a posteriori es N(  pt,  pt ) Los valores  pt,  pt dependerán de  pr,  pr y de los datos que se observaron (  dt,  dt ) según las fórmulas siguientes:

ViviendaHospital Total Mueren Sobreviven Total Tasa8.00%15.50% Reducción relativa: IC(95%): 0,23 – 0,97

Pocock SJ, Spiegelhalter DJ (1992) Grampian region early anistreplase trial, British Medical Journal 305: Editor: Mucha publicidad se ha dado, y se dará, a los hallazgos del ensayo con anistreplase en la región de Grampian en la que los pacientes que recibieron tratamiento trombolítico en la vivienda tuvieron un 49% menos de muertes que aquellos que la recibieron en el hospital. Desafortunadamente, el ensayo fue ciertamente muy pequeño como para estimar de una manera confiable una reducción en la mortalidad, de modo tal que la significación pudiera haberse alcanzado solo si (en virtud del azar o de un sesgo) una poco plausible diferencia muy grande se hubiera observado. En tales circunstancias un análisis bayesiano provee una interpretación útil una vez que se coloque un hallazgo sorprendente en el contexto de una visión a priori más cautelosa

En el propio artículo del grupo GREAT se decía:

Valoración a priori de Pocock y Spiegelhalter: IC(95%): 0,6 – 1,0 ViviendaHospital Mueren Sobreviven Total1000 Tasa12.90%15.50% ¿Cuál sería el odds ratio en esta situación? ¿Cuál ha de ser la tasa inherente al trombolítico para tener una reducción de 17% ?

Admitamos que sabemos que [Inf, Sup] es un intervalo de confianza para OR y que ln(OR) se distribuye normal N( ,  2 ). ¿Cuál sería el valor estimado de  y  ? Evidentemente, tendríamos: Por otra parte: De modo que se tiene: EN GENERAL, SE TIENE: y el valor de  es:

Si [Inf, Sup] es un intervalo de confianza para OR, aceptando que ln(OR) se distribuye normal N( ,  2 ), tenemos: EN SINTESIS:

Consideremos que: lnOR (datos) se distribuye N(  dt,  dt ) Si llamamos OR pr al OR a priori y llamamos Inf pr y Sup pr a sus límites de confianza, tendremos: lnOR (posteriori) se distribuye N(  pt,  p dt ) lnOR (priori) se distribuye N(  pr,  pr ) Si llamamos OR dt al OR procedente de los datos y llamamos Inf dt y Sup dt a sus límites de confianza, tendremos:  pt,  pt se pueden obtener ahora en función de  pr,  pr y  dt,  dt

En nuestro caso teníamos: IC(95%): 0,23 – 0,97IC(95%): 0,6 – 1,0 DATOSA PRIORI

Ya sabíamos que si la distribución a priori para  es N(  pr,  pr ) entonces la distribución a posteriori es N(  pt,  pt ) donde :

Usando toda la formulación anterior podemos calcular  pt y  pt, y con esos datos, ya se pueden obtener el OR a posteriori y su Intervalo de confianza:

IC(95%): 0,57 – 0,94 O sea, el OR a priori 0,47 pasa a ser a posteriori 0,73 Y la reducción relativa del riesgo pasa de 49% a 25% aproximadamente A priori Datos empíricos Bayes A poteriori orInfSuporInfSuporInfSup Finalmente, la estimación de OR a posteriori es El intervalo de probabilidad para  pt lo definen los extremos:  pt -1,96  pt =-0,524  pt +1,96  pt =-0,042 Aplicando exponencial a cada uno de estos extremos, se obtiene el intervalo de probabilidad al 95% para el OR a posteriori:

Finalmente, aplicando el exponencial al promedio de ambos extremos se obtiene la estimación de OR (pt) y aplicando exponencial a los propios extremos, el intervalo de probabilidad al 95% para el OR a posteriori: IC(95%): 0,6 – 0,9 O sea, el OR a priori 0,47 pasa a ser a posteriori 0,73 Y la reducción del riesgo pasa de 49% a 25% aproximadamente

Morrison, L., P. R. Verbeek, A. McDonald, B. Sawadsky, D. Cook Mortality and prehospital thrombolysis for acute myocardial infarction: a meta-analysis. Journal of the American Medical Association 283: Y ESTO ES VIRTUALMENTE LO MISMO QUE PRODUJO UN METANÁLISIS DESARROLLADO CASI 10 MÁS TARDE Lo cual dio lugar a los artículos de prensa

Silva LC, Muñoz A (2000) Debate sobre métodos frecuentistas vs bayesianos. Gaceta Sanitaria 14(6): URUGUAY COLOMBIA

How Statistical Expertise Is Used in Medical Research D. G. Altman, S. N. Goodman, S. Schroter

Douglas Altman

Goodman, S. (1999a). Toward evidence- based medical statistics, 1: the p value fallacy. Annals of Internal Medicine, 130, 995–1004. Goodman, S. (1999b). Toward evidence- based medical statistics, 2: the Bayes factor. Annals of Internal Medicine, 130, 1005–1013. Steven Goodman

D. G. Altman, S. N. Goodman, S. Schroter JAMA 2002

Dear Luis Carlos: My brief answer is this. In medical research we do not in general seek a yes/no answer, as is provided by significant/nonsignificant decisions, but rather hope to estimate the effect(s) of interest. By contrast, in the sort of study we did we were more interested in seeking evidence whether certain aspects of publications were related to the statistical involvement, and perhaps the magnitude of the effect is not of direct importance. But you are right that it is a bit inconsistent, for which I plead guilty. We were also under extreme pressure from JAMA to keep the manuscript brief, but I do not consider that that can be a real excuse. Even Bayesians (I do not consider myself one) do some (or many) of their statistical analyses using frequentist methods and they may even quote P values. There are many approaches and one chooses for each part of each study the one which seems most appropriate. Best wishes Doug Altman

Luis Carlos Silva Ayçaguer Investigador Titular Centro Nacional de Información de Ciencias Médicas (INFOMED) infomed.sld.cu :