Fco. Javier Burguillo Universidad de Salamanca

Slides:



Advertisements
Presentaciones similares
UNIVERSIDAD NACIONAL DE EDUCACIÓN Alma Máter del Magisterio Nacional
Advertisements

ANÁLISIS ESTADÍSTICO COMPUTARIZADO
ESTIMACION DE PARAMETRO
PRUEBAS DE HIPÓTESIS.
Clase No. 1.
Introducción a la Inferencia Estadística
FRANCISCO MARÍN HERRADA
Ejemplo Grafico.
ESTADISTICA INFERENCIAL
Inferencia estadística
Pruebas de hipótesis: Media de una población © Pedro Juan Rodríguez Esquerdo Departamento de Matemáticas Recinto de Río Piedras Universidad de.
Test de Hipótesis.
PRUEBA DE HIPOTESIS Denominada también prueba de significación, tiene como objetivo principal evaluar suposiciones o afirmaciones acerca de los valores.
De la muestra a la población
PRUEBA DE HIPOTESIS LUIS FERNANDO TRUJILLO LEYDER JULIAN GOMEZ
Curso de actualización en Ingeniería de calidad
Comprobación de diferencias entre medias
Binomial Poisson Hipergeométrico Modelos Discretos
Test de Kruskal- Wallis
Angela María Serna López Johana Elena Cortés Karina Mustiola Calleja
La prueba U DE MANN-WHITNEY
PRUEBAS DE HIPOTESIS Un grupo - medias (s conocida)
Contraste de Hipótesis ETSITGC Madrid Unidad Docente de Matemáticas.
8.3.- APROXIMACIOIN DE LA DISTRIBUCION BINOMIAL A LA NORMAL
puede o no ser verdadero, relativo a una o más poblaciones.
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
TEST DE HIPOTESIS Ho : hipótesis nula (afirmación cuya verdad o falsedad quiero contrastar) H1 : hipótesis alternativa (lo que acepto si rechazo H0) Ejemplo:
Uso de pruebas estadísticas paramétricas y no paramétricas
Bioestadística Aplicada I
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
Diseño de experimentos
Comparar grupos: t para muestras independientes
Prueba de hipótesis Equivalencia entre la prueba de hipótesis y los intervalos de confianza Valor de probabilidad Valor de probabilidad unilateral Prueba.
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Inferencia Estadística
Curso Práctico de Bioestadística Con Herramientas De Excel Fabrizio Marcillo Morla MBA (593-9)
Distribución Normal o gaussiana
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
Inferencia Estadística
Análisis y diseño de experimentos
Comparar medidas: t para muestras relacionadas
INTERVALOS DE CONFIANZA
U de Mann Whitney.
TAMAÑO MINIMO DE MUESTRA PARA COMPARACIONES DE PROMEDIOS Mario Briones L. MV, MSc 2005.
Contenido: 1. Para un parámetro poblacional 1.1. Información de partida: estadísticos muestrales 1.2. Información de partida: datos muestrales 2.
Capítulo 1. Conceptos básicos de la Estadística
CONTRASTE DE HIPOTESIS
INFERENCIA ESTADÍSTICA
COMPARACION DE MEDIAS Para comparar media utilizando la prueba T hay Ttres opciones diferentes utilizando contrastes de hipotesis sobre : PARA UNA MUESTRA.
¿Dónde está enterrado El Greco? La doctora Inferencia Estadística: ¿Dónde está enterrado El Greco? Contraste de hipótesis para una proporción Imagen de.
Pruebas de hipótesis.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
COMPROBACION DE HIPOTESIS SOBRE DOS PROMEDIOS Mario Briones L. MV, MSc 2005.
Prueba de Hipótesis Subtítulo
SELECCIÓN DE UNA PRUEBA ESTADÍSTICA
Prueba de Hipótesis Subtítulo
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
INTERVALO DE CONFIANZA
Prueba de Hipótesis Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional El estudio se plantea.
Diseños clásicos de Investigación utilizados en Psicología
20. Comparación de promedios entre grupos Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
INFERENCIA ESTADÍSTICA
Pruebas paramétricas y no paramétricas
21. Comparar promedios en medidas repetidas Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
DISTRIBUCIÓN “t” DE STUDENT
RESUMEN DE LA DISTRIBUCION MUESTRAL PARA LA MEDIA MUESTRAL X INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL  TIPO DE PROBLEMA ESPERANZA Y VARIANZA.
Bioestadística Inferencia estadística y tamaño de muestra
ANALISIS DE VARIANZA.
DISTRIBUCION “T” DE STUDENT
Transcripción de la presentación:

Fco. Javier Burguillo Universidad de Salamanca Tema 7 Tests estadísticos habituales Fco. Javier Burguillo Universidad de Salamanca

Etapas de una investigación Análisis : tests estadísticos, ajuste de curvas , A. multivariante…. Exploración de datos Obtención datos, calibrados, etc. Para hacer un buen análisis de datos hay que seguir sistematicamente unos pasos que no se deben omitir. Lo primero de todo es el diseño del experimento (plantearlo correctamente), viene luego la exploración exhaustiva de los datos y por último el análisis propiamente dicho. Veremos brevemente algunas ideas sobre el diseño de experimentos y luego nos centraremos en la exploración de datos que es el tema principal de esta charla. Diseño de experimentos Antecedentes Bibliográficos

Especificar población y muestra Conjunto todos los individuos Muestra Subconjunto individuos Inferencia estadística (Tests estadísticos) Estas variables se pueden haber medido en la población completa (que abarca todo el conjunto de los individuos) o en una pequeña muestra de la población, normalmente medir variables en la población es inviable y ahí es donde aparece la Estadística, con el fin de medir una variable en una muestra representativa y extender el resultado a la población (es lo que se llama inferencia estadística). Esta matización es muy importante, incluso se utiliza nomenclatura distinta para refererirnos a una propiedad de la muestra o de la población. Por ejemplo la media de la población se suele denotar con la letra mu y la de la muestra x. Media (m) Desviación Estándar (s) Media

Pasos en tests de contraste de hipótesis H1= Las 2 medias son diferentes (test bilateral o de 2 colas) 1) Decidir hipótesis nula y alternativa a comparar, por ej. con 2 medias: H0= Las 2 medias poblacionales son iguales (test unilateral ó 1 cola superior) H1= La media 1 es mayor que la 2 H1= La media 1 es menor que la 2 (test unilateral ó 1 cola inferior) 2) Decidir el test a usar: Paramétrico (test “t” Student) No Paramétrico (test U de Mann Whitney) 3) Fijar un nivel de probabilidad de equivocarse: Riesgo de equivocarse del 5 ó 1 % 4) Aplicar el test y “aceptar” el resultado

Tests paramétricos y no paramétricos Requisitos de los tests paramétricos: La muestra pertenece a una población cuya distribución de probabilidad es conocida (por ej. distribución normal). Comparan los grupos a través de un “parámetro” de la distribución (por ej: la media en la distribución normal). Se utilizan con muestras no muy pequeñas en las que es posible comprobar la distribución que siguen los datos. Requisitos de los tests no paramétricos: No se presupone que los datos sigan una distribución determinada. Se realizan con procedimientos de ordenación, rangos y recuentos. Se usan con muestras pequeñas (n < 10) en las que se desconoce la distribución que siguen los datos, también para corroborar los resultados obtenidos a partir de los tests paramétricos.

Tests paramétricos: La distribución normal Normal estandarizada: Entre las funciones de distribución de probabilidad, la más importante es la distribución normal o Gaussiana. Se

Otras distribuciones de interés Distribución t de Student: Distribución F de Snedecor : Y así otras muchas distribuciones como la distribución de Poisson, Ji-cuadrado…etc Otras distribuciones: Poisson, Ji-cuadrado, binomial.

Por ejemplo: comparación de 2 medias en muestras pequeñas por el test “t de student” Se quiere determinar si la presión sistólica en hombres y mujeres de Salamanca es la misma Distribuciones normales Misma varianza 15.2, 16.3, 17.2, 16.1,...........15.7 14.1, 13.3, 14.2, 13.1,...........12.7 Se toman 2 muestras al azar de hombres y mujeres de Salamanca: Hombres Mujeres Test “t” de datos independientes de tipo bilateral (2 colas) Estadístico T Si... (p<0.05) (Las medias en las poblaciones de hombres y mujeres no son iguales) H1 = Si hay diferencia (Las medias en las poblaciones de hombres y mujeres son iguales) H0 = No hay diferencia

Test t student bilateral (2 colas) o unilateral (1 cola) Test bilateral con riesgo a = 0.05 Curva distribución “t” - tc tc Test unilateral cola superior con a = 0.05 Test unilateral cola inferior con a = 0.05 tc - tc

Tabla de valores “tc” para test bilateral (2 colas) o unilateral (1 cola) a diferentes riesgos a Valores críticos de “t” para grados de libertad n = 18 (n = 10+10-2 = 18) 2 colas Riesgo a 0.10 0.05 0.025 ------ Valor “ tc ” (2 colas) 1.73 2.10 2.54 Valor “ tc ” (1 cola) 1.33 ------- 2.10 1 cola superior Nota: Obsérvese que para el mismo valor de tc , el riesgo a pasa a ser la mitad cuando se cambia de “2 colas” a “1 cola”. 1.73

Clasicamente: tablas de valores “tc” para 2 colas y 1 cola 2.10 1 cola superior Degrees of freedom = n1 +n2-2 = 10 +10 - 2 =18 1.73 Actualmente: ordenadores dan el p-valor exacto

Riesgos al tomar decisiones Los datos pueden refutarla Es la que se acepta si las pruebas no indican lo contrario El riesgo de rechazarla por error tiene graves consecuencias H0: Hipótesis nula Es inocente H1: Hipótesis alternativa Es culpable No debería ser aceptada sin una gran evidencia a favor. El riego de rechazarla por error tiene consecuencias consideradas menos graves que la anterior Basado en: Fco. Javier Barón (U. Málaga)

Los dos riesgos asociados a un test de hipótesis: Error tipo I (riesgo a) y tipo II (riesgo b) Imaginemos 2 poblaciones y un test unilateral donde el estadístico fuera el valor de la media: Realidad Acierto Potencia del test = 1-b Simil: declarar culpable a un inocente (a) y viceversa (b). Realidad Decisión test a b m0 m1 Región de aceptación H0 Región de rechazo H0 Región de rechazo H1 Región de aceptación H1 Línea de decisión:

Tamaño de muestra y potencia para un test “t” de 2 muestras independientes bilateral (2 colas) en SIMFIT Test bilateral (2 colas) El riesgo a deseado El riesgo b deseado Varianza (s2) (se supone la misma) Diferencia mínima entre medias (d) Introducimos (fijamos): Se calcula “n” (el tamaño de muestra) mediante la expresión correspondiente:

Tamaño muestra: n = 21 (n1 = 21 y n2 = 21) Ejemplo: tamaño de muestra y potencia de la prueba para comparación de 2 medias por test “t de student” bilateral Test bilateral (2 colas) a = 0.05 = 0.20 Varianza (S2) = 1.0 Diferencia entre medias (d) = 1.0 Fijamos: Tamaño muestra: n = 21 (n1 = 21 y n2 = 21) 21 Curva del % de potencia Tamaño de muestra % de potencia prueba Si se trata de diseñar experimentos a los que se les van a aplicar tests estadísticos de contrastes de hipótesis, por ejemplo de tipo comparación de 2 medias por el test “t”, habrá que calcular el tamaño de muestra necesario para detectar una determinada diferencia entre ellas (si es que existe). Así en el caso

¿Cómo estimar el Tamaño de muestra y potencia de la prueba para diferentes tests estadísticos (SIMFIT)? Se elige el test deseado y se fijan los correspondientes riesgos y valores: Si se trata de diseñar experimentos a los que se les van a aplicar tests estadísticos de contrastes de hipótesis, por ejemplo de tipo comparación de 2 medias por el test “t”, habrá que calcular el tamaño de muestra necesario para detectar una determinada diferencia entre ellas (si es que existe). Así en el caso

Eligiendo el test estadístico con variables de tipo cuantitativo

Tests habituales con variable cualitativa Test Ji-cuadrado (corrección de Yates) Paramétrico Datos independientes Test de Fisher exacto 2 muestras Datos apareados No paramétrico Test de MacNemar Datos independientes Paramétrico Test Ji-cuadrado (corrección de Yates) n muestras Datos apareados No paramétrico Test de Cochran (datos dicotómicos)

Tests estadísticos más utilizados (SIMFIT) Tests estadísticos habituales Diferentes ANOVAS

Eligiendo el Test estadístico Variables de tipo cuantitativo ¿Qué tests se pueden hacer con 1 muestra?: 15.2, 16.3, 17.2, 16.1,...........15.7 Test “t” de comparación de la media de los datos (experimental) con una media teórica (Paramétrico) Test de Kolmogorov-Smirnov para probar si los datos siguen una distribución determinada (No Paramétrico) Test de Shapiro Wilks para probar si los datos siguen una distribución normal (No Paramétrico)

Comparación de 1 media experimental con una media teórica por el test paramétrico t-student Se dispone de una muestra de 150 sujetos de una población que siguen dieta mediterránea y tienen una media de colesterol de 221 y una desviación estándar de 39.6; y se quiere probar que su colesterol a nivel poblacional es inferior al colesterol medio de la población general que es de 235. Si… p<0.05 En este ejemplo: Conclusión: Se rechaza la hipótesis nula con una p < 0.05. La dieta mediterránea produce en promedio un colesterol inferior a la dieta general con p < 0.05.

Eligiendo el Test estadístico (cont.) Variables de tipo cuantitativo 15.2, 16.3, 17.2, 16.1,...........15.7 14.1, 13.3, 14.2, 13.1,...........12.7 ¿Qué tests se pueden hacer con 2 muestras?: Test “t” de comparación de 2 medias con datos independientes (Paramétrico) Test “U” de Mann-Whitney comparación 2 medias de datos independientes (No paramétrico) Test “t” de comparación de 2 medias con datos apareados (Paramétrico) Test de rangos con signo de Wilcoxon para comparación de 2 medianas en datos apareados (No paramétrico) Test de Bartlett de comparación de 2 varianzas (equivalente a test F) (Paramétrico)

Comparación de 2 medias con datos independientes con el test paramétrico t-student Normalidad Varianzas iguales 15.2, 16.3, 17.2, 16.1,...........15.7 14.1, 13.3, 14.2, 13.1,...........12.7 (p<0.05)

t-student de 2 medias con datos con varianzas desiguales (corrección de Welsch) Normalidad Distinta varianza 17.1, 16.8, 17.3, 15.1,...........16.7 13.1, 14.3, 13.2, 14.1,...........13.7 TW (p<0.05)

Ejemplo de t-Student de 2 medias en SIMFIT con datos independientes asumiendo varianzas iguales o desiguales (entre corchetes)

Comparación de 2 medianas con datos independientes por el test no paramétrico U de Mann-Whitney No necesaria normalidad ni varianzas iguales 16, 11,14, 21, 18, 34, 22, 7,12,12 12, 14, 11, 30,10, 13 X (tamaño m) Y (tamaño n) H0 = Las medianas son iguales ; H1= una muestra domina a la otra en distribución 1) Se ordenan conjuntamente todos los valores de menor a mayor. 2) Se asigna un nº de orden a cada uno (rango). 3) Se suman los rangos de la muestra x: 4) Se calcula el estadístico U: 5) (p<0.05) U

Ejemplo de: Comparación de 2 medianas con datos independientes por el test U de Mann-Whitney

Comparación de 2 medias con datos apareados por test t-Student Normalidad misma varianza 17.1, 16.8, 17.3, 15.1,...........16.7 13.1, 14.3, 13.2, 14.1,...........13.7 x y Td sigue una distribución t con n-1 grados de libertad Td (p<0.05) estadístico

Ejemplo de comparación de 2 medias con datos apareados por test t-Student Td Td)

Test no paramétrico de Wilcoxon de rangos con signo de datos apareados, para probar si la mediana de las diferencias es cero. Se calcula la diferencia para cada pareja de datos con sus signos respectivos. Se ordenan las diferencias de menor a mayor (rangos) sin tener en cuenta el signo. Se suman todos los rangos con signo negativo (suma 1) y lo mismo con los rangos positivos (suma2) La suma más pequeña de las 2 es el estadístico W. El estadistico W sigue una distribución determinada (W) a partir de la cual se calcula el p-valor.

Ejemplo de comparación de 2 medias con datos apareados por test de Wilcoxon de rangos con signo

Tests de igualdad de 2 varianzas (ó n varianzas): test de Bartlett (equivalente a test F con 2 varianzas) y test de Levene

Test de igualdad de 2 varianzas Test de Bartlett

Test de igualdad de 2 varianzas: Test de Bartlett Si hay k grupos (2 en nuestro caso), de tamaño de muestra ni , con ni= ni−1, y varianza s2i , entonces la varianza combinada (pooled) s2p y los parámetros B and C se calculan así: El estadísitico de Bartlett : BC = B/C sigue una distribución ji-cuadrado con k−1 grados de libertad, a partir de la cual se calcula el p-valor

Ejemplo del test de igualdad de 2 varianzas por test de Bartlett

Eligiendo el Test estadístico (cont.) ¿Qué tests se pueden hacer con n muestras?: 15.2, 16.3, 17.2, 16.1,...........15.7 14.1, 13.3, 14.2, 13.1,...........12.7 11.1, 12.3, 17.2, 16.1,...........19.7 ANOVA de una vía para comparación de n medias en grupos independientes (Paramétrico). Test de Kruskal-Wallis para comparación de n medias en grupos independientes (No paramétrico). ANOVA de 1 vía con medidas repetidas (ANOVA una via con bloques) para comparación de n medias en grupos apareados (Paramétrico). Test de Friedman (ANOVA una vía con bloques) para comparación de n medias en grupos apareados (No paramétrico).

Comparando “n” medias (ANOVA de 1 factor) Dieta [colesterol total] Carbohidratos 115, 130, 20,……….. Grasas 180, 194, 199,………. Proteinas 125, 136, 134, ……… H0= Las 3 medias son iguales H1= Al menos 2 medias son distintas Planteamiento Dieta 1 Dieta 2 Dieta 3 mezclados n N=3n Razonamiento H0=Las 3 dietas producen el mismo colesterol, los datos proceden una misma población con s2 Si H0 fuese verdad, entonces la varianza sb2 estimada a partir de las medias (“entre” las dietas) habría de ser aproximadamente igual a la varianza sw2 estimada a partir de cada una de las dietas (“dentro” de las dietas), ya que ambas estiman la misma s2 de la población Luego el cociente entre y sb2 y sw2 debería ser aproximadamente 1:

Cálculos y tabla final de un ANOVA de 1 factor Las varianzas “entre” (b) y “dentro” (w) se calculan así: Este estadístico “ F ” se compara con la distribución “F” de Snedecor y se determina su “p” valor. (Cuanto más se separe F de 1 (mayor sea F), más probabilidad tiene la hipótesis alternativa) La costumbre es mostrar estos cálculos con la siguiente tabla que es equivalente: Fuente de variación SSQ NDOF MSQ F p Entre Grupos (b) 3.898E+04 2 1.949E+04 1.278E+02 0.0000 Dentro grupos(w) 3.203E+03 21 1.525E+02 Total 4.219E+04 23 (Suma cuadrados) (Nº grados libertad) (Cuadrado medio)

Ejemplo de ANOVA de 1 factor Dieta [colesterol total] Carbohidratos 115, 130, 20,……….. Grasas 180, 194, 199,………. Proteinas 125, 136, 134, ……… H0= Las 3 medias son iguales H1= Al menos 2 medias son distintas Fuente de variación SSQ NDOF MSQ F p Entre Grupos 3.898E+04 2 1.949E+04 1.278E+02 0.0000 Dentro grupos 3.203E+03 21 1.525E+02 Total 4.219E+04 23 Luego rechazamos H0 con riesgo p=0.0000 de equivocarnos (las 3 medias no son iguales, hay diferencia significativa entre ellas).

Ejemplo: ANOVA de 1 factor (2) Representar medias Análisis de datos (Tests estadísticos) Ejemplo: ANOVA de 1 factor (2) Representar medias

Ejemplo: test de Tukey en ANOVA de 1 factor Test de Tukey para comparaciones 2 a 2 a posteriori Test Q de Tukey para 3 medias y 3 comparaciones Columnas Q p 5% 1% 2 1 2.015E+01 0.0001 * * 2 3 1.895E+01 0.0001 * * 3 1 1.202E+00 0.6768 NS NS Hay diferencias significativas (p<0.01) entre las medias 2 y 1 y 2 y 3, pero no entre las medias 3 y 1.

Ejemplo de ANOVA no paramétrico de 1 factor por Kruskal-Wallis (datos independientes) Dieta colesterol Carbohidratos 115, 130, 20,……….. Grasas 180, 194, 199,………. Proteinas 125, 136, 134, ……… H0= Las 3 medias son iguales H1= Al menos 2 medias son distintas Asignar rangos a los datos como serie única. Sumar los rangos para cada muestra y calcular el estadístico: KW

Ejemplo de ANOVA paramétrico de 1 factor con medidas repetidas H0= Las 3 medias son iguales H1= Al menos 2 medias son diferentes Las columnas deben seguir normalidad y tener la misma varianza. Pero hay un requerimiento nuevo: homogeneidad de covarianzas, que se comprueba con el test de esfericidad de Mauchly (existen correcciones conservadoras a este test de Geisser-Green-House, Huynh-Feldt y Lower–bound que reducen los grados de libertad del numerador y denominador del test F del ANOVA)

Ejemplo de ANOVA paramétrico de 1 factor con medidas repetidas Previo:Test de homogeneidad de covarianzas Homogeneidad H0= Las 3 medias son iguales H1= Al menos 2 medias son diferentes Homogeneidad

Test de Friedman no paramétrico para medidas repetidas H0= Las 3 medianas son iguales H1= Al menos 2 medianas son distintas Se asumen k filas y columnas y las puntuaciones de cada columna se ordenan por rangos rij para la fila i y la columna j. Luego se hace la suma de los rangos como: Se calcula el estadistico de Friedman: Finalmente se calcula el p-valor en base a la distribución:

Comparando medias con más de un factor (ANOVA de 2 factores o de 2 vías o ANOVA factorial) Imaginemos un tratamiento para disminuir el colesterol, donde la variable respuesta que se mide es la concentración de colesterol total en plasma, pero ahora se quieren estudiar 2 factores: “Dieta” con 2 niveles(carbohidratos, grasas) y “Ejercicio” con 2 niveles (poco, mucho). Paciente Factor “dieta” Factor “ejercicio” [Colesterol] 1 2 3 4 5 6 7 8 Carbohidratos Grasas Poco Mucho 220 190 145 192 188 143 124 210 ……etc Datos ficticios con fines de ejemplo Ing. Felipe Llaugel

Comparando medias con más de un factor (ANOVA de 2 factores o ANOVA factorial) Dieta x ejercicio Ejercicio Dieta En SIMFIT es: Factorial: 0 blocks, 2 factors Ing. Felipe Llaugel

Eligiendo el Test estadístico con variables de tipo cualitativo

Tests habituales con variable cualitativa Test Ji-cuadrado (corrección de Yates) Paramétrico Datos independientes Test de Fisher exacto 2 muestras Datos apareados No paramétrico Test de MacNemar Datos independientes Paramétrico Test Ji-cuadrado (corrección de Yates) n muestras Datos apareados No paramétrico Test de Cochran (datos dicotómicos)

Eligiendo el Test estadístico Variables de tipo cualitativo (categórico) Test Ji-cuadrado para tablas de contingencia con datos independientes Tablas de contingencia 2x2 estadístico Hipertensión Tensión normal Fuman 83 21 No fuman 37 69 Tablas de contingencia n x m (Efecto luz UV) Escozor Eritrema Sin reacción Ojos azules 25 28 6 Ojos verdes 5 7 Ojos castaños 10 15

Cálculos en un test Ji-cuadrado Valores observados Escozor Eritrema Sin reacción Totales marginales Ojos azules 25 28 6 59 Ojos verdes 5 7 17 Ojos castaños 10 15 31 Total 36 43 107 Valores esperados Escozor Eritrema Sin reacción Ojos azules (36/107)*59 = 19.9 23.7 15.4 Ojos verdes 5.7 6.8 4.4 Ojos castaños 10.4 12.5 8.1

Ejemplo de test Ji-cuadrado para tablas de contingencia (Efecto luz UV) Escozor Eritrema Sin reacción Ojos azules 25 28 6 Ojos verdes 5 7 Ojos castaños 10 15 Los efectos adversos oculares “si” dependen del color de los ojos

Eligiendo el Test estadístico (cont.) Variables de tipo cualitativo (categórico) Test Ji-cuadrado con muestras pequeñas (corrección de Yates) La distribución c2 es una distribución de probabilidad de tipo variable continua, mientras que el estadístico c2 se ha calculado con datos discretos, por eso Yates sugirió la siguiente corrección: Esta corrección se recomienda principalmente para tablas de contigencia de 2x2 cuando el valor esperado esperado en alguna celda es menor de 5.

Eligiendo el Test estadístico (cont.) Variables de tipo cualitativo (categórico) Test paramétrico de Fisher Exacto para tablas de 2x2 con datos independientes Este test es más aconsejable que la corrección de Yates en el caso de que el valor esperado en alguna celda de la tabla de contingencia sea menor de 5. Utiliza la llamada distribución hipergeométrica y al final se obtiene un p-valor. Si éste p-valor es menor de 0.05 se rechaza la hipótesis nula.

Eligiendo el Test estadístico (cont.) Variables de tipo cualitativo (categórico) Test de McNemar para tablas de 2X2 con datos apareados o enfrentados. estadístico Hipertensión si después de dieta Hipertensión no después de dieta Totales marginales Hipertensión si antes de dieta a b a+b Hipertensión no antes de dieta c d c+d

Calculos del Test de McNemar para tablas de 2X2 con datos apareados o enfrentados. Hipertensión si después de dieta Hipertensión no después de dieta Totales marginales Hipertensión si antes de dieta 38 47 85 Hipertensión no antes de dieta 14 51 65

Ejemplo de Test de McNemar en SIMFIT Formato Simfit Hipertensión si después de dieta Hipertensión no después de dieta Hipertensión si antes de dieta 38 47 Hipertensión no antes de dieta 14 51

Eligiendo el Test estadístico (cont.) Variables de tipo cualitativo (categórico) Test de Cochran para tablas de nxm con datos apareados y medida dicotómica (0 ó 1) A 6 niños se les pasa un escenario de videojuego y dicen si les gusta (1) o no (0). H0=Todos los escenarios les gustan igual H1= Unos les gustan más que otros Q sigue una distribución ji-cuadrado con n-1 grad. lib., de la que se haya el p-valor. n sujetos y m grupos. Gi es el número de “1” en grupo i, y Bj el número de “1” en grupo j,

Variables de tipo cualitativo (categórico) Ejemplo de Test de Cochran para tablas de contingencia (nxm) con datos apareados y medida dicotómica (0 ó 1)

Eligiendo el Test estadístico (cont.) Estudios en Ciencias de la Salud (suelen usar análisis de proporciones) 1. Comunicación de un caso. 2. Series de casos. 3. Estudios transversales 4. Estudios epidemiológicos de “Casos y Controles”. 5. Estudios epidemiológicos de “Cohortes”. 6. Ensayos Clínicos.

Análisis de resultados en estudios de “Casos y Controles” (tabla de contingencia 2 x 2) Factor de riesgo Efecto Casos / Controles Intoxic. si Intoxic. no Setas si a b Setas no c d La hipótesis a probar sería que: si el factor de riesgo es responsable de la enfermedad habrá mayor proporción de personas comieron setas en los casos que en los controles Odds (en casos): Se analiza retrospectivamente un grupo de personas con una enfermedad (casos) y otro grupo sin la enfermedad (controles), y se comparan respecto a un factor de riesgo existente en el pasado, con el fin de aclarar el papel que jugó el factor de riesgo en la enfermedad. Odds (en controles): Odds ratio: debe ser > 1 si hay asociación

Análisis del ejemplo de “Casos y Controles” usando “análisis de proporciones” en SIMFIT Formato para SIMFIT Factor de riesgo Efecto Casos / Controles Intoxic. si Intoxic. no Setas si 35 6 Setas no 8 49

Análisis del ejemplo de “Casos y Controles” usando “análisis de proporciones” en SIMFIT Proporciones estimadas (p-hat) Diferencia de Proporciones Cociente de proporciones Odds ratio

Gráfico del ejemplo de “Casos y Controles” usando “análisis de proporciones” en SIMFIT

Análisis de resultados en Estudios de “Cohortes” (tabla de contingencia 2 x 2) Factor de riesgo Efecto Leucemia si Leucemia no Chernobil si a b Chernobil no c d Riesgo leucemia (en Chernobil): Riesgo leucemia (en otra zona): Diferencia de riesgos (o riesgo atribuible al factor de riesgo): Se analiza prospectivamente un grupo de personas con un factor de riesgo (cohorte expuesta) y otro grupo sin el factor de riesgo (cohorte no expuesta), y se va observando en cada una de ellas la aparición del efecto o enfermedad. Riesgo relativo:

Análisis del ejemplo de “Cohortes” usando “análisis de proporciones” en SIMFIT Factor de riesgo Efecto Leucemia si Leucemia no Chernobil si 22 1000 Chernobil no 4 Formato en SIMFIT

Análisis del ejemplo de “Cohortes” usando “análisis de proporciones” en SIMFIT Riesgos absolutos 57 NNT Diferencia de riesgos absolutos y NNT Riesgos relativos

Gráfica del ejemplo de “Cohortes” usando “análisis de proporciones” en SIMFIT

Se pueden analizar y representar varios estudios de “Cohortes” a la vez con sus proporciones (riesgos absolutos) y sus límites de confianza Grupo Fuman Infarto (y) Total (N) Diabéticos Si 126 226 Diabéticos No 35 96 Hipertensos Si 908 1596 Hipertensos No 497 1304 ................... .... ......... ..... Azheimer Si 104 193 Azheimer No 21 57 Formato en SIMFIT

Se pueden analizar y representar varios estudios de “Cohortes” a la vez con sus proporciones (riesgos absolutos) y sus límites de confianza Grupo Fuman Infarto (y) Total (N) Diabéticos Si 126 226 Diabéticos No 35 96 Hipertensos Si 908 1596 Hipertensos No 497 1304 ................... .... ......... ..... Azheimer Si 104 193 Azheimer No 21 57 ---- ---- ------ ----- etc

Fases de estudio de una terapia Ensayos Clínicos Los más frecuentes son los llamados: “Estudios clínicos de intervención, prospectivos, con control concurrente y asignación aleatoria”. Pueden ser: En paralelo o cruzados. Fases de estudio de una terapia Fase preclínica (en animales, evaluar toxicidad, farmacodinamia, farmacocinética) Fase I (50 a 100 voluntarios sanos, evaluar tolerancia, farmacodinamia, farmacocinética, toxicidad) Fase II (50 a 200 pacientes, evaluar efecto terapéutico y ajustar dosis) Fase III (2000 a 4000 pacientes, asignados aleatoriamente a dos grupos (referencia y tratamiento)) Fase IV (Eficacia a largo plazo y efectos secundarios)

Variables que se miden en los Ensayos Clínicos Mortalidad (muere o sobrevive) (variable dicotómica) Síntomas (dolor, angustia, etc.) (variables dicotómicas (si, no)) Efectos secundarios (se buscan fármacos con la misma eficacia pero menos efectos adversos) (variables dicotómicas) Parámetros clínicos: (tensión arterial, glucemia basal, concentración de colesterol, etc.) (variables cuantitativas)

Análisis estadístico de Ensayos Clínicos Los contrastes estadísticos que pueden realizarse en los ensayos clínicos son muy variados, por lo que nos remitiremos a los libros de Estadística y a los Paquetes Estadísticos. Algunos contrastes más frecuentes son: Comparación de proporciones cuando los datos son dicotómicos (SIMFIT, SPSS) Comparación de medias cuando los datos son cuantitativos (SIMFIT, SPSS)

Análisis de datos de un ensayo clínico para evaluar la eficacia de un nuevo fármaco (resultado dicotómico) Proporción curan (fármaco): Tratamiento Efecto Curación SI Curación NO Fármaco a b Placebo c d Proporción curan (Placebo): Diferencia de proporciones: Razón de proporciones: Numero Necesario a Tratar: Odds curan (fármaco): Odds curan (Placebo): Ln de la Odds ratio Odds ratio (fármaco/placebo):

Ejemplo de un ensayo clínico en SIMFIT (resultado dicotómico) No fumadores Placebo Fármaco fumadores global NNT 8

Análisis de un ensayo clínico para evaluar la eficacia de un nuevo fármaco (variable continua) Tratamiento Efecto Nº sujetos Media Desviación estándar Fármaco n1 Placebo n2 Significancia por t de student (o U de Mann Whitney no paramétrico):