Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porCláudio Alvarenga Escobar Modificado hace 6 años
1
Fco. Javier Burguillo Universidad de Salamanca
Tema 7a Tests estadísticos habituales con variable cuantitativa Fco. Javier Burguillo Universidad de Salamanca
2
Etapas de una investigación
Análisis : tests estadísticos, ajuste de curvas , A. multivariante…. Exploración de datos Obtención datos, calibrados, etc. Diseño de experimentos Antecedentes Bibliográficos
3
Especificar población y muestra
Conjunto todos los individuos Muestra Subconjunto individuos Inferencia estadística (Tests estadísticos) Media (m) Desviación Estándar (s) Media
4
Pasos en tests de contraste de hipótesis
H1= Las 2 medias son diferentes (test bilateral o de 2 colas) 1) Decidir hipótesis nula y alternativa a comparar, por ej. con 2 medias: H0= Las 2 medias poblacionales son iguales (test unilateral ó 1 cola superior) H1= La media 1 es mayor que la 2 H1= La media 1 es menor que la 2 (test unilateral ó 1 cola inferior) 2) Decidir el test a usar: Paramétrico (ej.: test “t” Student) No Paramétrico (ej.: est U de Mann Whitney) 3) Fijar la probabilidad de equivocarse al rechazar H0 siendo ésta verdadera: Riesgo de equivocarse del 5 ó 1 % 4) Aplicar el test
5
Tests paramétricos y no paramétricos
“Requisitos” de los tests paramétricos: La muestra pertenece a una población cuya distribución de probabilidad es conocida (por ej. distribución normal). Comparan los grupos a través de un “parámetro” de la distribución (por ej: la media en la distribución normal). Se utilizan con muestras no muy pequeñas en las que es posible comprobar la distribución que siguen los datos. “Requisitos” de los tests no paramétricos: No se presupone que los datos sigan una distribución determinada. Se realizan con procedimientos de ordenación, rangos y recuentos. Se usan con muestras pequeñas (n < 10) en las que se desconoce la distribución que siguen los datos.
6
Tests paramétricos: La distribución normal
Normal estandarizada: Entre las funciones de distribución de probabilidad, la más importante es la distribución normal o Gaussiana. Se
7
Otras distribuciones Exploración de datos Distribución t de Student:
G.L Distribución F de Snedecor : Y así otras muchas distribuciones como la distribución de Poisson, Ji-cuadrado…etc G.L.numerador G.L.denominador Otras distribuciones: Poisson, Ji-cuadrado, binomial.
8
Por ejemplo: comparación de 2 medias en muestras pequeñas por el test “t de student”
Se quiere determinar si la presión sistólica en hombres y mujeres de Salamanca es la misma Distribuciones normales Misma varianza 15.2, 16.3, 17.2, 16.1, 14.1, 13.3, 14.2, 13.1, Se toman 2 muestras al azar de hombres y mujeres de Salamanca: Hombres Mujeres Requisitos Test “t” de datos independientes de tipo bilateral (2 colas) Estadístico T sigue distrib “t student” Si... (Las medias en las poblaciones de hombres y mujeres son iguales) H0 = No hay diferencia (p<0.05) (Las medias en las poblaciones de hombres y mujeres no son iguales) H1 = Si hay diferencia
9
Test t student bilateral (2 colas) o unilateral (1 cola)
Test bilateral con riesgo a = 0.05 Curva distribución valores de “t” Grados de libertad Estadístico T - tc tc Test unilateral cola superior con a = 0.05 Test unilateral cola inferior con a = 0.05 tc - tc
10
¿Cómo se decide el hacer un test de 2 colas ó 1 cola?
Las hipótesis bilaterales o de 2 colas son las más habituales en investigación. Las hipótesis unilaterales o de 1 cola sólo se eligen cuando hay evidencia empírica de que esa dirección a contrastar es la única posible: a) Porque se ha hecho un estudio piloto o está bien documentado en bibliografía. b) Porque la dirección contraria es imposible. c) Se debe tomar la decisión antes de hacer el test.
11
Tabla de valores “tc” para test bilateral (2 colas) o unilateral (1 cola) a diferentes riesgos a
Valores críticos de “t” para grados de libertad n = 18 (n = = 18) 2 colas Nota: Obsérvese que para el mismo valor de tc (2.10) , el riesgo a pasa a ser el doble cuando se cambia de “1cola” a “2 colas” (la mitad en cada cola). Riesgo a 0.10 0.05 0.025 ------ Valor “ tc ” (2 colas) 1.73 2.10 2.44 Valor “ tc ” (1 cola) 1.33 2.10 1 cola superior 1.73
12
Clasicamente: tablas de valores “tc” para 2 colas y 1 cola
2 colas a= 0.05 2.10 1 cola superior a = 0.05 Degrees of freedom = n1 +n2-2 = =18 1.73 Actualmente: ordenadores dan el p-valor exacto El doble para 2 colas que para 1 cola
13
Riesgos al tomar decisiones
Los datos pueden refutarla Es la que se acepta si las pruebas no indican lo contrario El riesgo de rechazarla por error tiene graves consecuencias H0: Hipótesis nula Es inocente H1: Hipótesis alternativa Es culpable No debería ser aceptada sin una gran evidencia a favor. El riego de rechazarla por error tiene consecuencias consideradas menos graves que la anterior Basado en: Fco. Javier Barón (U. Málaga)
14
b) Diseño de estudios observacionales
Los dos riesgos asociados a un test de hipótesis: Error tipo I (riesgo a) y tipo II (riesgo b) Imaginemos 2 poblaciones y un test unilateral donde el estadístico fuera el valor de la media: Realidad: Acierto Potencia del test = 1-b Simil: declarar culpable a un inocente (a) y viceversa (b). Realidad Decisión test H0 Línea de decisión (riesgo): m0 m1 b (0.20) Región de aceptación H0 Región de rechazo H0 Región de rechazo H1 Región de aceptación H1 a (0.05)
15
Tests habituales con variable cuantitativa
Paramétrico “t de student” para comparar una media experimental con una teórica 1 muestra Kolmogorov-Smirnov (probar qué distribución siguen los datos) No paramétrico Shapiro-Wilks (probar si los datos siguen la distribución normal) Datos independientes 2 muestras “t de student” de datos independientes para 2 medias) Paramétrico Datos apareados No paramétrico U de Mann Whitney para comparar 2 medianas “t de student” de datos apareados para 2 medias Wilcoxon de rangos con signos (mediana de diferencias es 0) Independientes o apareados Test F o de Bartlett para probar igualdad de varianzas n muestras Datos independientes ANOVA de 1 factor + test de Tukey Paramétrico No paramétrico Kruskal –Wallis para 1 factor ANOVA de medidas repetidas de 1 factor Test de Friedman para “n” medianas ANOVA de 2 factores factorial Datos apareados Independientes o apareados Test de Bartlett o Levene para probar igualdad de “n” varianzas
16
Tests estadísticos en SIMFIT
Tests habituales Diferentes ANOVAS
17
Eligiendo el Test estadístico
Variables de tipo cuantitativo ¿Qué tests se pueden hacer con 1 muestra?: 15.2, 16.3, 17.2, 16.1, Test “t” de comparación de la media de los datos (experimental) con una media teórica (Paramétrico) Test de Kolmogorov-Smirnov para probar si los datos siguen una distribución determinada (No Paramétrico) Test de Shapiro Wilks para probar si los datos siguen una distribución normal (No Paramétrico)
18
Comparación de 1 media experimental con una media teórica por el test paramétrico t-student
Requisito: Normalidad Se dispone de una muestra de 150 sujetos de una población que siguen dieta mediterránea y tienen una media de colesterol de 221 y una desviación estándar de 39.6; y se quiere probar que su colesterol a nivel poblacional es inferior al colesterol medio de la población general que es de 235. Si… (Test de 1 cola inferior) p<0.05 En este ejemplo: Conclusión: Se rechaza la hipótesis nula con una p < La dieta mediterránea produce en promedio un colesterol inferior a la dieta general con p < 0.05.
19
Los datos sí que siguen una distribución normal
Test no paramétrico de Kolmogorov Smirnov para probar si unos datos siguen una distribución determinada ¿Siguen una distribución normal? P > 0.05 (2 colas) Los datos sí que siguen una distribución normal Distancias entre cdf exp. y la cdf teórica Para probar sólo si unos datos siguen una distribución normal hay otro test llamado de Shapiro-Wilks, pero no se debe utilizar con muestras excesivamente pequeñas o mayores de 5000.
20
Eligiendo el Test estadístico (cont.)
Variables de tipo continuo 15.2, 16.3, 17.2, 16.1, 14.1, 13.3, 14.2, 13.1, ¿Qué tests se pueden hacer con 2 muestras?: Test “t” de comparación de 2 medias con datos independientes (Paramétrico) Test “U” de Mann-Whitney comparación 2 medianas de datos independientes (No paramétrico) Test “t” de comparación de 2 medias con datos apareados (Paramétrico) Test de rangos con signo de Wilcoxon para comparación de 2 medianas en datos apareados ((No paramétrico) Test de Bartlett de comparación de 2 varianzas (equivalente a test F) (Paramétrico)
21
Comparación de 2 medias con datos independientes con el test paramétrico t-student (2 colas)
Normalidad Varianzas iguales 15.2, 16.3, 17.2, 16.1, 14.1, 13.3, 14.2, 13.1, Requisitos (p<0.05)
22
Caso particular: t-student de 2 medias con datos independientes con varianzas desiguales (corrección de Welsch) Requisitos Normalidad Distinta varianza 17.1, 16.8, 17.3, 15.1, 13.1, 14.3, 13.2, 14.1, TW (p<0.05) Grados de libertad según Welsch
23
Ejemplo de t-Student de 2 medias en SIMFIT con datos independientes asumiendo varianzas iguales o desiguales (entre corchetes) Requisitos test t student Normalidad (se podría perdonar) Varianzas iguales (o desiguales haciendo Corrección de Welsch). [Welsch]
24
Comparación de 2 medianas con datos independientes por el test no paramétrico U de Mann-Whitney
Requisitos ninguno No necesaria normalidad ni varianzas iguales 16, 11,14, 21, 18, 34, 22, 7,12,12 12, 14, 11, 30,10, 13 X (tamaño m) Y (tamaño n) H0 = Las medianas son iguales ; H1= una muestra domina a la otra en distribución 1) Se ordenan conjuntamente todos los valores (x e y) de menor a mayor. 2) Se asigna un nº de orden a cada uno (rango). 3) Se suman los rangos de la muestra x: 4) Se calcula el estadístico U: 5) (p<0.05) U (Estadístico U)
25
Ejemplo de: Comparación de 2 medianas con datos independientes por el test U de Mann-Whitney
26
Comparación de 2 medias con datos apareados por test t-Student
Requisitos Normalidad misma varianza 17.1, 16.8, 17.3, 15.1, 13.1, 14.3, 13.2, 14.1, x y Td sigue una distribución t con n-1 grados de libertad Td (p<0.05) estadístico
27
Ejemplo de comparación de 2 medias con datos apareados por test t-Student
Td Td)
28
Test no paramétrico de Wilcoxon de rangos con signo de datos apareados, para probar si la mediana de las diferencias es cero. Se calcula la diferencia para cada pareja de datos con sus signos respectivos. Se ordenan las diferencias de menor a mayor (rangos) sin tener en cuenta el signo. Se suman todos los rangos con signo negativo (suma1) y lo mismo con los rangos positivos (suma2) La suma más pequeña de las dos es el estadístico W. El estadistico W sigue una distribución determinada “W”, a partir de la cual se calcula el p-valor.
29
Ejemplo de comparación de 2 medianas con datos apareados por test de Wilcoxon de rangos con signo
30
Test F para probar la igualdad de 2 varianzas (equivalente a test de Bartlett con 2 varianzas)
31
Tests de Bartlett para igualdad de 2 ó n varianzas: (equivalente a test F en el caso de 2 varianzas)
(Datos siguen una distribución Normal) (Datos no siguen distribución Normal)
32
Test de igualdad de 2 varianzas: Test de Bartlett
Si hay k grupos (2 en nuestro caso), de tamaño de muestra ni , con ni= ni−1, y varianza s2i , entonces la varianza combinada (pooled) s2p y los parámetros B and C se calculan así: El estadísitico de Bartlett : BC = B/C sigue una distribución ji-cuadrado con k−1 grados de libertad, a partir de la cual se calcula el p-valor.
33
Test de Bartlett en SIMFIT
34
Ejemplo del test de igualdad de 2 varianzas por test de Bartlett
35
Eligiendo el Test estadístico (cont.)
¿Qué tests se pueden hacer con n muestras?: 15.2, 16.3, 17.2, 16.1, 14.1, 13.3, 14.2, 13.1, 11.1, 12.3, 17.2, 16.1, ANOVA de una vía para comparación de n medias en grupos independientes (Paramétrico). Test de Kruskal-Wallis para comparación de n medias en grupos independientes (No paramétrico). ANOVA de 1 vía con medidas repetidas para comparación de n medias en grupos apareados (Paramétrico). Test de Friedman (ANOVA una vía) para comparación de n medias en grupos apareados (No paramétrico).
36
Comparando “n” medias (ANOVA de 1 factor)
Dieta [colesterol total] Carbohidratos , 130, 20,……….. Grasas , 194, 199,………. Proteinas , 136, 134, ……… H0= Las 3 medias son iguales H1= Al menos 2 medias son distintas Planteamiento Dieta 1 Dieta 2 Dieta 3 mezclados n N=3n Ojo: los datos tienen que seguir distribución normal y con la misma varianza entre grupos Razonamiento H0=Las 3 dietas producen el mismo colesterol, los datos proceden una misma población con s2 Si H0 fuese verdad, entonces la varianza sb2 estimada a partir de las medias (between (entre) las dietas) habría de ser aproximadamente igual a la varianza sw2 estimada a partir de cada una de las dietas (withing (dentro) de las dietas), ya que ambas estiman la misma s2 de la población Luego el cociente entre sb2 y sw2 debería ser aproximadamente 1: b (between (entre)) w (withing (dentro))
37
Cálculos y tabla final de un ANOVA de 1 factor (con J grupos o niveles del factor) (1/3)
El modelo ANOVA de 1 factor se establece con el llamado “modelo lineal general”: Si sustituimos lo parámetros anteriores por sus estimadores muestrales: Considerando todas las muestras con sumatorios y haciendo el cuadrado:
38
Cálculos y tabla final de un ANOVA de 1 factor (con J grupos o niveles del factor) (2/3)
Haciendo el cuadrado de la suma: Es cero Luego: Total SSQ = SSQ (b) (entre grupos) + SSQ (w) (dentro grupos) Cuadrados medios (MSQ) :
39
Cálculos y tabla final de un ANOVA de 1 factor (con J grupos o niveles del factor) (3/3)
Cuadrados medios (MSQ): Se construye ahora el estadístico F como: Si H0 es cierta F se aproximará a 1 y si H0 es falsa F >1 El estadístico F se distribuye según la distribución F de Snedecor con grados de libertad (J-1 , N-J), obteniéndose el p-valor
40
Ejemplo de ANOVA de 1 factor (1/2)
Dieta [colesterol total] Carbohidratos , 130, 20,……….. Grasas , 194, 199,………. Proteinas , 136, 134, ……… H0= Las 3 medias son iguales H1= Al menos 2 medias son distintas Fuente de variación SSQ NDOF MSQ F p Entre Grupos E E E Dentro grupos E E+02 Total E Luego rechazamos H0 con riesgo p= de equivocarnos (las 3 medias no son iguales, hay diferencia significativa entre ellas).
41
Ejemplo: ANOVA de 1 factor (2/2) Representar medias
42
Ejemplo: test de Tukey en ANOVA de 1 factor
Test de Tukey para comparaciones 2 a 2 a posteriori Test Q de Tukey para 3 medias y 3 comparaciones Columnas Q p % % E * * E * * E NS NS Hay diferencias significativas (p<0.01) entre las medias 2 y 1 y 2 y 3, pero no entre las medias 3 y 1.
43
Ejemplo de ANOVA no paramétrico de 1 factor por Kruskal-Wallis (datos independientes)
Dieta colesterol Carbohidratos , 130, 20,……….. Grasas , 194, 199,………. Proteinas , 136, 134, ……… H0= Las 3 medias son iguales H1= Al menos 2 medias son distintas Asignar rangos a los datos como serie única. Sumar los rangos de cada muestra y calcular el estadístico KW: KW
44
Ejemplo de ANOVA paramétrico de 1 factor con medidas repetidas (datos apareados)
H0= Las 3 medias son iguales H1= Al menos 2 medias son diferentes Las columnas deben seguir normalidad y tener la misma varianza. Pero hay un requerimiento nuevo: homogeneidad de covarianzas, que se comprueba con el test de esfericidad de Mauchly (existen correcciones conservadoras a este test debidas a Geisser-Green-House, Huynh-Feldt y Lower–bound que reducen los grados de libertad del numerador y denominador del test F del ANOVA)
45
Ejemplo de ANOVA paramétrico de 1 factor con medidas repetidas (datos apareados)
Requisito Previo:Test de homogeneidad de covarianzas H0= Las 3 medias son iguales H1= Al menos 2 medias son diferentes Existe homogeneidad de covarianzas ANOVA de medidas repetidas Con homogeneidad P < 0.05
46
Test de Friedman no paramétrico para medidas repetidas (datos apareados)
H0= Las 3 medianas son iguales H1= Al menos 2 medianas son distintas Se asumen k filas y columnas y las puntuaciones de cada columna se ordenan por rangos rij para la fila i y la columna j. Luego se hace la suma de los rangos como: Se calcula el estadistico de Friedman: Finalmente se calcula el p-valor en base a la distribución: Estadístico de Friedman
47
Comparando medias con más de un factor (ANOVA de 2 factores o de 2 vías o ANOVA factorial)
Imaginemos un tratamiento para disminuir el colesterol, donde la variable respuesta que se mide es la concentración de colesterol total en plasma, pero ahora se quieren estudiar 2 factores: “Dieta” con 2 niveles(carbohidratos, grasas) y “Ejercicio” con 2 niveles (poco, mucho). Paciente Factor “dieta” Factor “ejercicio” [Colesterol] 1 2 3 4 5 6 7 8 Carbohidratos Grasas Poco Mucho 220 190 154 167 188 181 124 ……etc Datos ficticios con fines de ejemplo Ing. Felipe Llaugel
48
Comparando medias con más de un factor (ANOVA de 2 factores o ANOVA factorial)
Dieta x ejercicio Ejercicio Dieta En SIMFIT es: Factorial: 0 blocks, 2 factors Ing. Felipe Llaugel
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.