La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Técnicas estadísticas paramétricas univariantes: ANOVA y su familia

Presentaciones similares


Presentación del tema: "Técnicas estadísticas paramétricas univariantes: ANOVA y su familia"— Transcripción de la presentación:

1 Técnicas estadísticas paramétricas univariantes: ANOVA y su familia
Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C.

2 ANOVA Conocer el efecto de un factor categórico sobre una variable continua ¿diferencias entre los niveles de distintas variables categóricas causan diferencias sign. sobre la variable respuesta/dependiente? Y Ej. 1 factor con 4 niveles y medimos respuesta Y en n réplicas para cada nivel del factor; ¿Son las medias diferentes entre los 4 tratamientos? µ1 µ2 µ3 µ4 X (categorías/grupos/tratamientos)

3 Ho: µ1 = µ2 = µi H1: µ1 = µ2 ≠ µi Ho: µ1 = µ2 H1: µ1 ≠ µ2
ANOVA: comparamos medias entre categorías /grupos/tratamientos Ho: µ1 = µ2 = µi H1: µ1 = µ2 ≠ µi (al menos una diferencia entre grupos) Ej: Hay diferencias en el rendimiento (variable continua, dependiente) entre 4 grupos sometidos a distintos niveles de entrenamiento (factor o variable categórica) T-student (caso más sencillo): comparamos medias entre 2 categorías /grupos Ho: µ1 = µ2 H1: µ1 ≠ µ2

4 Idea conceptual: comparar ambas fuentes de variabilidad
Var total = Var entre grupos + Var dentro de grupos (residual) IDEA GENERAL: ANOVA parte la varianza ( = variabilidad) total = toda la variabilidad debida a los factores que contrastamos y un término residual (“cajón desastre”) que incluye todos aquellos factores, variables q influyen a la variabilidad natural dentro de los grupos, pero q decidí no contrastar (“ruido”) Idea conceptual: comparar ambas fuentes de variabilidad Si Var entre grupos > Var residual – diferencias entre grupos son importantes; evidencia para rechazar Ho; es decir, mi factore(s) son importantes Si Var entre grupos < Var residual – diferencias entre grupos NO son importantes; evidencia para no rechazar Ho, mi factore(s) NO son importantes

5 Var entre grupos/Var residual
0-1 si Var entre grupos < Var residual > 1 si Var entre grupos > Var residual Idea para construir el estadístico¡¡¡ (F-ratios = cociente: variabilidad entre grupos/variabilidad dentro de grupos)

6 Lenguaje del ANOVA: Funcionamiento del ANOVA-I
Fuente de variación Suma de cuadrados Grados libertad Cuadrados medios F-ratio P-valor Entre grupos = niveles SS g a-1 SS g/df Dentro de grupos (Residual) SS res n-1 SS res/df Total SS tot an -1 Como hemos visto: ANOVA estima 2 fuentes de variabilidad y compara sus tamaños F-ratio = Var entre grupos/Var dentro grupos

7 å å ( Xi-X)2 å å (Xij- Xi)2 å å (Xij- X)2
Lenguaje del ANOVA: Funcionamiento del ANOVA-I Fuentes de variación Suma de cuadrados (SS) g.l. (d.f.) Cuadrados medios (MS) å å ( Xi-X)2 Entre muestras (entre grupos) k-1 SCa / k-1 Dentro muestras (dentro grupos) å å (Xij- Xi)2 k (n -1) SCw / k (n-1) å å (Xij- X)2 (k n ) -1 SCt /( kn)-1 Total El nombre de ANOVA procede de la utilización de la comparación de las varianzas para determinar si aceptamos la hipótesis de igualdad de medias: medias = supone = varianzas y si las medias son ≠, la varianza entre los tratamientos es > que el error (dentro de muestras). CMa F = CMw

8 Vamos a complicar la cosa….más de un factor
Precisamente, es lo q hace de ANOVA una técnica muy empleada

9 Yijk = µ + Ai + Bj + ABij + Residual k(ij)
ANOVA-2: modelo lineal de fuentes de variación Yijk = µ + Ai + Bj + ABij + Residual k(ij) Efectos principales (efecto independiente y aditivo de cada factor; promediando el efecto del otro u otros factores) Interacción (efecto interactivo entre factores; es decir, si las diferencias que A causa sobre Y varían en función de los niveles de B)  Precisamos de un estadístico para cada término para testar (contrastar) su significancia

10 ANOVA-2 parte la variabilidad
Variación total SST = Variación debida al factor A Variación debida al factor B SSFA + SSFB + Variación debida a la interacción A x B Variación residual SSAB + SSE

11 ANOVA-3 y así sucesivamente…
Yijkl = µ + Ai + Bj + Ck + ABij + ACik + BCjk + ABCijk + Residual l(kij) En teoría no hay limitación, en la práctica la cosa se complica: recomiendo análisis fáciles al principio, ya tendrás tiempo de complicarlo¡

12 ANOVA-2: “su lenguaje” df SS MS F-ratio P A a-1 Ssa Ssa/dfa MS A/MS denominador B b-1 SSb Ssb/dfb MS B/MS denominador A x B (a-1)(b-1) Ssab Ssab/dfab MS AB/MS denominador Residual ab(n-1) Ssred Ssres/dfres Total abn-1  La significancia de todo término F ratio =MS numerador/MS denominador; si F está cercano a 0-1 = no hay efecto significativo del factor; si F=↑ hay efecto.

13 ¿Y todo este rollo de las interacciones?
La gran ventaja de ANOVA es precisamente el q podamos contrastar el efecto de las interacciones en diseños multifactoriales (incluyen muchos factores); además de los efectos principales (efectos aditivos): es decir, si el efecto de un factor depende del otro¡…¿Por qué son tan importantes las interacciones? Interacciones: sinergias, antagonismo vs. efectos aditivos. Es decir, las interacciones cuantifican si los tratamientos actúan aditivamente, sinergísticamente o antagonísticamente. …se lo muestro con un ej. ¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs?

14 Student-Newman-Keuls (SNK) extensión secuencial del t-test
Tests a posteriori ¿Pq? - ANOVA te dice q hay diferencias pero no entre quién (e.g. entre qué niveles) Test de todos los posibles pares de medias: SNK, Tukey, etc.–”cada maestrillo su librillo” (nosotros ya veremos los nuestros en las prácticas) Student-Newman-Keuls (SNK) extensión secuencial del t-test

15 Tests a posteriori: “problemilla”
Incrementar la probabilidad de cometer error de Tipo I Ho: µ1 = µ2 = µ3 a = 0.05 a = 0.05 a total = 0.15 Ho: µ1 = µ2 µ1 = µ3 µ2 = µ3 “Inflamos” error Tipo I Solución: aunque podemos aplicar ajuste (corrección de Bonferroni), una decisión salomónica es reducir α de 0.05 a 0.01

16 Asunciones del ANOVA: test paramétricos
 Homogeneidad de varianzas (entre niveles/tratamientos). Hay batería de Tests: Cochran’s, Levene’s . Si no hay: ↑ error tipo I Peligro¡¡

17 Asunciones del ANOVA  Normalidad (recuerda si n> 30- Teorema Central del Límite - no problema. Realmente, es la asunción menos estricta: ANOVA (diseños balanceados) es robusta a desviaciones de la normalidad Independencia Si no hay independencia: muestras son muy similares; error residual pequeño y consecuentemente ↑ error tipo I. En el planteamiento del experimento está la solución: problema biológico no estadístico

18 ¿Qué hago si se violan las asunciones del ANOVA
(1) “outliers” como causa de la violación de las asunciones; si datos siguen distribución bimodal puedes dividir los datos en 2 niveles (2) Trasforma datos: raíz, log, doble raíz, arc-sen (3) Si la trasformación no funciona, pero diseño es balanceado y n> 30 – corre ANOVA y aumenta el nivel de confianza. Juega con el nivel de significación (α); de 0.05 a 0.01; aumentamos nuestra confianza de un 95 a un 99% y así reduzco la P(error tipo I) (4) Si la trasformación no funciona, pero el diseño es pequeño – alternativa no paramétrica (e.g. K-W, Wilcoxon) –los vemos en Rcom.

19 Transformación de datos
Raíz cuadrada Ö X + 1 Poblaciones que siguen una distribución de Poisson: medias y varianzas son iguales

20 Transformación de datos
log (X+1) Logarítmo Muestreos con valores muy altos: medias mayores y varianza mucho mayores (distribución log-normal) Medidas de tasas, concentraciones, relaciones,... Independiente del tipo de logaritmo usado Sumar una constante (1) para aplicar logaritmos por los valores que son 0

21 Transformación de datos
sen-1 Ö X Arcoseno Porcentajes y proporciones (distribución binomial) Ej. Porcentaje de cobertura algal

22 Corolario  Procura diseños con n alto y distribución balanceada de muestras  Toma extra muestras  Fuerza siempre que puedas ANOVA frente técnicas no paramétricas: al usar rangos pierdo información. En tal caso, reporta tus conclusiones con la precaución que requiere el análisis

23 ANCOVA Covariables: variables continuas que influyen en la variable respuesta, pero cuyo efecto no es de interés Conceptualmente, mismo fundamentos q ANOVA, pero nos permite incluir una o + covariables, cuyo efecto quiero eliminar para determinar exclusivamente el efecto de ciertos factores sobre dicha variable respuesta. Forma de eliminar “ruido”, pq eliminamos la varianza debido a las covariables; es decir, a la varianza total le quitamos la varianza debida a la covariable(s); esto nos permite aumentar el poder del análisis

24 Ejemplo de ANCOVA ¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs? ANOVA-2 Pero queremos quitar el posible efecto del peso de los individuos. Establezco el peso como covariable en el análisis.


Descargar ppt "Técnicas estadísticas paramétricas univariantes: ANOVA y su familia"

Presentaciones similares


Anuncios Google