Técnicas estadísticas paramétricas univariantes: ANOVA y su familia

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ANOVA DE UN FACTOR.
MSP César Eduardo Luna Gurrola
Diseño de Experimentos
Tema 17: Contraste paramétrico de hipótesis II: Pruebas de contraste para más de dos grupos independientes (ANOVA entresujetos): un y dos factores completamente.
DISEÑO DE EXPERIMENTOS
UNIVERSIDAD DE QUINTANA ROO
ESTADISTICA INFERENCIAL
De la muestra a la población
Pronósticos, Series de Tiempo y Regresión
Fco. Javier Burguillo Universidad de Salamanca
ANÁLISIS DE LA VARIANZA (ANOVA)
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
Clase 3 Universo y Muestra
Bioestadística Aplicada I
Diseño de experimentos
Tema 6: Análisis de la Varianza (1ª parte: ANOVA simple)
ANOVA Modelo I: Comparación entre medias
Clase 5 Hipótesis de diferencias de grupos
TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE
Técnicas estadísticas paramétricas univariantes: regresión
Clases 3 Pruebas de Hipótesis
(niveles o categorías)
Curso Práctico de Bioestadística Con Herramientas De Excel Fabrizio Marcillo Morla MBA (593-9)
Análisis estadístico aplicado a la fisioterapia Introducción
EMPLEAR COMO DISEÑO UNA FRACCION FACTORIAL
ANOVA (Analysis of Variation)
Este procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos que presentan una cierta respuesta a dicho estímulo. Es.
con Dos Criterios de Clasificación
Pronósticos, Series de Tiempo y Regresión
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
DISTRIBUCIONES DE MUESTREO
ESTADISTICA TEMA 12.
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
Datos: Estadística.
Análisis de Varianza (I)
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Titular: Agustín Salvia
Capacidad de Proceso.
Concepto El diseño de discontinuidad en la regresión ofrece mejores perspectivas que el diseño de grupos no equivalentes, dado que se conoce la naturaleza.
U de Mann Whitney.
Capítulo 1. Conceptos básicos de la Estadística
CO-2124 Análisis de Varianza con Un Criterio de Clasificación En clases anteriores se deseaba determinar si existían diferencias entre las medias de dos.
Pruebas de hipótesis.
COMPROBACION DE HIPOTESIS SOBRE DOS PROMEDIOS Mario Briones L. MV, MSc 2005.
Estimación Diferencia de dos medias
Taller 2 Reflexiones sobre Metodología Cuantitativa: Potencial de la comparación de muestras Germán Fromm R.
PARA LA REGRESIÓN LINEAL SIMPLE
Regresión Lineal Simple
PLANES DE MUESTREO Y GRAFICAS DE CONTROL
DISEÑOS DE EXPERIMENTOS FACTORIALES
20. Comparación de promedios entre grupos Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
INFERENCIA ESTADÍSTICA
Análisis de Varianza ANOVA Capitulo 10. Multiples grupos Ha: Por lo menos uno de los grupos no es igual a lo demás.
TEMA 4 LA VALIDEZ DE LA INVESTIGACIÓN
Pruebas paramétricas y no paramétricas
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
DISEÑOS POR BLOQUES ALEATORIZADOS
(niveles o categorías)
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
MÁS DE DOS MUESTRAS Procedimientos paramétricos. Pruebas de diferencias entre más de dos muestras *Con cálculos diferentes de SC y gl, según el caso.
Bioestadística Inferencia estadística y tamaño de muestra
7.2 P ROCEDIMIENTOS PARAMÉTRICOS PARA DATOS CUANTITATIVOS Dos muestras Intervalos de confianza.
ANALISIS DE VARIANZA.
INTERVALO DE CONFIANZA
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. www.fernandotuya.org

ANOVA Conocer el efecto de un factor categórico sobre una variable continua ¿diferencias entre los niveles de distintas variables categóricas causan diferencias sign. sobre la variable respuesta/dependiente? Y Ej. 1 factor con 4 niveles y medimos respuesta Y en n réplicas para cada nivel del factor; ¿Son las medias diferentes entre los 4 tratamientos? µ1 µ2 µ3 µ4 X (categorías/grupos/tratamientos)

Ho: µ1 = µ2 = µi H1: µ1 = µ2 ≠ µi Ho: µ1 = µ2 H1: µ1 ≠ µ2 ANOVA: comparamos medias entre categorías /grupos/tratamientos Ho: µ1 = µ2 = µi H1: µ1 = µ2 ≠ µi (al menos una diferencia entre grupos) Ej: Hay diferencias en el rendimiento (variable continua, dependiente) entre 4 grupos sometidos a distintos niveles de entrenamiento (factor o variable categórica) T-student (caso más sencillo): comparamos medias entre 2 categorías /grupos Ho: µ1 = µ2 H1: µ1 ≠ µ2

Idea conceptual: comparar ambas fuentes de variabilidad Var total = Var entre grupos + Var dentro de grupos (residual) IDEA GENERAL: ANOVA parte la varianza ( = variabilidad) total = toda la variabilidad debida a los factores que contrastamos y un término residual (“cajón desastre”) que incluye todos aquellos factores, variables q influyen a la variabilidad natural dentro de los grupos, pero q decidí no contrastar (“ruido”) Idea conceptual: comparar ambas fuentes de variabilidad Si Var entre grupos > Var residual – diferencias entre grupos son importantes; evidencia para rechazar Ho; es decir, mi factore(s) son importantes Si Var entre grupos < Var residual – diferencias entre grupos NO son importantes; evidencia para no rechazar Ho, mi factore(s) NO son importantes

Var entre grupos/Var residual 0-1 si Var entre grupos < Var residual > 1 si Var entre grupos > Var residual Idea para construir el estadístico¡¡¡ (F-ratios = cociente: variabilidad entre grupos/variabilidad dentro de grupos)

Lenguaje del ANOVA: Funcionamiento del ANOVA-I Fuente de variación Suma de cuadrados Grados libertad Cuadrados medios F-ratio P-valor Entre grupos = niveles SS g a-1 SS g/df Dentro de grupos (Residual) SS res n-1 SS res/df Total SS tot an -1 Como hemos visto: ANOVA estima 2 fuentes de variabilidad y compara sus tamaños F-ratio = Var entre grupos/Var dentro grupos

å å ( Xi-X)2 å å (Xij- Xi)2 å å (Xij- X)2 Lenguaje del ANOVA: Funcionamiento del ANOVA-I Fuentes de variación Suma de cuadrados (SS) g.l. (d.f.) Cuadrados medios (MS) å å ( Xi-X)2 Entre muestras (entre grupos) k-1 SCa / k-1 Dentro muestras (dentro grupos) å å (Xij- Xi)2 k (n -1) SCw / k (n-1) å å (Xij- X)2 (k n ) -1 SCt /( kn)-1 Total El nombre de ANOVA procede de la utilización de la comparación de las varianzas para determinar si aceptamos la hipótesis de igualdad de medias: medias = supone = varianzas y si las medias son ≠, la varianza entre los tratamientos es > que el error (dentro de muestras). CMa F = ----------- CMw

Vamos a complicar la cosa….más de un factor Precisamente, es lo q hace de ANOVA una técnica muy empleada

Yijk = µ + Ai + Bj + ABij + Residual k(ij) ANOVA-2: modelo lineal de fuentes de variación Yijk = µ + Ai + Bj + ABij + Residual k(ij) Efectos principales (efecto independiente y aditivo de cada factor; promediando el efecto del otro u otros factores) Interacción (efecto interactivo entre factores; es decir, si las diferencias que A causa sobre Y varían en función de los niveles de B)  Precisamos de un estadístico para cada término para testar (contrastar) su significancia

ANOVA-2 parte la variabilidad Variación total SST = Variación debida al factor A Variación debida al factor B SSFA + SSFB + Variación debida a la interacción A x B Variación residual SSAB + SSE

ANOVA-3 y así sucesivamente… Yijkl = µ + Ai + Bj + Ck + ABij + ACik + BCjk + ABCijk + Residual l(kij) En teoría no hay limitación, en la práctica la cosa se complica: recomiendo análisis fáciles al principio, ya tendrás tiempo de complicarlo¡

ANOVA-2: “su lenguaje” df SS MS F-ratio P A a-1 Ssa Ssa/dfa MS A/MS denominador B b-1 SSb Ssb/dfb MS B/MS denominador A x B (a-1)(b-1) Ssab Ssab/dfab MS AB/MS denominador Residual ab(n-1) Ssred Ssres/dfres Total abn-1  La significancia de todo término F ratio =MS numerador/MS denominador; si F está cercano a 0-1 = no hay efecto significativo del factor; si F=↑ hay efecto.

¿Y todo este rollo de las interacciones? La gran ventaja de ANOVA es precisamente el q podamos contrastar el efecto de las interacciones en diseños multifactoriales (incluyen muchos factores); además de los efectos principales (efectos aditivos): es decir, si el efecto de un factor depende del otro¡…¿Por qué son tan importantes las interacciones? Interacciones: sinergias, antagonismo vs. efectos aditivos. Es decir, las interacciones cuantifican si los tratamientos actúan aditivamente, sinergísticamente o antagonísticamente. …se lo muestro con un ej. ¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs?

Student-Newman-Keuls (SNK) extensión secuencial del t-test Tests a posteriori ¿Pq? - ANOVA te dice q hay diferencias pero no entre quién (e.g. entre qué niveles) Test de todos los posibles pares de medias: SNK, Tukey, etc.–”cada maestrillo su librillo” (nosotros ya veremos los nuestros en las prácticas) Student-Newman-Keuls (SNK) extensión secuencial del t-test

Tests a posteriori: “problemilla” Incrementar la probabilidad de cometer error de Tipo I Ho: µ1 = µ2 = µ3 a = 0.05 a = 0.05 a total = 0.15 Ho: µ1 = µ2 µ1 = µ3 µ2 = µ3 “Inflamos” error Tipo I Solución: aunque podemos aplicar ajuste (corrección de Bonferroni), una decisión salomónica es reducir α de 0.05 a 0.01

Asunciones del ANOVA: test paramétricos  Homogeneidad de varianzas (entre niveles/tratamientos). Hay batería de Tests: Cochran’s, Levene’s . Si no hay: ↑ error tipo I Peligro¡¡

Asunciones del ANOVA  Normalidad (recuerda si n> 30- Teorema Central del Límite - no problema. Realmente, es la asunción menos estricta: ANOVA (diseños balanceados) es robusta a desviaciones de la normalidad Independencia Si no hay independencia: muestras son muy similares; error residual pequeño y consecuentemente ↑ error tipo I. En el planteamiento del experimento está la solución: problema biológico no estadístico

¿Qué hago si se violan las asunciones del ANOVA (1) “outliers” como causa de la violación de las asunciones; si datos siguen distribución bimodal puedes dividir los datos en 2 niveles (2) Trasforma datos: raíz, log, doble raíz, arc-sen (3) Si la trasformación no funciona, pero diseño es balanceado y n> 30 – corre ANOVA y aumenta el nivel de confianza. Juega con el nivel de significación (α); de 0.05 a 0.01; aumentamos nuestra confianza de un 95 a un 99% y así reduzco la P(error tipo I) (4) Si la trasformación no funciona, pero el diseño es pequeño – alternativa no paramétrica (e.g. K-W, Wilcoxon) –los vemos en Rcom.

Transformación de datos Raíz cuadrada Ö X + 1 Poblaciones que siguen una distribución de Poisson: medias y varianzas son iguales

Transformación de datos log (X+1) Logarítmo Muestreos con valores muy altos: medias mayores y varianza mucho mayores (distribución log-normal) Medidas de tasas, concentraciones, relaciones,... Independiente del tipo de logaritmo usado Sumar una constante (1) para aplicar logaritmos por los valores que son 0

Transformación de datos sen-1 Ö X Arcoseno Porcentajes y proporciones (distribución binomial) Ej. Porcentaje de cobertura algal

Corolario  Procura diseños con n alto y distribución balanceada de muestras  Toma extra muestras  Fuerza siempre que puedas ANOVA frente técnicas no paramétricas: al usar rangos pierdo información. En tal caso, reporta tus conclusiones con la precaución que requiere el análisis

ANCOVA Covariables: variables continuas que influyen en la variable respuesta, pero cuyo efecto no es de interés Conceptualmente, mismo fundamentos q ANOVA, pero nos permite incluir una o + covariables, cuyo efecto quiero eliminar para determinar exclusivamente el efecto de ciertos factores sobre dicha variable respuesta. Forma de eliminar “ruido”, pq eliminamos la varianza debido a las covariables; es decir, a la varianza total le quitamos la varianza debida a la covariable(s); esto nos permite aumentar el poder del análisis

Ejemplo de ANCOVA ¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs? ANOVA-2 Pero queremos quitar el posible efecto del peso de los individuos. Establezco el peso como covariable en el análisis.