La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Análisis de Varianza (I)

Presentaciones similares


Presentación del tema: "Análisis de Varianza (I)"— Transcripción de la presentación:

1 Análisis de Varianza (I)

2 Contenido El modelo linear de clasificación y el análisis de varianza
Cuándo se usa el ANDEVA y qué datos debemos tener para poder realizarlo. Suposiciones básicas para realizar el ANDEVA Cálculos y presentación del ANDEVA Modelos de clasificación y análisis de varianza El modelo linear de clasificación y el análisis de varianza Cuándo se usa el ANDEVA y qué datos debemos tener para poder realizarlo. Suposiciones básicas para realizar el ANDEVA Cálculos y presentación del ANDEVA Modelos de clasificación y análisis de varianza

3 Objetivos Describir el concepto de modelo lineal de clasificación, sus alcances y limitaciones. Describir las técnicas de partición de la suma de Cuadrados para el cálculo del análisis de varianza. Describir los modelos de clasificación que se usan comúnmente en investigación, y los procedimientos de análisis de varianza. OBJETIVOS Describir el concepto de modelo lineal de clasificación, sus alcances y limitaciones. Describir las técnicas de partición de la suma de Cuadrados para el cálculo del análisis de varianza. Describir los modelos de clasificación que se usan comúnmente en investigación, y los procedimientos de análisis de varianza.

4 Introducción El análisis de varianza es un procedimiento para comparar medias de varias poblaciones. Su nombre se deriva del hecho de que para comparar las medias, se evalúan y analizan las varianzas. La varianza total (s2) de una muestra que está dividida en diferentes grupos, puede a su vez, dividirse (particionarse) para estimar la varianza entre grupos y la varianza dentro de grupos. INTRODUCCION El modelos lineal de clasificación es un modelo estadístico que sirve para analizar datos procedentes de diferentes poblaciones, o afectados por diferentes factores o tratamientos. El análisis de varianza es un procedimiento para comparar medias de varias poblaciones. Su nombre se deriva del hecho de que para comparar las medias, se evalúan y analizan las varianzas. La varianza de una muestra que está dividida en diferentes grupos, puede dividirse (particionarse) de forma de conocer la varianza entre grupos y la varianza dentro de grupos.

5 Introducción Como en el caso de la regresión lineal simple y múltiple, para realizar un análisis de varianza es conveniente plantear el modelo de clasificación que se supone cierto en los datos que se van a analizar. Por ejemplo, si se tiene un experimento con un solo tipo de tratamientos, el modelo de clasificación será: INTRODUCCION El modelos lineal de clasificación es un modelo estadístico que sirve para analizar datos procedentes de diferentes poblaciones, o afectados por diferentes factores o tratamientos. El análisis de varianza es un procedimiento para comparar medias de varias poblaciones. Su nombre se deriva del hecho de que para comparar las medias, se evalúan y analizan las varianzas. La varianza de una muestra que está dividida en diferentes grupos, puede dividirse (particionarse) de forma de conocer la varianza entre grupos y la varianza dentro de grupos. Más adelante se explicará con detalle que significa cada término del modelo.

6 A. Modelos lineales de regresión B. Modelos lineales de clasificación.
Introducción Los modelos lineales pueden clasificarse en dos tipos: A. Modelos lineales de regresión B. Modelos lineales de clasificación. INTRODUCCION El modelos lineal de clasificación es un modelo estadístico que sirve para analizar datos procedentes de diferentes poblaciones, o afectados por diferentes factores o tratamientos. El análisis de varianza es un procedimiento para comparar medias de varias poblaciones. Su nombre se deriva del hecho de que para comparar las medias, se evalúan y analizan las varianzas. La varianza de una muestra que está dividida en diferentes grupos, puede dividirse (particionarse) de forma de conocer la varianza entre grupos y la varianza dentro de grupos. El modelo lineal de clasificación es un modelo estadístico que sirve para analizar datos procedentes de diferentes poblaciones, o afectados por diferentes factores o tratamientos

7 Modelo lineal de clasificación
El proceso para formular un modelo linear simple de clasificación consiste en extraer muestras de diferentes poblaciones, de las cuales se quieren comparar las medias (i). POBLACIONES POBLACION 1 1 POBLACION 2 m2 POBLACION 3 m3 POBLACION t t MUESTRA 1 MUESTRA 2 MUESTRA 3 MUESTRA t n1 n2 n3 nt MUESTRAS Estadísticos Muestrales Modelo de clasificación lineal simple

8 Modelo lineal de clasificación
Cuando los efectos de los tratamientos y el error experimental son lineales y aditivos, el experimento puede representarse por el modelo estadístico llamado modelo de clasificación lineal aditivo: Yij=  + τi + εij , i=1,2,...,t; j=1,2,....,ni.   donde: Yij representa la variable de interés en el experimento, siendo el subíndice i el que indica el tratamiento y el subíndice j el que indica la repetición para el i-ésimo tratamiento.  representa la media general (para toda la población) de la variable Yij; τi representa el efecto del tratamiento i-ésimo, el cual es: τi = mi-m. εij representa el error o desviación experimental de la observación hecha en el tratamiento i-ésimo y la repetición j-ésima, el cual es: εij = Yij -  - τi

9 Modelo lineal de clasificación
Los datos que generan este modelo se pueden ver en forma manual o de computadora. El siguiente cuadro muestra los datos en forma manual: Rep. Trat 1 Trat 2 . Trat t Subtotal 1 Y11 Y21 Yt1 Y.1 2 Y12 Y22 Yt2. Y.2 r Y1r1 Y2r2 Ytr3 Y.r Y1. Y2. Yt. Total = Y.. Nota:  ri = n0

10 Modelo lineal de clasificación
Este cuadro muestra los datos en la computadora para analizar el modelo propuesto Observación Tratamiento (τ) Yij 1 A 25 2 27 3 23 4 24 5 B 32 6 35 7 30 8 29 9 C 37

11 Estimación de parámetros del modelo lineal de clasificación
Los parámetros del modelo son: , τi y e2 (Varianza del Error). Estimador de : : Media de todos los datos _ Estimador de τi: , donde Yi =(j Yij )/ni es la media del tratamiento i-ésimo. Estimador de e2: o Donde es la suma de las repeticiones del tratamiento i elevada al cuadrado. Y n0 denota el total de observaciones.

12 Estimación de parámetros del modelo lineal de clasificación
Debido a que los términos del modelo son independientes entre sí, se puede establecer la siguiente relación: la cual se puede describir como: Suma de Cuadrados Total= Suma de Cuadrados de Tratamientos + Suma de Cuadrados del Error.

13 Análisis de varianza de modelo de clasificación simple
Modelo para datos con un solo factor de clasificación: Fuente g. l. Suma Cuadrados Cuadrado Medio Fc TRATAM. t – 1 SC Trat / (t-1) ERROR t(r – 1) SC Error = SC Total –SC Trat. TOTAL tr – 1

14 Suma de Cuadrados Total
Ejemplo Se cuenta con una muestra de 6 observaciones, clasificadas en dos grupos. Grupo 1 Grupo 2 Observación 1 Observación 2 Observación 3 2 3 1 6 7 5 Media Suma de Cuadrados (SC) Media General Suma de Cuadrados Total  4 28

15 SC Error= SC Total – SC Trat = 28-24 = 4
Ejemplo (cont.) Suma de Cuadrados Total: ( ) – {(24)2/6} = 28 Suma de Cuadrados de Tratamientos: SC Trat = ( )/3 - {(24)2/6} = 24 Suma de Cuadrados del Error: SC Error= SC Total – SC Trat = = 4

16 Dentro de Grupos (Error)
Ejemplo (cont) La partición de la Suma de Cuadrados de toda la muestra en: “Entre Grupos” y “Dentro de Grupos” produce el siguiente cuadro:  Fuente Efecto Principal SC  g.l.  CM F p Entre Grupos 24.0 1 24.0  .008  Dentro de Grupos (Error) 4.0 4 1.0 Total 28 5

17 Ilustración gráfica del ANDEVA
La media del grupo 2 es más grande que la media del grupo 1. ¿Es esta diferencia debida al azar? Media Grupo 2 Media General Media Grupo 1

18 Ilustración gráfica del ANDEVA
Las diferencias entre cada observación y la media general van a contribuir a la varianza de la muestra. Las diferencias entre las medias de los grupos y la media general van a contribuir a la varianza entre grupos. Las diferencias entre cada observación y la media de su grupo van a contribuir a la varianza dentro de grupos (llamada Varianza del Error). Media Grupo 2 Media General Media Grupo 1

19 Suposiciones básicas para realizar el ANDEVA
El modelo es lineal en sus parámetros, y es el verdadero. Los errores experimentales son independientes entre sí; esto quiere decir que el error experimental de una observación es independiente del de cualquier otra observación. Se supone que esto se logra tomando (o asignando) las observaciones al azar. Los errores tienen una distribución aproximadamente normal, con media igual a 0 y varianza s2. Las varianzas de los grupos o tratamientos son similares. Distribución de los errores del modelo

20 Objetivos del ANDEVA El principal objetivo del análisis de varianza es estimar la varianza del error del modelo [denominada CME o se2]. Una vez estimada esta varianza, se pueden probar hipótesis con respecto a las medias de los tratamientos. La prueba de hipótesis de mayor interés en este modelo será:  H0: τ1 = τ2 = ... = τt versus Ha: Algunos efectos de tratamientos son diferentes Una prueba para esta hipótesis la proporciona: Fc = [CM (Tratamientos)] / [CM(Error)] Si Fc es mayor que F[,(t-1)(n0-t)], entonces se rechaza la hipótesis nula de que los tratamientos son iguales, y se concluye con  de probabilidad de error, que existe alguna diferencia significativa entre al menos dos tratamientos.

21 Datos para el Andeva Estudio con cuatro tipos de masa para donas. La variable respuesta (Y) es el % de absorción de grasa promedio de 12 donas elaboradas con cada masa. Se tienen 4 tipos de masa; cada tipo de masa se elaboró separadamente 6 veces (repeticiones), y se prepararon 12 donas de cada masa. La unidad experimental es la masa (produce 12 donas). Hay 4 tratamientos, 6 repeticiones por tratamiento, y un total de 24 observaciones.

22 Cálculos para el Andeva
El modelos lineal de clasificación es un modelo estadístico que sirve para analizar datos procedentes de diferentes poblaciones, o afectados por diferentes factores o tratamientos. El análisis de varianza es un procedimiento para comparar medias de varias poblaciones. Su nombre se deriva del hecho de que para comparar las medias, se evalúan y analizan las varianzas. La varianza de una muestra que está dividida en diferentes grupos, puede dividirse (particionarse) de forma de conocer la varianza entre grupos y la varianza dentro de grupos. S. de Cuadrados Total: ( ) - (1770)2/24 = 3,654.5 S. de Cuadrados de Trat.: ( )/6 - (1770)2/24 = 1,636.5 S. de Cuadrados del Error: S. de C. Total - S. de C. Trat. = 2,018.0

23 Cálculos para el Andeva
S. de Cuadrados Total: (1770)2/24 = S. de Cuadrados de Trat.: ( ) - (1770)2/24 = S. de Cuadrados del Error: S. de C. Total - S. de C. Trat. = – = 2018 El modelos lineal de clasificación es un modelo estadístico que sirve para analizar datos procedentes de diferentes poblaciones, o afectados por diferentes factores o tratamientos. El análisis de varianza es un procedimiento para comparar medias de varias poblaciones. Su nombre se deriva del hecho de que para comparar las medias, se evalúan y analizan las varianzas. La varianza de una muestra que está dividida en diferentes grupos, puede dividirse (particionarse) de forma de conocer la varianza entre grupos y la varianza dentro de grupos.

24 R2 = 0.45; Se: 10.04; C.V. = 13.62; Media general= 73.75
Cuadro de Andeva Fuente g.l. S.C. C. M. F Prob. de > F Trat. 3 1,636.5 545.5 5.40 0.006 Error 20 2,018.0 100.9 Total 23 3,654.5 R2 = 0.45; Se: 10.04; C.V. = 13.62; Media general= 73.75

25 Presentación de resultados del Andeva
a) Resumen de la información estadística del Andeva F de Trat. = 5.40; p<0.006 R2 = 0.45; Se = 10.04; C.V. = 13.62; Media general = 73.75 Desviación estándar de una media = Diferencia mínima significativa entre dos medias (Tukey) = 16.23 Tipo de masa % de Grasa Dif. Mín. de Tukey

26 Presentación de resultados del Andeva
b) Promedios de tratamientos en cuadros o gráficas PROMEDIOS DE LOS CUATRO TIPOS DE MASA GRASA

27 Ejercicio Calcule usando el Excel el ejemplo de donas. Presente los resultados e interprételos.

28 Análisis de Varianza con JMP

29 Análisis de varianza con JMP

30 Análisis de varianza con Infostat
A continuación se muestra la salida de computadora de Infostat para el ejemplo de donas.

31 Consecuencias cuando no se cumplen las suposiciones del Andeva
Si la distribución de Y no es aproximadamente normal, la prueba de F es inválida. b) Si los errores no son independientes, el Cuadrado Medio del Error no tiene distribución de 2, y por lo tanto Fc no tendrá distribución de F, haciendo la prueba de F inválida. c) Si las varianzas dentro de Tratamientos no son homogéneas (aproximadamente iguales), el Cuadrado Medio del Error será grande, y no tendrá distribución de 2, con las mismas consecuencias del caso anterior. Se recomienda verificar las suposiciones del ANDEVA antes de realizar los cálculos, ya que los resultados no serán confiables si no se asegura que las suposiciones se cumplan.

32 Realice los análisis del ejemplo con JMP y con Infostat.
Ejercicio Realice los análisis del ejemplo con JMP y con Infostat.

33 Verificación de suposiciones
Para verificar la independencia de los errores, basta con asegurarse que las observaciones para cada tratamiento fueron elegidas al azar, o de acuerdo a algún plan de muestreo aleatorio, o con un diseño experimental planeado previamente al registro de datos. Para verificar que la variable Y tiene una distribución aproximadamente normal, se pueden usar los siguientes criterios: a) Que la variable sea continua b) Ver artículos en la literatura, donde haya análisis de la variable en cuestión, y ver si la trataron como normal. c) Recoger suficientes datos de la variable como para hacer un histograma y diagramas de normalidad. Para verificar si las varianzas dentro de tratamientos son homogéneas, se puede emplear la Prueba de Bartlett (Ver Ostle, Pág ).

34 Verificación de suposiciones
Las varianzas de los tratamientos pueden ser desiguales, cuando el número de repeticiones de los tratamientos son muy desiguales (por ejemplo, tenemos un tratamiento con dos repeticiones y el resto con 6 repeticiones), o cuando la variable a analizar tiene distribución exponencial o de Poisson. Cuando se comprueba que la variable no es normal se pueden hacer dos cosas: 1. Buscar transformaciones que "normalicen" la variable. 2. Usar métodos no-paramétricos para el ANDEVA.

35 Transformaciones para Andeva (I)
Transformación Ecuación Aplicación  Logarítmica Y´ = Log(Y) Y' = Log10 (Y) Y' = Log (Y+ 0.5) a. Los efectos verdaderos son multiplicativos o proporcionales en el modelo b. La desviación estandar de los tratamientos es proporcional a la media (Varianzas desiguales dentro de tratamientos) Raíz Cuadrada Y' =  (Y) Y' =  (Y+1) Los datos tienen distribución de Poisson, o provienen de conteos muy disparejos. (Se le agrega 1 cuando hay muchos datos con ceros)

36 Transformaciones para Andeva (II)
Transformación Ecuación Aplicación Arco Seno o Angular Y' = ArcSen (Y) o Y' = ArcSen (Y/100) Los datos originales provienen de una distribución binomial, son proporciones o porcentajes (mayores a 90%, o menores que 10%) Recíproca Y' = 1/Y La desviación estandar de los tratamientos es proporcional al cuadrado de su media. 

37 Ejercicio Verifique las suposiciones del análisis de varianza en el ejemplo de donas.

38 Análisis de Varianza No-Paramétrico
¿Cuando se usa? Cuando la variable que se va a analizar no tiene una distribución normal. Cuando son pocos datos, y la variable está en escala ordinal, o de intervalo, o no se conoce la distribución que tienen los datos. Cuando se observa que la varianza de cada grupo (tratamiento) está asociada con la media de ese grupo.

39 Análisis de Varianza No-Paramétrico
Hay dos formas de realizar ANDEVA no-paramétrico: Si se tiene un modelo con un solo término de clasificación (llamado análisis de un solo factor), puede realizar la prueba de Kruskall- Wallis, la cual está implementada en la mayoría de los paquetes estadísticos . Si tiene un modelo de dos factores o de bloques al azar, puede usar la prueba de Friedman. Para todos los demás casos, puede realizar lo siguiente:

40 Análisis de Varianza No-Paramétrico
Ordene los datos de menor a mayor. Asígnele órdenes (rangos). Esta es la nueva variable que va a analizar. Realice el ANDEVA en la forma usual. La evaluación de resultados del ANDEVA será la misma que la usual. Los promedios estarán en términos de valores de orden (medianas de los tratamientos), por lo que deberá volver a sus datos iniciales, para saber a qué valor corresponde cada mediana.

41 Análisis de Varianza No-Paramétrico
Usando JMP

42 Análisis de Varianza No-Paramétrico
Usando JMP Tratamiento Mediana de orden Mediana de Variable 1 11 71 2 20 85 3 14 76 4 6 64

43 Análisis de Varianza No-Paramétrico
Usando JMP

44 Ejercicio Realice el análisis no paramétrico de Kruskal-Wallis con el Infostat para el ejemplo de donas, suponiendo que la variable “Grasa” no tiene distribución normal.

45 Resumen El modelo linear de clasificación y el análisis de varianza
Objetivos del ANDEVA Suposiciones básicas para realizar el ANDEVA Cálculos y presentación del ANDEVA Consecuencias cuando no se cumplen las suposiciones básicas del ANDEVA Transformaciones ANDEVA no-paramétrico


Descargar ppt "Análisis de Varianza (I)"

Presentaciones similares


Anuncios Google