La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Varianza y Covarianza.

Presentaciones similares


Presentación del tema: "Varianza y Covarianza."— Transcripción de la presentación:

1 Varianza y Covarianza

2 Varianza

3 Existen formas de sintetizar conjuntos de puntuaciones, las 2 más usadas son: la media y la varianza
Población Muestra Símbolos Media de la población: μ Varianza poblacional: σ Media de la muestra: Varianza de la muestra: Observe que se utilizan símbolos griegos cuando se hace referencia a la media o a la varianza poblacionales y letras cuando son muestrales

4 La media La media aritmética o simplemente promedio (también llamada media muestral ya que generalmente se calcula en relación a una muestra) se calcula de la siguiente forma: si las observaciones de una muestra de tamaño n son x1, x2,…,xn entonces Es el centro de gravedad de toda la distribución, representando a todos los valores observados

5 La varianza Es un valor numérico que mide el grado de dispersión relativa porque depende de la posición de los datos x1,x2,…,xn con respecto a la media. Es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media.

6 Cómo se calcula la varianza
8 cms. Aquí tenemos 9 rectángulos cuya altura es de 8 centímetros (y todos tienen la misma base). ¿Cuál es el promedio de la altura de estos rectángulos? 9 = 72 9 = 8

7 Cómo se calcula la varianza
10 cms 6 cms 8 cms. El quinto rectángulo y el octavo rectángulo en un acto de rebeldía cambiaron su altura. El quinto rectángulo, ahora de color rojo, mide 10 centímetros, y el octavo rectángulo, de color azul, mide 6 centímetros? ¿Cuál es el nuevo promedio de estos 9 rectángulos? 9 = 72 9 = 8 ... ¡el mismo promedio! Pero... ¿ha habido variación?

8 Cómo se calcula la varianza
10 cms 6 cms 8 cms. El rectángulo rojo tiene +2 centímetros sobre el promedio, y el rectángulo azul tiene –2 centímetros bajo el promedio. Los otros rectángulos tienen cero diferencia respecto del promedio. Si sumamos estas diferencias de la altura respecto del promedio, tenemos – 2 + 0 = 0 Este valor nos parece indicar que ¡no ha habido variabilidad! Y sin embargo, ante nuestros ojos, sabemos que hay variación.

9 Cómo se calcula la varianza
10 cms 6 cms 8 cms. Una forma de eliminar los signos menos de aquellas diferencias que sean negativas, esto es de aquellos mediciones que estén bajo el promedio, es elevar al cuadrado todas las diferencias, y luego sumar... (– 2) = 8 Y este resultado repartirlo entre todos los rectángulos, es decir lo dividimos por el número de rectángulos que es 9 9 8 (– 2) = 9 = 0,89

10 Cómo se calcula la varianza 10 cms
Se dice entonces que la varianza fue de 0,89 Observemos que las unidades involucradas en el cálculo de la varianza están al cuadrado. En rigor la varianza es de 0,89 centímetros cuadrados. De manera que se define La raíz cuadrada de la varianza se llama desviación estándar

11 Cómo se calcula la varianza
10 cms 6 cms 8 cms. Que la desviación estándar haya sido de 0,943 significa que en promedio la altura de los rectángulos variaron (ya sea aumentando, ya sea disminuyendo) en 0,943 centímetros. Es claro que esta situación es “en promedio”, puesto que sabemos que los causantes de la variación fueron los rectángulos quinto y octavo. Esta variación hace repartir la “culpa” a todos los demás rectángulos que se “portaron bien”. La desviación estándar mide la dispersión de los datos respecto del promedio

12

13 Primaria, experimental o intergrupos
Tipos de varianza Varianza Varianza sistemática Cualquier influencia natural o generada por el hombre que cause que los eventos sucedan de forma predecible Primaria, experimental o intergrupos Influencia de la VI Secundaria: Influencia de VE Varianza de error Es la fluctuación o variación de medidas que no se pueden explicar Factores aleatorios

14 Descomponiendo la varianza
Estos son los resultados de los puntajes obtenidos en un examen de estadística (VD) por estudiantes. Cada grupo ve la materia con un profesor distinto (la VI o factor sería el profesor) consideraremos que todos los sujetos hipotéticamente pertenecen a una única muestra porque es esta varianza del grupo total la que vamos a analizar o descomponer. ¿De dónde vienen las diferencias en este grupo total formado por las muestras A y B? ¿De que los sujetos son muy distintos entre sí dentro de cada grupo? No, en este ejemplo los sujetos dentro de cada grupo tienen un grado semejante de homogeneidad o variabilidad. Si las medias difieren entre sí, más que los sujetos entre sí, concluiremos que esas diferencias se deben al tipo de profesor Descomponiendo la varianza

15 Ejemplo para la comprensión de la situación
Supongamos una población de la notas de un universo de 9 alumnos de tres grupos distintos, así: Grupo 1 Grupo 2 Grupo 3 5 Evidentemente en este caso la media global es 5 y la de cada grupo también. Yi= µ Cada valor es igual a la media general. Por lo tanto se puede afirmar que NO HAY DIFERENCIA ENTRE GRUPOS, NI DENTRO DE CADA UNO DE LOS GRUPOS

16 Ejemplo para la comprensión de la situación
Supongamos que aplicamos un método de enseñanza (factor) que afecta: subiendo las notas del grupo 1 en 1 punto, las del grupo 2 en dos puntos y no modificando las del grupo 3. así: Grupo 1 Grupo 2 Grupo 3 5+1=6 5+2=7 5+0=5 Ahora la nota del alumno sería Yi=µ+αi, en los que α son 1, 2, 0. Parece claro que EL FACTOR INFLUYE EN ESTABLECER DIFERENCIAS ENTRE GRUPOS, PERO NO DENTRO

17 Ejemplo para la comprensión de la situación
Lo más habitual es que haya alumnos que rindan más que otros (por diversas razones aleatorias que en principio no dependen de un factor) son por tanto comportamientos aleatorios individuales que denominamos ε. En nuestro ejemplo, sería Los efectos aleatorios serían -1,-2,0,2,0,1,3,4,0 que fomentan la variabilidad INTRA-GRUPOS Grupo 1 Grupo 2 Grupo 3 5+1-1=5 5+2+2=9 5+0+3=8 5+1-2=4 5+2+0=7 5+0+4=9 5+1+0=6 5+2+1=8 5+0+0=5 Por lo tanto tenemos dos tipos de variabilidad: la que se da entre grupos (debida al factor) y la que se da intragrupos (debida a la aleatoriedad). Para poder afirmar que el factor (método de enseñanza) produce efectos, la variabilidad ENTRE LOS GRUPOS ha de ser significativamente GRANDE respecto a la INTRA GRUPOS

18 Demostración Formula general para calcular la varianza de un muestra

19 Vamos a intentar demostrar que la varianza total está formada por la varianza entre grupos más la varianza intragrupos Experimento Objetivo Estamos interesados en conocer si la cortesía en las instrucciones para una tarea afecta la memoria de las palabras amables Procedimiento. Se define al azar qué grupo recibe el tratamiento A1 y cual A2 Los alumnos del grupo A1 recibieron instrucciones sin cortesía: “Ud. debe escribir el nombre de cada estado que recuerde” Los alumnos del grupo A2 recibieron instrucciones con cortesía: “Sería útil que Ud. escribiera el nombre completo de cada estado que recuerde” Después de leer las instrucciones, los sujetos tuvieron una tarea distractora consistente en recordar los 50 estados de la Unión Americana. Después se les aplicó una prueba de reconocimiento. Las puntuaciones fueron

20 Cálculo de la varianza total
X xi-X (xi-X)2 3 -1,5 2.25 5 0.5 0.25 1 -3.5 12.25 4 -0.5 2 -2.5 6.25 6 1.5 7 2.5 8 3.5 Media 4.5 ∑=42.50 Cálculo de la varianza total Media A1 A2 3 6 5 1 7 4 8 2 Se acomodaron las 10 puntuaciones en una sola columna Formula general para calcular la varianza de un muestra

21 Cálculo de la varianza dentro de los grupos
Se calcula la varianza de cada grupo por separado y después se promedia A1 xi-X (xi-X)2 A2 3 O 6 5 2 4 -1 1 -2 7 8 Media=3 ∑=10 Media=6 Como es obvio el promedio de las dos varianzas da 2. por lo tanto Vd=2

22 Cálculo de la varianza entre los grupos
Media A1 A2 3 6 5 1 7 4 8 2 xi-X (xi-X)2 3 1.5 2.25 6 Media 4.5 ∑=4.50

23 Demostración 4.25=2.25+2.00 Varianza total Varianza inter grupo
Varianza intra grupo Como es obvio el promedio de las dos varianzas da 2. por lo tanto Vd=2 4.25=

24 COVARIANZA

25 El concepto de relación
El concepto de relación en estadística coincide con lo que se entiende por relación en el lenguaje habitual: dos variables están relacionadas si varían conjuntamente. Si los sujetos tienen valores, altos o bajos, simultáneamente en dos variables, tenemos una relación positiva. Por ejemplo peso y altura en una muestra de niños de 5 a 12 años: los mayores en edad son también los más altos y pesan más, y los más jóvenes son los que pesan menos y son más bajos de estatura; decimos que peso y altura son dos variables que están relacionadas porque los más altos pesan más y los más bajos pesan menos. Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relación negativa. Por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física).

26 Los diagramas de dispersión
La representación gráfica de estos pares de puntuaciones se denomina diagrama de dispersión, y también nos ayuda a entender el mismo concepto de relación. Puede existir relación entre dos variables sin que ésta sea lineal. Las medidas estadísticas que detectan la relación lineal entre variables NO detectan las relaciones que no son lineales. En tal caso se deben utilizar métodos mas complejos (P. ej. regresión no lineal, regresión no paramétrica).

27 Correlación y covarianza
La correlación se define como la co-variación (co = con, juntamente: variar a la vez). Correlación y covarianza son términos conceptualmente equivalentes, expresan lo mismo. La covarianza (Cov, ) es una medida de relación, lo mismo que el coeficiente de correlación de Pearson (r). Habitualmente se utiliza el coeficiente de correlación (r de Pearson), pero es útil entender antes qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación.

28 Covarianza Para medir o cuantificar la relación entre dos variables comenzamos por tener presente que: Si las dos variables están relacionadas y esta relación es positiva → los sujetos tenderán a estar por encima o por debajo de la media en las dos variables a la vez Si las dos variables están relacionadas y esta relación es negativa → los sujetos tenderán a estar por encima de la media en una variable y por debajo de la media en la otra Si las dos variables no están relacionadas → el estar por encima o por debajo de la media en una variable es independiente del estar por encima o por debajo de la media en la otra variable

29 Covarianza Este estar por encima o por debajo de la media en dos variables simultáneamente nos permite cuantificar el grado de relación. Lo explicamos por pasos: La distancia o diferencia de un dato de un sujeto con respecto a la media la podemos representar restando cada puntuación de la media (la llamaremos d con subíndice X ó Y dependiendo de la variable ): Tenemos que si un dato está por encima de la media, la diferencia será positiva, y si está por debajo de la media, la diferencia será negativa.

30 Covarianza Lo explicamos por pasos:
2. Podemos multiplicar para cada individuo las diferencias en X y en Y, y luego sumar todos esos productos:

31 Covarianza: Teniendo en cuenta lo anterior, una buena medida de la variación simultánea de dos variables es la covarianza, que no es mas que un promedio de las distancias anteriormente expuestas :

32 Interpretación de la covarianza
 La covarianza nos mide la covariación conjunta de dos variables: Si es positiva nos dará la información de que a valores altos de una de las variable hay una mayor tendencia a encontrar valores altos de la otra variable y a valores bajos de una de las variable ,correspondientemente valores bajos. En cambio si la covarianza es negativa, la covariación de ambas variables será en sentido inverso: a valores altos le corresponderán bajos, y a valores bajos, altos. Si la covarianza es cero no hay una covariación clara en ninguno de los dos

33 Problemas con la interpretación de la covarianza
Esta medida no debe ser utilizada de modo exclusivo para medir la relación entre las dos variables, ya que es sensible al cambio de unidad de medida Por ejemplo, si estamos mirando la relación entre estura y peso las unidades de medida serían metros*kilos. ¿Cómo se interpreta eso?

34 Coeficiente de correlación
Así pues, es necesario definir una medida de la relación entre dos variables, y que no esté afectada por los cambios de unidad de medida. Una forma posible de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones típicas de cada variable, ya que así se obtiene un coeficiente adimensional, r, que se denomina coeficiente de correlación lineal de Pearson

35 Interpretación del coeficiente r
El coeficiente de correlación expresa en qué grado los sujetos (u objetos, elementos…) están variando simultáneamente en las dos variables y qué tan lineal es esa relación. Los valores extremos son 0 (ninguna relación) y ±1 (máxima relación). En últimas, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, sea cual sea ésta.

36 Interpretación del coeficiente r
Si r = 1 ó r =-1 el grafico de dispersión ajusta perfectamente a una línea recta. Podemos ver que coeficientes próximos a 0 expresan poca relación, y los coeficientes cercanos a 1 o a -1 expresan mucha relación, es decir mucho ajuste, mucho parecido con un línea recta.

37 Interpretación del coeficiente r
La magnitud del coeficiente es independiente del signo: El que la relación sea positiva o negativa es algo distinto de que sea grande o pequeña. El signo se refiere mas bien a si la relación es directa (cuando es positivo) o inversa (cuando es negativo) . Por ejemplo r = expresa más correlación que r = +0.79 r = -0.95 Correlación inversa muy fuerte r = 0.79 Correlación directa pero no tan fuerte

38 Interpretación del coeficiente de correlación r
La magnitud del coeficiente de correlación es independiente de la pendiente de la recta: Para toda serie de datos emparejados existe siempre una recta que es la que mejor ajusta a los datos. Sin embargo, dos series de datos pueden tener igual coeficiente de correlación y ajustarse a rectas de diferente pendiente. Por último, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, pero no nos habla sobre la pendiente de ésa recta.

39


Descargar ppt "Varianza y Covarianza."

Presentaciones similares


Anuncios Google