Varianza y Covarianza.

Slides:



Advertisements
Presentaciones similares
BUENAS TARDES.
Advertisements

Tema 6: Regresión lineal.
Tema 5: Asociación. 1. Introducción. 2. Tablas y gráficas bivariadas.
La varianza 8 cms. Aquí tenemos 9 rectángulos cuya altura es de 8 centímetros (y todos tienen la misma base). ¿Existe alguna variación respecto de su altura.
¿Cómo enseñar la varianza?
Estadística Unidad III
Capítulo 4: Medidas de dispersión
Pronósticos, Series de Tiempo y Regresión
Estadística: -Correlación y regresión
Tema 5: Modelos probabilísticos
Econometria 2. Modelo de Regresión Lineal Simple
Regresión y correlación
¿Cómo enseñar la varianza? 8 cms. Aquí tenemos 9 rectángulos cuya altura es de 8 centímetros (y todos tienen la misma base). ¿Existe alguna variación respecto.
Correlación 1.
MEDIDAS DE VARIABILIDAD O DISPERSION
Medidas de Dispersión Estadística E.S.O.
Estadística Descriptiva: 4. Correlación y Regresión Lineal
COEFICIENTE DE CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
9 Regresión Lineal Simple
Estadística bidimensional
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Facultad: Turismo Y Hotelería
Covarianza y correlación
Pronósticos, Series de Tiempo y Regresión
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
Datos: Estadística.
Medidas de Dispersión.
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
ESTADÍSTICAS DESCRIPTIVA
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Medidas de Variabilidad
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Introducción a la Inferencia Estadística
ESTADÍSTICA BIDIMENSIONAL
Clase 4a Significancia Estadística y Prueba Z
Tratamiento de datos y azar
LA RECTA DE REGRESIÓN CONTENIDOS:
MENSURABILIDAD Y VARIABILIDAD
Medidas de dispersión.
Unidad II: Variables Aleatorias Concepto Discreta y Continua Fun. de densidad Fun. de probabilidad F. de distribución Esperanza y Varianza Propiedades.
Variables estadísticas bidimensionales
UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS
Estadística: el concepto de media aritmética o promedio ¿Qué dice el diccionario de la palabra promedio? Más bien explica cómo se obtiene el promedio que.
ANÁLISIS E INTREPRETACIÓN DE DATOS
coeficientes de correlación de
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
La Lógica de la Experimentación
Métodos Cuantitativos
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Aplicaciones Estadísticas a las Finanzas Clase 1
Variables estadísticas bidimensionales
Estadística Reporte Ejecutivo
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente.
VARIANZA, COVARIANZA, DESVIACION ESTANDAR Y BETA
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
MODELOS DE PRONOSTICOS Primer semestre 2010 Modelo de Regresión con dos variables.
Diferencias individuales y correlaciones
Unidad 4 Análisis de los Datos.
Probabilidades y Estadísticas. Conceptos trabajados en años anteriores…  Variable Aleatoria: Es toda magnitud cuyos valores se obtienen en mediciones.
INFERENCIA ESTADÍSTICA
UNIDAD IV Regresión y correlación lineal
Aplicaciones Estadísticas a las Finanzas Clase 1
Coeficiente de variación
REGRESIÓN LINEAL SIMPLE
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
ANALISIS DE VARIANZA.
Transcripción de la presentación:

Varianza y Covarianza

Varianza

Existen formas de sintetizar conjuntos de puntuaciones, las 2 más usadas son: la media y la varianza Población Muestra Símbolos Media de la población: μ Varianza poblacional: σ Media de la muestra: Varianza de la muestra: Observe que se utilizan símbolos griegos cuando se hace referencia a la media o a la varianza poblacionales y letras cuando son muestrales

La media La media aritmética o simplemente promedio (también llamada media muestral ya que generalmente se calcula en relación a una muestra) se calcula de la siguiente forma: si las observaciones de una muestra de tamaño n son x1, x2,…,xn entonces Es el centro de gravedad de toda la distribución, representando a todos los valores observados

La varianza Es un valor numérico que mide el grado de dispersión relativa porque depende de la posición de los datos x1,x2,…,xn con respecto a la media. Es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media.

Cómo se calcula la varianza 8 cms. Aquí tenemos 9 rectángulos cuya altura es de 8 centímetros (y todos tienen la misma base). ¿Cuál es el promedio de la altura de estos rectángulos? 8 + 8 + 8 + 8 + 8 + 8 + 8 + 8 + 8 9 = 72 9 = 8

Cómo se calcula la varianza 10 cms 6 cms 8 cms. El quinto rectángulo y el octavo rectángulo en un acto de rebeldía cambiaron su altura. El quinto rectángulo, ahora de color rojo, mide 10 centímetros, y el octavo rectángulo, de color azul, mide 6 centímetros? ¿Cuál es el nuevo promedio de estos 9 rectángulos? 8 + 8 + 8 + 8 + 10 + 8 + 8 + 6 + 8 9 = 72 9 = 8 ... ¡el mismo promedio! Pero... ¿ha habido variación?

Cómo se calcula la varianza 10 cms 6 cms 8 cms. El rectángulo rojo tiene +2 centímetros sobre el promedio, y el rectángulo azul tiene –2 centímetros bajo el promedio. Los otros rectángulos tienen cero diferencia respecto del promedio. Si sumamos estas diferencias de la altura respecto del promedio, tenemos 0 + 0 + 0 + 0 + 2 + 0 + 0 – 2 + 0 = 0 Este valor nos parece indicar que ¡no ha habido variabilidad! Y sin embargo, ante nuestros ojos, sabemos que hay variación.

Cómo se calcula la varianza 10 cms 6 cms 8 cms. Una forma de eliminar los signos menos de aquellas diferencias que sean negativas, esto es de aquellos mediciones que estén bajo el promedio, es elevar al cuadrado todas las diferencias, y luego sumar... 02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 = 8 Y este resultado repartirlo entre todos los rectángulos, es decir lo dividimos por el número de rectángulos que es 9 9 8 02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 = 9 = 0,89

Cómo se calcula la varianza 10 cms Se dice entonces que la varianza fue de 0,89 Observemos que las unidades involucradas en el cálculo de la varianza están al cuadrado. En rigor la varianza es de 0,89 centímetros cuadrados. De manera que se define La raíz cuadrada de la varianza se llama desviación estándar

Cómo se calcula la varianza 10 cms 6 cms 8 cms. Que la desviación estándar haya sido de 0,943 significa que en promedio la altura de los rectángulos variaron (ya sea aumentando, ya sea disminuyendo) en 0,943 centímetros. Es claro que esta situación es “en promedio”, puesto que sabemos que los causantes de la variación fueron los rectángulos quinto y octavo. Esta variación hace repartir la “culpa” a todos los demás rectángulos que se “portaron bien”. La desviación estándar mide la dispersión de los datos respecto del promedio

Primaria, experimental o intergrupos Tipos de varianza Varianza Varianza sistemática Cualquier influencia natural o generada por el hombre que cause que los eventos sucedan de forma predecible Primaria, experimental o intergrupos Influencia de la VI Secundaria: Influencia de VE Varianza de error Es la fluctuación o variación de medidas que no se pueden explicar Factores aleatorios

Descomponiendo la varianza Estos son los resultados de los puntajes obtenidos en un examen de estadística (VD) por estudiantes. Cada grupo ve la materia con un profesor distinto (la VI o factor sería el profesor) consideraremos que todos los sujetos hipotéticamente pertenecen a una única muestra porque es esta varianza del grupo total la que vamos a analizar o descomponer. ¿De dónde vienen las diferencias en este grupo total formado por las muestras A y B? ¿De que los sujetos son muy distintos entre sí dentro de cada grupo? No, en este ejemplo los sujetos dentro de cada grupo tienen un grado semejante de homogeneidad o variabilidad. Si las medias difieren entre sí, más que los sujetos entre sí, concluiremos que esas diferencias se deben al tipo de profesor Descomponiendo la varianza

Ejemplo para la comprensión de la situación Supongamos una población de la notas de un universo de 9 alumnos de tres grupos distintos, así: Grupo 1 Grupo 2 Grupo 3 5 Evidentemente en este caso la media global es 5 y la de cada grupo también. Yi= µ Cada valor es igual a la media general. Por lo tanto se puede afirmar que NO HAY DIFERENCIA ENTRE GRUPOS, NI DENTRO DE CADA UNO DE LOS GRUPOS

Ejemplo para la comprensión de la situación Supongamos que aplicamos un método de enseñanza (factor) que afecta: subiendo las notas del grupo 1 en 1 punto, las del grupo 2 en dos puntos y no modificando las del grupo 3. así: Grupo 1 Grupo 2 Grupo 3 5+1=6 5+2=7 5+0=5 Ahora la nota del alumno sería Yi=µ+αi, en los que α son 1, 2, 0. Parece claro que EL FACTOR INFLUYE EN ESTABLECER DIFERENCIAS ENTRE GRUPOS, PERO NO DENTRO

Ejemplo para la comprensión de la situación Lo más habitual es que haya alumnos que rindan más que otros (por diversas razones aleatorias que en principio no dependen de un factor) son por tanto comportamientos aleatorios individuales que denominamos ε. En nuestro ejemplo, sería Los efectos aleatorios serían -1,-2,0,2,0,1,3,4,0 que fomentan la variabilidad INTRA-GRUPOS Grupo 1 Grupo 2 Grupo 3 5+1-1=5 5+2+2=9 5+0+3=8 5+1-2=4 5+2+0=7 5+0+4=9 5+1+0=6 5+2+1=8 5+0+0=5 Por lo tanto tenemos dos tipos de variabilidad: la que se da entre grupos (debida al factor) y la que se da intragrupos (debida a la aleatoriedad). Para poder afirmar que el factor (método de enseñanza) produce efectos, la variabilidad ENTRE LOS GRUPOS ha de ser significativamente GRANDE respecto a la INTRA GRUPOS

Demostración Formula general para calcular la varianza de un muestra

Vamos a intentar demostrar que la varianza total está formada por la varianza entre grupos más la varianza intragrupos Experimento Objetivo Estamos interesados en conocer si la cortesía en las instrucciones para una tarea afecta la memoria de las palabras amables Procedimiento. Se define al azar qué grupo recibe el tratamiento A1 y cual A2 Los alumnos del grupo A1 recibieron instrucciones sin cortesía: “Ud. debe escribir el nombre de cada estado que recuerde” Los alumnos del grupo A2 recibieron instrucciones con cortesía: “Sería útil que Ud. escribiera el nombre completo de cada estado que recuerde” Después de leer las instrucciones, los sujetos tuvieron una tarea distractora consistente en recordar los 50 estados de la Unión Americana. Después se les aplicó una prueba de reconocimiento. Las puntuaciones fueron

Cálculo de la varianza total X xi-X (xi-X)2 3 -1,5 2.25 5 0.5 0.25 1 -3.5 12.25 4 -0.5 2 -2.5 6.25 6 1.5 7 2.5 8 3.5 Media 4.5 ∑=42.50 Cálculo de la varianza total Media A1 A2 3 6 5 1 7 4 8 2 Se acomodaron las 10 puntuaciones en una sola columna Formula general para calcular la varianza de un muestra

Cálculo de la varianza dentro de los grupos Se calcula la varianza de cada grupo por separado y después se promedia A1 xi-X (xi-X)2 A2 3 O 6 5 2 4 -1 1 -2 7 8 Media=3 ∑=10 Media=6 Como es obvio el promedio de las dos varianzas da 2. por lo tanto Vd=2

Cálculo de la varianza entre los grupos Media A1 A2 3 6 5 1 7 4 8 2 xi-X (xi-X)2 3 1.5 2.25 6 Media 4.5 ∑=4.50

Demostración 4.25=2.25+2.00 Varianza total Varianza inter grupo Varianza intra grupo Como es obvio el promedio de las dos varianzas da 2. por lo tanto Vd=2 4.25=2.25+2.00

COVARIANZA

El concepto de relación El concepto de relación en estadística coincide con lo que se entiende por relación en el lenguaje habitual: dos variables están relacionadas si varían conjuntamente. Si los sujetos tienen valores, altos o bajos, simultáneamente en dos variables, tenemos una relación positiva. Por ejemplo peso y altura en una muestra de niños de 5 a 12 años: los mayores en edad son también los más altos y pesan más, y los más jóvenes son los que pesan menos y son más bajos de estatura; decimos que peso y altura son dos variables que están relacionadas porque los más altos pesan más y los más bajos pesan menos. Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relación negativa. Por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física).

Los diagramas de dispersión La representación gráfica de estos pares de puntuaciones se denomina diagrama de dispersión, y también nos ayuda a entender el mismo concepto de relación. Puede existir relación entre dos variables sin que ésta sea lineal. Las medidas estadísticas que detectan la relación lineal entre variables NO detectan las relaciones que no son lineales. En tal caso se deben utilizar métodos mas complejos (P. ej. regresión no lineal, regresión no paramétrica).

Correlación y covarianza La correlación se define como la co-variación (co = con, juntamente: variar a la vez). Correlación y covarianza son términos conceptualmente equivalentes, expresan lo mismo. La covarianza (Cov, ) es una medida de relación, lo mismo que el coeficiente de correlación de Pearson (r). Habitualmente se utiliza el coeficiente de correlación (r de Pearson), pero es útil entender antes qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación.

Covarianza Para medir o cuantificar la relación entre dos variables comenzamos por tener presente que: Si las dos variables están relacionadas y esta relación es positiva → los sujetos tenderán a estar por encima o por debajo de la media en las dos variables a la vez Si las dos variables están relacionadas y esta relación es negativa → los sujetos tenderán a estar por encima de la media en una variable y por debajo de la media en la otra Si las dos variables no están relacionadas → el estar por encima o por debajo de la media en una variable es independiente del estar por encima o por debajo de la media en la otra variable

Covarianza Este estar por encima o por debajo de la media en dos variables simultáneamente nos permite cuantificar el grado de relación. Lo explicamos por pasos: La distancia o diferencia de un dato de un sujeto con respecto a la media la podemos representar restando cada puntuación de la media (la llamaremos d con subíndice X ó Y dependiendo de la variable ): Tenemos que si un dato está por encima de la media, la diferencia será positiva, y si está por debajo de la media, la diferencia será negativa.

Covarianza Lo explicamos por pasos: 2. Podemos multiplicar para cada individuo las diferencias en X y en Y, y luego sumar todos esos productos:

Covarianza: Teniendo en cuenta lo anterior, una buena medida de la variación simultánea de dos variables es la covarianza, que no es mas que un promedio de las distancias anteriormente expuestas :

Interpretación de la covarianza  La covarianza nos mide la covariación conjunta de dos variables: Si es positiva nos dará la información de que a valores altos de una de las variable hay una mayor tendencia a encontrar valores altos de la otra variable y a valores bajos de una de las variable ,correspondientemente valores bajos. En cambio si la covarianza es negativa, la covariación de ambas variables será en sentido inverso: a valores altos le corresponderán bajos, y a valores bajos, altos. Si la covarianza es cero no hay una covariación clara en ninguno de los dos

Problemas con la interpretación de la covarianza Esta medida no debe ser utilizada de modo exclusivo para medir la relación entre las dos variables, ya que es sensible al cambio de unidad de medida Por ejemplo, si estamos mirando la relación entre estura y peso las unidades de medida serían metros*kilos. ¿Cómo se interpreta eso?

Coeficiente de correlación Así pues, es necesario definir una medida de la relación entre dos variables, y que no esté afectada por los cambios de unidad de medida. Una forma posible de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones típicas de cada variable, ya que así se obtiene un coeficiente adimensional, r, que se denomina coeficiente de correlación lineal de Pearson

Interpretación del coeficiente r El coeficiente de correlación expresa en qué grado los sujetos (u objetos, elementos…) están variando simultáneamente en las dos variables y qué tan lineal es esa relación. Los valores extremos son 0 (ninguna relación) y ±1 (máxima relación). En últimas, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, sea cual sea ésta.

Interpretación del coeficiente r Si r = 1 ó r =-1 el grafico de dispersión ajusta perfectamente a una línea recta. Podemos ver que coeficientes próximos a 0 expresan poca relación, y los coeficientes cercanos a 1 o a -1 expresan mucha relación, es decir mucho ajuste, mucho parecido con un línea recta.

Interpretación del coeficiente r La magnitud del coeficiente es independiente del signo: El que la relación sea positiva o negativa es algo distinto de que sea grande o pequeña. El signo se refiere mas bien a si la relación es directa (cuando es positivo) o inversa (cuando es negativo) . Por ejemplo r = -0.95 expresa más correlación que r = +0.79 r = -0.95 Correlación inversa muy fuerte r = 0.79 Correlación directa pero no tan fuerte

Interpretación del coeficiente de correlación r La magnitud del coeficiente de correlación es independiente de la pendiente de la recta: Para toda serie de datos emparejados existe siempre una recta que es la que mejor ajusta a los datos. Sin embargo, dos series de datos pueden tener igual coeficiente de correlación y ajustarse a rectas de diferente pendiente. Por último, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, pero no nos habla sobre la pendiente de ésa recta.