Variables estadísticas bidimensionales Se trata de variables que surgen cuando se estudian dos características asociadas a la observación de un fenómeno.
Variables estadísticas bidimensionales Ejemplo 1.- Estudiamos la talla, medida en cm. y el peso, medido en kg. de un grupo de 10 personas, podemos obtener los siguientes valores Talla (cms) 160 165 168 170 171 175 180 182 Peso (kgs) 55 58 61 67 62 66 74 79 83
Variables estadísticas bidimensionales Podemos llamar X a la talla e Y al peso con lo que se obtendría la variable bidimensional (X, Y) que toma 10 valores: (160,55), (165,58),…, etc.
Variables estadísticas bidimensionales En algunos casos el número de "parejas" de valores (x,y) es grande y además muchos de ellos aparecen repetidos; en este caso se utiliza una "Tabla de doble entrada" En la primera fila se colocan los valores de una de las características o variable que componen la variable bidimensional y en la primera columna los de la otra. (xi) (yi) X1 Y1 X2 Y2 . Xn Yn
Variables estadísticas bidimensionales Ejemplo 1. Estudiamos la talla, medida en cm. y el peso, medido en kg. de un grupo de 10 personas. Talla (x) Peso (y) 160 55 165 58 168 170 61 171 67 175 62 66 180 74 79 182 83 Total 1726 663
Variables estadísticas bidimensionales Ejemplo 2. El esfuerzo cortante del suelo en un cierto estrato arcilloso, parece estar relacionado con la profundidad. En una región se toman 10 muestras de suelo a diferentes profundidades y se mide a cada una el esfuerzo cortante, en miles de libras por pie cuadrado [Klb/pie2]. OBSERVACION (i) Profundidad x (pies) Esfuerzo cortante y (Klb/pie2) 1 6 0,28 2 8 0,58 3 14 0,50 4 0,83 5 18 0,71 20 1,01 7 1,29 24 1,50 9 28 10 30 1,58
Variables estadísticas bidimensionales Pieza X (% A) Y (Rotura) 1 1,5 3,04 2 1,2 2,96 3 1,1 2,66 4 3,17 5 4,5 9,82 6 5,2 9,68 7 8,7 17,71 8 9 18,18 9,2 18,32 10 9,5 19,3 Total 50,9 104,84 Ejemplo 3. Con el fin de determinar la relación existente entre la resistencia de una determinada pieza de plástico y uno de sus componentes (componente A) se fabrican 10 piezas de prueba, cada una con una concentración distinta y se obtienen los siguientes resultados:
Variables estadísticas bidimensionales Ejemplo 4. El tiempo de respuesta (en nanosegundos) de un circuito lógico en frió (X) y tras una hora de uso intensivo (Y), para un conjunto de 8 maquinas Maquina X Y 1 6 4 2 5 8 3 11 16 9 7 10 Total 60 63
Variables estadísticas bidimensionales Ejemplo 5. El número de libras de vapor utilizadas por mes por una planta química, está relacionado con la temperatura ambiente promedio (en grados Farenheit) de ese mes. En la tabla siguiente se muestra el uso del vapor de un año y la temperatura del mes correspondiente. Consumo de Vapor por Mes Mes Temperatura Uso/1000 Enero 21 185.79 Febrero 24 214.47 Marzo 32 288.03 Abril 47 424.84 Mayo 50 454.58 Junio 59 539.03 Julio 68 21.55 Agosto 74 675.06 Septiembre 62 562.03 Octubre 452.93 Noviembre 41 369.96 Diciembre 30 273.98
Representación gráfica Diagramas de dispersión o nubes de puntos
Diagramas de dispersión o nubes de puntos La representación gráfica de este tipo de variables es en realidad semejante a la representación de puntos en el plano, usando unos ejes de coordenadas. Cada pareja de valores da lugar a un punto en el plano y el conjunto de puntos que se obtiene se denomina "diagrama de dispersión o nube de puntos".
Diagramas de dispersión o nubes de puntos En el ejemplo 1 en el que se estudia la talla y el peso de 10 personas se obtendría el siguiente diagrama de dispersión: (En el eje X se representa la talla en cm. y en el eje Y el peso en kg.) Talla (x) Peso (y) 160 55 165 58 168 170 61 171 67 175 62 66 180 74 79 182 83 Total 1726 663
Diagramas de dispersión o nubes de puntos Ejemplo 2. El esfuerzo cortante del suelo en un cierto estrato arcilloso, parece estar relacionado con la profundidad. En una región se toman 10 muestras de suelo a diferentes profundidades y se mide a cada una el esfuerzo cortante, en miles de libras por pie cuadrado [Klb/pie2]. OBSERVACION (i) Profundidad x (pies) Esfuerzo cortante y (Klb/pie2) 1 6 0,28 2 8 0,58 3 14 0,50 4 0,83 5 18 0,71 20 1,01 7 1,29 24 1,50 9 28 10 30 1,58
Diagramas de dispersión o nubes de puntos En el ejemplo 3 en el que se estudia la relación existente entre la resistencia (Y) de una determinada pieza de plástico y uno de sus componentes (componente A) se fabrican 10 piezas de prueba, cada una con una concentración distinta Pieza X (% A) Y (Rotura) 1 1,5 3,04 2 1,2 2,96 3 1,1 2,66 4 3,17 5 4,5 9,82 6 5,2 9,68 7 8,7 17,71 8 9 18,18 9,2 18,32 10 9,5 19,3
Diagramas de dispersión o nubes de puntos En el ejemplo 4 en el que se estudia El tiempo de respuesta (en nanosegundos) de un circuito lógico en frió (X) y tras una hora de uso intensivo (Y), para un conjunto de 8 maquinas Maq. X Y 1 6 4 2 5 8 3 11 16 9 7 10
Diagramas de dispersión o nubes de puntos Ejemplo 5. El número de libras de vapor utilizadas por mes por una planta química, está relacionado con la temperatura ambiente promedio (en grados Farenheit) de ese mes. En la tabla siguiente se muestra el uso del vapor de un año y la temperatura del mes correspondiente. Consumo de Vapor por Mes Mes Temperatura Uso/1000 Enero 21 185.79 Febrero 24 214.47 Marzo 32 288.03 Abril 47 424.84 Mayo 50 454.58 Junio 59 539.03 Julio 68 21.55 Agosto 74 675.06 Septiembre 62 562.03 Octubre 452.93 Noviembre 41 369.96 Diciembre 30 273.98
Diagramas de dispersión o nubes de puntos Se puede ver en el primera figura que correspondía al diagrama de talla - peso que la serie de puntos presenta una tendencia "ascendente" . Se dice en este caso que existen entre las dos variables una "dependencia directa" . En caso en que la tendencia sea "descendente" se diría que estaríamos ante una " dependencia inversa " Naturalmente en caso en que no se pueda observar una tendencia clara estaríamos ante una dependencia muy débil que no se puede observar mediante la nube de puntos
Regresión y Correlación
Regresión lineal simple La regresión lineal simple, muestra como para cada valor x de una variable no aleatoria X - conocida como variable predictora o independiente-, interviene una variable aleatoria Y, denominada variable respuesta o dependiente; relacionadas, a través del valor medio o esperado de la variable respuesta, por la expresión Donde a y b son los coeficientes de regresión
Estimación de los parámetros de a recta de regresión El primer problema a abordar es obtener los estimadores de los parámetros de la recta de regresión, partiendo de una muestra de tamaño n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intención de extraer para cada xi un individuo de la población o variable Yi . Una vez realizada la muestra, se dispondrá de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El método de estimación aplicable en regresión, denominado de los mínimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos.
Estimación de los parámetros de a recta de regresión Las estimaciones de los parámetros de la recta de regresión obtenidas con este procedimiento son:
Estimación de los parámetros de a recta de regresión Talla (x) Peso (y) XY X² 160 55 8.800 25.600 165 58 9.570 27.225 168 9.744 28.224 170 61 10.370 28.900 171 67 11.457 29.241 175 62 10.850 30.625 66 11.550 180 74 13.320 32.400 79 14.220 182 83 15.106 33.124 1726 663 114987 298364 a = -142.91 b = 1.2120 Y = -142.91 + (1.21)X
Recta de regresión En esta imagen se muestra la recta de regresión de y (peso) sobre x (talla). Se representa cómo depende el peso de su talla en una persona Si recordamos que entre la talla y el peso decíamos que existía una dependencia directa, la recta de regresión lo confirma ya que su pendiente es positiva: a medida que aumenta la talla aumenta el peso. Por tanto: Hay dependencia directa con pendiente de la recta positiva creciente
Utilidad de la recta de regresión Mediante la recta de regresión podríamos obtener de manera aproximada el valor de la variable dependiente (y) de la que conociéramos la variable independiente (x), en una población semejante a aquella de la que se ha obtenido la muestra De manera más precisa, si conocemos la expresión de la recta de regresión, se pueden calcular valores para la variable y, conocidos los de x, como si se tratara de una función
Estimación o pronostico Si observamos la gráfica, podríamos suponer por ejemplo que una persona de 185 cm pesaría algo más de 80 kg De acuerdo a la formula Y = -142.91 + (1.21)X La recta de regresión de la variable y (talla) sobre x (peso) será la recta: El valor del peso estimado para una talla de 185 cm sería: Peso= -142.91 + 185(1.21) = 81.33 Este valor obtenido es algo menor al esperado. Eso quiere decir que las predicciones hechas con la recta de regresión no son exactas. Mas adelante precisaremos la "fiabilidad" de las mismas. Por tanto la recta de regresión se puede utilizar para realizar predicciones para la variable y a partir de valores conocidos de la variable x.
Coeficiente de correlación
Dependencia de las variables Una vez observado que en una variable bidimensional existe una cierta dependencia entre las dos características o variables que la forman (nube de puntos), podemos precisar el grado de dicha dependencia. Si los puntos de la nube estuvieran todos sobre la recta de regresión se diría que existe una dependencia funcional. Si los puntos no están todos sobre la recta de regresión se dice que entre las variables hay una cierta correlación lineal. Este es el caso que nos ocupa. Para cuantificar el grado de dicha correlación se usa el coeficiente de correlación
Coeficiente de correlación de Pearson El valor del coeficiente esta comprendido entre -1 y 1. Si r se acerca a -1 o a +1, la dependencia es fuerte y por tanto las predicciones que se realicen a partir de la recta de regresión serán bastante fiables. Si r se acerca a 0 la dependencia es débil y por tanto las predicciones que se realicen a partir de la recta de regresión serán poco fiables
Coeficiente de correlación de Pearson Calcularemos la correlación para el ejemplo de las tallas y los pesos Talla (x) Peso (y) (x-x) (x-x)2 (y-y) (y-y)2 160 55 -13,0 169 -11,0 121 165 58 -8,0 64 168 -5,0 25 170 61 -3,0 9 171 67 -2,0 4 1,0 1 175 62 2,0 -4,0 16 66 0,0 180 74 7,0 49 8,0 79 13,0 182 83 9,0 81 17,0 289 1726 663 -4 458 3 813 172,6 66,3 r2 = 0.82 r se acerca a 0 la dependencia es débil y por tanto las predicciones que se realicen a partir de la recta de regresión serán poco fiables
Cálculos de los coeficientes con Excel
Cálculos de los coeficientes con Excel
Cálculos de los coeficientes con Excel r a b La ecuación con el valor de los parámetros Y = -142.9 + 1.21 X