La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Estadística bivariada Pedro Godoy Gómez. Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación.

Presentaciones similares


Presentación del tema: "Estadística bivariada Pedro Godoy Gómez. Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación."— Transcripción de la presentación:

1 Estadística bivariada Pedro Godoy Gómez

2 Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación entre las modalidades de X y de Y?

3

4 En la vida cotidiana existen diversas situaciones en las que interesa observar si dos variables están relacionadas, y en ese caso, en qué medida. A menudo es necesario contestar preguntas como las siguientes: “¿Están relacionadas estas dos variables? En caso afirmativo, ¿de qué manera? ¿Existe una correlación entre las variables?”. Para contestar las preguntas anteriores, se requiere del análisis de datos bivariados, es decir, dada cierta población y dos variables asociadas a esa población, se requiere estudiar las posibles relaciones que existen entre ellas. Para tal efecto comenzaremos nuestro estudio con las “Tablas de Frecuencia Bidimensionales”. Estadística Bidimensional

5 Ejercicio 1: La Empresa Gamma dedicada a la fabricación, distribución y comercialización de confites, helados y bebidas, requiere analizar los datos de sus vendedores a lo largo de todo el país, con respecto a la venta mensual (en millones de pesos), zona a la que pertenece el vendedor (metropolitana o provincia) y género del vendedor. Utilizando la información de la siguiente tabla bidimensional, realice lo siguiente:

6 Respuesta: Hay 24 vendedores que venden al mes como máximo 15 millones de pesos. 1)Determine la cantidad de vendedores que venden al mes a lo más 15 millones de pesos.

7 2)Determine la cantidad de vendedores que son de provincia y que venden al mes sobre 18 millones de pesos. Respuesta: Hay 21 vendedores de provincia que venden al mes más de 18 millones de pesos.

8 3)Determine la cantidad de vendedores de la zona metropolitana que venden al mes sobre 12 y hasta 21 millones de pesos. Respuesta: Hay 106 vendedores de la zona metropolitana que venden al mes más de 12 y como máximo 21 millones de pesos.

9 El 22,2% de los vendedores son de provincia y venden al mes sobre 15 millones de pesos. 4)¿Qué porcentaje de vendedores son de provincia y venden al mes más de 15 millones de pesos? % pedido = 35/158 ≈ 0,2215 ≈ 22,2% Respuesta:

10 El 33,5% de los vendedores son de la zona metropolitana y venden al mes sobre 18 y hasta 25 millones de pesos. % pedido = 53/158 ≈ 0,3354 ≈ 33,5% 5)¿Qué porcentaje de vendedores son de la zona metropolitana y venden al mes sobre 18 y hasta 25 millones de pesos? Respuesta:

11 Sernatur analizó los datos de una muestra de familias de Santiago seleccionadas de los niveles socioeconómicos alto y medio que vacacionan en Chile, con el propósito de definir el monto de dinero que gasta en su viaje, cuáles son los principales destinos y obtener un perfil del turista Santiaguino en Chile. Utilizando la información de la siguiente tabla bidimensional, realice lo siguiente: Medidas Condicionadas Ejercicio 2:

12 El 47,8% de las familias que destinan a vacaciones sobre $1.600.000, vacacionan más de 12 días. 1)De las familias que destinan a vacaciones más de $1.600.000, ¿qué porcentaje vacaciona más de 12 días? % pedido = 99/207 ≈ 0,4783 ≈ 47,8% Respuesta:

13 Considerando el contexto del ejercicio anterior, interprete el siguiente gráfico de la distribución de frecuencias bidimensional que resume la información con respecto al destino y forma de traslado. Interpretación gráfico de distribuciones bidimensionales de datos Ejercicio 3:

14 Respuesta: Se observa que para cada uno de los destinos la mayoría de las familias prefiere viajar en su automóvil particular, cuando el destino es el norte o el sur está el avión como segunda preferencia y el bus queda en tercera preferencia. En el caso de las familias que tienen como destino el centro del país utilizan como medio de transporte el automóvil particular o el bus. Observación: se podría haber mencionado en la interpretación la mayor y menor frecuencia, esto sería; la mayor frecuencia de las familias viajan al sur y lo hacen en auto particular y la menor frecuencia de ellas también viajan al sur pero realizan su viaje en bus.

15 “Medidas de correlación y modelo de regresión lineal”

16 Consideremos los datos de la siguiente tabla x2357910 y137111517 Construya un gráfico donde se represente cada uno de los puntos Es posible encontrar una relación matemática entre cada uno de estos puntos

17 ¿Qué vamos a estudiar? Las diferentes formas de dependencia entre dos variables, cada vez que estemos trabajando con variables cuantitativas. Por ejemplo: “Estudiar si hay relación entre los años de estudio y el ingreso de una persona”. ¿Se ha preguntado alguna vez, si existe algún tipo de relación entre su peso corporal y su estatura?

18 Modelos de Regresión Un modelo de regresión es una función Matemática f que intenta modelar el valor estimado de una variable respuesta, en función de uno o más predictores de interés, es decir, nos permite predecir el valor de Y, dado valores de la variable X. En tal caso, diremos que: Y = Variable dependiente. X = Variable independiente, explicativa o predictora.

19 Tipos de Modelos Existen diferentes tipos de modelos de regresión, sin embargo, la forma en que se relacionan las variables nos indicará la conveniencia de utilizar uno u otro modelo, para realizar estimaciones o intentar explicar la variable dependiente en función de la variable predictora. Entre los modelos de regresión más conocidos, tenemos: -Modelo de regresión lineal. -Modelo de regresión exponencial. -Modelo de regresión logarítmica.

20 Una representación gráfica útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables X e Y. Esta representación gráfica permite visualizar la relación entre dos variables cuantitativas. Variable independiente o predictora. Variable dependiente Diagrama de Dispersión

21 Es importante conocer y distinguir distintos modelos funcionales, como por ejemplo: Gráfico de una función lineal Gráfico de una función exponencial Gráfico de una función logarítmica

22

23 Dada la siguiente tabla de la alturas en pulgadas (in) y los pesos en libras(lb) de una muestra de 12 estudiantes varones tomadas al azar.  Obtener un diagrama de dispersión para estos datos  Aproximar los datos a una recta  Hallar su ecuación  Estimar el peso de un estudiante que mide 63 in  Estimar la altura de un estudiante que pesa 168 lb

24

25 Modelo de Regresión Lineal Simple El modelo de regresión lineal simple consiste en aproximar los valores de la variable dependiente (Y) a partir de la variable independiente (X), para ello se determina una función lineal. Que tiene la siguiente forma: a = Coeficiente de posición. b = Pendiente. Ŷ = Variable dependiente. X = Variable independiente, explicativa o predictora. Ŷ = b∙ X + a ; donde a y b son los parámetros del modelo lineal.

26

27 La ecuación para determinar a y b: N : cantidad de parejas (X,Y) que comparan

28 estatura padresestatura hijos mayoresX^2XYY^2 1,651,682,72252,7722,8224 1,631,662,65692,70582,7556 1,671,682,78892,80562,8224 1,641,652,68962,7062,7225 1,681,692,82242,83922,8561 1,621,662,62442,68922,7556 1,71,682,892,8562,8224 1,661,652,75562,7392,7225 1,681,712,82242,87282,9241 1,67 2,7889 1,691,682,85612,83922,8224 1,711,72,92412,9072,89 2020,1133,34233,52133,705

29 Varianza y covarianza  La varianza en este caso se trabaja de la misma forma que se hacia antes con una variable Según los datos de la tabla anterior Luego las varianzas respectivas para X e Y son

30 Las desviaciones típicas son

31 Medidas de Asociación entre dos variables Al estudiar la relación entre dos variables debemos ser capaces de responder las siguientes preguntas: - ¿Las variables están relacionadas o no? - ¿Es lineal esta relación y cuál es su grado? Las preguntas anteriores pueden ser respondidas utilizando las medidas de Covarianza y Coeficiente de Correlación Lineal de Pearson.

32 La covarianza (S xy ), nos indica si la posible relación entre dos variables es directa o inversa. Por lo que: Si S xy > 0; La relación entre la variable X e Y es directa o creciente, es decir, si una de las variables aumenta la otra también aumenta y viceversa. Si S xy < 0; La relación entre la variable X e Y es inversa o decreciente, es decir, si una de las variables aumenta la otra disminuye y viceversa. Observación: El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o decreciente, pero no nos da mayor información con respecto al grado de la relación. Covarianza

33 En este caso la covarianza será positiva. El comportamiento de las variables es: Aumenta Y cuando aumenta X. X Y 1° Fórmula en Excel de la covarianza: =COVAR(matriz1; matriz2) 2° Ejemplos de representaciones gráficas de la covarianza. Covarianza Ejemplo 1:

34 Y X En este caso la covarianza será negativa. El comportamiento de las variables es: Disminuye Y cuando aumenta X. X Y Ejemplo 2: Ejemplo 3: En este caso la covarianza será positiva. El comportamiento de las variables es: Aumenta Y cuando aumenta X.

35 Coeficiente de Correlación Lineal de Pearson Una medida estandarizada para poder determinar la relación lineal, se conoce como Coeficiente de Correlación Lineal. El Coeficiente de Correlación Lineal entre dos variables (R xy ), nos indica si los puntos tienen una tendencia lineal (excluyendo rectas horizontales y verticales). Pero no servirá para otro tipo de relaciones, como por ejemplo exponencial o logarítmica. Por lo que: Si R xy ≈ 1; La relación entre la variable X e Y es lineal con pendiente positiva. Si R xy ≈ -1; La relación entre la variable X e Y es lineal con pendiente negativa. Si R xy ≈ 0; No existe relación lineal entre la variable X e Y. Aunque podría existir otro tipo de correlación (exponencial, logarítmica, etc.).

36 Propiedades de R xy Relación inversa perfecta Relación directa perfecta Variables incorrelacionadas -1 0 1 Es adimensional (no posee unidades de medida). Sólo toma valores en [-1,1]. Las variables son incorrelacionadas  R = 0. Relación lineal perfecta entre dos variables  R = 1 o R = -1. Cuanto más cerca esté R de 1 o -1, mayor será el grado de relación lineal.

37 La grafica que representa estas dos variables, es la grafica de dispersión. La medida de la intensidad de la relación lineal entre dos variables corresponde al coeficiente de correlación (r), esta requiere datos de nivel de razón y puede tomar cualquier valor de -1.00 a 1.00 estos dos valores indican la correlación perfecta y fuerte, además los valores negativos indican una relación inversa y los positivos una relación directa. Los valores cerca de 0.0 indican la correlación débil.

38 La fórmula para calcular el coeficiente de correlación responde a la forma:

39 En este caso el R xy ≈ 1. La nube de puntos puede aproximarse por una recta creciente. Por ejemplo, la altura (X) y el peso (Y) de los alumnos, ya que los alumnos más altos suelen pesar más. X Y 1° Fórmula en Excel del Coeficiente de Correlación Lineal: =COEF.DE.CORREL(matriz1; matriz2) 2° Ejemplos de representaciones gráficas del R xy. Ejemplo 1: Coeficiente de Correlación Lineal

40 Y X La nube de puntos puede aproximarse por una recta decreciente. Por ejemplo, el peso de una carga (X) y el rendimiento de combustible (Y) de un camión, ya que un camión con mayor carga tiene menor rendimiento de combustible. X Y Ejemplo 2: Ejemplo 3: En este caso el R xy ≈ -1. En este caso el R xy ≈ 0. La nube de puntos indica que no hay correlación lineal.

41 Ejercicio: El dueño de una flota de camiones desea estudiar si hay relación lineal entre el peso de la carga y el rendimiento del combustible, para ello consideró una muestra de 20 viajes, de los cuales se registró el peso de la carga (en toneladas) y el rendimiento del combustible (en km/litro). Utilizando la información, responda las siguientes preguntas: Peso de la cargaRendimiento combustible 7,95,3 0,29 6,56,6 2,57,7 8,84,9 4,56,6 124,2 56,8 11,93,4 0,58,7 2,87,9 3,76,9 8,34,1 4,45,9 3,87,7 9,44 3,67,5 11,62,3 10,93,5 113,6

42 1)Determine la variable dependiente e independiente, y construya un gráfico de dispersión que relacione las variables peso de la carga y el rendimiento del combustible. Respuesta: Y = Rendimiento del combustible, en km/l (variable dependiente). X = Peso de la carga, en tn (variable independiente).

43 Respuesta: 2)Calcule la covarianza e interprete su resultado. FórmulaValorInterpretación =COVAR(matriz1; matriz2) -7,00195 La covarianza indica que hay una relación o influencia inversa entre las variables, por lo que a mayor peso de carga, menor será el rendimiento del combustible.

44 3)Calcule el coeficiente de correlación e interprete su resultado. Respuesta: FórmulaValorInterpretación =COEF.DE.CORREL(matriz1; matriz2) -0,9633 El grado de correlación lineal entre las variables es de -0,96 e indica que hay alta correlación lineal con pendiente negativa, entre las variables peso de la carga y rendimiento del combustible.

45 Coeficiente de determinación El Coeficiente de determinación (R 2 ), indica la proporción o porcentaje de la variación total de la variable dependiente “Y”, que se explica por, o se debe a, la variación de la variable independiente “X”. Ejemplo: Se sabe que el Coeficiente de determinación (R 2 ) para el modelo de regresión lineal es un 75,6%, entre las variables cantidad de agua caída (medida en milímetros) y el número de eventos (alertas o preemergencias ambientales) en un año determinado. Interprete el Coeficiente de determinación. Interpretación: El 75,6% de la variabilidad del N° de eventos (alertas ambientales), es explicado por la variación de la cantidad de agua caída en un año. Además hay un 24,4% de variabilidad no explicada. Fórmula en Excel del Coeficiente de determinación Lineal: =COEFICIENTE.R2(conocido_y; conocido_x)

46 Ejemplo: Considerando el ejercicio anterior cuyas variables eran el peso de la carga (en toneladas) y el rendimiento del combustible (en km/litro), de una muestra de 20 viajes. 1)Construya el modelo de regresión lineal. Respuesta: Modelo de Regresión Lineal y = -0,494x + 9,0236

47 2)Interprete la pendiente del modelo de regresión lineal. Respuesta: FórmulaValorInterpretación Pendiente=PENDIENTE(conocido_y; conocido_x)-0,494 Por cada tonelada que aumenta el peso de la carga, el rendimiento del combustible disminuye en 0,494 km/l. Respuesta: El rendimiento del combustible se estima en 5,1 km/l. 3)Considere el modelo de regresión lineal y responda las siguientes preguntas: a)Si en un viaje el peso de la carga es de 8 toneladas, estime el rendimiento del combustible. =TENDENCIA(conocido_y;conocido_x;valor x) O bien se puede utilizar el modelo de regresión lineal, para estimar el valor de la variable dependiente. Y = -0,494*8+9,0236 ≈ 5,1

48 b)Estime el peso de la carga de un viaje cuyo rendimiento de combustible es de 7,5 km/l. Respuesta: Se estima que el peso de la carga es de 3,1 toneladas. Usando el modelo de regresión lineal, se despeja la variable independiente. X = (7,5-9,0236)/-0,494 ≈ 3,1 4)Interprete el coeficiente de determinación lineal, cuyo valor es 92,8%. Respuesta: El 92,8% de la variación del rendimiento del combustible, se debe a la variabilidad del peso de la carga. Además hay un 7,2% de variabilidad no explicada.


Descargar ppt "Estadística bivariada Pedro Godoy Gómez. Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación."

Presentaciones similares


Anuncios Google