La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Estadística bivariada

Presentaciones similares


Presentación del tema: "Estadística bivariada"— Transcripción de la presentación:

1 Estadística bivariada
Pedro Godoy Gómez

2 Recuerde que las variables cualitativas son variables cuyas observaciones son cualidades o categorías. Algunas variables son cualitativas por naturaleza, tal como sexo, religión u ocupación, otras se convierten en categóricas después de que, a partir de una variable cuantitativa, clasificamos las respuestas en categorías. Por ejemplo, medimos el peso de recién nacidos en kilos y luego los clasificamos como "bajo peso" a los que nacen con menos de 2,5 kilos, "normal“ a los que nacen entre 2,5 y 4,5 kilos y "sobrepeso" a los que nacen con más de 4,5 kilos.

3 El término tabla de contingencia se refiere a que las tablas construidas se usan para contrastar una asociación o relación entre dos variables. Usaremos tablas de contingencia para describir dos variable cualitativas. Veremos que la asociación entre dos variables se puede describir mejor calculando apropiadamente los porcentajes y usando gráficos de barras.

4 ¿Existirá relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños de enseñanza básica, el que fue clasificado como "malo", "regular", "bueno". El rendimiento académico fue clasificado como “bajo el promedio”, “promedio” o “sobre el promedio”.

5

6

7

8

9

10 PERFIL CARDIOVASCULAR
En el año 2015 un grupo de investigadores, realizan una encuesta sobre perfil Cardiovascular en la ciudad. Se tiene una muestra de personas entre 18 y 74 años Una de las preguntas de interés fue investigar si ¿existe asociación entre el hábito de fumar y la edad?

11

12

13 Estadística Bidimensional
En la vida cotidiana existen diversas situaciones en las que interesa observar si dos variables están relacionadas, y en ese caso, en qué medida. A menudo es necesario contestar preguntas como las siguientes: “¿Están relacionadas estas dos variables? En caso afirmativo, ¿de qué manera? ¿Existe una correlación entre las variables?”. Para contestar las preguntas anteriores, se requiere del análisis de datos bivariados, es decir, dada cierta población y dos variables asociadas a esa población, se requiere estudiar las posibles relaciones que existen entre ellas. Para tal efecto comenzaremos nuestro estudio con las “Tablas de Frecuencia Bidimensionales”.

14 Ejemplos. Talla y peso de los soldados de un regimiento. Calificaciones en Física y Matemáticas de los alumnos de una clase. Gastos de publicidad y ventas de una fábrica. Etc.

15 Los valores de una variable estadística bidimensional son pares de números reales de la forma (xi, yi). Representados en un sistema de ejes cartesianos se obtiene un conjunto de puntos llamado diagrama de dispersión o nube de puntos. Ejemplo: Nube de puntos de la distribución dada por la tabla siguiente: Notas de Matemáticas y Física de 10 alumnos Matemáticas 5 6 2 9 4 1 3 7 Física 8

16 Notas de Física Notas de Matemáticas

17 Parámetros estadísticos.
Media de la variable X: Media de la variable Y: Varianza de la variable X: Varianza de la variable Y: Covarianza:

18 Correlación. Estudia la relación o dependencia que existe entre dos variables que intervienen en una distribución bidimensional. Coeficiente de correlación lineal. Es un número que mide el grado de dependencia entre las variables X e Y. Se mide mediante la siguiente fórmula:

19 Su valor está comprendido entre – 1 y 1.
Si r = -1 ó r = 1 todos los valores de la variable bidimensional se encuentran situados sobre una recta. Si – 1< r < 0 se dice que las variables X e Y están también en dependencia aleatoria. La correlación es negativa. Si 0 < r < 1 la correlación es positiva. Las variables X e Y están también en dependencia aleatoria.

20 La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto más débil a medida que se aproxima a 0.

21 Propiedades de Rxy Es adimensional (no posee unidades de medida).
Sólo toma valores en [-1,1]. Las variables son incorrelacionadas  R = 0. Relación lineal perfecta entre dos variables  R = 1 o R = -1. Cuanto más cerca esté R de 1 o -1, mayor será el grado de relación lineal. Relación inversa perfecta Variables incorrelacionadas Relación directa perfecta

22 Recta de regresión. Tenemos una distribución bidimensional y representamos la nube de puntos correspondiente. La recta que mejor se ajusta a esa nube de puntos recibe el nombre de recta de regresión. Su ecuación es la siguiente: Recta de regresión de y sobre x: Recta de regresión de x sobre y:

23 A partir de esta recta podemos calcular los valores de x conocidos los de y. La fiabilidad que podemos conceder a los cálculos obtenidos viene dada por el coeficiente de correlación: si r es muy pequeño no tiene sentido realizar ningún tipo de estimaciones. Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales. Si r = 1 o r = -1 , las estimaciones realizadas coincidirán con los valores reales.

24 A partir de esta recta podemos calcular los valores de x conocidos los de y. La fiabilidad que podemos conceder a los cálculos obtenidos viene dada por el coeficiente de correlación: si r es muy pequeño no tiene sentido realizar ningún tipo de estimaciones. Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales. Si r = 1 o r = -1 , las estimaciones realizadas coincidirán con los valores reales.

25 X 5 7 2 1 9 Y 15 18 10 8 20 Ejercicios resueltos.
1.- Una compañía de seguros considera que el número de vehículos (Y) que circulan por una determinada autopista a más de 120 kms/h, puede ponerse en función del número de accidentes (X) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados: X Y Calcula el coeficiente de correlación lineal. Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban por la autopista a más de 120 km/h? ¿Es buena la predicción?

26 Solución: Disponemos los cálculos de la siguiente forma: (Accidentes) xi Vehículos yi xi2 yi2 xiyi 5 7 2 1 9 15 18 10 8 20 25 49 4 81 225 324 100 64 400 75 126 180 24 71 160 1113 409

27 a) El coeficiente de correlación
; b) Recta de regresión de y sobre x:

28 Podemos suponer que ayer circulaban 16 vehículos por la autopista a más de 120 km/h.
c) La predicción hecha es buena ya que el coeficiente de correlación está muy próximo a 1.

29 Modelos de Regresión Un modelo de regresión es una función Matemática f que intenta modelar el valor estimado de una variable respuesta, en función de uno o más predictores de interés, es decir, nos permite predecir el valor de Y, dado valores de la variable X. En tal caso, diremos que: Y = Variable dependiente. X = Variable independiente, explicativa o predictora.

30 Tipos de Modelos Existen diferentes tipos de modelos de regresión, sin embargo, la forma en que se relacionan las variables nos indicará la conveniencia de utilizar uno u otro modelo, para realizar estimaciones o intentar explicar la variable dependiente en función de la variable predictora. Entre los modelos de regresión más conocidos, tenemos: - Modelo de regresión lineal. - Modelo de regresión exponencial. - Modelo de regresión logarítmica.

31 Variable independiente
Diagrama de Dispersión Una representación gráfica útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables X e Y. Esta representación gráfica permite visualizar la relación entre dos variables cuantitativas. Variable independiente o predictora. Variable dependiente

32 Es importante conocer y distinguir distintos modelos funcionales, como por ejemplo:
Gráfico de una función lineal Gráfico de una función exponencial Gráfico de una función logarítmica

33

34 Dada la siguiente tabla de la alturas en pulgadas (in) y los pesos en libras(lb) de una muestra de 12 estudiantes varones tomadas al azar. Obtener un diagrama de dispersión para estos datos Aproximar los datos a una recta Hallar su ecuación Estimar el peso de un estudiante que mide 63 in Estimar la altura de un estudiante que pesa 168 lb

35 Altura X (in) Peso Y (lb) 70 155 63 150 72 180 60 135 66 156 168 74 178 65 160 62 132 67 145 139 68 152 DIAGRAMA DE DISPERSION

36 Altura X (in) Peso Y (lb) 70 155 4900 24025 10850 63 150 3969 22500
70 155 4900 24025 10850 63 150 3969 22500 9450 72 180 5184 32400 12960 60 135 3600 18225 8100 66 156 4356 24336 10296 168 28224 11760 74 178 5476 31684 13172 65 160 4225 25600 10400 62 132 3844 17424 8184 67 145 4489 21025 9715 139 19321 9035 68 152 4624 23104 10336 802 1850 53792 287868 124258

37 Recta de regresión

38 Medidas de Asociación entre dos variables
Al estudiar la relación entre dos variables debemos ser capaces de responder las siguientes preguntas: - ¿Las variables están relacionadas o no? - ¿Es lineal esta relación y cuál es su grado? Las preguntas anteriores pueden ser respondidas utilizando las medidas de Covarianza y Coeficiente de Correlación Lineal de Pearson.

39 Covarianza La covarianza (Sxy), nos indica si la posible relación entre dos variables es directa o inversa. Por lo que: Si Sxy > 0; La relación entre la variable X e Y es directa o creciente, es decir, si una de las variables aumenta la otra también aumenta y viceversa. Si Sxy < 0; La relación entre la variable X e Y es inversa o decreciente, es decir, si una de las variables aumenta la otra disminuye y viceversa. Observación: El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o decreciente, pero no nos da mayor información con respecto al grado de la relación.

40 Covarianza 1° Fórmula en Excel de la covarianza: =COVAR(matriz1; matriz2) 2° Ejemplos de representaciones gráficas de la covarianza. Ejemplo 1: X Y En este caso la covarianza será positiva. El comportamiento de las variables es: Aumenta Y cuando aumenta X.

41 En este caso la covarianza será negativa.
Ejemplo 2: Y X En este caso la covarianza será negativa. El comportamiento de las variables es: Disminuye Y cuando aumenta X. Ejemplo 3: X Y En este caso la covarianza será positiva. El comportamiento de las variables es: Aumenta Y cuando aumenta X.

42 La grafica que representa estas dos variables, es la grafica de dispersión.
La medida de la intensidad de la relación lineal entre dos variables corresponde al coeficiente de correlación (r), esta requiere datos de nivel de razón y puede tomar cualquier valor de a 1.00 estos dos valores indican la correlación perfecta y fuerte, además los valores negativos indican una relación inversa y los positivos una relación directa. Los valores cerca de 0.0 indican la correlación débil.

43 Coeficiente de Correlación Lineal
1° Fórmula en Excel del Coeficiente de Correlación Lineal: =COEF.DE.CORREL(matriz1; matriz2) 2° Ejemplos de representaciones gráficas del Rxy. Ejemplo 1: X Y En este caso el Rxy ≈ 1. La nube de puntos puede aproximarse por una recta creciente. Por ejemplo, la altura (X) y el peso (Y) de los alumnos, ya que los alumnos más altos suelen pesar más.

44 Ejemplo 2: En este caso el Rxy ≈ -1. Ejemplo 3:
La nube de puntos puede aproximarse por una recta decreciente. Por ejemplo, el peso de una carga (X) y el rendimiento de combustible (Y) de un camión, ya que un camión con mayor carga tiene menor rendimiento de combustible. Ejemplo 3: X Y En este caso el Rxy ≈ 0. La nube de puntos indica que no hay correlación lineal.

45 Rendimiento combustible
Ejercicio: El dueño de una flota de camiones desea estudiar si hay relación lineal entre el peso de la carga y el rendimiento del combustible, para ello consideró una muestra de 20 viajes, de los cuales se registró el peso de la carga (en toneladas) y el rendimiento del combustible (en km/litro). Utilizando la información, responda las siguientes preguntas: Peso de la carga Rendimiento combustible 7,9 5,3 0,2 9 6,5 6,6 2,5 7,7 8,8 4,9 4,5 12 4,2 5 6,8 11,9 3,4 0,5 8,7 2,8 3,7 6,9 8,3 4,1 4,4 5,9 3,8 9,4 4 3,6 7,5 11,6 2,3 10,9 3,5 11

46 Determine la variable dependiente e independiente, y construya un gráfico de dispersión que relacione las variables peso de la carga y el rendimiento del combustible. Respuesta: Y = Rendimiento del combustible, en km/l (variable dependiente). X = Peso de la carga, en tn (variable independiente).

47 =COVAR(matriz1; matriz2)
Calcule la covarianza e interprete su resultado. Respuesta: Fórmula Valor Interpretación =COVAR(matriz1; matriz2) -7,00195 La covarianza indica que hay una relación o influencia inversa entre las variables, por lo que a mayor peso de carga, menor será el rendimiento del combustible.

48 =COEF.DE.CORREL(matriz1; matriz2)
Calcule el coeficiente de correlación e interprete su resultado. Respuesta: Fórmula Valor Interpretación =COEF.DE.CORREL(matriz1; matriz2) -0,9633 El grado de correlación lineal entre las variables es de -0,96 e indica que hay alta correlación lineal con pendiente negativa, entre las variables peso de la carga y rendimiento del combustible.

49 Coeficiente de determinación
El Coeficiente de determinación (R2), indica la proporción o porcentaje de la variación total de la variable dependiente “Y”, que se explica por, o se debe a, la variación de la variable independiente “X”. Ejemplo: Se sabe que el Coeficiente de determinación (R2) para el modelo de regresión lineal es un 75,6%, entre las variables cantidad de agua caída (medida en milímetros) y el número de eventos (alertas o preemergencias ambientales) en un año determinado. Interprete el Coeficiente de determinación. Interpretación: El 75,6% de la variabilidad del N° de eventos (alertas ambientales), es explicado por la variación de la cantidad de agua caída en un año. Además hay un 24,4% de variabilidad no explicada. Fórmula en Excel del Coeficiente de determinación Lineal: =COEFICIENTE.R2(conocido_y; conocido_x)

50 Modelo de Regresión Lineal
Ejemplo: Considerando el ejercicio anterior cuyas variables eran el peso de la carga (en toneladas) y el rendimiento del combustible (en km/litro), de una muestra de 20 viajes. Construya el modelo de regresión lineal. Respuesta: Modelo de Regresión Lineal y = -0,494x + 9,0236

51 =PENDIENTE(conocido_y; conocido_x)
Interprete la pendiente del modelo de regresión lineal. Respuesta: Fórmula Valor Interpretación Pendiente =PENDIENTE(conocido_y; conocido_x) -0,494 Por cada tonelada que aumenta el peso de la carga, el rendimiento del combustible disminuye en 0,494 km/l. Considere el modelo de regresión lineal y responda las siguientes preguntas: Si en un viaje el peso de la carga es de 8 toneladas, estime el rendimiento del combustible. =TENDENCIA(conocido_y;conocido_x;valor x) O bien se puede utilizar el modelo de regresión lineal, para estimar el valor de la variable dependiente. Y = -0,494*8+9,0236 ≈ 5,1 Respuesta: El rendimiento del combustible se estima en 5,1 km/l.

52 Estime el peso de la carga de un viaje cuyo rendimiento de combustible es de 7,5 km/l.
Usando el modelo de regresión lineal, se despeja la variable independiente. X = (7,5-9,0236)/-0,494 ≈ 3,1 Respuesta: Se estima que el peso de la carga es de 3,1 toneladas. Interprete el coeficiente de determinación lineal, cuyo valor es 92,8%. Respuesta: El 92,8% de la variación del rendimiento del combustible, se debe a la variabilidad del peso de la carga. Además hay un 7,2% de variabilidad no explicada.


Descargar ppt "Estadística bivariada"

Presentaciones similares


Anuncios Google