Estadística bivariada Pedro Godoy Gómez. Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación.

Slides:



Advertisements
Presentaciones similares
REGRESION Y CORRELACION
Advertisements

ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Estadística: -Correlación y regresión
15. Regresión lineal Este tema, prácticamente íntegro, está calcado de los excelentes apuntes y transparencias de Bioestadística del profesor F.J. Barón.
REGRESION & CORRELACION
Introducción a la Estadística. Modelos de regresión
Regresión y correlación
Estadística Descriptiva: 4. Correlación y Regresión Lineal
بسم الله الرحمن الرحيم.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
9 Regresión Lineal Simple
Estadística bidimensional
MEDIDAS DE DISPERSIÓN:
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Facultad: Turismo Y Hotelería
UNIVERSIDAD AUTONOMA DEL PERÚ
Distribuciones bidimensionales. Tablas de contingencia
Resumen y descripci ó n de datos num é ricos Estad í stica Capítulo 3.2.
Introducción a la Inferencia Estadística
Estadística bidimensional
LA RECTA DE REGRESIÓN CONTENIDOS:
Variables estadísticas bidimensionales
DISTRIBUCIONES DE PROBABILIDAD
Estadística Aplicada a la Gestión Empresarial
coeficientes de correlación de
Relaciones entre variables y regresión
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Estadística II Regresión Lineal.
Aplicaciones Estadísticas a las Finanzas Clase 1
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente.
Presentación de datos Ing. Iliana Rosero Estadistica I.
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Variables estadísticas bidimensionales
Unidad 4 Análisis de los Datos.
TEMA 3: Estadística Bidimensional.
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
TEMA : ANALISIS DE REGRESION
Bioestadística. U. Málaga.Tema 3: Estadística bivariante 1 Bioestadística Tema 3: Estadística descriptiva bivariante y regresión lineal.
UNIDAD IV Regresión y correlación lineal
Tema 2: Estadística bidimensional
Tipos de Graficas Ruth N Arce. Existen diferentes tipos de graficas que cada una son utilizados por personas y documentos específicos, que pueden ser.
EstadísticaEstadística: Estadística descriptiva: Estadística Inferencial :
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
REGRECION LINEAL SIMPLE, MULTIPLE Y CORRELACION. REGRECION LINEAL SIMPLE.
Copyright©2004 South-Western 13 Costes de producción.
Un criterio para detectar outliers. Otro criterio para detectar errores groseros (outliers)
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO FACULTAD DE INGENIERÍA COORDINACIÓN DE MATERIAS PROPEDÉUTICAS INGENIERÍA ELECTRÓNICA ASIGNATURA: MÉTODOS NUMÉRICOS.
VARIABLE ALEATORIA Y DISTRIBUCIÓN NORMAL
INTERPOLACIÓN LINEAL.
Se llama dominio de definición de una función al conjunto de valores de la variable independiente x para los que existe la función, es decir, para los.
Inecuaciones lineales o inecuaciones de primer grado
ESTADISTICA DESCRIPTIVA BIVARIADA aborda el estudio de los sucesos en los que intervienen dos variables simultáneamente.
1 ANÁLISIS DE CORRELACIÓN, REGRESIÓN Y CONTRASTE.
Estadística I.
PRONOSTICOS CON REGRESION LINEAL MULTIPLE En la regresión lineal simple se investiga la relación entre una variable independiente y otra dependiente. A.
REGRESIÓN Y CORRELACIÓN LINEAL, SERIES DE TIEMPO Msc. Esmelda Aguirre Téllez Master en Administración de Negocios.
Catalina Canals Cifuentes 02/10/2015 Modelos Logit y Probit Facultad de Ciencias Sociales Departamento de Sociología Estadística III.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
C ÁLCULO I NTEGRAL Profesor: Manuel Guillermo López Félix Multiversidad Latinoamericana Hermosillo Norte Repaso primero parcial Sexto semestre Competencias.
LOGO Muestreo Pedro Godoy G.. LOGO Inferencia estadística La Inferencia Estadística es aquella rama de la Estadística mediante la cual se trata de sacar.
Taller introducción a los conceptos básicos de Estadística PRIMERA PARTE 2016 Propósito: Introducir algunos conceptos básicos de Estadística por medio.
UNIVERSIDAD TECNOLOGICA DE AGUASCALIENTES
Métodos Cuantitativos de Análisis de Datos I. Medidas de Variación.
TEMA 3. ESTADÍSTICA BIDIMENSIONAL. INDICE 1.- Relación estadística: correlación 2.- Diagramas de dispersión o nube de puntos 3.- Tablas de frecuencia.
Estadística bivariada
Estadística Administrativa II
Dr. Alejandro Salazar – El Colegio de Sonora
Transcripción de la presentación:

Estadística bivariada Pedro Godoy Gómez

Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación entre las modalidades de X y de Y?

En la vida cotidiana existen diversas situaciones en las que interesa observar si dos variables están relacionadas, y en ese caso, en qué medida. A menudo es necesario contestar preguntas como las siguientes: “¿Están relacionadas estas dos variables? En caso afirmativo, ¿de qué manera? ¿Existe una correlación entre las variables?”. Para contestar las preguntas anteriores, se requiere del análisis de datos bivariados, es decir, dada cierta población y dos variables asociadas a esa población, se requiere estudiar las posibles relaciones que existen entre ellas. Para tal efecto comenzaremos nuestro estudio con las “Tablas de Frecuencia Bidimensionales”. Estadística Bidimensional

Ejercicio 1: La Empresa Gamma dedicada a la fabricación, distribución y comercialización de confites, helados y bebidas, requiere analizar los datos de sus vendedores a lo largo de todo el país, con respecto a la venta mensual (en millones de pesos), zona a la que pertenece el vendedor (metropolitana o provincia) y género del vendedor. Utilizando la información de la siguiente tabla bidimensional, realice lo siguiente:

Respuesta: Hay 24 vendedores que venden al mes como máximo 15 millones de pesos. 1)Determine la cantidad de vendedores que venden al mes a lo más 15 millones de pesos.

2)Determine la cantidad de vendedores que son de provincia y que venden al mes sobre 18 millones de pesos. Respuesta: Hay 21 vendedores de provincia que venden al mes más de 18 millones de pesos.

3)Determine la cantidad de vendedores de la zona metropolitana que venden al mes sobre 12 y hasta 21 millones de pesos. Respuesta: Hay 106 vendedores de la zona metropolitana que venden al mes más de 12 y como máximo 21 millones de pesos.

El 22,2% de los vendedores son de provincia y venden al mes sobre 15 millones de pesos. 4)¿Qué porcentaje de vendedores son de provincia y venden al mes más de 15 millones de pesos? % pedido = 35/158 ≈ 0,2215 ≈ 22,2% Respuesta:

El 33,5% de los vendedores son de la zona metropolitana y venden al mes sobre 18 y hasta 25 millones de pesos. % pedido = 53/158 ≈ 0,3354 ≈ 33,5% 5)¿Qué porcentaje de vendedores son de la zona metropolitana y venden al mes sobre 18 y hasta 25 millones de pesos? Respuesta:

Sernatur analizó los datos de una muestra de familias de Santiago seleccionadas de los niveles socioeconómicos alto y medio que vacacionan en Chile, con el propósito de definir el monto de dinero que gasta en su viaje, cuáles son los principales destinos y obtener un perfil del turista Santiaguino en Chile. Utilizando la información de la siguiente tabla bidimensional, realice lo siguiente: Medidas Condicionadas Ejercicio 2:

El 47,8% de las familias que destinan a vacaciones sobre $ , vacacionan más de 12 días. 1)De las familias que destinan a vacaciones más de $ , ¿qué porcentaje vacaciona más de 12 días? % pedido = 99/207 ≈ 0,4783 ≈ 47,8% Respuesta:

Considerando el contexto del ejercicio anterior, interprete el siguiente gráfico de la distribución de frecuencias bidimensional que resume la información con respecto al destino y forma de traslado. Interpretación gráfico de distribuciones bidimensionales de datos Ejercicio 3:

Respuesta: Se observa que para cada uno de los destinos la mayoría de las familias prefiere viajar en su automóvil particular, cuando el destino es el norte o el sur está el avión como segunda preferencia y el bus queda en tercera preferencia. En el caso de las familias que tienen como destino el centro del país utilizan como medio de transporte el automóvil particular o el bus. Observación: se podría haber mencionado en la interpretación la mayor y menor frecuencia, esto sería; la mayor frecuencia de las familias viajan al sur y lo hacen en auto particular y la menor frecuencia de ellas también viajan al sur pero realizan su viaje en bus.

“Medidas de correlación y modelo de regresión lineal”

Consideremos los datos de la siguiente tabla x y Construya un gráfico donde se represente cada uno de los puntos Es posible encontrar una relación matemática entre cada uno de estos puntos

¿Qué vamos a estudiar? Las diferentes formas de dependencia entre dos variables, cada vez que estemos trabajando con variables cuantitativas. Por ejemplo: “Estudiar si hay relación entre los años de estudio y el ingreso de una persona”. ¿Se ha preguntado alguna vez, si existe algún tipo de relación entre su peso corporal y su estatura?

Modelos de Regresión Un modelo de regresión es una función Matemática f que intenta modelar el valor estimado de una variable respuesta, en función de uno o más predictores de interés, es decir, nos permite predecir el valor de Y, dado valores de la variable X. En tal caso, diremos que: Y = Variable dependiente. X = Variable independiente, explicativa o predictora.

Tipos de Modelos Existen diferentes tipos de modelos de regresión, sin embargo, la forma en que se relacionan las variables nos indicará la conveniencia de utilizar uno u otro modelo, para realizar estimaciones o intentar explicar la variable dependiente en función de la variable predictora. Entre los modelos de regresión más conocidos, tenemos: -Modelo de regresión lineal. -Modelo de regresión exponencial. -Modelo de regresión logarítmica.

Una representación gráfica útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables X e Y. Esta representación gráfica permite visualizar la relación entre dos variables cuantitativas. Variable independiente o predictora. Variable dependiente Diagrama de Dispersión

Es importante conocer y distinguir distintos modelos funcionales, como por ejemplo: Gráfico de una función lineal Gráfico de una función exponencial Gráfico de una función logarítmica

Dada la siguiente tabla de la alturas en pulgadas (in) y los pesos en libras(lb) de una muestra de 12 estudiantes varones tomadas al azar.  Obtener un diagrama de dispersión para estos datos  Aproximar los datos a una recta  Hallar su ecuación  Estimar el peso de un estudiante que mide 63 in  Estimar la altura de un estudiante que pesa 168 lb

Modelo de Regresión Lineal Simple El modelo de regresión lineal simple consiste en aproximar los valores de la variable dependiente (Y) a partir de la variable independiente (X), para ello se determina una función lineal. Que tiene la siguiente forma: a = Coeficiente de posición. b = Pendiente. Ŷ = Variable dependiente. X = Variable independiente, explicativa o predictora. Ŷ = b∙ X + a ; donde a y b son los parámetros del modelo lineal.

La ecuación para determinar a y b: N : cantidad de parejas (X,Y) que comparan

estatura padresestatura hijos mayoresX^2XYY^2 1,651,682,72252,7722,8224 1,631,662,65692,70582,7556 1,671,682,78892,80562,8224 1,641,652,68962,7062,7225 1,681,692,82242,83922,8561 1,621,662,62442,68922,7556 1,71,682,892,8562,8224 1,661,652,75562,7392,7225 1,681,712,82242,87282,9241 1,67 2,7889 1,691,682,85612,83922,8224 1,711,72,92412,9072, ,1133,34233,52133,705

Varianza y covarianza  La varianza en este caso se trabaja de la misma forma que se hacia antes con una variable Según los datos de la tabla anterior Luego las varianzas respectivas para X e Y son

Las desviaciones típicas son

Medidas de Asociación entre dos variables Al estudiar la relación entre dos variables debemos ser capaces de responder las siguientes preguntas: - ¿Las variables están relacionadas o no? - ¿Es lineal esta relación y cuál es su grado? Las preguntas anteriores pueden ser respondidas utilizando las medidas de Covarianza y Coeficiente de Correlación Lineal de Pearson.

La covarianza (S xy ), nos indica si la posible relación entre dos variables es directa o inversa. Por lo que: Si S xy > 0; La relación entre la variable X e Y es directa o creciente, es decir, si una de las variables aumenta la otra también aumenta y viceversa. Si S xy < 0; La relación entre la variable X e Y es inversa o decreciente, es decir, si una de las variables aumenta la otra disminuye y viceversa. Observación: El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o decreciente, pero no nos da mayor información con respecto al grado de la relación. Covarianza

En este caso la covarianza será positiva. El comportamiento de las variables es: Aumenta Y cuando aumenta X. X Y 1° Fórmula en Excel de la covarianza: =COVAR(matriz1; matriz2) 2° Ejemplos de representaciones gráficas de la covarianza. Covarianza Ejemplo 1:

Y X En este caso la covarianza será negativa. El comportamiento de las variables es: Disminuye Y cuando aumenta X. X Y Ejemplo 2: Ejemplo 3: En este caso la covarianza será positiva. El comportamiento de las variables es: Aumenta Y cuando aumenta X.

Coeficiente de Correlación Lineal de Pearson Una medida estandarizada para poder determinar la relación lineal, se conoce como Coeficiente de Correlación Lineal. El Coeficiente de Correlación Lineal entre dos variables (R xy ), nos indica si los puntos tienen una tendencia lineal (excluyendo rectas horizontales y verticales). Pero no servirá para otro tipo de relaciones, como por ejemplo exponencial o logarítmica. Por lo que: Si R xy ≈ 1; La relación entre la variable X e Y es lineal con pendiente positiva. Si R xy ≈ -1; La relación entre la variable X e Y es lineal con pendiente negativa. Si R xy ≈ 0; No existe relación lineal entre la variable X e Y. Aunque podría existir otro tipo de correlación (exponencial, logarítmica, etc.).

Propiedades de R xy Relación inversa perfecta Relación directa perfecta Variables incorrelacionadas Es adimensional (no posee unidades de medida). Sólo toma valores en [-1,1]. Las variables son incorrelacionadas  R = 0. Relación lineal perfecta entre dos variables  R = 1 o R = -1. Cuanto más cerca esté R de 1 o -1, mayor será el grado de relación lineal.

La grafica que representa estas dos variables, es la grafica de dispersión. La medida de la intensidad de la relación lineal entre dos variables corresponde al coeficiente de correlación (r), esta requiere datos de nivel de razón y puede tomar cualquier valor de a 1.00 estos dos valores indican la correlación perfecta y fuerte, además los valores negativos indican una relación inversa y los positivos una relación directa. Los valores cerca de 0.0 indican la correlación débil.

La fórmula para calcular el coeficiente de correlación responde a la forma:

En este caso el R xy ≈ 1. La nube de puntos puede aproximarse por una recta creciente. Por ejemplo, la altura (X) y el peso (Y) de los alumnos, ya que los alumnos más altos suelen pesar más. X Y 1° Fórmula en Excel del Coeficiente de Correlación Lineal: =COEF.DE.CORREL(matriz1; matriz2) 2° Ejemplos de representaciones gráficas del R xy. Ejemplo 1: Coeficiente de Correlación Lineal

Y X La nube de puntos puede aproximarse por una recta decreciente. Por ejemplo, el peso de una carga (X) y el rendimiento de combustible (Y) de un camión, ya que un camión con mayor carga tiene menor rendimiento de combustible. X Y Ejemplo 2: Ejemplo 3: En este caso el R xy ≈ -1. En este caso el R xy ≈ 0. La nube de puntos indica que no hay correlación lineal.

Ejercicio: El dueño de una flota de camiones desea estudiar si hay relación lineal entre el peso de la carga y el rendimiento del combustible, para ello consideró una muestra de 20 viajes, de los cuales se registró el peso de la carga (en toneladas) y el rendimiento del combustible (en km/litro). Utilizando la información, responda las siguientes preguntas: Peso de la cargaRendimiento combustible 7,95,3 0,29 6,56,6 2,57,7 8,84,9 4,56,6 124,2 56,8 11,93,4 0,58,7 2,87,9 3,76,9 8,34,1 4,45,9 3,87,7 9,44 3,67,5 11,62,3 10,93,5 113,6

1)Determine la variable dependiente e independiente, y construya un gráfico de dispersión que relacione las variables peso de la carga y el rendimiento del combustible. Respuesta: Y = Rendimiento del combustible, en km/l (variable dependiente). X = Peso de la carga, en tn (variable independiente).

Respuesta: 2)Calcule la covarianza e interprete su resultado. FórmulaValorInterpretación =COVAR(matriz1; matriz2) -7,00195 La covarianza indica que hay una relación o influencia inversa entre las variables, por lo que a mayor peso de carga, menor será el rendimiento del combustible.

3)Calcule el coeficiente de correlación e interprete su resultado. Respuesta: FórmulaValorInterpretación =COEF.DE.CORREL(matriz1; matriz2) -0,9633 El grado de correlación lineal entre las variables es de -0,96 e indica que hay alta correlación lineal con pendiente negativa, entre las variables peso de la carga y rendimiento del combustible.

Coeficiente de determinación El Coeficiente de determinación (R 2 ), indica la proporción o porcentaje de la variación total de la variable dependiente “Y”, que se explica por, o se debe a, la variación de la variable independiente “X”. Ejemplo: Se sabe que el Coeficiente de determinación (R 2 ) para el modelo de regresión lineal es un 75,6%, entre las variables cantidad de agua caída (medida en milímetros) y el número de eventos (alertas o preemergencias ambientales) en un año determinado. Interprete el Coeficiente de determinación. Interpretación: El 75,6% de la variabilidad del N° de eventos (alertas ambientales), es explicado por la variación de la cantidad de agua caída en un año. Además hay un 24,4% de variabilidad no explicada. Fórmula en Excel del Coeficiente de determinación Lineal: =COEFICIENTE.R2(conocido_y; conocido_x)

Ejemplo: Considerando el ejercicio anterior cuyas variables eran el peso de la carga (en toneladas) y el rendimiento del combustible (en km/litro), de una muestra de 20 viajes. 1)Construya el modelo de regresión lineal. Respuesta: Modelo de Regresión Lineal y = -0,494x + 9,0236

2)Interprete la pendiente del modelo de regresión lineal. Respuesta: FórmulaValorInterpretación Pendiente=PENDIENTE(conocido_y; conocido_x)-0,494 Por cada tonelada que aumenta el peso de la carga, el rendimiento del combustible disminuye en 0,494 km/l. Respuesta: El rendimiento del combustible se estima en 5,1 km/l. 3)Considere el modelo de regresión lineal y responda las siguientes preguntas: a)Si en un viaje el peso de la carga es de 8 toneladas, estime el rendimiento del combustible. =TENDENCIA(conocido_y;conocido_x;valor x) O bien se puede utilizar el modelo de regresión lineal, para estimar el valor de la variable dependiente. Y = -0,494*8+9,0236 ≈ 5,1

b)Estime el peso de la carga de un viaje cuyo rendimiento de combustible es de 7,5 km/l. Respuesta: Se estima que el peso de la carga es de 3,1 toneladas. Usando el modelo de regresión lineal, se despeja la variable independiente. X = (7,5-9,0236)/-0,494 ≈ 3,1 4)Interprete el coeficiente de determinación lineal, cuyo valor es 92,8%. Respuesta: El 92,8% de la variación del rendimiento del combustible, se debe a la variabilidad del peso de la carga. Además hay un 7,2% de variabilidad no explicada.