Estadística I. Finanzas y Contabilidad Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad. Modelos probabilísticos. Introducción a la inferencia estadística. Contrastes de hipótesis.
Tema 3: Análisis de datos bivariantes Representaciones y gráficos: Tabla de frecuencia absoluta / tabla de frecuencia relativa; Marginales; Condicionales Diagrama de dispersion Resumen numérico: Covarianza Coeficiente de correlación Recta de regresión lineal Lecturas recomendadas: Capítulos 7 a 9 del libro de Peña y Romo (1997)
3.1 Representaciones y gráficos VARIABLES ESTADÍSTICAS BIDIMENSIONALES: X: x1, x2, ..., xN (xi , yj) i=1, 2, …N; j=1,2, …M Y: y1, y2, ..., yM TABLAS DE DOBLE ENTRADA: TABLAS SIMPLES: Total bibl. NºBibl.Púb. Andalucía 884 649 Aragón 318 227 Asturias 156 115 Baleares 188 128 Canarias 213 149 Cantabria 58 39 Y/X [5,7) [7,9) [9,11) [11,13) [25,30) 4 3 1 [30,35) 2 7 [35,40) 11 [40,45) 6 [45,50) X=enciclopedia Y=libros de bolsillo (libros solicitados diariamente en la biblioteca de un IES)
3.1.1 Tablas de frecuencias TABLA DE FRECUENCIA ABSOLUTA: Y/X [5,7) [7,9) [9,11) [11,13) [25,30) 4 3 1 8 [30,35) 2 7 11 [35,40) 14 [40,45) 6 [45,50) 13 44 TABLA DE FRECUENCIA RELATIVA: Y/X [5,7) [7,9) [9,11) [11,13) [25,30) 0.09 0.07 0.02 [30,35) 0.05 0.16 [35,40) 0.25 [40,45) 0.14 [45,50) 1
3.1.1 Tablas de frecuencias Y ni fi [25,30) 8 8/44 [30,35) 11 11/44 TABLA DE FRECUENCIA ABSOLUTA: Y/X [5,7) [7,9) [9,11) [11,13) [25,30) 4 3 1 8 [30,35) 2 7 11 [35,40) 14 [40,45) 6 [45,50) 13 44 MARGINAL DE Y: MARGINAL DE X: Y ni fi [25,30) 8 8/44 [30,35) 11 11/44 [35,40) 14 14/44 [40,45) [45,50) 3 3/44 X ni fi [5,7) 7 7/44 [7,9) 13 13/44 [9,11) [11,13) 11 11/44
3.1.1 Tablas de frecuencias X ni fi [5,7) 4 4/8 [7,9) 3 3/8 [9,11) 0/8 TABLA DE FRECUENCIA ABSOLUTA: Y/X [5,7) [7,9) [9,11) [11,13) [25,30) 4 3 1 8 [30,35) 2 7 11 [35,40) 14 [40,45) 6 [45,50) 13 44 X ni fi [5,7) 4 4/8 [7,9) 3 3/8 [9,11) 0/8 [11,13) 1 1/8 Supongamos que queremos restringirnos al valor Y=[25,30); mientras que la variable X sigue tomando todos sus valores. En este caso tenemos las frecuencias condicionadas de X dado Y=[25,30).
3.1.1 Tablas de frecuencias Y ni fi [25,30) 3 3/13 [30,35) 7 7/13 TABLA DE FRECUENCIA ABSOLUTA: Y/X [5,7) [7,9) [9,11) [11,13) [25,30) 4 3 1 8 [30,35) 2 7 11 [35,40) 14 [40,45) 6 [45,50) 13 44 Y ni fi [25,30) 3 3/13 [30,35) 7 7/13 [35,40) 1 1/13 [40,45) 2 2/13 [45,50) 0/13 Ahora supongamos que queremos restringirnos al valor X=[7,9); mientras que la variable Y sigue tomando todos sus valores. En este caso tenemos las frecuencias condicionadas de Y dado X=[7,9).
3.1 Representaciones y gráficos Andalucía 884 649 Aragón 318 227 Asturias 156 115 Baleares 188 128 Canarias 216 149 Cantabria 58 39 CastiLeón 500 304 CastiMan 412 342 Catalunya 893 468 Valencia 636 474 Extremadura 354 308 Galicia 444 282 Madrid 720 321 Murcia 127 85 Navarra 116 81 Euskadi 435 285 Rioja 35 23 Ceuta-Meli 32 21 1ªcolumna: Comunidad Autónoma 2ªcolumna: Total de bibliotecas 3ªcolumna: Nº bibliotecas públicas
3.1.2 Gráficos
3.1.2 Gráficos DIAGRAMA DE DISPERSIÓN
3.2 Resumen numérico Notas de 10 alumnos/as en matemáticas y lenguaje
3.2.1 Covarianza y correlación La covarianza mide la fuerza de la relación lineal entre dos variables La covarianza muestral puede calcularse mediante: Una alta covarianza no implica efecto causal
3.2.1 Covarianza y correlación INTERPRETACIÓN DE LA COVARIANZA La covarianza entre dos variables: Cov(x,y) > 0: X e Y tienden a moverse en la misma dirección Cov(x,y) < 0: X e Y tienden a moverse en direcciones opuestas. Cov(x,y) = 0: X e Y no están relacionadas linealmente.
3.2.1 Covarianza y correlación Relación lineal entre variables cuantitativas COVARIANZA Dato Xi Yi Xi * Yi Xi^2 Yi^2 1 6 6,5 39 36 42,25 2 4 4,5 18 16 20,25 3 8 7 56 64 49 5 25 3,5 14 12,25 35 10 100 9 30 20 Suma 57,5 63 393 368,25 426,5
3.2.1 Covarianza y correlación Inconvenientes de la COVARIANZA: Depende de las unidades de medida. ¿Qué es pequeño o grande en covarianza? COEFICIENTE DE CORRELACIÓN: -11 =-1: asociación lineal positiva perfecta =1: asociación lineal negativa perfecta =0: no existe relación lineal: Incorreladas 0<<1: relación lineal positiva -1<<0: relación lineal negativa
3.2.1 Covarianza y correlación X X X r = -1 r = -.6 r = 0 Y Y Y X X X r = +1 r = +.3 r = 0
3.2.1 Covarianza y correlación r = 0,92, por tanto existe una alta relación entre las calificaciones de ambas materias Los estudiantes que obtienen buenas notas en Matemáticas tienden a obtenerlas en Lengua
3.2 Resumen numérico Recta de regresión lineal (x1, y1), (x2, y2),...,(xn, yn) : n pares de puntos observados Hemos de encontrar una recta: y = α + β x que se ajuste “lo mejor posible” a nuestros puntos:
3.2.2 Recta de regresión lineal Estimadores para los coeficientes α and β pueden calcularse minimizando la suma de cuadrados de los residuos La recta de mínimos cuadrados es: Donde b es la pendiente de la recta y a es el intercepto:
Estadísticas de la regresión 3.2.2 Recta de regresión lineal Recta de regresión lineal Coeficientes Intercepción 1,60066445 Variable X 1 0,81727575 Y = 1,60 + 0,81 X Estadísticas de la regresión Coeficiente de correlación múltiple 0,92142 Coeficiente de determinación R^2 0,84902 R^2 ajustado 0,83015 Error típico 0,74739 Observaciones 10
Y = 1,60 + 0,81 X 3.2.2 Recta de regresión lineal ¿Cómo interpretarías al parámetro a = 1,60? ¿Cómo interpretaría el parámetro b = 0,81? ¿Cuál es la predicción de la nota en Lengua de un estudiante que obtenga 5 puntos en Matemáticas?