1 Temario de la asignatura Introducción. Análisis de datos univariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad. Modelos probabilísticos. Introducción a la inferencia estadística. Contrastes de hipótesis. Estadística I. Finanzas y contabilidad
2 1.Representaciones y gráficos. Tablas de frecuencias. Diagrama de barras, Pictogramas, Histograma, Polígono de frecuencias, y Diagrama de caja. 2.Resumen numérico. Medidas de localización. Medidas de dispersión. Medidas de forma. Lecturas recomendadas: Capítulos 2 a 6 del libro de Peña y Romo (1997) Tema 2: Análisis de datos univariantes
3 Medidas de localización o posición Moda Mediana Media Cuantiles Diagrama de caja Medidas de dispersión Varianza y desviación típica Coeficiente de variación Rango y rango intercuartílico Lecturas recomendadas: Capítulos 4 y 5 del libro de Peña y Romo (1997) Tema 2: Análisis de datos univariantes
4 MEDIDAS DESCRIPTIVAS ¿Para qué nos sirven? ¿Se pueden calcular todas con todo tipo de variables? ¿Cuáles son las más adecuadas en cada caso? ¿De qué forma podemos sacar partido a nuestra calculadora? Medidas de localización o posición
5 LA MODA: (Cuando los datos no están agrupados en intervalos) Es el valor que aparece con una frecuencia mayor. Puede haber más de una moda: bimodal-trimodal-plurimodal ¿Qué valor toma la moda? Medidas de localización o posición
6 LA MODA: (Cuando los datos están agrupados en intervalos) Clasesnini Marca de clase [0,5)11 [5,10)13 [10,15)6 [15,20)2 [20,25)1 [25,30)3 Podemos encontrar: La CLASE MODAL ¿En la representación gráfica? Pero, ¿y si queremos calcular “exactamente” el valor de la MODA? ¿Podemos calcularla para DATOS CUALITATIVOS? Medidas de localización o posición
7 EJERCICIO: LA MODA IntervaloFrecuencia absoluta [0,5)6 [5,10)14 [10,15)20 [15,20)10 Calcular el valor “exacto” de la moda. Medidas de localización o posición
8 LA MEDIANA: (Cuando los datos no están agrupados en intervalos) Es la observación que ocupa el “lugar” central ¿Qué valor toma la mediana? 1.Ordenamos los datos de menor a mayor. 2.Tenemos en cuenta también los que se repiten. 3.La mediana, es el “CENTRO FÍSICO” ¿Cómo cambia el cálculo si N es par o impar? Medidas de localización o posición
9 LA MEDIANA: (Cuando los datos están agrupados en intervalos) Podemos encontrar: El INTERVALO MEDIANO Pero, ¿y si queremos calcular exactamente el valor de la MEDIANA? ¿Podemos calcularla para DATOS CUALITATIVOS? Medidas de localización o posición ClasesniMarca de clase [0,5)132,5 [5,10)117,5 [10,15)612,5 [15,20)217,5 [20,25)122,5 [25,30)327,5
10 LA MEDIA ARITMÉTICA: Es el PROMEDIO de los valores de la muestra ¿ Qué valor toma la media? 1.Sumamos los datos. 2.Los dividimos por el número total de datos (N). Medidas de localización o posición (Cuando los datos no están agrupados en intervalos)
11 LA MEDIA ARITMÉTICA: El valor de la media con los datos agrupados en intervalos utiliza la marca de clase. ¿Podemos calcularla para DATOS CUALITATIVOS? Medidas de localización o posición (Cuando los datos están agrupados en intervalos) ClasesniM.C. (xi)ni xi [0,5)132,532,5 [5,10)117,582,5 [10,15)612,575 [15,20)217,535 [20,25)122,5 [25,30)327,582,5 330Suma 9,17Media
12 La MEDIA ARITMÉTICA para datos agrupados en intervalos es entonces: (Cuando los datos están agrupados en intervalos) Medidas de localización o posición
13 LOS CUANTILES: (Cuando los datos no están agrupados en intervalos) Nos divide en conjunto de datos en k partes. Si por EJEMPLO tenemos diez datos (N=10), y queremos hacer cuatro partes (k=4), necesitamos tres marcas (c 1, c 2 y c 3 ) Cuando k=4, se llaman CUARTILES; cuando k=10, DECILES; y cuando k=100, CENTILES. Medidas de localización o posición
14 CÁLCULO DE CUARTILES Tenemos el siguiente conjunto de datos: Ordenamos los datos de menor a mayor. 2.Calculamos c 2, que ocupa la posición correspondiente a la “mitad”, ¿con qué parámetro visto ya coincide este segundo cuartil? 3.Ahora calculamos, la “mitad” de la primera parte: c 1. 4.Y la “mitad” de la segunda parte: c 3 Medidas de localización o posición
15 Medidas de localización o posición c2 = 71 c1 = 60 c3 = 79,5
16 REPRESENTACIÓN GRÁFICA UTILIZANDO LOS CUARTILES Utilizando el anterior conjunto de datos : 1.Los cálculos: Primer cuartil: 60 Segundo cuartil: 71 Tercer cuartil: 79,5 Media aritmética: 69,07 2. Hay datos que pueden provenir de observaciones “mal tomadas”: datos atípicos. Para detectarlas, calculamos: LI=c 1 -1,5(c 3 -c 1 ) LS=c 3 +1,5(c 3 -c 1 ) Diagrama de caja
17 EJERCICIO 1: DIAGRAMA DE CAJA Construir el diagrama de caja para el anterior conjunto de datos Diagrama de caja
18 EJERCICIO 2: DIAGRAMA DE CAJA Construir el diagrama de caja para el anterior conjunto de datos Diagrama de caja
19 Medidas de localización o posición Moda Mediana Media Cuantiles Diagrama de caja Medidas de dispersión Varianza y desviación típica Coeficiente de variación Rango y rango intercuartílico Tema 2: Análisis de datos univariantes
20 PRIMER CONJUNTO DE DATOS (Salarios anuales en € de la empresa A) SEGUNDO CONJUNTO DE DATOS (Salarios anuales en € de la empresa B) Vamos a calcular: MEDIA y MEDIANA de ambos conjuntos de datos: Observa ahora las representaciones gráficas. Señala media y mediana. ¿Tenemos suficiente información? Medidas de dispersión: Varianza
21 Parece que la diferencia entre ambos conjuntos de datos son las DISTANCIAS A LA MEDIA, vamos a calcularlas. Empresa A xi-xi- Empresa B xi-xi ¿Cuánto suman nuestras dos nuevas columnas? NUEVA PROPIEDAD: ¿Por qué sucede esto? ¿Podemos solucionarlo de alguna manera? Medidas de dispersión: Varianza
22 ¿ Qué hacemos para poder compararlas? Empresa A Empresa B ¿Qué unidades tiene este nuevo parámetro? ¿Podemos cambiarlas? ¿Qué indica este nuevo parámetro? Medidas de dispersión: Varianza Modificamos nuestro cálculo:
23 Cuando la media sea distinta de “0”, podemos calcular: Nos permite comparar, porque no tiene unidades. ¿Para qué nos sirve con una única base de datos? EJERCICIO 3: Analizamos el volumen de consultas durante el período de exámenes en 10 bibliotecas universitarias, y se comparan con las anotadas el año anterior. El % de incremento de consultas fue: ¿Son los datos homogéneos? Medidas de dispersión: Coeficiente de variación
24 Rango : la diferencia entre el mayor y el menor de los datos. EJERCICIO 4: Calcula estas dos medidas para los EJERCICIOS 1 y 2. Medidas de dispersión: Rango y rango intercuartílico Rango intercuartílico : la diferencia entre el tercer y el primer cuartil. Rango intercuartílico Rango