Sesión 8 Tema: Estadística descriptiva Objetivo: Carrera: TNS de Electricidad en Potencia Objetivo: Resolver situaciones que puedan se explicadas en términos de funciones trigonométricas Profesor: Víctor Manuel Reyes Asignatura: Matemática II Sede: Osorno
Contenidos Estadística descriptiva: Técnicas que tratan de describir conjuntos de datos resumiendo la información que éstos proporcionan utilizando como herramientas: Tablas de frecuencias Gráficos Medidas numéricas: Posición o centralización Dispersión Forma o asimetría
Conceptos fundamentales Población: conjunto de elementos o individuos de los que interesa estudiar alguna característica. Variable : Es la característica que se desea estudiar. Puede ser cualitativas, cuando sus valores indican cualidad y no son numéricos, o cuantitativas, cuando sus valores son numéricos. Las variables cuantitativas también se llaman variables estadísticas.
Conceptos fundamentales Muestra: subconjunto finito de una población. Razones para estudiar una muestra: coste, tiempo, personal cualificado, procesos destructivos,... La estadística siempre trabaja con muestras: es decir, con un conjunto de datos x1, x2 ,..., xn que vienen del estudio de una característica o variable X.
Ejemplos Población: Estudiantes de la EUI Muestra: Alumnos de este grupo Variables cualitativas: Sexo, color de pelo, grado de satisfacción ante el funcionamiento de una instalación de la EUI,... Variables cuantitativas: Edad, nº de llamadas de móvil en un día, tiempo empleado en cada llamada, salario que se cobra mensualmente, nº de conexiones diarias a Internet...
Distribución de frecuencias Para estudiar una variable X se parte de una muestra de tamaño n, x1, x2 ,..., xn, entre los que suponemos que aparecen como valores distintos x1, x2 ,..., xk . Frecuencia absoluta de xi: Es el número, ni, de veces que se repite xi. Frecuencia relativa de xi: es el cociente entre la frecuencia absoluta y n.
Distribución de frecuencias Frecuencia absoluta(relativa) acumulada de xi: Si llamamos x*1, x*2 ,..., x*k a los valores ordenados de menor a mayor (sólo sentido variables cuantitativas o estadísticas): Frecuencia absoluta acumulada de x*i Frecuencia relativa acumulada de x*i
Propiedades de frecuencias La suma de las frecuencias absolutas es el número de datos. La suma de las frecuencias relativas es 1. Si la frecuencia relativa de un dato se multiplica por 100, tenemos el porcentaje que ese dato representa del total.
Propiedades de frecuencias La frecuencia absoluta acumulada del último dato coincide con el número de datos. La frecuencia relativa acumulada del último dato es 1. Si la frecuencia relativa acumulada de un dato se multiplica por 100, tenemos el porcentaje que ese dato y todos los menores representan sobre el total.
Tabla o distribución de Frecuencias Es el conjunto de valores distintos que toma la variable acompañados de sus respectivas frecuencias. Tiene sentido para variables cuantitativas y para variables cualitativas (en este caso, sólo las frecuencias absolutas y relativas)
Tabla de Frecuencias Ejemplo: Número de accesos de un procesador a un determinado módulo de memoria en una hora. Se toma una muestra de tamaño 14: 1, 2, 4, 8, 2, 1, 4, 4, 8, 3, 2, 2, 7, 3.
Tabla de Frecuencias Otras tablas de frecuencias
Tabla de Frecuencias Las tablas de frecuencia son útiles para resumir la información de una variable cuando se tiene una muestra con pocos valores distintos (orientativo, a lo sumo 20). Si el número de valores distintos de la muestra es grande (mayor que 20), se agrupan los datos en intervalos para construir la tabla de frecuencias. Llamaremos a estas últimas “Variables agrupadas”. Al resto nos referiremos como “Variables no agrupadas” o sin agrupar. Una regla usual para el número de intervalos es elegir un entero cercano a 1 + 3.3log10(n).
Tabla de Frecuencias Población: hogares osorninos Muestra: 40 familias osorninos Variable o característica: Consumo mensual de leche, en litros. Tenemos 22 valores distintos: vamos a agrupar en intervalos. Mínimo = 10, máximo = 103.3; 1 + 3.3log10(40) = 6.29 ≈ 6. Conviene trabaja con intervalos “fáciles”, por ejemplo, que tengan extremos enteros.
Tabla de Frecuencias Como puede observarse el primer intervalo contienen más del 30% (12) y el último menos del 5% (2) de los datos.
Representaciones Gráficas Diagrama de barras Histograma Se realiza cuando el número de datos distintos es pequeño (menos de 20 con Statgraphics). Sobre cada valor de los datos se levanta una barra cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas.
Diagrama de barras
Histograma Es una representación que se usa cuando hay muchos datos distintos y, por tanto, hay que agrupar los datos en intervalos. En este caso, cada intervalo se representa mediante un rectángulo cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas
Medidas de tendencia central O Medidas de centralización o posición Tienen sentido solamente para variables cuantitativas (valores numéricos) Son valores en torno a los cuales se agrupa la variable (Valores centrales). Las principales son: Moda Media aritmética Mediana Cuantiles
Moda Es el dato con mayor frecuencia absoluta (el que más se repite). Puede haber más de una moda o no haber moda (si todos los datos tienen frecuencia 1) Ejemplo: 2, 2, 3, 3, 4, 4, 4, 5, 6, 6, 6, 7, 7, 8, 8 (muestra tamaño 15) Este ejemplo tiene dos modas: 4 y 6
Media aritmética La media es la suma de todos los valores de la variable dividido entre el número total de datos (primera fórmula). Si se dispone de las frecuencias absolutas (relativas) de los datos, la media se puede calcular usando la segunda (tercera) expresión de la media donde representan los valores distintos de la variable. Todas las medidas que estudiemos tienen esta dos versiones.
Media aritmética Con los datos anteriores: 2, 2, 3, 3, 4, 4, 4, 5, 6, 6, 6, 7, 7, 8, 8 (muestra tamaño 15), se tiene:
Mediana Es un valor tal que, ordenados de menor a mayor los datos, el 50% es menor o igual que él y el 50% mayor o igual que él. Se denota como Me. Con los datos del ejemplo anterior: En este caso hay un valor central porque el número de datos es impar. En el caso de tener un número par de datos, la mediana es la semisuma de los dos datos centrales (en este caso no tiene porqué ser uno de los datos) Si añadimos a los datos anteriores el valor 8, la mediana es 5.5, que no es uno de los datos.
Comparación media-mediana La media contiene más información porque usa los valores de todos los datos. La mediana es más robusta frente a los cambios en los datos, es decir, es menos sensible a cambios en los datos. Ejemplo: si a los datos anteriores 2 2 3 3 4 4 4 5 6 6 6 7 7 8 8, le añadimos el dato 34, tenemos: Nueva media: = 6.8 (antes era 5) Nueva mediana: Me = 5.5 (antes era 5) La media es más sencilla de calcular y se presta mejor a los cálculos algebraicos. Deben calcularse ambas pues proporcionan información complementaria.
Percentiles Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85% Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75 Q1 es un valor tal que el 25% de los datos es menor o igual que él y el resto, mayor o igual que él. P18 es un valor tal que el 18% de los datos es menor o igual que él y el resto mayor o igual que él.
Percentiles En el calculo se ordenan los datos de menor a mayor. Ejemplo: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 en este ejemplo n=15 Encontrar un valor tal que el 25% de los datos sea menor o igual que él nα = 15*0.25 = 3.75 Esto significa que el 25% de los datos son menores o iguales que 3 y el otro 75% son mayores o iguales que 3.
Medidas de dispersión Se calculan solamente para variables cuantitativas Las medidas de dispersión completan la información que dan las medidas de centralización e indican si éstas son más o menos representativas del conjunto de datos. A menor valor de la medida, menor dispersión en el conjunto de datos. Las más importantes son: Rango o recorrido Recorrido intercuartílico Varianza y Desviación típica Coeficiente de variación
Necesidad de medidas de Dispersión Las medidas de centralización proporcionan una información incompleta del conjunto de datos. Ejemplo: sean X e Y las notas de dos grupos de cuarenta alumnos, con distribuciones de frecuencias: Para ambas variables la media es 5, pero en el segundo caso 5 es un valor más representativo de los datos que en el primero. Intuitivamente los datos de X están más dispersos (más separados) que los de Y, entre ellos y respecto de la media.
Rango o recorrido & Recorrido intercuartílico El rango o recorrido y el recorrido intercuartílico miden la amplitud de los datos. Se definen como: Rango o recorrido: R = xmayor –xmenor Recorrido intercuartílico: RQ = Q3 - Q1 En el ejemplo de las notas de las dos clases X e Y, se observa que X es más dispersa que Y al calcular R y RQ :
Varianza y desviación típica Ambas son medidas de dispersión asociadas a la media. Miden, entonces, la representatividad de la media en el conjunto de datos. Varianza: Representa una especie de distancia media de los datos a la media aritmética. A mayor varianza, mayor distancia de los datos a la media y por tanto, menor representatividad de la media. La varianza siempre es mayor o igual que 0 y está medida en unidades al cuadrado.
Varianza y desviación típica medida en las mismas unidades que los datos Desviación típica: En el ejemplo de las notas de los dos grupos de cuarenta alumnos, con distribuciones de frecuencias: Para ambas variables la media es 5, pero en el segundo caso 5 es un valor más representativo de los datos que en el primero como se puede observar al calcular la varianza.
Coeficiente de variación de Pearson La varianza NO sirve como medida si lo que se quiere es comparar, de entre varios conjuntos de datos, cual es el más disperso respecto de la media salvo si todos los conjuntos de datos tiene la misma media (ejemplo de las notas). Coeficiente de variación de Pearson: (asociado a la media) Este coeficiente es adimensional y elimina la influencia de la de la magnitud y unidades de medida de los datos. Multiplicado por 100 se interpreta como un porcentaje.
Ejemplo de cómo la varianza NO sirve para comparar la dispersión de dos conjuntos de datos cuando la media es diferente: Se tienen datos del peso de varios lagartos (X) y del peso de una población de tiburones (Y), en Kg. Para X: media = 0.473, V = 0.026, CV = 0.34 Para Y: media = 404, V= 9.846, CV = 0.0076 La varianza de Y es mayor que la de X pero está influenciado por la magnitud de los datos y por las unidades de medida. No podemos comparar la dispersión de los datos con la varianza porque las medias son distintas.
Coeficiente de asimetría de Fisher Si al calcular este valor con nuestros datos sucede que: CAF > 0, la distribución es asimétrica a la derecha. CAF = 0, la distribución es simétrica. CAF < 0, la distribución es simétrica a la izquierda.