La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Sesión 8 Tema: Estadística descriptiva Objetivo:

Presentaciones similares


Presentación del tema: "Sesión 8 Tema: Estadística descriptiva Objetivo:"— Transcripción de la presentación:

1 Sesión 8 Tema: Estadística descriptiva Objetivo:
Carrera: TNS de Electricidad en Potencia Objetivo: Resolver situaciones que puedan se explicadas en términos de funciones trigonométricas Profesor: Víctor Manuel Reyes Asignatura: Matemática II Sede: Osorno

2 Contenidos Estadística descriptiva: Técnicas que tratan de describir conjuntos de datos resumiendo la información que éstos proporcionan utilizando como herramientas: Tablas de frecuencias Gráficos Medidas numéricas: Posición o centralización Dispersión Forma o asimetría

3 Conceptos fundamentales
Población: conjunto de elementos o individuos de los que interesa estudiar alguna característica. Variable : Es la característica que se desea estudiar. Puede ser cualitativas, cuando sus valores indican cualidad y no son numéricos, o cuantitativas, cuando sus valores son numéricos. Las variables cuantitativas también se llaman variables estadísticas.

4 Conceptos fundamentales
Muestra: subconjunto finito de una población. Razones para estudiar una muestra: coste, tiempo, personal cualificado, procesos destructivos,... La estadística siempre trabaja con muestras: es decir, con un conjunto de datos x1, x2 ,..., xn que vienen del estudio de una característica o variable X.

5 Ejemplos Población: Estudiantes de la EUI
Muestra: Alumnos de este grupo Variables cualitativas: Sexo, color de pelo, grado de satisfacción ante el funcionamiento de una instalación de la EUI,... Variables cuantitativas: Edad, nº de llamadas de móvil en un día, tiempo empleado en cada llamada, salario que se cobra mensualmente, nº de conexiones diarias a Internet...

6 Distribución de frecuencias
Para estudiar una variable X se parte de una muestra de tamaño n, x1, x2 ,..., xn, entre los que suponemos que aparecen como valores distintos x1, x2 ,..., xk . Frecuencia absoluta de xi: Es el número, ni, de veces que se repite xi. Frecuencia relativa de xi: es el cociente entre la frecuencia absoluta y n.

7 Distribución de frecuencias
Frecuencia absoluta(relativa) acumulada de xi: Si llamamos x*1, x*2 ,..., x*k a los valores ordenados de menor a mayor (sólo sentido variables cuantitativas o estadísticas): Frecuencia absoluta acumulada de x*i Frecuencia relativa acumulada de x*i

8 Propiedades de frecuencias
La suma de las frecuencias absolutas es el número de datos. La suma de las frecuencias relativas es 1. Si la frecuencia relativa de un dato se multiplica por 100, tenemos el porcentaje que ese dato representa del total.

9 Propiedades de frecuencias
La frecuencia absoluta acumulada del último dato coincide con el número de datos. La frecuencia relativa acumulada del último dato es 1. Si la frecuencia relativa acumulada de un dato se multiplica por 100, tenemos el porcentaje que ese dato y todos los menores representan sobre el total.

10 Tabla o distribución de Frecuencias
Es el conjunto de valores distintos que toma la variable acompañados de sus respectivas frecuencias. Tiene sentido para variables cuantitativas y para variables cualitativas (en este caso, sólo las frecuencias absolutas y relativas)

11 Tabla de Frecuencias Ejemplo: Número de accesos de un procesador a un determinado módulo de memoria en una hora. Se toma una muestra de tamaño 14: 1, 2, 4, 8, 2, 1, 4, 4, 8, 3, 2, 2, 7, 3.

12 Tabla de Frecuencias Otras tablas de frecuencias

13 Tabla de Frecuencias Las tablas de frecuencia son útiles para resumir la información de una variable cuando se tiene una muestra con pocos valores distintos (orientativo, a lo sumo 20). Si el número de valores distintos de la muestra es grande (mayor que 20), se agrupan los datos en intervalos para construir la tabla de frecuencias. Llamaremos a estas últimas “Variables agrupadas”. Al resto nos referiremos como “Variables no agrupadas” o sin agrupar. Una regla usual para el número de intervalos es elegir un entero cercano a log10(n).

14 Tabla de Frecuencias Población: hogares osorninos
Muestra: 40 familias osorninos Variable o característica: Consumo mensual de leche, en litros. Tenemos 22 valores distintos: vamos a agrupar en intervalos. Mínimo = 10, máximo = 103.3; log10(40) = 6.29 ≈ 6. Conviene trabaja con intervalos “fáciles”, por ejemplo, que tengan extremos enteros.

15 Tabla de Frecuencias Como puede observarse el primer intervalo contienen más del 30% (12) y el último menos del 5% (2) de los datos.

16 Representaciones Gráficas
Diagrama de barras Histograma Se realiza cuando el número de datos distintos es pequeño (menos de 20 con Statgraphics). Sobre cada valor de los datos se levanta una barra cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas.

17 Diagrama de barras

18 Histograma Es una representación que se usa cuando hay muchos datos distintos y, por tanto, hay que agrupar los datos en intervalos. En este caso, cada intervalo se representa mediante un rectángulo cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas

19 Medidas de tendencia central
O Medidas de centralización o posición Tienen sentido solamente para variables cuantitativas (valores numéricos) Son valores en torno a los cuales se agrupa la variable (Valores centrales). Las principales son: Moda Media aritmética Mediana Cuantiles

20 Moda Es el dato con mayor frecuencia absoluta (el que más se repite).
Puede haber más de una moda o no haber moda (si todos los datos tienen frecuencia 1) Ejemplo: 2, 2, 3, 3, 4, 4, 4, 5, 6, 6, 6, 7, 7, 8, 8 (muestra tamaño 15) Este ejemplo tiene dos modas: 4 y 6

21 Media aritmética La media es la suma de todos los valores de la variable dividido entre el número total de datos (primera fórmula). Si se dispone de las frecuencias absolutas (relativas) de los datos, la media se puede calcular usando la segunda (tercera) expresión de la media donde representan los valores distintos de la variable. Todas las medidas que estudiemos tienen esta dos versiones.

22 Media aritmética Con los datos anteriores: 2, 2, 3, 3, 4, 4, 4, 5, 6, 6, 6, 7, 7, 8, 8 (muestra tamaño 15), se tiene:

23 Mediana Es un valor tal que, ordenados de menor a mayor los datos, el 50% es menor o igual que él y el 50% mayor o igual que él. Se denota como Me. Con los datos del ejemplo anterior: En este caso hay un valor central porque el número de datos es impar. En el caso de tener un número par de datos, la mediana es la semisuma de los dos datos centrales (en este caso no tiene porqué ser uno de los datos) Si añadimos a los datos anteriores el valor 8, la mediana es 5.5, que no es uno de los datos.

24 Comparación media-mediana
La media contiene más información porque usa los valores de todos los datos. La mediana es más robusta frente a los cambios en los datos, es decir, es menos sensible a cambios en los datos. Ejemplo: si a los datos anteriores , le añadimos el dato 34, tenemos: Nueva media: = 6.8 (antes era 5) Nueva mediana: Me = 5.5 (antes era 5) La media es más sencilla de calcular y se presta mejor a los cálculos algebraicos. Deben calcularse ambas pues proporcionan información complementaria.

25 Percentiles Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85% Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75 Q1 es un valor tal que el 25% de los datos es menor o igual que él y el resto, mayor o igual que él. P18 es un valor tal que el 18% de los datos es menor o igual que él y el resto mayor o igual que él.

26 Percentiles En el calculo se ordenan los datos de menor a mayor.
Ejemplo: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 en este ejemplo n=15 Encontrar un valor tal que el 25% de los datos sea menor o igual que él nα = 15*0.25 = 3.75 Esto significa que el 25% de los datos son menores o iguales que 3 y el otro 75% son mayores o iguales que 3.

27 Medidas de dispersión Se calculan solamente para variables cuantitativas Las medidas de dispersión completan la información que dan las medidas de centralización e indican si éstas son más o menos representativas del conjunto de datos. A menor valor de la medida, menor dispersión en el conjunto de datos. Las más importantes son: Rango o recorrido Recorrido intercuartílico Varianza y Desviación típica Coeficiente de variación

28 Necesidad de medidas de Dispersión
Las medidas de centralización proporcionan una información incompleta del conjunto de datos. Ejemplo: sean X e Y las notas de dos grupos de cuarenta alumnos, con distribuciones de frecuencias: Para ambas variables la media es 5, pero en el segundo caso 5 es un valor más representativo de los datos que en el primero. Intuitivamente los datos de X están más dispersos (más separados) que los de Y, entre ellos y respecto de la media.

29 Rango o recorrido & Recorrido intercuartílico
El rango o recorrido y el recorrido intercuartílico miden la amplitud de los datos. Se definen como: Rango o recorrido: R = xmayor –xmenor Recorrido intercuartílico: RQ = Q3 - Q1 En el ejemplo de las notas de las dos clases X e Y, se observa que X es más dispersa que Y al calcular R y RQ :

30 Varianza y desviación típica
Ambas son medidas de dispersión asociadas a la media. Miden, entonces, la representatividad de la media en el conjunto de datos. Varianza: Representa una especie de distancia media de los datos a la media aritmética. A mayor varianza, mayor distancia de los datos a la media y por tanto, menor representatividad de la media. La varianza siempre es mayor o igual que 0 y está medida en unidades al cuadrado.

31 Varianza y desviación típica
medida en las mismas unidades que los datos Desviación típica: En el ejemplo de las notas de los dos grupos de cuarenta alumnos, con distribuciones de frecuencias: Para ambas variables la media es 5, pero en el segundo caso 5 es un valor más representativo de los datos que en el primero como se puede observar al calcular la varianza.

32 Coeficiente de variación de Pearson
La varianza NO sirve como medida si lo que se quiere es comparar, de entre varios conjuntos de datos, cual es el más disperso respecto de la media salvo si todos los conjuntos de datos tiene la misma media (ejemplo de las notas). Coeficiente de variación de Pearson: (asociado a la media) Este coeficiente es adimensional y elimina la influencia de la de la magnitud y unidades de medida de los datos. Multiplicado por 100 se interpreta como un porcentaje.

33 Ejemplo de cómo la varianza NO sirve para comparar la dispersión de dos conjuntos de datos cuando la media es diferente: Se tienen datos del peso de varios lagartos (X) y del peso de una población de tiburones (Y), en Kg. Para X: media = 0.473, V = 0.026, CV = 0.34 Para Y: media = 404, V= 9.846, CV = La varianza de Y es mayor que la de X pero está influenciado por la magnitud de los datos y por las unidades de medida. No podemos comparar la dispersión de los datos con la varianza porque las medias son distintas.

34 Coeficiente de asimetría de Fisher
Si al calcular este valor con nuestros datos sucede que: CAF > 0, la distribución es asimétrica a la derecha. CAF = 0, la distribución es simétrica. CAF < 0, la distribución es simétrica a la izquierda.


Descargar ppt "Sesión 8 Tema: Estadística descriptiva Objetivo:"

Presentaciones similares


Anuncios Google