Estadística descriptiva Bioestadística
Estadística Estadística descriptiva Estadística inferencial Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos Estadística inferencial Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.
Análisis descriptivos Variables nominales o categóricas: Número de casos en cada categoría Y porcentaje que representen del total Tabla de frecuencias Variables numéricas ¿Alrededor de qué valor se agrupan los datos? ¿Se agrupan muy concentrados? ¿Muy dispersos?
Medidas de tendencia central Responden a la pregunta: ¿Alrededor de qué valor se agrupan los datos?
Medidas de tendencia central Media aritmética Es la medida más evidente Suma de todos los valores de una variable dividida entre el número total de datos n x i å = 1
Medidas de tendencia central Otras medias: Media geométrica xg: Media de los logaritmos de los valores de la variable
Medidas de tendencia central Media armónica: xά El recíproco de la media aritmética de los recíprocos
Medidas de tendencia central Media cuadrática xc: Es la raíz cuadrada de la media aritmética de los cuadrados de los valores.
Medidas de tendencia central Mediana Es la observación equidistante de ambos extremos Valor tal que el 50% de los datos son menores que él y el 50% son mayores Es el percentil 50 Mediana 50% 50%
Medidas de tendencia central Moda El valor que más se repite No tan usual Puede haber varias modas
Estadísticos de posición Percentiles Cuartiles, deciles y terciles 1/2 1/4 1/4
Estadísticos de posición Cuartiles Q1 = P25 Q2 = P50 = Mediana Q3 = P75 Deciles Q1 = P10 Q2 = P20 Q3 = P30 Q4 = P40 Q5 = P50 Q6 = P60 Q7 = P70 Q8 = P80 Q9 = P90
Medidas de dispersión Nos indican si los valores están próximos entre sí o muy dispersos
Medidas de dispersión Rango Cálculo fácil Solo utiliza dos valores para el cálculo Se puede ver afectada por una observación muy extrema A mayores observaciones mayor es la probabilidad de que el rango aumente X X X X XX X X X XXX X X Rango
Medidas de dispersión Varianza s2: La media de las diferencias cuadráticas de n valores con respecto a su media aritmética: Sus unidades son las del cuadrado de la variable
Medidas de dispersión Desviación estándar s : Medida de dispersión que tiene las mismas unidades de los valores evaluados La varianza no tiene la misma magnitud que las observaciones. Ej si las unidades son metros, la varianza se mide en metros cuadrados.
Medidas de dispersión Representación gráfica de la desviación estándar 1 2 7 9 10 15 20 22 30 Media = 12.9 Ojo: la desviación estándar NO es la suma de las diferencias de cada observación respecto a la media es solo una representación gráfica
Medidas de dispersión Coeficiente de variación, CV: Facilita la comparación de dispersión o variabilidad entre diferentes muestras. Se debe calcular para variables con todos sus valores positivos No varía en variables con diferente origen Ej Edades de niños vs edades de adultos No varía en variables con diferentes escalas o unidades Ej Talla de niños en centímetros y tallas de adulto en metros
Medidas de distribución Sirven para evaluar la semejanza de la muestra con la distribución normal Asimetría (Skewness) – Indica si la distribución de los datos se encuentra sesgada hacia algún extremo. Curtosis (Kurtosis) – Indica si la distribución está plana o puntiaguda, es decir, si los datos de concentran al centro o están más distribuidos a lo largo del rango.
Medidas de dispersión Tipificación o estandarización de valores: Es el proceso de restar la media a un valor y dividir por su desviación estándar. La nueva variable creada con valores estandarizados permite hacer comparables dos medidas que en un principio no lo son. OJO no confundir: El coeficiente de variación: Sirve para comparar la dispersión o variabilidad de dos variables Los valores estandarizados: Sirven para comparar dos observaciones de diferentes variables.
Estadística descriptiva Skewness Kurtosis Desviación Estándar Varianza Error Estándar Media Mediana (Percentil 50) Moda Mínimo Máximo Rango
Representaciones gráficas Histograma de frecuencias
Representaciones gráficas Mismo histograma de frecuencias con diferentes intervalos
Representaciones gráficas Diagrama de tallo y hoja Frequency Stem & Leaf 3019.00 Extremes (=<79) 116.00 7 . 9 1066.00 8 . 0011223344 1371.00 8 . 5566777888999 1507.00 9 . 000111222333444 1594.00 9 . 555666777888999 1733.00 10 . 000111222333444 1777.00 10 . 55566677778888999 2019.00 11 . 0000111122223334444 2087.00 11 . 5556666777788889999 2168.00 12 . 000011112222333344444 2222.00 12 . 555566667777888889999 2271.00 13 . 000001111222233334444 2580.00 13 . 5555666667777788888999999 4423.00 14 . 0000000111111122222222333333333344444444444 7743.00 14 . 5555555555556666666666666777777777777777888888888888888899999999999999999 10094.00 15 . 00000000000000000011111111111111111112222222222222222222333333333333333333334444444444444444444 10345.00 15 . 5555555555555555555566666666666666666666777777777777777777778888888888888888888999999999999999999 8780.00 16 . 00000000000000000011111111111111111222222222222222223333333333333333444444444444444 6469.00 16 . 5555555555555566666666666667777777777778888888888889999999999 3925.00 17 . 000000000111111112222222233333344444 1770.00 17 . 55555666677788899 528.00 18 . 00123& 120.00 18 . & 25.00 19 . & 2.00 19 . & Stem width: 10.0 Each leaf: 106 case(s) & denotes fractional leaves.
Grafica boxplot
Ejemplo - Talla Descriptivos Estadístico Media 141.999 . Intervalo de conf. para la media al 95% Límite inferior 141.810 Límite superior 142.188 Media recortada al 5% 143.930 Mediana 151.000 Varianza 741.049 Desv. típ. 27.2222 Mínimo 46.0 Máximo 196.2 Rango 150.2 Amplitud intercuartil 32.6 Asimetría -1.124 Curtosis .495
Ejemplo – Talla en adultos Descriptivos Estadístico Media 158.010 .0482 Intervalo de conf. para la media al 95% Límite inferior 157.915 Límite superior 158.104 Media recortada al 5% 157.912 Mediana 157.500 Varianza 96.729 Desv. típ. 9.8351 Mínimo 102.0 Máximo 196.2 Rango 94.2 Amplitud intercuartil 13.9 Asimetría .119 Curtosis .016