Estadística Descriptiva Numérica 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Objetivo Presentar en forma resumida la información de los datos contenidos en la base de datos. 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Clasificación Por el objetivo de las medida Medidas de tendencia central Medidas de dispersión Por la agrupación de los datos Estadística para datos individuales Estadística para datos agrupados 22/02/2019 Maestría en Biología UAMI
Medidas de Tendencia Central Las medidas de tendencia central concentran toda la información del conjunto en una sola medida que se considera un número representativo. Media Moda Mediana 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Media Aritmética La media aritmética de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por y se calcula mediante la expresión: xi representa el valor de la variable o en su caso la marca de clase. Propiedades: Si multiplicamos o dividimos todas las observaciones por un mismo número, la media queda multiplicada o dividida por dicho numero. Si le sumamos a todas las observaciones un mismo número, la media aumentará en dicha cantidad. Además de la media aritmética existen otros conceptos de media, como son la media geométrica y la media armónica. 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Media Geométrica La media geométrica de N observaciones es la raíz de índice N del producto de todas las observaciones. La representaremos por G. Solo se puede calcular si no hay observaciones negativas. Es una medida estadística poco o nada usual. 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Media armónica: La media armónica de N observaciones es la inversa de la media de las inversas de las observaciones y la denotaremos por H 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Mediana La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra. Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua. Cálculo de la mediana en el caso discreto: Tendremos en cuenta el tamaño de la muestra. Si N es Impar, hay un término central, el término que será el valor de la mediana. Si N es Par, hay dos términos centrales, la mediana será la media de esos dos valores 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Mediana Cont. Si N es Impar, hay un término central, el término que será el valor de la mediana. Si N es Par, hay dos términos centrales, la mediana será la media de esos dos valores 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Mediana ej. N par N impar 1,4,6,7,8,9,12,16,20, 24,25,27 N=12 1,4,6,7,8,9,12,16,20, 24,25,27,30 N=13 Términos Centrales el 6º y 7º 9 y 12 Término Central el 7º , 12 M = 12 M = 22/02/2019 Maestría en Biología UAMI
Importancia de la Mediana En las pruebas de Hipótesis que no suponen distribución normal (pruebas no paramétricas) las hipótesis están planteadas sobre las medianas no sobre las medias como en las técnicas que suponen la distribuciónnormal 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI MODA: La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que más se repite, es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo. Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una distribución bimodal o polimodal según el caso. 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Datos Agrupados Cuando el número de datos que constituyen la base de datos son muy numerosos y vienen de una variable continua. Los datos se “agrupan”, es decir los datos son presentados en pequeños paquetes que abarcan todos los datos contenidos entre dos valores determinados de la variable. 22/02/2019 Maestría en Biología UAMI
Calculo del número de intervalos Existen varias reglas automáticas para determinar el número de intervalos a usar en la construcción de una tabla. Los programas estadísticos de uso habitual, las usan a menudo en su configuración estándar, aunque también permiten que el usuario decida por su cuenta las características de los intervalos que desea usar. Una de las reglas más conocidas fue propuesta por Herbert Sturges y calcula el número k de intervalos mediante la expresión k = 1 + log2(n) = 1 + 3.322 * log(n) En donde n es el número total de datos 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Ejemplos Si, por otra parte, se analiza los datos según el punto de vista del usuario, resulta mejor construir esta otra tabla Al aplicar la Regla Sturges con n = 15, se obtiene un total de 5 intervalos. Su aplicación ‘automática’ entrega la siguiente tabla: Notas Nº de alumnos 1.8 – 2.8 3 2.8 – 3.8 3.8 – 4.8 2 4.8 – 5.8 4 5.8 – 6.8 3 TOTAL 15 Notas Nº de alumnos 1.0 – 2.0 1 2.0 – 3.0 2 3.0 – 4.0 4 4.0 – 5.0 3 5.0 - 6 .0 6.0- 7.0 TOTAL 15 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Al comparar las tablas anteriores, se puede ver que la segunda puede ser interpretada en forma mucho más útil. En particular, porque la nota cuatro tiene un sentido especial dentro del sistema de calificaciones, ya que es la menor nota de aprobación. Es claro entonces que, en este caso, un resumen estadístico debe permitir determinar el número de aprobados y reprobados en un examen. Como conclusión de lo anterior, se debe resaltar que, en general, es conveniente usar una tabulación que respete las características de la información representada. Aquí, como en todo caso en que se aplica métodos estadísticos, se debe poner especial cuidado en el ‘buen criterio’ de quien analiza datos para extraer su información relevante. 22/02/2019 Maestría en Biología UAMI
Características del Intervalo Li = límite inferior del intervalo: es el valor más pequeño del intervalo, por lo general es un límite “abierto” Ls = límite superior: es el máximo valor del intervalo por lo general es un límite “cerrado” Mc = marca de clase: es el valor intermedio del intervalo, por lo general se considera que todos los valores del intervalo toman este valor para fines prácticos. 22/02/2019 Maestría en Biología UAMI
Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada Tamaño de la muestra N Llamamos tamaño muestral al número de observaciones realizadas, es decir, al número total de datos. Frecuencia Absoluta ni Llamamos frecuencia absoluta de un valor xi de la variable estadística X al número de veces que aparece repetido dicho valor en el conjunto de las observaciones realizadas. Frecuencia Absoluta Acumulada Ni Llamamos frecuencia absoluta acumulada en el valor xi a la suma de las frecuencias absolutas de los valores inferiores o iguales a él. Evidentemente, los valores xi han de estar ordenados de forma creciente, como ya se ha indicado, y la frecuencia absoluta acumulada del último valor será igual a N. Frecuencia Relativa fi Llamamos frecuencia relativa de un valor xi de la variable estadística X al cociente entre la frecuencia absoluta y el número de observaciones realizadas. ; Frecuencia Relativa Acumulada Fi Llamamos frecuencia relativa acumulada en el punto xi al cociente entre la frecuencia absoluta acumulada y el número de observaciones realizadas. ; 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Moda Datos Agrupados Por lo tanto el cálculo de la moda en distribuciones discretas o cualitativas no precisa de una explicación mayor; sin embargo, debemos detenernos un poco en el cálculo de la moda para distribuciones cuantitativas continuas. 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Moda Datos Agrupados Apoyándonos en el gráfico podemos llegar a la determinación de la expresión para la Moda que es: Otros autores dan una expresión aproximada para la moda que viene dada por la siguiente expresión: 22/02/2019 Maestría en Biología UAMI
Mediana de Datos Agrupados Si la variable es continua, la tabla vendrá en intervalos, por lo que se calcula de la siguiente forma: Nos vamos a apoyar en un gráfico de un histograma de frecuencias acumuladas. 22/02/2019 Maestría en Biología UAMI
Mediana Datos agrupados cont. De donde la mediana vale: donde ai es la amplitud del intervalo 22/02/2019 Maestría en Biología UAMI
Maestría en Biología UAMI Mediana Ejemplo Veámoslo por medio de un ejemplo. Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma: Li-1 Li ni Ni 45 55 6 65 10 16 75 19 35 85 11 46 95 4 50 Como el tamaño de la muestra es N=50, buscamos el intervalo en el que la Frecuencia acumulada es mayor que 50/2=25, que en este caso es el 3º y aplicamos la fórmula anterior. Luego la Mediana será Me= 22/02/2019 Maestría en Biología UAMI