Introducción a la Estadística
Introducción a la Estadística Descripción de los conjuntos de datos Uso de la Estadística para sintetizar conjuntos de datos Probabilidad Variables aleatorias discretas Variables aleatorias normales
Uso de la Estadística para sintetizar conjuntos de datos
Uso de la Estadística para sintetizar conjuntos de datos 3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
Definición de Estadístico Se entiende por estadístico cualquier magnitud numérica cuyo valor se pueda determinar a partir de los datos.
Estadísticos que describen la tendencia central Se entiende por estadístico cualquier magnitud numérica cuyo valor se pueda determinar a partir de los datos. Primeramente estudiaremos los estadísticos que describen la tendencia central del conjunto de datos; es decir, que describen el centro del conjunto de los valores de los datos.
Estadísticos que describen la tendencia central Se entiende por estadístico cualquier magnitud numérica cuyo valor se pueda determinar a partir de los datos. Presentaremos sucesivamente tres estadísticos de este tipo: Media muestral. Mediana muestral. Moda muestral.
Uso de la Estadística para sintetizar conjuntos de datos 3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
La media muestral
La media muestral Supongamos que se dispone de una muestra de n datos cuyos valores serán designados por x1, x2, x3, …,xn.
La media muestral n datos cuyos valores serán designados por x1, x2, x3, …,xn. Un estadístico usado para indicar el centro de este conjunto de datos es la media muestral, definida como la media aritmética de los valores de los datos.
Definición de la media muestral La media muestral es la media aritmética de los valores de los datos.
La media muestral
El símbolo de sumatoria
El símbolo de sumatoria
El símbolo de sumatoria
El símbolo de sumatoria
El símbolo de sumatoria
El símbolo de sumatoria
El símbolo de sumatoria
La media muestral
Ejemplo: La inversión extranjera en México Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
Inversión extranjera directa en México en el sector agropecuario (millones de dólares): Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Total 561.9
Ejemplo: La inversión extranjera en México Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
Ejemplo: La inversión extranjera en México Media muestral
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
La media muestral. Ejemplo Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580 Calificaciones obtenidas en el examen SAT para 15 alumnos:
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580 10270 10170
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580
Propiedades de la media muestral
Propiedades de la media muestral
Propiedades de la media muestral
Propiedades de la media muestral
Propiedades de la media muestral
Propiedades de la media muestral
Propiedades de la media muestral
Propiedades de la media muestral
Propiedades de la media muestral
Cálculo de la media muestral a partir de una tabla de frecuencias
Cálculo de la media muestral a partir de una tabla de frecuencias
Cálculo de la media muestral a partir de una tabla de frecuencias
Cálculo de la media muestral a partir de una tabla de frecuencias
Cálculo de la media muestral a partir de una tabla de frecuencias
Cálculo de la media muestral a partir de una tabla de frecuencias
Ejemplo Los datos siguientes reflejan el número total de incendios en Ontario (Canadá), ocurridos en los sucesivos meses del año 2002: 6, 13, 5, 7, 7, 3, 7, 2, 5, 6, 9, 8
Ejemplo: Número de incendios en el Cánada Los datos siguientes reflejan el número total de incendios en Ontario (Canadá), ocurridos en los sucesivos meses del año 2002: MES NÚMERO DE INCENDIOS Enero 6 Febrero 13 Marzo 5 Abril 7 Mayo Junio 3 Julio Agosto 2 Septiembre Octubre Noviembre 9 Diciembre 8
Ejemplo: Número de incendios en el Cánada
Ejemplo: Número de incendios en el Cánada MES NÚMERO DE INCENDIOS Enero 6 Febrero 13 Marzo 5 Abril 7 Mayo Junio 3 Julio Agosto 2 Septiembre Octubre Noviembre 9 Diciembre 8 Total 78 Media muestral 6.5
Ejemplo: Número de incendios en el Cánada # 6 2 13 3 5 7 8 9 # Frecuencia 2 1 3 5 10 6 12 7 21 8 9 13 Total 78 Media muestral 6.5
Ejemplo Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13 La tienda de bicicletas “Latitud 19N” vendió en el mes de noviembre las siguientes bicicletas:
Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13
Precio Cantidad 600 3 850 4 1,000 2 1,500 2,000 1 Precio Bici 1 850 | Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13 Precio Cantidad 600 3 850 4 1,000 2 1,500 2,000 1
Precio Cantidad 600 3 850 4 1,000 2 1,500 2,000 1
Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 | Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13
Precio Cantidad 600 3 850 4 1,000 2 1,500 2,000 1
El precio medio de venta fue de 1,054 pesos. Las bicicletas vendidas en Latitud 19 N en el mes de noviembre fueron: Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13 El precio medio de venta fue de 1,054 pesos.
Las bicicletas vendidas en una tienda en el mes de noviembre fueron: Precio Cantidad Precio x Cantidad 600 3 1800 850 4 3400 1000 2 2000 1500 4500 1 13700 1054 El precio medio de venta fue de 1,054 pesos.
Media muestral ponderada
Media muestral ponderada
Media muestral ponderada
Media muestral ponderada
Media muestral ponderada
Media muestral ponderada
Desviaciones
Desviaciones
Desviaciones
Desviaciones
Desviaciones
Desviaciones
Desviaciones
La media muestral como centro de gravedad del conjunto de datos
Ejemplo: La inversión extranjera en México Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
Inversión extranjera directa en México en el sector agropecuario (millones de dólares): Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Total 561.9
Inversión extranjera directa en México en el sector agropecuario (millones de dólares): Periodo Monto Monto menos la media 1999 82.6 26.4 2000 91.6 35.4 2001 63.8 7.6 2002 93.0 36.8 2003 11.8 -44.4 2004 21.9 -34.3 2005 10.2 -46.0 2006 22.1 -34.1 2007 132.4 76.2 2008 32.5 -23.7 56.2 0.0
Ejemplo: La inversión extranjera en México Media muestral
Uso de la Estadística para sintetizar conjuntos de datos 3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
La mediana muestral
La mediana muestral Pasamos ahora a estudiar otro estadístico que nos da una medida de la tendencia central del conjunto de datos, la mediana.
La mediana muestral Para motivar su introducción, y explicar su utilidad, calcularemos la media muestral en dos ejemplos ad hoc, y haremos ver un problema que presenta.
Ejemplo del cálculo de la media muestral con un valor atípico Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Las bicicletas vendidas en Latitud 19N en el mes de diciembre fueron:
Comparación entre las ventas de noviembre y diciembre Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13 Comparación entre las ventas de noviembre y diciembre
Diciembre Noviembre Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13
Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15
Precio Cantidad 600 4 850 3 1,000 2 1,500 2,000 40,000 1 Precio Bici 1
3,697 Media muestral Precio Cantidad 600 4 2,400 850 3 2,550 1,000 2 2,000 1,500 4,500 4,000 40,000 1 15 55,450 Media muestral 3,697
Precio Cantidad 600 4 850 3 1,000 2 1,500 2,000 40,000 1
El precio medio de venta en diciembre fue de 3,697 pesos Las bicicletas vendidas en una tienda en el mes de diciembre fueron: Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 El precio medio de venta en noviembre fue de 1,054 pesos El precio medio de venta en diciembre fue de 3,697 pesos
Ejemplo del cálculo de la media muestral con un valor atípico Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
Meses 6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65
La media muestral es 7.4 meses Pacientes Meses x Pacientes 1 2 5 10 3 30 4 7 28 6 42 8 24 9 63 20 11 33 12 13 14 15 16 32 22 37 Total 65 482 7.4 La media muestral es 7.4 meses
Media
La mediana muestral Una debilidad de la media muestral como indicador del centro de un conjunto de datos es que su valor se encuentra muy afectado por los extremos de los datos.
La mediana muestral será denotada por m. Un estadístico que se utiliza también para representar el centro de un conjunto de datos es la mediana muestral, definida como el valor medio cuando los datos están ordenados de menor a mayor. La mediana muestral será denotada por m.
La mediana muestral La mediana muestral es el valor central de un conjunto ordenado de datos.
¿Cómo se determina la mediana muestral? Ordene los datos de menor a mayor. Si el número de datos es impar, la mediana muestral coincide con el valor que se encuentra en la posición central en la lista ordenada. Si el número de datos es par, la mediana muestral es la media de los dos valores que ocupan las posiciones centrales.
¿Cómo se determina la mediana muestral? De esta definición se deduce que, si existen tres datos, la mediana muestral coincide con el segundo valor más pequeño; mientras que, si existen cuatro valores, coincide con la media de los valores más pequeños segundo y tercero.
¿Cómo se determina la mediana muestral? Para un conjunto de datos de n valores, la mediana muestral coincide con el (n+1)/2 menor valor ordenado, cuando n es impar.
¿Cómo se determina la mediana muestral? Para un conjunto de datos de n valores, la mediana muestral coincide con la media de los valores ordenados que ocupan las posiciones (n/2) y (n/2+1), cuando n es par.
¿Cómo se determina la mediana muestral?
Ejemplo Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Las bicicletas vendidas en Latitud 19N en el mes de diciembre fueron:
Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Precio Bici 5 600 Bici 7 Bici 8 Bici 13 Bici 2 850 Bici 3 Bici 12 Bici 4 1,000 Bici 6 Bici 1 1,500 Bici 11 Bici 14 Bici 10 2,000 Bici 15 Bici 9 40,000
Precio 1 Bici 5 600 2 Bici 7 3 Bici 8 4 Bici 13 5 Bici 2 850 6 Bici 3 7 Bici 12 8 Bici 4 1,000 9 Bici 6 10 Bici 1 1,500 11 Bici 11 12 Bici 14 13 Bici 10 2,000 14 Bici 15 15 Bici 9 40,000
Las bicicletas vendidas en una tienda en el mes de diciembre fueron: El precio medio de venta en noviembre fue de 1,054 pesos Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15
Ejemplo Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
Meses 6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
Meses 6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 Meses 1 4 9 2 5 3 10 6 11 12 7 13 14 15 16 8 22 37
La mediana muestral es 6 meses 1 4 9 2 5 3 10 6 11 12 7 13 14 15 16 8 22 37 La mediana muestral es 6 meses
La media muestral es 7.4 meses La mediana muestral es 6 meses 1 4 9 2 5 3 10 6 11 12 7 13 14 15 16 8 22 37 Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65 La media muestral es 7.4 meses La mediana muestral es 6 meses
Media Mediana
Ejemplo Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
Ordenando de menor a mayor Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Periodo Millones de dólares 2005 10.2 2003 11.8 2004 21.9 2006 22.1 2008 32.5 2001 63.8 1999 82.6 2000 91.6 2002 93.0 2007 132.4 Ordenando de menor a mayor
Periodo Millones de dólares 2005 10.2 2003 11.8 2004 21.9 2006 22.1 2008 32.5 2001 63.8 1999 82.6 2000 91.6 2002 93.0 2007 132.4
Calificaciones obtenidas por 15 alumnos en el examen SAT: Ejemplo Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580 Calificaciones obtenidas por 15 alumnos en el examen SAT:
Ordenando de menor a mayor Matemáticas 750 700 720 790 620 640 710 540 570 580 Matemáticas 540 570 580 620 640 700 710 720 750 790 Ordenando de menor a mayor
Alumno Matemáticas 1 540 2 570 3 580 4 620 5 640 6 700 7 8 9 710 10 11 720 12 750 13 14 790 15
Ordenando de menor a mayor Lectura 750 710 700 780 680 610 630 550 600 720 Lectura 550 600 610 630 680 700 710 720 750 780 Ordenando de menor a mayor
Alumno Lectura 1 550 2 600 3 4 610 5 630 6 680 7 8 700 9 10 710 11 12 720 13 750 14 15 780
La media muestral y la mediana muestral Tanto la media muestral como la mediana muestral son estadísticos útiles para describir la tendencia central de un conjunto de datos.
La media muestral y la mediana muestral La media muestral, siendo la media aritmética, utiliza todos los datos. La mediana muestral, puesto que sólo utiliza un único valor central o bien un par de valores centrales, no se ve afectada por los valores extremos.
La media muestral y la mediana muestral Para los conjuntos de datos aproximadamente simétricos sobre su valor central, la media muestral y la mediana muestral tienen valores próximos.
La media muestral y la mediana muestral. Ejemplo Para los conjuntos de datos aproximadamente simétricos sobre su valor central, la media muestral y la mediana muestral tienen valores próximos. Por ejemplo, los datos 4, 6, 8, 8, 9, 12, 15, 17, 19, 20, 22 son, grosso modo, simétricos alrededor del valor 12, que es su mediana. La media es 140/11 = 12.73, que se encuentra próxima a 12.
La media muestral y la mediana muestral. Ejemplo # Número 1 4 2 6 3 8 5 9 12 7 15 17 19 10 20 11 22 140
La media muestral y la mediana muestral La respuesta a la pregunta sobre cuál de los dos estadísticos sumariales es más informativo depende de qué es lo que se pretende conocer del conjunto de datos.
La media muestral y la mediana muestral La respuesta a la pregunta sobre cuál de los dos estadísticos sumariales es más informativo depende de qué es lo que se pretende conocer del conjunto de datos. Por ejemplo, si el gobierno establece un impuesto sobre la renta con tarifa plana (proporcional) y se pretende averiguar qué recaudación cabe esperar, la renta media de los ciudadanos será más interesante que la mediana (¿por qué?).
La media muestral y la mediana muestral La respuesta a la pregunta sobre cuál de los dos estadísticos sumariales es más informativo depende de qué es lo que se pretende conocer del conjunto de datos. Por el contrario, si el gobierno estuviera interesado en determinar un valor central de la cantidad de renta que los ciudadanos dedican a la vivienda, la mediana muestral podría ser más informativa (¿por qué?).
La media muestral y la mediana muestral Aunque es interesante analizar si la media muestral o la mediana muestral es mas informativa en una situación concreta, observe que no debemos restringir nuestro conocimiento a sólo una de dichas magnitudes. Ambas son importantes y, por tanto, las dos se han de calcular cuando se está sintetizando un conjunto de datos.
Percentiles muestrales
Percentiles muestrales La mediana muestral es un caso particular de los estadísticos conocidos como percentiles muestrales de orden 100p por ciento, donde p puede ser cualquier valor comprendido entre 0 y 1.
Percentiles muestrales La mediana muestral es un caso particular de los estadísticos conocidos como percentiles muestrales de orden 100p por ciento, donde p puede ser cualquier valor comprendido entre 0 y 1. Grosso modo, el percentil muestral de orden 100p por ciento es aquel valor que verifica que el 100p por ciento de los datos son menores que él y que el 100( 1-p)% de los datos son mayores que él.
Percentiles muestrales Si existen dos de los datos que cumplen las condiciones anteriores, el percentil muestral de orden 100p por ciento se define como la media aritmética de ambos.
Percentiles muestrales Observe que la mediana muestral se corresponde con el percentil muestral de orden 50%. Es decir, coincide con el percentil muestral de orden 100p por ciento cuando p = 0.50.
Percentiles muestrales Supongamos que se han ordenado de menor a mayor todos los datos de una muestra de tamaño n. Para determinar el percentil muestral de orden 100p por ciento se debe encontrar aquel valor que verifica que: 1. Al menos np valores de los datos son menores o iguales que él. 2. Al menos n(1-p) valores de los datos son mayores o iguales que él.
Percentiles muestrales Ahora bien, si np no es un entero, el único valor de los datos que cumple ambos puntos es aquel cuya posición de orden coincide con el primer entero superior a np.
Percentiles muestrales Ahora bien, si np no es un entero, el único valor de los datos que cumple ambos puntos es aquel cuya posición de orden coincide con el primer entero superior a np Por ejemplo, supongamos que se quiere determinar el percentil muestral de orden 90% en una muestra de tamaño n = 12. Puesto que p = 0.9, se tiene np = 10.8 y n(1-p) = 1.2
Percentiles muestrales Ahora bien, si np no es un entero, el único valor que cumple ambos puntos es aquel cuya posición de orden coincide con el primer entero superior a np. Si n=12 y p=0.90 tenemos np = 10.8 y n(1-p) = 1.2 1. Al menos 10.8 valores de los datos sean menores o iguales que él (por consiguiente, el dato debe estar en la posición de orden 11 o mayor). 2. Al menos 1.2 valores de datos sean mayores o iguales que él (por tanto, debe ocupar la posición de orden 11 o menor).
Percentiles muestrales Ahora bien, si np no es un entero, el único dato que cumple ambos puntos es aquel cuya posición de orden coincide con el primer entero superior a np. Si n=12 y p=0.90 tenemos np = 10.8 y n(1-p) = 1.2 1. Al menos 10.8 valores de los datos sean menores o iguales que él (por consiguiente, el valor de datos debe estar en la posición de orden 11 o mayor). 2. Al menos 1.2 valores de datos sean mayores o iguales que él (por tanto, debe ocupar la posición de orden 11 o menor). Evidentemente, el único dato que cumple ambos puntos es aquél que ocupa la posición de orden 11, y, en consecuencia, éste será el percentil muestral de orden 90%.
Percentiles muestrales Por otro lado, si np es un entero, tanto el dato que ocupa la np posición de orden como el dato que ocupa la posición de orden np+1 cumplen las condiciones de las definiciones 1 y 2; en este caso, el percentil muestral de orden 100p por ciento será igual a la media aritmética de los dos datos anteriores.
Percentiles muestrales Por otro lado, si np es un entero, tanto el valor de los datos que ocupa la np posición de orden como el valor de los datos que ocupa la posición de orden np+1 cumplen las condiciones de las definiciones 1 y 2; en este caso, el percentil muestral de orden 100p por ciento será igual a la media aritmética de los dos valores de los datos anteriores. Por ejemplo, supongamos que se desea encontrar el percentil muestral de orden 95% en un conjunto de datos con n = 20 valores
Percentiles muestrales Por otro lado, si np es un entero, tanto el valor de los datos que ocupa la np posición de orden como el valor de los datos que ocupa la posición de orden np+1 cumplen las condiciones de las definiciones 1 y 2; en este caso, el percentil muestral de orden 100p por ciento será igual a la media aritmética de los dos valores de los datos anteriores. n=20, p=0.95, np=19, np+1=20 En este caso, tanto el 19° valor como el 20° valor (los dos valores mayores) serán mayores o iguales que al menos np = 20(0,95) = 19 de los datos, y serán menores o iguales que al menos n(1-p) = 1 de dichos valores.
Percentiles muestrales Por otro lado, si np es un entero, tanto el valor de los datos que ocupa la np posición de orden como el valor de los datos que ocupa la posición de orden np+1 cumplen las condiciones de las definiciones 1 y 2; en este caso, el percentil muestral de orden 100p por ciento será igual a la media aritmética de los dos valores de los datos anteriores. n=20, p=0.95, np=19, np+1=20 El percentil muestral de orden 95% será, pues, la media aritmética de los valores que ocupan las posiciones de orden 19 y 20 (es decir, los dos mayores).
Método para encontrar los percentiles muestrales Para encontrar el percentil muestral de orden 100p% de un conjunto de datos de tamaño n: 1. Ordene los datos en sentido creciente. 2. Si np no es un entero, determine el menor entero mayor que np. El dato que ocupa la posición de orden igual a este último entero será el percentil muestral al 100p por ciento. 3. Si np es un entero, el percentil muestral de orden 100p por ciento coincidirá con la media aritmética de los valores que ocupan las posiciones de orden np y np + 1.
El percentil muestral de orden 25% se llama primer cuartil. Cuartiles El percentil muestral de orden 25% se llama primer cuartil. El percentil muestral de orden 50% se denomina mediana o segundo cuartil. El percentil muestral de orden 75% se llama tercer cuartil.
Cuartiles Los cuartiles dividen el conjunto de los datos en cuatro partes, de forma que, aproximadamente, un 25% de los valores de datos se encuentran por debajo del primer cuartil, otro 25% de los valores se encuentra entre el primer y el segundo cuartil, un tercer 25% se encuentra entre el segundo y el tercer cuartil y, por último, el 25% restante de los valores supera al tercer cuartil.
Cuartiles. Ejemplo La siguiente tabla muestra las exportaciones de plátanos, en toneladas métricas, de países iberoamericanos y caribeños. Encuentre los cuartiles.
PAÍS TONELADAS MÉTRICAS Ecuador 4,095,191 Costa Rica 2,113,652 Colombia 1,710,949 Guatemala 857,164 Panamá 489,805 Honduras 183,400 México 81,044 Santa Lucía 72,795 Brasil 72,468 Belice 64,400 República Dominicana 62,429 Nicaragua 44,402 San Vicente y las Granadinas 43,810 Jamaica 40,900 Surinam 34,000 Venezuela 33,543 Dominica 29,810 Bolivia 9,377 Perú 856 Granada 707 Argentina 412 Trinidad y Tobago 87 El Salvador 72 Paraguay 66 Chile 18 Guayana 10 TOTAL 10,041,367 La siguiente tabla muestra las exportaciones de plátanos, en toneladas métricas, de países iberoamericanos y caribeños. Encuentre los cuartiles.
PAÍS TONELADAS MÉTRICAS Ecuador 4,095,191 Costa Rica 2,113,652 Colombia 1,710,949 Guatemala 857,164 Panamá 489,805 Honduras 183,400 México 81,044 Santa Lucía 72,795 Brasil 72,468 Belice 64,400 República Dominicana 62,429 Nicaragua 44,402 San Vicente y las Granadinas 43,810 Jamaica 40,900 Surinam 34,000 Venezuela 33,543 Dominica 29,810 Bolivia 9,377 Perú 856 Granada 707 Argentina 412 Trinidad y Tobago 87 El Salvador 72 Paraguay 66 Chile 18 Guayana 10 TOTAL 10,041,367 PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
Uso de la Estadística para sintetizar conjuntos de datos 3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
La moda muestral
La moda muestral Otro indicador de la tendencia central es la moda muestral, que se define como el dato que aparece con mayor frecuencia.
La moda muestral Si no existe un único valor que aparezca con mayor frecuencia en el conjunto de datos, aquellos valores que tengan la máxima frecuencia se denominan valores modales. En esta situación se dice que no existe un valor único de la moda muestral.
La moda muestral Resulta muy sencillo obtener el valor modal a partir de una tabla de frecuencias, puesto que coincide con aquel valor que tenga mayor frecuencia.
Ejemplo Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
Meses 6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
De esta tabla de frecuencias es claro que la moda muestral es 3 meses. Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65 De esta tabla de frecuencias es claro que la moda muestral es 3 meses.
Moda
Moda Meses 1 2 3 4 8 9 11 12 13 14 15 16 22 37 Total Pacientes 5 10 7 65 Moda
La media muestral es 7.4 meses La mediana muestral es 6 meses 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65 La media muestral es 7.4 meses La mediana muestral es 6 meses La moda muestral es 3 meses
Media Mediana Moda
Se tira un dado 200 veces. La tabla muestra los resultados obtenidos. Ejemplo 5 2 3 4 1 6 Se tira un dado 200 veces. La tabla muestra los resultados obtenidos.
1 35 2 45 3 30 4 5 24 6 36 Total 200 Número obtenido Frecuencia 5 2 3
Moda muestral Número obtenido Frecuencia 1 35 2 45 3 30 4 5 24 6 36
Moda muestral
Ejemplo Distribución de las causas de muerte de hombres blancos debido a accidentes o a violencia: Causa de muerte Número Coche 30,500 Otros accidentes 27,500 Suicidio 20,234 Homicidio 8,342 What is the modal cause of death due to accidents or violence for white males? Can the mean or median be calculated for the cause of death?
Causa de muerte Número Coche 30,500 Otros accidentes 27,500 Suicidio 20,234 Homicidio 8,342
La moda es accidentes de coche. Distribución de las causas de muerte de hombres blancos debido a accidentes o a violencia. Causa de muerte Número Coche 30,500 Otros accidentes 27,500 Suicidio 20,234 Homicidio 8,342 Dado que se trata de datos nominales, la media y la mediana no tienen sentido. La moda es accidentes de coche.
Uso de la Estadística para sintetizar conjuntos de datos 3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
La varianza muestral
La varianza muestral y la desviación típica muestral Aunque hasta ahora se han introducido estadísticos que miden la tendencia central de un conjunto de datos, todavía no se han considerado aquellos que miden su dispersión o variabilidad.
Desviación de un valor central Una forma de medir la variabilidad de un conjunto de datos consiste en considerar las desviaciones de los datos de un valor central. El valor central que se utiliza más frecuentemente para este propósito es la media muestral.
Ejemplo Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65
La media muestral es 7.4 meses La mediana muestral es 6 meses 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65 La media muestral es 7.4 meses La mediana muestral es 6 meses La moda muestral es 3 meses
Media Mediana Moda
Desviación de un valor central
Desviación de un valor central
Desviación de un valor central
Desviación de un valor central
La varianza muestral
La varianza muestral
Calculo de la varianza muestral
Calculo de la varianza muestral
Propiedades de la varianza muestral
Propiedades de la varianza muestral
Propiedades de la varianza muestral
Propiedades de la varianza muestral
Calculo de la varianza muestral
Propiedades de la varianza muestral
Propiedades de la varianza muestral
Propiedades de la varianza muestral
Propiedades de la varianza muestral
Desviación típica muestral
Propiedades de la desviación típica muestral
Propiedades de la desviación típica muestral
Unidades de la varianza muestral y de la desviación típica muestral
Consumo (galones per cápita) Ejemplo En la tabla siguiente se muestran los consumos per cápita de leche, en los años comprendidos entre 1983 y 1987, en Estados Unidos. Los datos provienen del Departamento de Agricultura de Estados Unidos, Consumo de alimentos, precios y gastos, anuario. Año Consumo (galones per cápita) 1983 26.3 1984 26.2 1985 26.4 1986 1987 25.9
Consumo (galones per cápita) Año Consumo (galones per cápita) 1983 26.3 1984 26.2 1985 26.4 1986 1987 25.9
Consumo (galones per cápita) Año Consumo (galones per cápita) 1983 26.3 1984 26.2 1985 26.4 1986 1987 25.9 TOTAL 131.1
Consumo (galones per cápita) Año Consumo (galones per cápita) xi-x (xi-x)2 1983 26.3 0.08 0.0064 1984 26.2 -0.02 0.0004 1985 26.4 0.18 0.0324 1986 1987 25.9 -0.32 0.1024 0.148 4 0.037
Ejemplo Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
Inversión extranjera directa en México en el sector agropecuario (millones de dólares) Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Total 561.9
Inversión extranjera directa en México en el sector agropecuario (millones de dólares): Periodo Monto Monto menos la media Al cuadrado 1999 82.6 26.4 697.49 2000 91.6 35.4 1,253.87 2001 63.8 7.6 57.91 2002 93.0 36.8 1,354.98 2003 11.8 -44.4 1,970.47 2004 21.9 -34.3 1,175.80 2005 10.2 -46.0 2,115.08 2006 22.1 -34.1 1,162.13 2007 132.4 76.2 5,807.96 2008 32.5 -23.7 561.22 56.2 16,156.91 9 1,795.21
Ejemplo Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65
La media muestral es 7.4 meses La mediana muestral es 6 meses 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 La media muestral es 7.4 meses La mediana muestral es 6 meses La moda muestral es 3 meses Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65
Media Mediana Moda
M f Mxf M-<M> (M-<M>)^2 [(M-<M>)^2]xf 1 -6.42 41.16 2 5 10 -5.42 29.33 146.63 3 30 -4.42 19.50 194.96 4 7 28 -3.42 11.66 81.65 6 -2.42 5.83 35.00 -1.42 2.00 10.02 42 -0.42 0.17 1.04 8 24 0.58 0.34 1.03 9 63 1.58 2.51 17.58 20 2.58 6.68 13.36 11 33 3.58 12.85 38.55 12 4.58 21.02 42.04 13 5.58 31.19 14 6.58 43.36 86.71 15 7.58 57.53 16 32 8.58 73.70 147.39 22 14.58 212.71 37 29.58 875.25 482 2,033.78 65 64 7.42 31.78
La varianza es de 31.78 meses cuadrados. 6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 La media muestral es 7.4 meses La mediana muestral es 6 meses La moda muestral es 3 meses La varianza es de 31.78 meses cuadrados. La desviación típica es de 5.64 meses.
Media Desviación típica
Otros aspectos y medidas de la dispersión
Rango
Rango intercuartílico
Rango intercuartílico
Rango intercuartílico
Valores atípicos En las estadísticas, un valor atípico es una observación que es numéricamente distante del resto de los datos.
Valores atípicos Un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas.
Valores atípicos Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 ºC, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media.
Valores atípicos Un valor atípico es una observación que es numéricamente distante del resto de los datos. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra establecida.
Valores atípicos Tomando como referencia la diferencia entre el primer cuartil Q1 y el tercer cuartil Q3, o valor intercuartil, se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo).
Valores atípicos leves
Valores atípicos extremos
Los valores atípicos pueden tener como origen muchas causas anómalas.
Valores atípicos Los valores atípicos pueden tener como origen muchas causas anómalas. Un aparato físico para tomar mediciones puede haber sufrido una falla temporal. Puede haber habido un error en la transmisión de los datos o la transcripción. Puede haber habido un fraude o un boicot.
Valores atípicos Los valores atípicos surgen debido a los cambios en el comportamiento del sistema, al comportamiento fraudulento, a errores humanos, a errores instrumentales o simplemente por las desviaciones naturales en las poblaciones. La muestra puede haber sido contaminada con elementos de fuera de la población que se está examinando.
Valores atípicos Alternativamente, un valor atípico podría ser el resultado de un error en la teoría supuesta, y exigiría una investigación más exhaustiva por parte del investigador.
Valores atípicos Precaución: A menos que se pueda determinar que la desviación no es significativa, es poco aconsejable hacer caso omiso de la presencia de valores atípicos. Los valores extremos que no se puede explicar fácilmente exigen atención especial.
Los diagramas de caja
Los diagramas de caja Un diagrama de caja es una gráfica, basada en cuartiles, mediante el cual se visualiza un conjunto de datos.
Los diagramas de caja Es una gráfica que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución
Son útiles para ver la presencia de valores atípicos. Los diagramas de caja Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica. Son útiles para ver la presencia de valores atípicos.
Los diagramas de caja Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Los diagramas de caja 1. Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el intervalo intercuartil (IQR) 2. Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea. 3. Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos. 4. Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
Los diagramas de caja
Los diagramas de caja
Los diagramas de caja
Los diagramas de caja
Los diagramas de caja
Ejemplo Los datos siguientes representan la acidez de 40 precipitaciones de lluvia sucesivas en el estado de Minnesota. La acidez se mide en una escala de pH que varía de 1 (muy ácida) a 7 (neutra): 3.71, 4.23, 4.16, 2.98, 3.23, 4.67, 3.99, 5.04, 4.55, 3.24, 2.80, 3.44, 3.27, 2.66, 2.95, 4.70, 5.12, 3.77, 3.12, 2.38, 4.57, 3.88, 2.97, 3.70, 2.53, 2.67, 4.12, 4.80, 3.55, 3.86, 2.51, 3.33, 3.85, 2.35, 3.12, 4.39, 5.09, 3.38, 2.73, 3.07
PH de la lluvia 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 Los datos siguientes representan la acidez de 40 precipitaciones de lluvia sucesivas en el estado de Minnesota. La acidez se mide en una escala de pH que varía de 1 (muy ácida) a 7 (neutra):
Media muestral 3.61 Suma de todos los datos 144.48 PH de la lluvia 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 Suma de todos los datos 144.48 Número total de datos 40 Media muestral 3.61
Cuadrados de las diferencias PH de la lluvia PH de la lluvia2 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 Diferencias a la media 0.10 0.96 0.62 0.27 0.55 -0.64 -0.63 0.09 -0.38 -1.08 1.06 -0.94 0.38 0.51 1.43 1.19 0.94 -0.06 -0.37 0.25 -0.81 -1.10 -0.17 -0.28 -0.34 0.24 -0.95 -1.26 -0.66 -0.49 1.09 0.78 1.51 1.48 0.16 -0.23 -0.88 -1.23 -0.54 Cuadrados de las diferencias 0.0096 0.9178 0.3819 0.0718 0.3003 0.4122 0.3994 0.0077 0.1459 1.1707 1.1194 0.8874 0.1429 0.2581 2.0392 1.4113 0.8798 0.0038 0.1384 0.0615 0.6593 1.2144 0.0296 0.0795 0.1170 0.0566 0.9063 1.5926 0.4382 0.2421 1.1837 0.6053 2.2741 2.1845 0.0250 0.0538 0.7779 1.5178 0.2938 Media muestral 3.61
Cuadrados de las diferencias PH de la lluvia PH de la lluvia2 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 Cuadrados de las diferencias 0.0096 0.9178 0.3819 0.0718 0.3003 0.4122 0.3994 0.0077 0.1459 1.1707 1.1194 0.8874 0.1429 0.2581 2.0392 1.4113 0.8798 0.0038 0.1384 0.0615 0.6593 1.2144 0.0296 0.0795 0.1170 0.0566 0.9063 1.5926 0.4382 0.2421 1.1837 0.6053 2.2741 2.1845 0.0250 0.0538 0.7779 1.5178 0.2938 Suma de las diferencias al cuadrado 25.25 Número total de datos 40 Varianza 0.65 Media muestral 3.61
Acomodando los datos de menor a mayor PH de la lluvia 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12 Acomodando los datos de menor a mayor
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
Media muestral Mediana muestral 2.35 3.55 2.38 3.70 2.51 3.71 2.53 PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12 Media muestral Mediana muestral
Desviación típica Media muestral 2.35 3.55 2.38 3.70 2.51 3.71 2.53 PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12 Desviación típica Media muestral
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12 IRQ Mediana muestral
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
Uso de la Estadística para sintetizar conjuntos de datos 3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
Conjuntos de datos normales En la práctica, la mayoría de los conjuntos de datos grandes que uno encuentra tienen histogramas similares en cuanto a la forma.
Conjuntos de datos normales En la práctica, la mayoría de los conjuntos de datos grandes que uno encuentra tienen histogramas similares en cuanto a la forma. Por lo general, esos histogramas son simétricos con respecto al punto de máxima frecuencia y decrecen a ambos lados de ese máximo, siguiendo una forma acampanada.
Conjuntos de datos normales En la práctica, la mayoría de los conjuntos de datos grandes que uno encuentra tienen histogramas similares en cuanto a la forma. Por lo general, esos histogramas son simétricos con respecto al punto de máxima frecuencia y decrecen a ambos lados de ese máximo siguiendo una forma acampanada Tales conjuntos de datos se dice que son normales. Sus histogramas se denominan histogramas normales.
Conjuntos de datos normales Se dice que un conjunto de datos es normal si el histograma que lo describe tiene las propiedades siguientes: 1. La máxima altura se alcanza en el intervalo central. 2. Si nos movemos desde el intervalo central en cualquier dirección, la altura declina de tal modo que el histograma completo tiene una forma acampanada. 3. El histograma es simétrico con respecto al intervalo central.
Histograma de un conjunto de datos normal Calificación Número de alumnos 1 2 4 3 7 12 5 23 6 8 9 10 TOTAL 75
Regla empírica para determinar si un conjunto de datos es normal
Regla empírica para determinar si un conjunto de datos es normal
Regla empírica para determinar si un conjunto de datos es normal
Regla empírica para determinar si un conjunto de datos es normal
Alturas y pesos de 60 individuos Ejemplo Alturas y pesos de 60 individuos Índice Altura (m) Peso (kg) 1 1.67 51.3 16 1.81 63.6 31 1.77 46.9 46 1.74 58.5 2 1.82 62.0 17 1.69 58.8 32 54.8 47 1.70 66.1 3 1.76 69.5 18 64.9 33 1.72 57.1 48 53.0 4 1.73 64.6 19 62.6 34 1.79 61.8 49 65.2 5 65.5 20 1.71 56.3 35 50 1.75 61.3 6 56.0 21 64.1 36 51 1.78 66.7 7 64.2 22 37 64.4 52 57.4 8 23 1.61 44.4 38 55.0 53 57.0 9 51.0 24 39 59.6 54 52.5 10 25 40 1.63 48.4 55 1.66 56.1 11 57.9 26 58.9 41 56.5 56 67.1 12 51.8 27 1.80 64.7 42 56.7 57 70.8 13 28 59.7 43 63.4 58 58.1 14 55.6 29 49.2 44 62.4 59 54.2 15 52.7 30 51.7 45 1.68 48.3 60 60.8
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238
Alturas y pesos de los 60 individuos Altura (m) Peso (kg) Media 1.73 58.76 Varianza 0.002 34.511 Desviación típica 0.046 5.875
Intervalo de clase Cantidad 1.600 a 1.625 1 1.625 a 1.650 1.650 a 1.675 5 1.675 a 1.700 9 1.700 a 1.725 15 1.725 a 1.750 10 1.750 a 1.775 8 1.775 a 1.800 7 1.800 a 1.825 4
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238 Altura (m) Media 1.73 Desviación típica 0.046
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238 Altura (m) Media 1.73 Desviación típica 0.046
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238 Altura (m) Media 1.73 Desviación típica 0.046
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238 Altura (m) Media 1.73 Desviación típica 0.046
Las alturas de los 60 hombres siguen una distribución aproximadamente normal.